このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231010となっている論文です。

PDF登録状況(公開日: 20231010)

TitleAuthorsAbstract論文公表日・翻訳日
# 二重公開キー署名機能 OracleがEdDSAソフトウェア実装を攻撃

Double Public Key Signing Function Oracle Attack on EdDSA Software Implementations ( http://arxiv.org/abs/2308.15009v2 )

ライセンス: Link先を確認
Sam Grierson, Konstantinos Chalkias, William J Buchanan, Leandros Maglaras, (参考訳) EdDSAは、より確立されたECDSA標準で一般的な問題を克服するために導入された楕円曲線デジタル署名スキームである。 EdDSAの規格では、EDDSAの署名が決定論的であることを規定しているため、もし署名関数が攻撃者の公開鍵署名のオラクルとして使用されるならば、スキームのセキュリティに関する偽造不可能な概念を破ることができる。 本稿では,最もポピュラーなEDDSA実装に対する攻撃について述べる。 この復元されたシークレットキーにより、敵はEDDSA検証機能によって有効と見なされる任意のメッセージに署名することができる。 公開時点で脆弱なAPIを持つライブラリのリストが提供されている。 さらに,この脆弱性に対してEdDSA署名APIを確保するための2つの提案を行った。

EdDSA is a standardised elliptic curve digital signature scheme introduced to overcome some of the issues prevalent in the more established ECDSA standard. Due to the EdDSA standard specifying that the EdDSA signature be deterministic, if the signing function were to be used as a public key signing oracle for the attacker, the unforgeability notion of security of the scheme can be broken. This paper describes an attack against some of the most popular EdDSA implementations, which results in an adversary recovering the private key used during signing. With this recovered secret key, an adversary can sign arbitrary messages that would be seen as valid by the EdDSA verification function. A list of libraries with vulnerable APIs at the time of publication is provided. Furthermore, this paper provides two suggestions for securing EdDSA signing APIs against this vulnerability while it additionally discusses failed attempts to solve the issue.
翻訳日:2024-03-19 07:22:30 公開日:2023-10-10
# 分割ネットワークのためのスケーラブルなマルチドメイン信頼基盤

Scalable Multi-domain Trust Infrastructures for Segmented Networks ( http://arxiv.org/abs/2310.04898v2 )

ライセンス: Link先を確認
Sam Grierson, William J Buchanan, Craig Thomson, Baraq Ghaleb, Leandros Maglaras, Chris Eckl, (参考訳) 信頼基盤内では、プライベートキーを使用してトランザクションにデジタル署名することが多く、関連する公開キーで検証することができる。 PKI(Public Key Infrastructure)を使用して、信頼できるエンティティがデジタル署名を生成し、公開鍵の信頼性を検証する。 しかし、外部のエンティティが公開鍵の検証を信頼されていない場合や、独立した、あるいは自律的に動作するデバイスのコレクションにインターネット接続がない場合はどうなりますか? このため、信頼できるエンティティを選択してキーペアを生成し、プライベートキーを信頼されたデバイスに分割することができる。 各ノードは共有シークレットの分割を使用してトランザクションの一部に署名することができる。 集約された署名は、インフラストラクチャ内のコンセンサスに関する合意を定義することができる。 残念なことに、このプロセスには2つの重大な問題がある。 1つ目は、信頼できるノードが株式のディーラーとして振る舞うことができないことです。 2つ目は、デジタル署名スキームのスケーリングの難しさです。 本稿では、楕円曲線デジタル署名アルゴリズムのスケーリングにおける弱点を克服するために、信頼ドメインを定義するためのリーダーレスアプローチを作成する方法について概説する。 代わりに、複数の信頼ゾーンの定義にエドワーズ曲線デジタル署名アルゴリズムの使用を提案する。 本稿では,分散鍵生成フェーズの計算オーバーヘッドが信頼領域内のノード数とともに増加するが,分散署名の計算オーバーヘッドは比較的一定であることを示す。

Within a trust infrastructure, a private key is often used to digitally sign a transaction, which can be verified with an associated public key. Using PKI (Public Key Infrastructure), a trusted entity can produce a digital signature, verifying the authenticity of the public key. However, what happens when external entities are not trusted to verify the public key or in cases where there is no Internet connection within an isolated or autonomously acting collection of devices? For this, a trusted entity can be elected to generate a key pair and then split the private key amongst trusted devices. Each node can then sign part of the transaction using their split of the shared secret. The aggregated signature can then define agreement on a consensus within the infrastructure. Unfortunately, this process has two significant problems. The first is when no trusted node can act as a dealer of the shares. The second is the difficulty of scaling the digital signature scheme. This paper outlines a method of creating a leaderless approach to defining trust domains to overcome weaknesses in the scaling of the elliptic curve digital signature algorithm. Instead, it proposes the usage of the Edwards curve digital signature algorithm for the definition of multiple trust zones. The paper shows that the computational overhead of the distributed key generation phase increases with the number of nodes in the trust domain but that the distributed signing has a relatively constant computational overhead.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-10
# 参加者のユーティリティ機能を用いた差別化プライバシの比較

Using Participants' Utility Functions to Compare Versions of Differential Privacy ( http://arxiv.org/abs/2310.06258v1 )

ライセンス: Link先を確認
Nitin Kohli, Michael Carl Tschantz, (参考訳) 我々は、意思決定理論を用いて、予測研究参加者の視点から、差分プライバシーの変種を比較する。 我々は、参加者が得る可能性のある潜在的な結果の集合に基づいて、選好順序の存在を仮定し、個々のユーティリティ機能の分析を可能にする。 測定理論に基づいて、期待されるユーティリティの変化は古典的ユークリッド計量によって測定されるべきであると主張する。 次に、異なる決定条件の下で、どのプライバシー保証がより魅力的かという問題を考察する。 分析の結果、潜在的な参加者のユーティリティ機能の性質と、$\epsilon$と$\delta$の具体的な値が、どのプライバシー保証が望ましいかを大きく変えられることがわかった。

We use decision theory to compare variants of differential privacy from the perspective of prospective study participants. We posit the existence of a preference ordering on the set of potential consequences that study participants can incur, which enables the analysis of individual utility functions. Drawing upon the theory of measurement, we argue that changes in expected utilities should be measured via the classic Euclidean metric. We then consider the question of which privacy guarantees would be more appealing for individuals under different decision settings. Through our analysis, we found that the nature of the potential participant's utility function, along with the specific values of $\epsilon$ and $\delta$, can greatly alter which privacy guarantees are preferable.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-10
# NetShaper: 異なるプライベートなネットワークサイドチャネル緩和システム

NetShaper: A Differentially Private Network Side-Channel Mitigation System ( http://arxiv.org/abs/2310.06293v1 )

ライセンス: Link先を確認
Amir Sabzi, Rut Vora, Swati Goswami, Margo Seltzer, Mathias Lécuyer, Aastha Mehta, (参考訳) ネットワークプロトコルにおける暗号化の普及により、多くのインターネットアプリケーションの全体的なセキュリティが大幅に向上した。 しかし、これらのプロトコルはネットワーク側のチャネルリークを防げない -- ネットワークパケットのサイズとタイミングを通じて機密情報を漏洩させる。 本稿では,トラフィックシェーピングの原理に基づいて,そのようなリークを緩和するシステムであるNetShaperを提案する。 NetShaperのトラフィックシェーピングは、一般的なワークロードと混雑条件に適応しながら、異なるプライバシ保証を提供し、プライバシ保証、帯域幅、レイテンシオーバーヘッドのトレードオフを設定することができる。 さらにNetShaperは、多様なアプリケーションをサポートするモジュール式でポータブルなトンネルエンドポイント設計を提供する。 本稿では,NetShaperをミドルボックスベースで実装し,ビデオストリーミングとWebサービスアプリケーションへの適用性を実証する。

The widespread adoption of encryption in network protocols has significantly improved the overall security of many Internet applications. However, these protocols cannot prevent network side-channel leaks -- leaks of sensitive information through the sizes and timing of network packets. We present NetShaper, a system that mitigates such leaks based on the principle of traffic shaping. NetShaper's traffic shaping provides differential privacy guarantees while adapting to the prevailing workload and congestion condition, and allows configuring a tradeoff between privacy guarantees, bandwidth and latency overheads. Furthermore, NetShaper provides a modular and portable tunnel endpoint design that can support diverse applications. We present a middlebox-based implementation of NetShaper and demonstrate its applicability in a video streaming and a web service application.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-10
# ヒープトップ:多くのヒープオブジェクトに対する効率的なメモリエラー保護

Top of the Heap: Efficient Memory Error Protection for Many Heap Objects ( http://arxiv.org/abs/2310.06397v1 )

ライセンス: Link先を確認
Kaiming Huang, Mathias Payer, Zhiyun Qian, Jack Sampson, Gang Tan, Trent Jaeger, (参考訳) ヒープメモリエラーに対するエクスプロイトは、引き続き大きな懸念事項である。 多くの防衛策が提案されているが、ヒープデータはメモリエラーをシステム的に悪用する攻撃から保護されていない。 研究の防御はヒープオブジェクトの完全なカバレッジに重点を置いており、多くの場合、包括的なメモリ安全性の保護を諦めたり、パフォーマンスのオーバーヘッドやメモリ使用量に高いコストをかけたりしている。 本稿では、メモリエラーからアクセスが確実に安全であるヒープオブジェクトを保護し、メモリエラーから包括的に保護することを目的としたヒープメモリ安全性対策のソリューションを提案する。 具体的には、ヒープオブジェクトの空間的および型的メモリ安全性を静的に検証し、メモリ再利用に対する攻撃を防ぐために時間的型安全性を強制する安全なヒープ上で、準拠オブジェクトを分離するUriahシステムを提案する。 Uriahを使用することで、71.9%のヒープ割り当てサイトが、空間的および型安全性を満たすオブジェクト(アロケーションの73%が安全である)を生成し、Uriahのヒープアロケータを使用して、安全でないヒープオブジェクトを介してメモリアクセスから分離することができる。 Uriahは2.9%のオーバーヘッドしか発生せず、SPEC CPU2006(C/C++)ベンチマークでは9.3%以上のメモリしか使用していない。

Exploits against heap memory errors continue to be a major concern. Although many defenses have been proposed, heap data are not protected from attacks that exploit memory errors systematically. Research defenses focus on complete coverage of heap objects, often giving up on comprehensive memory safety protection and/or incurring high costs in performance overhead and memory usage. In this paper, we propose a solution for heap memory safety enforcement that aims to provide comprehensive protection from memory errors efficiently by protecting those heap objects whose accesses are provably safe from memory errors. Specifically, we present the Uriah system that statically validates spatial and type memory safety for heap objects, isolating compliant objects on a safe heap that enforces temporal type safety to prevent attacks on memory reuse. Using Uriah, 71.9% of heap allocation sites can be shown to produce objects (73% of allocations are found safe) that satisfy spatial and type safety, which are then isolated using Uriah's heap allocator from memory accesses via unsafe heap objects. Uriah only incurs 2.9% overhead and only uses 9.3% more memory on SPEC CPU2006 (C/C++) benchmarks, showing that many heap objects can be protected from all classes of memory errors efficiently.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-10
# DASICS:動的比較化によるメモリ保護の強化

DASICS: Enhancing Memory Protection with Dynamic Compartmentalization ( http://arxiv.org/abs/2310.06435v1 )

ライセンス: Link先を確認
Yue Jin, Yibin Xu, Chengyuan Yang, Han Wang, Tianyi Huang, Tianyue Lu, Mingyu Chen, (参考訳) 既存のソフトウェア開発エコシステムでは、サードパーティのコードによって導入されたセキュリティ問題は見過ごせない。 これらのセキュリティ上の懸念の中で、メモリアクセスの脆弱性は顕著に際立っており、盗難や機密データの改ざんなどのリスクにつながる。 この問題に対処するため、ソフトウェアベースの防御機構がプログラミング言語、コンパイラ、オペレーティングシステムレベルで確立されている。 しかし、トレードオフとして、これらのメカニズムはソフトウェアの実行効率を著しく低下させます。 ハードウェアとソフトウェアの共同設計アプローチは、完全に独立した信頼できる実行環境を構築するか、同じアドレス空間内でセキュリティドメインを分割しようと試みている。 このようなアプローチは純粋なソフトウェア手法と比較して効率を高めるが、保護の粒度、性能のオーバーヘッド、ポータビリティといった問題にも直面する。 これらの課題に対応するために、DASICS (Dynamic in-Address-Space isolation by Code Segments) のセキュアプロセッサ設計を紹介し、複数の特権レベルにわたる動的で柔軟なセキュリティ保護、データフロー保護、制御フロー保護、セキュアなシステムコールを提供する。 我々は,DASICSをベースとしたハードウェアFPGAプロトタイプとソフトウェアQEMUシミュレータのプロトタイプを実装し,適応性のためのシステムソフトウェアを改良した。 2つの実例でDASICSの保護機構と有効性を説明し、DASICSを適用可能な実世界のユースケースを提供する。

In the existing software development ecosystem, security issues introduced by third-party code cannot be overlooked. Among these security concerns, memory access vulnerabilities stand out prominently, leading to risks such as the theft or tampering of sensitive data. To address this issue, software-based defense mechanisms have been established at the programming language, compiler, and operating system levels. However, as a trade-off, these mechanisms significantly reduce software execution efficiency. Hardware-software co-design approaches have sought to either construct entirely isolated trusted execution environments or attempt to partition security domains within the same address space. While such approaches enhance efficiency compared to pure software methods, they also encounter challenges related to granularity of protection, performance overhead, and portability. In response to these challenges, we present the DASICS (Dynamic in-Address-Space Isolation by Code Segments) secure processor design, which offers dynamic and flexible security protection across multiple privilege levels, addressing data flow protection, control flow protection, and secure system calls. We have implemented hardware FPGA prototypes and software QEMU simulator prototypes based on DASICS, along with necessary modifications to system software for adaptability. We illustrate the protective mechanisms and effectiveness of DASICS with two practical examples and provide potential real-world use cases where DASICS could be applied.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-10
# Niederreiter暗号系に基づく小型公開鍵方式

A tiny public key scheme based on Niederreiter Cryptosystem ( http://arxiv.org/abs/2310.06724v1 )

ライセンス: Link先を確認
Arash Khalvan, Amirhossein Zali, Mahmoud Ahmadian Attari, (参考訳) 量子コンピュータに遭遇する公開鍵暗号システムの弱点により、ソリューションを提供する必要性が浮上した。 McEliece暗号系とそのセキュリティの同等であるNiederreiter暗号系は、Goppa符号をベースとしているが、鍵長が長いため実用的ではない。 コードベースの暗号システムにおける公開鍵の長さを減らそうとする以前の試みは、Goppaコードファミリを他のコードファミリに置き換えることであった。 しかし、これらの努力は最終的に不安定であることが判明した。 2016年、ナショナル・インスティチュート・オブ・スタンダード・アンド・テクノロジー(NIST)は、この問題を解決するためのポスト量子暗号(PQC)スキームを標準化するための世界中の提案を要求した。 この分野で様々な提案を受けた後、Classic McEliece暗号システムとHamming Quasi-Cyclic (HQC) とBit Flipping Key Encapsulation (BIKE) がコードベースの暗号カテゴリ暗号システムとして選ばれ、最終段階に進んだ。 本稿では,単純かつ実装可能なコードベースの公開鍵暗号方式を提案する。 提案方式は、NISTファイナリスト暗号システムよりもはるかに短い公開鍵長を持つ。 McEliece暗号系の主要パラメータ(n=1024, k=524, t=50)の鍵長は18ビットから500ビットである。 このシステムのセキュリティは、少なくともNiederreiter暗号システムのセキュリティと同じくらい強い。 提案した構造は,Niederreiter暗号系に基づいており,既存のシステムにおいて実装に適した候補となる,非常に有利な特性の集合を示す。

Due to the weakness of public key cryptosystems encounter of quantum computers, the need to provide a solution was emerged. The McEliece cryptosystem and its security equivalent, the Niederreiter cryptosystem, which are based on Goppa codes, are one of the solutions, but they are not practical due to their long key length. Several prior attempts to decrease the length of the public key in code-based cryptosystems involved substituting the Goppa code family with other code families. However, these efforts ultimately proved to be insecure. In 2016, the National Institute of Standards and Technology (NIST) called for proposals from around the world to standardize post-quantum cryptography (PQC) schemes to solve this issue. After receiving of various proposals in this field, the Classic McEliece cryptosystem, as well as the Hamming Quasi-Cyclic (HQC) and Bit Flipping Key Encapsulation (BIKE), chosen as code-based encryption category cryptosystems that successfully progressed to the final stage. This article proposes a method for developing a code-based public key cryptography scheme that is both simple and implementable. The proposed scheme has a much shorter public key length compared to the NIST finalist cryptosystems. The key length for the primary parameters of the McEliece cryptosystem (n=1024, k=524, t=50) ranges from 18 to 500 bits. The security of this system is at least as strong as the security of the Niederreiter cryptosystem. The proposed structure is based on the Niederreiter cryptosystem which exhibits a set of highly advantageous properties that make it a suitable candidate for implementation in all extant systems.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-10
# 水平探査:Rowhammerの総合的な調査

Exploring the Horizon: A Comprehensive Survey of Rowhammer ( http://arxiv.org/abs/2310.06950v1 )

ライセンス: Link先を確認
Amir Naseredini, (参考訳) Rowhammerは、動的ランダムアクセスメモリ(DRAM)に特に影響を及ぼす、現代のコンピュータにとって重大なセキュリティ上の課題である。 社会のコンピュータシステムへの依存度が高まる中、ハードウェアの信頼性が最重要視されている。 本稿では,Rowhammerについて,様々な角度から検討した総合的な調査を行う。 我々はRowhammerについて、攻撃、防衛、興味をそそる作業に分類し、各カテゴリを詳細に調査する。 さらに、各カテゴリ内の論文を別々に重複するクラスに分類し、各クラスにおける論文の概要を示す。

Rowhammer poses a significant security challenge for modern computers, specifically affecting Dynamic Random Access Memory(DRAM). Given society's growing reliance on computer systems, ensuring the reliability of hardware is of utmost importance. This paper provides a comprehensive survey of Rowhammer, examining the literature from various angles. We categorise studies on Rowhammer into attacks, defences, and intriguing work, exploring each category in detail. Furthermore, we classify papers within each category into distinct yet overlapping classes and present an overview of the papers in each class.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-10
# 暗黒のモンスター:拡散モデルで隠れた脅威を消毒する

Monsters in the Dark: Sanitizing Hidden Threats with Diffusion Models ( http://arxiv.org/abs/2310.06951v1 )

ライセンス: Link先を確認
Preston K. Robinette, Daniel Moyer, Taylor T. Johnson, (参考訳) ステガノグラフィー(英: Steganography)は、平凡な視界に情報を隠蔽する技法である。 このタイプの隠蔽通信は、悪役によってマルウェアを伝播し、被害者データを流出させ、他の悪役と通信するために使用することができる。 現在の画像ステガノグラフィーの防御はステガナリシスや隠されたメッセージの検出に依存している。 しかし、これらの手法は、既知のステガノグラフィー技術に関する情報を必要としており、容易にバイパスできるため、盲目ではない。 最近の研究は、画像から隠された情報を除去する「衛生化」と呼ばれる防衛機構に焦点を当てている。 本研究では、拡散モデルフレームワークを用いて、画像品質を衛生・保存する普遍的・依存的ステガノグラフィー(DM-SUDS)を衛生化する新しいブラインドラーニング・ステガノグラフィー・サニタイズ手法を提案する。 我々は、最先端のディープラーニング衛生化フレームワークに対するこのアプローチを評価し、アブレーション研究を通じてさらに詳細な分析を行う。 DM-SUDSは以前の衛生方法より優れており、画像保存MSEは71.32%、PSNRは22.43%、SSIMは17.30%改善している。 これは、これらの画像品質結果を満たす最初の盲目的ディープラーニング画像衛生化フレームワークである。

Steganography is the art of hiding information in plain sight. This form of covert communication can be used by bad actors to propagate malware, exfiltrate victim data, and communicate with other bad actors. Current image steganography defenses rely upon steganalysis, or the detection of hidden messages. These methods, however, are non-blind as they require information about known steganography techniques and are easily bypassed. Recent work has instead focused on a defense mechanism known as sanitization, which eliminates hidden information from images. In this work, we introduce a novel blind deep learning steganography sanitization method that utilizes a diffusion model framework to sanitize universal and dependent steganography (DM-SUDS), which both sanitizes and preserves image quality. We evaluate this approach against state-of-the-art deep learning sanitization frameworks and provide further detailed analysis through an ablation study. DM-SUDS outperforms previous sanitization methods and improves image preservation MSE by 71.32%, PSNR by 22.43% and SSIM by 17.30%. This is the first blind deep learning image sanitization framework to meet these image quality results.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-10
# TDPP:メムリシブディープニューラルネットワークの2次元置換に基づく保護

TDPP: Two-Dimensional Permutation-Based Protection of Memristive Deep Neural Networks ( http://arxiv.org/abs/2310.06989v1 )

ライセンス: Link先を確認
Minhui Zou, Zhenhua Zhu, Tzofnat Greenberg-Toledo, Orian Leitersdorf, Jiang Li, Junlong Zhou, Yu Wang, Nan Du, Shahar Kvatinsky, (参考訳) ディープニューラルネットワーク(DNN)アルゴリズムの実行は、従来のコンピュータシステムにおける処理ユニットとメモリユニットの分離による重大なボトルネックに悩まされている。 新興メムリシブコンピューティングシステムは、このボトルネックを克服するin situアプローチを導入している。 しかし、メムリシティブデバイスの不揮発性は、メムリシティブクロスバーに保存されたDNN重量を盗難攻撃の可能性に晒す可能性がある。 そこで本研究では,このような攻撃を阻止する2次元置換型保護法を提案する。 まず、DNN重み行列の行と列を置換するTDPP法を動機づける基礎概念を紹介する。 これは従来の方法とは対照的であり、重み行列の1次元を行または列のどちらかに置換することにのみ焦点をあてていた。 敵が行列値にアクセスすることは可能だが、行列内の行と列の元々の配列は隠されている。 その結果、アクセスされた行列値から抽出されたDNNモデルは正しく動作しなかった。 本稿では,2つの異なる計算システム(層間および層間並列処理用に設計された)について検討し,その2つのシステムに組み込むことができるTDPP法の設計を実証する。 最後に,セキュリティ分析について述べる。 実験により,TDPPはパラメータ化を適切に行うと高いセキュリティで,従来の手法に匹敵する有効性を達成できることが実証された。 さらに、TDPPは従来の方法よりもスケーラブルであり、結果として面積と電力のオーバーヘッドが減少する。 面積と電力は、それぞれ1218$\times$と2815$\times$と178$\times$と203$\times$によって削減される。

The execution of deep neural network (DNN) algorithms suffers from significant bottlenecks due to the separation of the processing and memory units in traditional computer systems. Emerging memristive computing systems introduce an in situ approach that overcomes this bottleneck. The non-volatility of memristive devices, however, may expose the DNN weights stored in memristive crossbars to potential theft attacks. Therefore, this paper proposes a two-dimensional permutation-based protection (TDPP) method that thwarts such attacks. We first introduce the underlying concept that motivates the TDPP method: permuting both the rows and columns of the DNN weight matrices. This contrasts with previous methods, which focused solely on permuting a single dimension of the weight matrices, either the rows or columns. While it's possible for an adversary to access the matrix values, the original arrangement of rows and columns in the matrices remains concealed. As a result, the extracted DNN model from the accessed matrix values would fail to operate correctly. We consider two different memristive computing systems (designed for layer-by-layer and layer-parallel processing, respectively) and demonstrate the design of the TDPP method that could be embedded into the two systems. Finally, we present a security analysis. Our experiments demonstrate that TDPP can achieve comparable effectiveness to prior approaches, with a high level of security when appropriately parameterized. In addition, TDPP is more scalable than previous methods and results in reduced area and power overheads. The area and power are reduced by, respectively, 1218$\times$ and 2815$\times$ for the layer-by-layer system and by 178$\times$ and 203$\times$ for the layer-parallel system compared to prior works.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-10
# 暗号化QUICトランスポートプロトコルのアプリケーション層特性とトラフィック解析

Application-layer Characterization and Traffic Analysis for Encrypted QUIC Transport Protocol ( http://arxiv.org/abs/2310.10676v1 )

ライセンス: Link先を確認
Qianqian Zhang, Chi-Jiun Su, (参考訳) Quick UDP Internet Connection (QUIC)は、エンド・ツー・エンドの暗号化されたトランスポート層プロトコルである。 しかし、QUICパケットヘッダの限られた情報とペイロードの完全な暗号化を考えると、この傾向はトラフィック分析をより困難にしている。 この課題に対処するために、QUICパケットを復号することなくアプリケーションレベルのトラフィック属性を推定する新しいルールベースのアプローチを提案する。 提案アルゴリズムは,そのサイズ,タイミング,方向情報に基づいて,関連するネットワークトラフィックを分析し,各HTTP要求と応答ペアの同一性を推定し,QUIC接続内の多重化機能を推定する。 推論されたHTTP属性は、アプリケーション層サービスのQoEを評価し、暗号化QUIC接続内のトラフィック分類のためのサービスカテゴリを特定するために使用することができる。

Quick UDP Internet Connection (QUIC) is an emerging end-to-end encrypted, transport-layer protocol, which has been increasingly adopted by popular web services to improve communication security and quality of experience (QoE) towards end-users. However, this tendency makes the traffic analysis more challenging, given the limited information in the QUIC packet header and full encryption on the payload. To address this challenge, a novel rule-based approach is proposed to estimate the application-level traffic attributes without decrypting QUIC packets. Based on the size, timing, and direction information, our proposed algorithm analyzes the associated network traffic to infer the identity of each HTTP request and response pair, as well as the multiplexing feature in each QUIC connection. The inferred HTTP attributes can be used to evaluate the QoE of application-layer services and identify the service categories for traffic classification in the encrypted QUIC connections.
翻訳日:2024-03-19 02:13:39 公開日:2023-10-10
# 記述型エージェントを用いた小学校学生の移動問題に対する認知エージェント・コンピューティング・モデル

A Cognitive Agent Computing-Based Model For The Primary School Student Migration Problem Using A Descriptive Agent-Based Approach ( http://arxiv.org/abs/2311.06272v1 )

ライセンス: Link先を確認
Muhammad Tausif(参考訳) 公立学校の学校性能の欠如により公立学校から私立学校への学生の移住は、パンジャーブ政府が強制的かつ質の高い教育を低コストで提供するために直面する主要な問題の1つである。 教育システムの複雑な適応性,社会との相互依存性から,従来の線形回帰法では,実効性を評価するには非効率で費用がかかる。 線形回帰手法は、教育パラダイムの複雑な動的性質を理解するのに十分ではないシステムの静的な視点を示す。 本研究は,学生移動の要因-効果関係を理解するために,記述エージェントに基づくモデル手法を用いて,学生移動問題に対する認知エージェント計算に基づくモデルを提案する。 説明的モデリングアプローチと探索的モデリングを用いて,小学生の移動モデルを提示した。 シミュレーションとモデリングのソフトウェア工学の文脈で、学校システムの複雑な適応的性質を探求する我々の研究は、2つの折りたたみがある。 まず,認知記述エージェントに基づくモデルを用いて,学生の移動の要因-影響関係について検討する。 次に,認知エージェントベースの計算フレームワークの形式化範囲を,探索的モデリングプロトコル「オーバービュー,設計,詳細」との比較分析により解析する。

Students' migration from public to private schools, due to lack of school performance of public schools, is one of the major issues faced by the Government of Punjab to provide compulsory and quality education at low cost. Due to complex adaptive nature of educational system, interdependencies with society, constant feedback loops conventional linear regression methods, for evaluation of effective performance, are ineffective or costly to solve the issue. Linear regression techniques present the static view of the system, which are not enough to understand the complex dynamic nature of educational paradigm. We have presented a Cognitive Agent Computing-Based Model for the School Student Migration Problem Using a Descriptive Agent-Based Modeling approach to understand the causes-effects relationship of student migration. We have presented the primary school students' migration model using descriptive modeling approach along with exploratory modeling. Our research, in the context of Software Engineering of Simulation & Modeling, and exploring the Complex Adaptive nature of school system, is two folds. Firstly, the cause-effect relationship of students' migration is being investigated using Cognitive Descriptive Agent-Based Modeling. Secondly, the formalization extent of Cognitive Agent-Based Computing framework is analyzed by performing its comparative analysis with exploratory modeling protocol 'Overview, Design, and Detail'.
翻訳日:2024-01-15 16:22:38 公開日:2023-10-10
# 相対的内在的次元性は学習に固有のものである

Relative intrinsic dimensionality is intrinsic to learning ( http://arxiv.org/abs/2311.07579v1 )

ライセンス: Link先を確認
Oliver J. Sutton, Qinghua Zhou, Alexander N. Gorban and Ivan Y. Tyukin(参考訳) 高次元のデータには驚くべき性質がある: データポイントのペアは、単純な線形分類器を使って、容易に互いに分離したり、あるいは任意の部分集合から分離したりできる。 しかし、これは高次元性だけでは学習を成功させる必要も十分ではないので、信頼できる性質よりも親指の規則である。 本稿では,データの分離性を正確に捉えたデータ分布の固有次元の新たな概念を提案する。 この内在次元に対して、上述のサムの法則は法則となる: 高内在次元は高度に分離可能なデータを保証する。 我々はこの概念を2つのデータ分布の相対的内在次元に拡張し、二項分類問題における学習および一般化の確率について上下境界を与える。

High dimensional data can have a surprising property: pairs of data points may be easily separated from each other, or even from arbitrary subsets, with high probability using just simple linear classifiers. However, this is more of a rule of thumb than a reliable property as high dimensionality alone is neither necessary nor sufficient for successful learning. Here, we introduce a new notion of the intrinsic dimension of a data distribution, which precisely captures the separability properties of the data. For this intrinsic dimension, the rule of thumb above becomes a law: high intrinsic dimension guarantees highly separable data. We extend this notion to that of the relative intrinsic dimension of two data distributions, which we show provides both upper and lower bounds on the probability of successfully learning and generalising in a binary classification problem
翻訳日:2024-01-15 16:07:33 公開日:2023-10-10
# AIは人間の知覚バイアスを軽減することができるか? パイロット研究

Can AI Mitigate Human Perceptual Biases? A Pilot Study ( http://arxiv.org/abs/2311.00706v1 )

ライセンス: Link先を確認
Ross Geuy and Nate Rising and Tiancheng Shi, Meng Ling, Jian Chen(参考訳) 実験では,機械の推薦が人間の知覚バイアスを損なうかどうかを計測する実験を行った。 本研究では,線グラフ中のデータ点のアンサンブル平均を推定するために,線の平均位置を過小評価する「プルダウン」効果について検討した。 これらの線図は、例えば12ヶ月で温度や降水を示すことができる。 参加者6人は、AIアシスタントの有無にかかわらずアンサンブル平均を推定した。 アシスタントは、利用可能な場合は3つの異なる速度で反応し、人間の協力者の条件を組み立てる。 我々のパイロット研究によると、参加者はAIアシストのないベースラインに比べて、アンサンブルタスクにおけるAIアシストが速いことがわかった。 プルダウンバイアスは低減されたが,AI支援の効果は統計的に有意ではなかった。 また、AI応答の遅延は人間の判断精度に大きな影響を与えなかった。 これらの予備結果がその後の研究に与える影響について論じる。

We present results from a pilot experiment to measure if machine recommendations can debias human perceptual biases in visualization tasks. We specifically studied the ``pull-down'' effect, i.e., people underestimate the average position of lines, for the task of estimating the ensemble average of data points in line charts. These line charts can show for example temperature or precipitation in 12 months. Six participants estimated ensemble averages with or without an AI assistant. The assistant, when available, responded at three different speeds to assemble the conditions of a human collaborator who may delay his or her responses. Our pilot study showed that participants were faster with AI assistance in ensemble tasks, compared to the baseline without AI assistance. Although ``pull-down'' biases were reduced, the effect of AI assistance was not statistically significant. Also, delaying AI responses had no significant impact on human decision accuracy. We discuss the implications of these preliminary results for subsequent studies.
翻訳日:2023-11-05 13:29:29 公開日:2023-10-10
# グラフ実行のための命令型ディープラーニングプログラムの安全なリファクタリングに向けて

Towards Safe Automated Refactoring of Imperative Deep Learning Programs to Graph Execution ( http://arxiv.org/abs/2308.11785v2 )

ライセンス: Link先を確認
Raffi Khatchadourian, Tatiana Castro V\'elez, Mehdi Bagherzadeh, Nan Jia, Anita Raja(参考訳) 効率性は、特にディープラーニング(DL)システムにおいて、継続的に成長するデータセットに対する応答性をサポートするために不可欠である。 DLフレームワークは伝統的に遅延実行スタイルのDLコードを採用しており、シンボリックなグラフベースのDeep Neural Network(DNN)計算をサポートしている。 スケーラブルだが、そのような開発はエラーを起こしやすい、直感的でない、デバッグが難しいコードを生成する傾向がある。 その結果、実行時のパフォーマンスを犠牲にして、より自然でよりエラーが発生しやすいdlフレームワークが生まれました。 ハイブリッドアプローチは"両方の世界のベスト"を目標としているが、それらを効果的に使用するには、コードを安全で正確で効率的なグラフ実行に適応させるために、微妙な考慮が必要である。 提案手法では,実行時のグラフをセマンティクス保存形式で確実に効率的に実行可能であるかどうかを開発者が特定するのに役立つ自動リファクタリング手法を提案する。 このアプローチは、命令型DLコードに特化した新しいテンソル分析に基づいて、命令型DLコードが安全かつ潜在的に有利なタイミングでグラフ実行に移行し、デコレータパラメータを変更したり、すでにグラフとして実行されているコードを自動的に実行するためのリファクタリング条件で構成されている。 このアプローチは、PyDev Eclipse IDEプラグインとして実装され、WALA Ariadne分析フレームワークを使用している。 命令型DLコードをその潜在能力を最大限に最適化する作業について検討する。

Efficiency is essential to support responsiveness w.r.t. ever-growing datasets, especially for Deep Learning (DL) systems. DL frameworks have traditionally embraced deferred execution-style DL code -- supporting symbolic, graph-based Deep Neural Network (DNN) computation. While scalable, such development tends to produce code that is error-prone, non-intuitive, and difficult to debug. Consequently, more natural, less error-prone imperative DL frameworks encouraging eager execution have emerged at the expense of run-time performance. Though hybrid approaches aim for the "best of both worlds," using them effectively requires subtle considerations to make code amenable to safe, accurate, and efficient graph execution -- avoiding performance bottlenecks and semantically inequivalent results. We present our ongoing work on an automated refactoring approach that assists developers in specifying whether and how their otherwise eagerly-executed imperative DL code could be reliably and efficiently executed as graphs at run-time in a semantics-preserving fashion. The approach, based on a novel tensor analysis specifically for imperative DL code, consists of refactoring preconditions for automatically determining when it is safe and potentially advantageous to migrate imperative DL code to graph execution and modifying decorator parameters or eagerly executing code already running as graphs. The approach is being implemented as a PyDev Eclipse IDE plug-in and uses the WALA Ariadne analysis framework. We discuss our ongoing work towards optimizing imperative DL code to its full potential.
翻訳日:2023-10-23 13:19:26 公開日:2023-10-10
# 設計モデルとコード間の双方向トレーサビリティ問題に対するChatGPTアプローチの探索

Exploring the ChatGPT Approach for Bidirectional Traceability Problem between Design Models and Code ( http://arxiv.org/abs/2309.14992v2 )

ライセンス: Link先を確認
Hideyuki Kanuka, Genta Koreki, Ryo Soga, Kazu Nishikawa(参考訳) 本稿では,大規模言語モデル,特にOpenAIのChatGPTのソフトウェアモデリングに関わる課題に対処する能力について検討し,設計モデルとコード間の双方向トレーサビリティ問題に着目する。 本研究の目的は,ChatGPTが設計モデルやコードに特定の要求を理解し,統合する能力を示すことである。 双方向トレーサビリティ問題に対するソリューションを提供する可能性についても,ケーススタディを通じて検討する。 この結果から,ChatGPTは自然言語要求から設計モデルとコードを生成することができ,これらの要件とソフトウェアモデリングのギャップを埋めることができることがわかった。 ChatGPT自体を使って問題を解決する特定の方法を提案するという制限があったが、設計モデルとコードの間に一貫性のある修正を提供する能力を示した。 その結果,ChatGPTを用いた設計モデルとコード間の双方向トレーサビリティの実現が可能であることがわかった。

This study explores the capabilities of Large Language Models, particularly OpenAI's ChatGPT, in addressing the challenges associated with software modeling, explicitly focusing on the bidirectional traceability problem between design models and code. The objective of this study is to demonstrate the proficiency of ChatGPT in understanding and integrating specific requirements into design models and code. We also explore its potential to offer solutions to the bidirectional traceability problem through a case study. The findings indicate that ChatGPT is capable of generating design models and code from natural language requirements, thereby bridging the gap between these requirements and software modeling. Despite its limitations in suggesting a specific method to resolve the problem using ChatGPT itself, it exhibited the capacity to provide corrections to be consistent between design models and code. As a result, the study concludes that achieving bidirectional traceability between design models and code is feasible using ChatGPT.
翻訳日:2023-10-23 06:17:29 公開日:2023-10-10
# データフローモニタリングと制御戦略のための適応型IoTルールエンジンフレームワーク

An Adaptable IoT Rule Engine Framework for Dataflow Monitoring and Control Strategies ( http://arxiv.org/abs/2310.05493v2 )

ライセンス: Link先を確認
Ken Chen(参考訳) IoT(Internet of Things)システム内の多数のデバイスによって生成されたデータの監視は、重要かつ複雑な問題である。 いくつかの研究は、主にRETEアルゴリズムに基づいて、デバイスデータのフローを監視する汎用ルールエンジンの使用について調査している。 IoTシナリオにおけるRETEアルゴリズムの性能問題を解決するために、改善されたRETEアルゴリズムも提案されている。 しかし、一般的なルールエンジンの変更を実装することは実用上の課題である。 Thingsboardオープンソースプラットフォームでは、RETEアルゴリズムに依存しないIoT固有のルールエンジンが導入されている。 インタラクティブモードは開発者や研究者の注目を集めた。 しかし、ルールモジュールとプラットフォーム間の密接な統合と、複数のデバイスでルールを定式化することの難しさは、柔軟性を制限している。 本稿では,IoTデバイスデータフローの監視と制御を行うための,適応的でユーザフレンドリなルールエンジンフレームワークを提案する。 このフレームワークは容易に拡張可能であり、複数のデバイスを含むルールを定式化することができる。 ルール記述のためのドメイン特化言語(DSL)を設計しました。 この枠組みの試作システムは理論的手法の有効性を検証するために実装された。 このフレームワークは、幅広いIoTシナリオに適用可能な可能性があり、特にリアルタイム制御要求が厳格でない場合に有効である。

The monitoring of data generated by a large number of devices in Internet of Things (IoT) systems is an important and complex issue. Several studies have explored the use of generic rule engine, primarily based on the RETE algorithm, for monitoring the flow of device data. In order to solve the performance problem of the RETE algorithm in IoT scenarios, some studies have also proposed improved RETE algorithms. However, implementing modifications to the general rule engine remains challenges in practical applications. The Thingsboard open-source platform introduces an IoT-specific rule engine that does not rely on the RETE algorithm. Its interactive mode attracted attention from developers and researchers. However, the close integration between its rule module and the platform, as well as the difficulty in formulating rules for multiple devices, limits its flexibility. This paper presents an adaptable and user-friendly rule engine framework for monitoring and control IoT device data flows. The framework is easily extensible and allows for the formulation of rules contain multiple devices. We designed a Domain-Specific Language (DSL) for rule description. A prototype system of this framework was implemented to verify the validity of theoretical method. The framework has potential to be adaptable to a wide range of IoT scenarios and is especially effective in where real-time control demands are not as strict.
翻訳日:2023-10-23 04:16:18 公開日:2023-10-10
# アジャイルのスケーリングアプローチは違いをもたらすか? 一般的なスケーリングアプローチにおけるチームの効率性に関する実証的比較

Do Agile Scaling Approaches Make A Difference? An Empirical Comparison of Team Effectiveness Across Popular Scaling Approaches ( http://arxiv.org/abs/2310.06599v1 )

ライセンス: Link先を確認
Christiaan Verwijs, Daniel Russo(参考訳) アジャイル方法論の時代では、組織はチーム間の開発をスケールするための戦略を模索しています。 セーフ”から“レス”まで,さまざまなスケーリング戦略が登場している。 これらのアプローチによる組織的課題に関する多くの研究にもかかわらず、アジャイルチームの有効性に対する彼らの影響を経験的に比較することはない。 この研究は、異なるスケーリング手法を用いてアジャイルチームの有効性を評価し、応答性、ステークホルダーの満足度、マネジメントのアプローチといった要素に注目します。 我々は15,078人のアジャイルチームメンバーと1,841人のステークホルダを調査した。 その結果,スケーリング戦略における効果の差は小さかった。 本質的には、スケーリング戦略の選択はチームの有効性に大きく影響せず、組織は彼らの文化とマネジメントスタイルに基づいて選択すべきです。

In the era of Agile methodologies, organizations are exploring strategies to scale development across teams. Various scaling strategies have emerged, from "SAFe" to "LeSS", with some organizations creating their own methods. Despite numerous studies on organizational challenges with these approaches, none have empirically compared their impact on Agile team effectiveness. This study aims to evaluate the effectiveness of Agile teams using different scaling methods, focusing on factors like responsiveness, stakeholder satisfaction, and management approach. We surveyed 15,078 Agile team members and 1,841 stakeholders, followed by statistical analyses. The results showed minor differences in effectiveness across scaling strategies. In essence, the choice of scaling strategy does not significantly impact team effectiveness, and organizations should select based on their culture and management style.
翻訳日:2023-10-23 03:44:43 公開日:2023-10-10
# 大規模言語モデルによる非コンパイルCコードの書き換え

Refining Decompiled C Code with Large Language Models ( http://arxiv.org/abs/2310.06530v1 )

ライセンス: Link先を確認
Wai Kin Wong, Huaijin Wang, Zongjie Li, Zhibo Liu, Shuai Wang, Qiyi Tang, Sen Nie, Shi Wu(参考訳) cの逆コンパイラは実行ファイルをソースコードに変換する。 再コンパイルされたcのソースコードは、元の実行ファイルと同じ機能を持つ実行ファイルを生成することが期待されている。 20年以上の開発を経て、cデコンパイラはリバースエンジニアリングアプリケーションをサポートするためにプロダクションで広く使われている。 Cデコンパイラの発達にもかかわらず、デコンパイラの出力は主に人間の消費に使われており、自動再コンパイルには適していないことが広く認識されている。 多くの場合、再コンパイルされ適切に実行される前に逆コンパイラ出力を修正するためにかなりの手作業が必要となる。 本論文は, 自然言語の高密度コーパスの理解において, 大規模言語モデル (LLM) が最近成功したことによる。 逆コンパイラ出力の修正における退屈でコストがかかり、しばしばエラーが発生しやすい手作業を軽減するため、再コンパイル可能な逆コンパイラ出力をLLMで拡張する可能性を検討する。 より高い可読性(例えば、型/変数の名前の復元)でデコンパイラの出力を増やすことに注力する以前の取り組みとは違って、再コンパイル性のあるデコンパイラの出力を増やすことに重点を置いている。 我々は、事実上の商用CデコンパイラであるIDA-Proの出力を再コンパイルする際の障害を特徴づけるパイロット研究を行う。 次に、LLMを用いてデコンパイラ出力を増大させる2段階のハイブリッド手法を提案する。 我々は、人気のあるcテストケースのセットに対するアプローチを評価し、我々のアプローチが中程度の労力で高い再コンパイル成功率を75%以上達成できることを示す一方で、ida-proのオリジナルの出力は再コンパイルできないことを示した。 我々は,我々のアプローチの限界と将来的な研究の方向性について論じる。

A C decompiler converts an executable into source code. The recovered C source code, once re-compiled, is expected to produce an executable with the same functionality as the original executable. With over twenty years of development, C decompilers have been widely used in production to support reverse engineering applications. Despite the prosperous development of C decompilers, it is widely acknowledged that decompiler outputs are mainly used for human consumption, and are not suitable for automatic recompilation. Often, a substantial amount of manual effort is required to fix the decompiler outputs before they can be recompiled and executed properly. This paper is motived by the recent success of large language models (LLMs) in comprehending dense corpus of natural language. To alleviate the tedious, costly and often error-prone manual effort in fixing decompiler outputs, we investigate the feasibility of using LLMs to augment decompiler outputs, thus delivering recompilable decompilation. Note that different from previous efforts that focus on augmenting decompiler outputs with higher readability (e.g., recovering type/variable names), we focus on augmenting decompiler outputs with recompilability, meaning to generate code that can be recompiled into an executable with the same functionality as the original executable. We conduct a pilot study to characterize the obstacles in recompiling the outputs of the de facto commercial C decompiler -- IDA-Pro. We then propose a two-step, hybrid approach to augmenting decompiler outputs with LLMs. We evaluate our approach on a set of popular C test cases, and show that our approach can deliver a high recompilation success rate to over 75% with moderate effort, whereas none of the IDA-Pro's original outputs can be recompiled. We conclude with a discussion on the limitations of our approach and promising future research directions.
翻訳日:2023-10-23 03:44:32 公開日:2023-10-10
# テストケースプロファイルとリポジトリでエネルギシステムテストケース発見を可能にする

Energy Systems Test Case Discovery Enabled by Test Case Profile and Repository ( http://arxiv.org/abs/2310.06451v1 )

ライセンス: Link先を確認
Petra Raussi, Jirapa Kamsamrong, Alexandros Paspatis, Kai Heussen, Tesfaye Amare Zerihun, Edmund Widl, Filip Pr\"ostl Andr\'en, Jawad H Kazmi, Thomas I. Strasser, Felipe Castro, Luigi Pellegrino(参考訳) スマートエネルギーシステムは、電力、熱、制御、情報、通信技術といった複数の領域から構成されており、研究と開発研究の複雑さを増大させている。 この拡張はまた、地理的に分散したマルチリサーチインフラストラクチャテストの需要を駆動する、より大きく、より複雑な実験環境を必要とする。 Holistic Test Descriptionアプローチは、テストケースを包括的なセグメントに整理し、テストに関連するすべての項目を確実にカバーすることで、マルチドメインおよびマルチリサーチインフラストラクチャテストの設計をサポートする。 これらのテストケースは最終的にプールを形成し、全体を理解するにはすべての記述を勉強し、読む必要がある。 この研究は、テストケース発見とそれらの構造的生成を改善するためのテストケースプロファイルの概念を提案する。 テストケースプロファイルは、テストケースリポジトリのインデクシングにさらに構造を追加する。 提案手法とともに,提案概念のさらなる応用を動機付けるために,4つの異なるユースケースが導入された。

Smart energy systems comprise multiple domains like power, thermal, control, information, and communication technology, which increases the complexity of research and development studies. This expansion also requires larger and ever so complex experimental pilot environments driving the demand for geographically distributed multi-research infrastructure tests. The Holistic Test Description approach supports the design of multi-domain and multi-research infrastructure tests by organizing the test cases into comprehensive segments, ensuring all relevant items for testing are covered. These test cases eventually form a pool, which to understand holistically would require studying and reading all the descriptions. This work proposes therefore the concept of Test Case Profiles to improve test case discovery and the structured creation of them. Test Case Profiles add further structure to the indexing in test case repositories. Along with the proposed indexing method, four different use cases are introduced to motivate additional applications of the proposed concept.
翻訳日:2023-10-23 03:44:02 公開日:2023-10-10
# バグレポートに基づくテストケースの自動生成:大規模言語モデルによる実現可能性の検討

Automatic Generation of Test Cases based on Bug Reports: a Feasibility Study with Large Language Models ( http://arxiv.org/abs/2310.06320v1 )

ライセンス: Link先を確認
Laura Plein, Wendk\^uuni C. Ou\'edraogo, Jacques Klein, Tegawend\'e F. Bissyand\'e(参考訳) ソフトウェアテストはソフトウェア工学における中核的な分野であり、特に自動テスト生成の分野では、多くの研究結果が生み出されている。 既存の手法は、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成するため、ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存している。 ただし、このようなテストスイートは未完成で、プロジェクトの部分のみをカバーするか、バグが修正された後に生成される。 しかし、自動プログラム修復や実践的プロセスといったいくつかの研究課題は、利用可能なテストスイートが十分であるという仮定に基づいている。 したがって、自動テストケース生成における既存の障壁を破る必要がある。 従来はランダムな単体テストの入力に主眼を置いていたが,複雑なユーザ実行シナリオを現実的に表現するテストケースの生成を検討することを提案する。 このようなシナリオは、バグレポートに非公式に記述されているため、バグトリガテストケースを特定するための自然な入力と見なされるべきである。 本研究では,大規模言語モデル(llm)とバグレポートを入力として活用することにより,この生成の実現可能性を検討する。 私たちの実験には、ChatGPTをオンラインサービスとして使用することや、コード関連でトレーニング済みのLLMであるCodeGPTの使用が含まれています。 全体として、Defects4Jバグの最大50%に関連するバグ報告がChatGPTに実行可能なテストケースを生成することを実験的に示す。 実行可能なテストケースを生成するための入力として,新たなバグレポートが実際に使用できることを示す。 最後に,LLM生成テストケースが故障の局所化や自動プログラム修復におけるパッチ検証といったソフトウェア工学のタスクに即時に有用であることを示す実験結果について報告する。

Software testing is a core discipline in software engineering where a large array of research results has been produced, notably in the area of automatic test generation. Because existing approaches produce test cases that either can be qualified as simple (e.g. unit tests) or that require precise specifications, most testing procedures still rely on test cases written by humans to form test suites. Such test suites, however, are incomplete: they only cover parts of the project or they are produced after the bug is fixed. Yet, several research challenges, such as automatic program repair, and practitioner processes, build on the assumption that available test suites are sufficient. There is thus a need to break existing barriers in automatic test case generation. While prior work largely focused on random unit testing inputs, we propose to consider generating test cases that realistically represent complex user execution scenarios, which reveal buggy behaviour. Such scenarios are informally described in bug reports, which should therefore be considered as natural inputs for specifying bug-triggering test cases. In this work, we investigate the feasibility of performing this generation by leveraging large language models (LLMs) and using bug reports as inputs. Our experiments include the use of ChatGPT, as an online service, as well as CodeGPT, a code-related pre-trained LLM that was fine-tuned for our task. Overall, we experimentally show that bug reports associated to up to 50% of Defects4J bugs can prompt ChatGPT to generate an executable test case. We show that even new bug reports can indeed be used as input for generating executable test cases. Finally, we report experimental results which confirm that LLM-generated test cases are immediately useful in software engineering tasks such as fault localization as well as patch validation in automated program repair.
翻訳日:2023-10-23 03:43:48 公開日:2023-10-10
# LLMはバグレポートをデミスティフィケートできるか?

Can LLMs Demystify Bug Reports? ( http://arxiv.org/abs/2310.06310v1 )

ライセンス: Link先を確認
Laura Plein, Tegawend\'e F. Bissyand\'e(参考訳) バグは、ソフトウェアユーザを遅くし、結果として開発者の調査に時間がかかります。 これらの課題は、ユーザーが自然言語でバグを報告しなければならない場合に悪化する。 実際、報告されたバグ(すなわち、解析、再現、バグ修正を可能にする)を自動的に対処するための信頼できるツールが欠けている。 ソフトウェアエンジニアリングを含むさまざまなタスクでChatGPTのようなLLMが最近約束しているように、私たちは自問します。 ChatGPTがバグレポートを理解してそれを再現できるとしたらどうでしょう? この質問は、この研究の主要な焦点となるだろう。 ChatGPTがバグレポートのセマンティクスをキャッチできるかどうかを評価するために、人気のあるDefects4Jベンチマークをバグレポートで使用しました。 以上の結果から,ChatGPTは報告されたバグの50%を脱線・再生することができた。 報告されたバグの半分に自動的に対処できるChatGPTは、バグに対処するために機械学習を適用することで、バグを報告できるのは人手のみである、という有望な可能性を示している。

Bugs are notoriously challenging: they slow down software users and result in time-consuming investigations for developers. These challenges are exacerbated when bugs must be reported in natural language by users. Indeed, we lack reliable tools to automatically address reported bugs (i.e., enabling their analysis, reproduction, and bug fixing). With the recent promises created by LLMs such as ChatGPT for various tasks, including in software engineering, we ask ourselves: What if ChatGPT could understand bug reports and reproduce them? This question will be the main focus of this study. To evaluate whether ChatGPT is capable of catching the semantics of bug reports, we used the popular Defects4J benchmark with its bug reports. Our study has shown that ChatGPT was able to demystify and reproduce 50% of the reported bugs. ChatGPT being able to automatically address half of the reported bugs shows promising potential in the direction of applying machine learning to address bugs with only a human-in-the-loop to report the bug.
翻訳日:2023-10-23 03:43:21 公開日:2023-10-10
# 自動マーキングによるユニットテストの課題

Unit Testing Challenges with Automated Marking ( http://arxiv.org/abs/2310.06308v1 )

ライセンス: Link先を確認
Chakkrit Tantithamthavorn and Norman Chen(参考訳) ソフトウェアテストを教えることは、抽象的で概念的な性質から困難を呈する。 目に見える結果の欠如とハンズオン体験の限定的な強調が課題をさらに複雑にし、しばしば学生の理解が困難になる。 これにより、エンゲージメントが低下し、時間とともにモチベーションが低下する可能性がある。 本稿では,学生のソフトウェアテストスキルとソフトウェアテスト概念の理解を高めるために,edstemプラットフォームを通じた学習ツールとして自動マーキングを用いたオンラインユニットテストの課題を紹介する。 そこで本研究では,自動マーキングが学生の学習に与える影響について調査を行った。 92人の参加者から得られた結果から,ユニットテストの課題は,より深い理解と学習を促進するとともに,自動マーキング機構によって学生の学習進捗が向上し,従来の人手による手作業によるフィードバックよりも早い失敗や誤解を理解することができた。 その結果,自動マーキングによるオンライン単体テストの課題は学生の学習経験を向上させ,ソフトウェアテストにおける効果的な教育実践であることがわかった。

Teaching software testing presents difficulties due to its abstract and conceptual nature. The lack of tangible outcomes and limited emphasis on hands-on experience further compound the challenge, often leading to difficulties in comprehension for students. This can result in waning engagement and diminishing motivation over time. In this paper, we introduce online unit testing challenges with automated marking as a learning tool via the EdStem platform to enhance students' software testing skills and understanding of software testing concepts. Then, we conducted a survey to investigate the impact of the unit testing challenges with automated marking on student learning. The results from 92 participants showed that our unit testing challenges have kept students more engaged and motivated, fostering deeper understanding and learning, while the automated marking mechanism enhanced students' learning progress, helping them to understand their mistakes and misconceptions quicker than traditional-style human-written manual feedback. Consequently, these results inform educators that the online unit testing challenges with automated marking improve overall student learning experience, and are an effective pedagogical practice in software testing.
翻訳日:2023-10-23 03:43:02 公開日:2023-10-10
# ソフトウェアサプライチェーンメタデータ管理のためのリファレンスアーキテクチャに向けて

Toward a Reference Architecture for Software Supply Chain Metadata Management ( http://arxiv.org/abs/2310.06300v1 )

ライセンス: Link先を確認
Nguyen Khoi Tran, Samodha Pallewatta, M. Ali Babar(参考訳) ソフトウェアサプライチェーン(ssc)攻撃は、侵害されたライフサイクルアクティビティを介してソフトウェアアーティファクトに悪意のあるコードを注入する上流アタックと、侵害されたアーティファクトを使用する消費者に対する下流アタックとを組み合わせる。 組織は、リスクを早期に検出し、SSC攻撃の際の妥協資産を迅速に特定するために、ソフトウェアインベントリのSSC全体に対して、徹底的で信頼できる可視性が必要です。 このような可視性を実現する1つの方法は、sscメタデータ、構築方法や利用された ``ingredients''' のようなアーティファクトのライフサイクルを記述する機械可読で認証されたドキュメントである。 SSCメタデータを採用するには、作成、署名、配布、消費などのSSCメタデータドキュメントのライフサイクルアクティビティを実行するための一連のソフトウェアツールであるSoftware Supply Chain Metadata Management System (SCM2) の調達または開発が必要である。 SCM2の選択や開発は、SSCメタデータの用語、フレームワーク、ソリューションの広大なデザイン空間をナビゲートする実践者を支援する包括的なドメインモデルとアーキテクチャの青写真がないため、難しい。 本稿では、SSCメタデータに関する知識の体系化と参照アーキテクチャ(RA)として提示されたSCM2による課題について述べる。 RAはドメインモデルとSCM2システムのアーキテクチャ図で構成されており、既存のSSCセキュリティフレームワークや標準に散在する概念とビルディングブロックから構築されている。 評価の結果、RAフレームワークは既存のSCM2ソリューションを分析し、新しいSCM2のエンジニアリングを導くのに有効であることがわかった。

An Software Supply Chain (SSC) attack combines an upstream attack, where malicious codes are injected into a software artefact via a compromised life cycle activity, and a downstream attack on the consumers who use the compromised artefact. Organisations need thorough and trustworthy visibility over the entire SSC of their software inventory to detect risks early and rapidly identify compromised assets in the event of an SSC attack. One way to achieve such visibility is through SSC metadata, machine-readable and authenticated documents describing an artefact's lifecycle, such as how it was constructed and the utilised ``ingredients''. Adopting SSC metadata requires organisations to procure or develop a Software Supply Chain Metadata Management system (SCM2), a suite of software tools for performing life cycle activities of SSC metadata documents such as creation, signing, distribution, and consumption. Selecting or developing an SCM2 is challenging due to the lack of a comprehensive domain model and architectural blueprint to aid practitioners in navigating the vast design space of SSC metadata terminologies, frameworks, and solutions. This paper addresses the above-mentioned challenge with a Systematisation of Knowledge about SSC metadata and SCM2, presented as a Reference Architecture (RA). The RA comprises a domain model and an architectural blueprint for SCM2 systems, constructed from the concepts and building blocks scattered across existing SSC security frameworks and standards. Our evaluation shows that the RA framework is effective for analysing existing SCM2 solutions and guiding the engineering of new SCM2.
翻訳日:2023-10-23 03:42:41 公開日:2023-10-10
# 抽象的故障症状マッチングによるJust-in-Time Flakyテスト検出

Just-in-Time Flaky Test Detection via Abstracted Failure Symptom Matching ( http://arxiv.org/abs/2310.06298v1 )

ライセンス: Link先を確認
Gabin An, Juyeon Yoon, Thomas Bach, Jingun Hong, Shin Yoo(参考訳) 我々は,大規模な産業用ソフトウェアシステムであるSAP HANAの継続的インテグレーション(CI)パイプラインにおいて,エラーメッセージやスタックトレースなどの障害症状を使用して,不安定なテスト障害を特定する経験を報告する。 障害症状は類似した障害を特定するために一般的に用いられるが、これまでは不安定なテスト障害を検出するために用いられていなかった。 我々の仮説は、脆弱な障害は非脆弱な障害と異なる症状を示すだろうということです。 その結果,失敗症状を過去の失敗症状と一致させることで,テストを再実行することなく,繰り返し発生する不安定な障害を識別できる。 これにより、テストの再実行の必要性が大幅に低減され、最終的にはテスト結果のデリバリが高速になる。 異なる実行インスタンスにまたがるフレキ障害の対応を容易にするため、障害重複とログ解析の分野における以前の研究から着想を得た、フレキ障害の既知のパターンと一致する前に、より新しいテスト障害症状を抽象化する。 SAP HANAのCIデータから収集した実際の故障症状を6カ月間に検出し,症状に基づくフレキネス検出法について検討した。 本手法は, 故障症状を用いて再発障害を同定し, 96%以上の精度を達成し, 従来の再実行戦略と比較して約58%の機械時間を節約できる可能性を示した。 偽陽性の分析と開発者からのフィードバックは、この症状ベースのアプローチの効果的なデプロイと不安定なテストのデバッグの両方において、説明的かつ情報的障害症状を持つことの重要性を強調している。

We report our experience of using failure symptoms, such as error messages or stack traces, to identify flaky test failures in a Continuous Integration (CI) pipeline for a large industrial software system, SAP HANA. Although failure symptoms are commonly used to identify similar failures, they have not previously been employed to detect flaky test failures. Our hypothesis is that flaky failures will exhibit symptoms distinct from those of non-flaky failures. Consequently, we can identify recurring flaky failures, without rerunning the tests, by matching the failure symptoms to those of historical flaky runs. This can significantly reduce the need for test reruns, ultimately resulting in faster delivery of test results to developers. To facilitate the process of matching flaky failures across different execution instances, we abstract newer test failure symptoms before matching them to the known patterns of flaky failures, inspired by previous research in the fields of failure deduplication and log analysis. We evaluate our symptom-based flakiness detection method using actual failure symptoms gathered from CI data of SAP HANA during a six-month period. Our method shows the potential of using failure symptoms to identify recurring flaky failures, achieving a precision of at least 96%, while saving approximately 58% of the machine time compared to the traditional rerun strategy. Analysis of the false positives and the feedback from developers underscore the importance of having descriptive and informative failure symptoms for both the effective deployment of this symptom-based approach and the debugging of flaky tests.
翻訳日:2023-10-23 03:42:11 公開日:2023-10-10
# 機械学習コンポーネントにおける人中心要求のランタイムモニタリング:モデル駆動エンジニアリングアプローチ

Runtime Monitoring of Human-centric Requirements in Machine Learning Components: A Model-driven Engineering Approach ( http://arxiv.org/abs/2310.06219v1 )

ライセンス: Link先を確認
Hira Naveed(参考訳) 機械学習(ML)コンポーネントがソフトウェアシステムに統合されるにつれて、それらの使用の倫理的側面や責任的な側面に重点が置かれるようになる。 これには、公正性、プライバシ、説明可能性、幸福、透明性、人間の価値など、人間中心の要件に従うMLベースのシステムの構築が含まれる。 これらの人間中心の要件を満たすことは、公的な信頼を維持するために必要であるだけでなく、MLベースのシステムの成功を決定する重要な要因でもある。 しかしながら、これらの要件は本質的に動的であり、継続的に進化するので、これらのモデルの事前デプロイ監視はMLコンポーネントの信頼性を確立し維持するには不十分であることがしばしば証明される。 MLのランタイムモニタリングアプローチは、この問題に対する潜在的に価値のある解決策である。 既存の最先端技術は、通常、公正さ、安全性、信頼に焦点を当てた、複数の人間中心の要件をほとんど考慮しないため、しばしば不足する。 監視システムをセットアップするために必要な技術的専門知識と労力も困難である。 博士論文では、複数の人間中心の要求をランタイム監視するための新しいアプローチを提案する。 このアプローチでは、モデル駆動エンジニアリングを活用して、MLコンポーネントをより包括的に監視する。 本論文では,博士号取得の動機,潜在的な解決策,これまでの進歩,今後の計画について概説する。

As machine learning (ML) components become increasingly integrated into software systems, the emphasis on the ethical or responsible aspects of their use has grown significantly. This includes building ML-based systems that adhere to human-centric requirements, such as fairness, privacy, explainability, well-being, transparency and human values. Meeting these human-centric requirements is not only essential for maintaining public trust but also a key factor determining the success of ML-based systems. However, as these requirements are dynamic in nature and continually evolve, pre-deployment monitoring of these models often proves insufficient to establish and sustain trust in ML components. Runtime monitoring approaches for ML are potentially valuable solutions to this problem. Existing state-of-the-art techniques often fall short as they seldom consider more than one human-centric requirement, typically focusing on fairness, safety, and trust. The technical expertise and effort required to set up a monitoring system are also challenging. In my PhD research, I propose a novel approach for the runtime monitoring of multiple human-centric requirements. This approach leverages model-driven engineering to more comprehensively monitor ML components. This doctoral symposium paper outlines the motivation for my PhD work, a potential solution, progress so far and future plans.
翻訳日:2023-10-23 03:41:43 公開日:2023-10-10
# slash:静的な構成-論理同定手法

slash: A Technique for Static Configuration-Logic Identification ( http://arxiv.org/abs/2310.06758v1 )

ライセンス: Link先を確認
Mohannad Alhanahnah, Philipp Schubert, Thomas Reps, Somesh Jha, and Eric Bodden(参考訳) ソフトウェアをデブロ化し、設定エラーを検出するツールが最近開発された。 これらのツールのいくつかは、プログラムが初期化フェーズと主計算フェーズからなるという観察に依存している。 これらのツールのユーザは、これらのフェーズを分離する境界を手動でアノテートする必要がある。 エラーはツールの正確性と機能を損なう可能性があるため、手動アノテーション要件はツールを大規模に適用する能力を妨げる。 本稿では,広く使われている24のc/c++プログラムのフィールドスタディを行い,96\%の共通境界特性を同定した。 次に、識別されたプロパティに基づいて境界を見つける自動ツールである \textit{slash}を導入する。 \textit{slash} は87.5\%のプログラムの境界を8.5\分以内で識別し、最大4.4\GBのメモリを使用する。 独立テストでは、 \textit{slash}が開発され、21の人気のあるC/C++ GitHubリポジトリのデータセットの85.7\%で境界が特定された。 最後に、ソフトウェアデブローミングおよびエラー検出ツールの境界識別プロセスを合理化する、 \textit{slash} の可能性を示す。

Researchers have recently devised tools for debloating software and detecting configuration errors. Several of these tools rely on the observation that programs are composed of an initialization phase followed by a main-computation phase. Users of these tools are required to manually annotate the boundary that separates these phases, a task that can be time-consuming and error-prone (typically, the user has to read and understand the source code or trace executions with a debugger). Because errors can impair the tool's accuracy and functionality, the manual-annotation requirement hinders the ability to apply the tools on a large scale. In this paper, we present a field study of 24 widely-used C/C++ programs, identifying common boundary properties in 96\% of them. We then introduce \textit{slash}, an automated tool that locates the boundary based on the identified properties. \textit{slash} successfully identifies the boundary in 87.5\% of the studied programs within 8.5\ minutes, using up to 4.4\ GB memory. In an independent test, carried out after \textit{slash} was developed, \textit{slash} identified the boundary in 85.7\% of a dataset of 21 popular C/C++ GitHub repositories. Finally, we demonstrate \textit{slash}'s potential to streamline the boundary-identification process of software-debloating and error-detection tools.
翻訳日:2023-10-23 03:33:18 公開日:2023-10-10
# 機械学習における要件工学の現状と課題:国際サーベイの結果から

Status Quo and Problems of Requirements Engineering for Machine Learning: Results from an International Survey ( http://arxiv.org/abs/2310.06726v1 )

ライセンス: Link先を確認
Antonio Pedro Santos Alves, Marcos Kalinowski, G\"orkem Giray, Daniel Mendez, Niklas Lavesson, Kelly Azevedo, Hugo Villamizar, Tatiana Escovedo, Helio Lopes, Stefan Biffl, J\"urgen Musil, Michael Felderer, Stefan Wagner, Teresa Baldassarre, Tony Gorschek(参考訳) 機械学習(ML)を使用するシステムは、製品やプロセスを改善したい企業にとって一般的になっています。 文献によると、Requirements Engineering(RE)はML対応システムにおいて多くの問題を解決するのに役立つ。 しかしながら、ml対応システムで実際にreがどのように適用されるかに関する実証的な証拠は、主に限定的な一般化可能性を持つ孤立したケーススタディに支配されている。 ml対応システムにおけるreの現状と問題点に関する実践的洞察を集めるために,国際調査を実施した。 25カ国から188件の回答を集めた。 信頼性区間を有するブートストラップを用いた現代的実践の定量的統計分析と,オープンおよび軸方向の符号化手順に関する報告された問題点の質的分析を行った。 MLプロジェクトでは,REプラクティスに大きな違いが見られた。 例えば、 (i)RE関連の活動は、主にプロジェクトリーダーやデータサイエンティストが行う。 (ii) 対話型ノートブックに関する一般的な要件文書形式。 (iii)非機能要件の主な焦点は、データ品質、モデル信頼性、モデル説明可能性等である。 (iv)主な課題は、顧客の期待を管理し、要求をデータと整合させることである。 質的な分析の結果、実践者はビジネスドメイン理解の欠如、明確な目標と要求、顧客のエンゲージメントの低下、コミュニケーションの問題に直面することが明らかとなった。 これらの結果は、採用されているプラクティスと、実際の環境に存在する問題をよりよく理解するのに役立ちます。 我々は、さらに適応し、エンジニアリングML対応システムにRE関連のプラクティスを広める必要性を推し進めた。

Systems that use Machine Learning (ML) have become commonplace for companies that want to improve their products and processes. Literature suggests that Requirements Engineering (RE) can help address many problems when engineering ML-enabled systems. However, the state of empirical evidence on how RE is applied in practice in the context of ML-enabled systems is mainly dominated by isolated case studies with limited generalizability. We conducted an international survey to gather practitioner insights into the status quo and problems of RE in ML-enabled systems. We gathered 188 complete responses from 25 countries. We conducted quantitative statistical analyses on contemporary practices using bootstrapping with confidence intervals and qualitative analyses on the reported problems involving open and axial coding procedures. We found significant differences in RE practices within ML projects. For instance, (i) RE-related activities are mostly conducted by project leaders and data scientists, (ii) the prevalent requirements documentation format concerns interactive Notebooks, (iii) the main focus of non-functional requirements includes data quality, model reliability, and model explainability, and (iv) main challenges include managing customer expectations and aligning requirements with data. The qualitative analyses revealed that practitioners face problems related to lack of business domain understanding, unclear goals and requirements, low customer engagement, and communication issues. These results help to provide a better understanding of the adopted practices and of which problems exist in practical environments. We put forward the need to adapt further and disseminate RE-related practices for engineering ML-enabled systems.
翻訳日:2023-10-23 03:32:51 公開日:2023-10-10
# deep learning fuzzersのベンチマーク

Benchmarking Deep Learning Fuzzers ( http://arxiv.org/abs/2310.06912v1 )

ライセンス: Link先を確認
Nima Shiri Harzevili, Hung Viet Pham, Song Wang(参考訳) そこで本研究では,最先端のDLファジイザの地上試験評価を行った。 具体的には、2020年から2022年の間に報告されたTensorFlowとPyTorchライブラリの627の実際のDLバグを含む、広範なDLバグベンチマークデータセットを手作業で作成しました。 次に、彼らの指示に従い、ベンチマークで3つの最先端のDLファザ、すなわちFreeFuzz、DeepRel、DocTerを実行します。 これらのファジィザは、ベンチマークデータセットで収集された多くの実際のバグを検出することができません。 具体的には、257のバグのうち、ほとんどの(235)はファザーによって検出できない。 我々の系統分析では、これらのファジッターが実際のバグを検知する能力に影響を及ぼす4つの主要な、広く、共通の要因を同定する。 これらの結果は,今後の作業におけるファジィアの性能向上の機会となる。 概念実証として,3つのDLファザの拡張として,複数の境界値とDL固有のデータ型を単純にカバーする軽量コーナーケースジェネレータを提案する。 freefuzz、deeprel、docterはオリジナルのfuzzersで見過ごされていた12のバグと14のバグを検出するのに役立つ。 総じて、この研究はdlfuzzersの以前の研究を広範囲のパフォーマンス評価で補完し、将来のdlライブラリfuzzing studiesのベンチマークを提供する。 また,本研究のコーナーケースジェネレータは,根本原因分析の知見に基づいて,内部ファジィングロジックを拡張して,より多くのバグを検出することができることを示した。

In this work, we set out to conduct the first ground-truth empirical evaluation of state-of-the-art DL fuzzers. Specifically, we first manually created an extensive DL bug benchmark dataset, which includes 627 real-world DL bugs from TensorFlow and PyTorch libraries reported by users between 2020 and 2022. Then we run three state-of-the-art DL fuzzers, i.e., FreeFuzz, DeepRel, and DocTer, on the benchmark by following their instructions. We find that these fuzzers are unable to detect many real bugs collected in our benchmark dataset. Specifically, most (235) of the 257 applicable bugs cannot be detected by any fuzzer. Our systematic analysis further identifies four major, broad, and common factors that affect these fuzzers' ability to detect real bugs. These findings present opportunities to improve the performance of the fuzzers in future work. As a proof of concept, we propose a lightweight corner case generator as an extension to the three DL fuzzers, which simply covers several boundary values as well as DL-specific data types. It helps FreeFuzz, DeepRel, and DocTer detect 12, 12, and 14 more bugs, respectively, that were overlooked by the original fuzzers. Overall, this work complements prior studies on DL fuzzers with an extensive performance evaluation and provides a benchmark for future DL library fuzzing studies. Also, our proposed corner case generator proves that the fuzzers can be extended to detect more bugs by extending their internal fuzzing logic based on the insights provided in root cause analysis.
翻訳日:2023-10-23 03:22:05 公開日:2023-10-10
# 数学と科学問題のためのブレインストーミングパートナーとしてのLSM

LLMs as Potential Brainstorming Partners for Math and Science Problems ( http://arxiv.org/abs/2310.10677v1 )

ライセンス: Link先を確認
Sophia Gu(参考訳) 近年のディープラーニングモデルの普及に伴い、様々な数学や科学の分野の専門家の間で、創造性やブレインストーミングを必要とする問題の発見や解決に協力する最先端のモデルの能力を見極め、評価することへの関心が高まっている。 現在の人間と機械の知的コラボレーションと、6つの未解決ミレニアム賞問題のような複雑な数学と科学の問題の解決との間には、大きな亀裂が残っているが、この問題に関する初期の調査は、分割を橋渡しするための有望なステップを示している。 これは、最近のLarge Language Models (LLM) の進歩によるものである。 より具体的には、人間との集団ブレインストーミングにおいて、現在最先端のLCM(特にGPT-4)の能力と限界を探求する包括的ケーススタディを実施している。

With the recent rise of widely successful deep learning models, there is emerging interest among professionals in various math and science communities to see and evaluate the state-of-the-art models' abilities to collaborate on finding or solving problems that often require creativity and thus brainstorming. While a significant chasm still exists between current human-machine intellectual collaborations and the resolution of complex math and science problems, such as the six unsolved Millennium Prize Problems, our initial investigation into this matter reveals a promising step towards bridging the divide. This is due to the recent advancements in Large Language Models (LLMs). More specifically, we conduct comprehensive case studies to explore both the capabilities and limitations of the current state-of-the-art LLM, notably GPT-4, in collective brainstorming with humans.
翻訳日:2023-10-23 02:20:48 公開日:2023-10-10
# whatsappのための自然言語処理に基づくチャットボットの作成

Creation Of A ChatBot Based On Natural Language Proccesing For Whatsapp ( http://arxiv.org/abs/2310.10675v1 )

ライセンス: Link先を確認
Valderrama Jonatan, Aguilar-Alonso Igor(参考訳) デジタルトランスフォーメーションの時代には、カスタマーサービスは組織の成功にとって最重要であり、即時対応とパーソナライズされた支援の需要が高まる中、チャットボットはこれらの問題を解決するための有望なツールとなっている。 現在、これらのソリューションを顧客に提供しなければならない企業はたくさんあります。 本研究の目的は,自然言語処理に基づくチャットボットの開発,顧客満足度の向上,whatsappによるサービス品質の向上である。 このソリューションでは、ユーザのクエリを効率的かつ効率的に処理するチャットボットの開発に重点を置いている。 既存のチャットボットに関する文献レビューを行い、方法論的アプローチ、人工知能技術、チャットボットの実装で使われる品質特性を分析した。 その結果、自然言語処理に基づくチャットボットは、顧客の満足度を高めるために、いつでも正確な回答とクェリに対する迅速なソリューションを提供することによって、顧客サービスの効率を向上させる、迅速かつ正確な応答を可能にすることが強調された。 一部の著者は、機械学習のような人工知能技術は、ユーザインタラクションが発生するにつれてチャットボットの学習と適応性を改善するため、最適な自然言語理解技術を選択することがチャットボットのパフォーマンスに不可欠であると指摘した。 本研究の結果は、カスタマーサービスのための効果的なチャットボットの設計と開発のための確固たる基盤を提供し、満足なユーザエクスペリエンスを確保し、組織のニーズを満たすものである。

In the era of digital transformation, customer service is of paramount importance to the success of organizations, and to meet the growing demand for immediate responses and personalized assistance 24 hours a day, chatbots have become a promising tool to solve these problems. Currently, there are many companies that need to provide these solutions to their customers, which motivates us to study this problem and offer a suitable solution. The objective of this study is to develop a chatbot based on natural language processing to improve customer satisfaction and improve the quality of service provided by the company through WhatsApp. The solution focuses on creating a chatbot that efficiently and effectively handles user queries. A literature review related to existing chatbots has been conducted, analyzing methodological approaches, artificial intelligence techniques and quality attributes used in the implementation of chatbots. The results found highlight that chatbots based on natural language processing enable fast and accurate responses, which improves the efficiency of customer service, as chatbots contribute to customer satisfaction by providing accurate answers and quick solutions to their queries at any time. Some authors point out that artificial intelligence techniques, such as machine learning, improve the learning and adaptability of chatbots as user interactions occur, so a good choice of appropriate natural language understanding technologies is essential for optimal chatbot performance. The results of this study will provide a solid foundation for the design and development of effective chatbots for customer service, ensuring a satisfactory user experience and thus meeting the needs of the organization.
翻訳日:2023-10-23 02:20:32 公開日:2023-10-10
# Ego-Centric Spectral Subgraph Embeddings Augmentationを用いた拡張グラフニューラルネットワーク

Enhanced Graph Neural Networks with Ego-Centric Spectral Subgraph Embeddings Augmentation ( http://arxiv.org/abs/2310.12169v1 )

ライセンス: Link先を確認
Anwar Said, Mudassir Shabbir, Tyler Derr, Waseem Abbas, Xenofon Koutsoukos(参考訳) グラフニューラルネットワーク(gnns)は、複雑なネットワークで様々な学習ベースのタスクを実行することに顕著なメリットを示している。 gnnの優れた性能は、しばしば入力ネットワークにおけるノードレベルの機能の可用性と品質に相関する。 しかし、多くのネットワークアプリケーションでは、そのようなノードレベルの情報が欠落したり、信頼できない場合があるため、GNNの適用性と有効性が制限される。 この制限に対処するため、特に情報不足のシナリオにおいて、ノード機能の拡張と設計を目的とした、Ego中心のスペクトルサブグラフ埋め込み拡張(ESGEA)と呼ばれる新しいアプローチを提案する。 本手法は局所部分グラフの位相構造を利用してトポロジ認識ノードの特徴量を生成する。 サブグラフの特徴は効率的なスペクトルグラフ埋め込み技術を用いて生成され、ネットワークの局所トポロジー構造をキャプチャするノードの特徴として機能する。 明示的なノード機能は、もし存在すれば、全体的なパフォーマンスを改善するために、サブグラフ埋め込みによって拡張される。 ESGEAはGNNベースのアーキテクチャと互換性があり、ノード機能がない場合でも有効である。 提案手法は,ノード属性が利用できないソーシャルネットワークグラフ分類タスクや,ノードの特徴が損なわれたり,欠落していたりするノード分類タスクで評価する。 7つのデータセットと8つのベースラインモデルの評価結果は、それぞれAUCが10%改善し、グラフ分類タスクとノード分類タスクの精度が7%向上したことを示している。

Graph Neural Networks (GNNs) have shown remarkable merit in performing various learning-based tasks in complex networks. The superior performance of GNNs often correlates with the availability and quality of node-level features in the input networks. However, for many network applications, such node-level information may be missing or unreliable, thereby limiting the applicability and efficacy of GNNs. To address this limitation, we present a novel approach denoted as Ego-centric Spectral subGraph Embedding Augmentation (ESGEA), which aims to enhance and design node features, particularly in scenarios where information is lacking. Our method leverages the topological structure of the local subgraph to create topology-aware node features. The subgraph features are generated using an efficient spectral graph embedding technique, and they serve as node features that capture the local topological organization of the network. The explicit node features, if present, are then enhanced with the subgraph embeddings in order to improve the overall performance. ESGEA is compatible with any GNN-based architecture and is effective even in the absence of node features. We evaluate the proposed method in a social network graph classification task where node attributes are unavailable, as well as in a node classification task where node features are corrupted or even absent. The evaluation results on seven datasets and eight baseline models indicate up to a 10% improvement in AUC and a 7% improvement in accuracy for graph and node classification tasks, respectively.
翻訳日:2023-10-23 02:11:42 公開日:2023-10-10
# RK-core:データセット内の階層構造を探索するための確立された方法論

RK-core: An Established Methodology for Exploring the Hierarchical Structure within Datasets ( http://arxiv.org/abs/2310.12168v1 )

ライセンス: Link先を確認
Yao Lu, Yutian Huang, Jiaqi Nie, Zuohui Chen, Qi Xuan(参考訳) 近年、機械学習の分野はモデル中心からデータ中心へと移行している。 多様な学習タスクの進歩は、より広範なデータセットの蓄積によって促進され、その後、これらのデータセット上のより大きなモデルのトレーニングが促進された。 しかし、これらのデータセットは比較的未調査のままである。 この目的のために、データセット内の複雑な階層構造をより深く理解するための、RK-coreと呼ばれる先駆的なアプローチを導入する。 いくつかのベンチマーク・データセットにおいて、コア値の低いサンプルはそれぞれのカテゴリにはあまり代表性がなく、逆に高いコア値のサンプルはより代表性を示す。 それに対応して、コア値の高いサンプルは、コア値の低いサンプルよりもパフォーマンスに大きく貢献する。 さらにRKコアを用いて,異なるコアセット選択法を用いてサンプルの階層構造を解析する。 注目すべきことに、高品質なコアセットは、代表サンプルのみを選択するのではなく、階層的な多様性を示すべきである。 コードはhttps://github.com/yaolu-zjut/kcoreで入手できる。

Recently, the field of machine learning has undergone a transition from model-centric to data-centric. The advancements in diverse learning tasks have been propelled by the accumulation of more extensive datasets, subsequently facilitating the training of larger models on these datasets. However, these datasets remain relatively under-explored. To this end, we introduce a pioneering approach known as RK-core, to empower gaining a deeper understanding of the intricate hierarchical structure within datasets. Across several benchmark datasets, we find that samples with low coreness values appear less representative of their respective categories, and conversely, those with high coreness values exhibit greater representativeness. Correspondingly, samples with high coreness values make a more substantial contribution to the performance in comparison to those with low coreness values. Building upon this, we further employ RK-core to analyze the hierarchical structure of samples with different coreset selection methods. Remarkably, we find that a high-quality coreset should exhibit hierarchical diversity instead of solely opting for representative samples. The code is available at https://github.com/yaolu-zjut/Kcore.
翻訳日:2023-10-23 02:11:17 公開日:2023-10-10
# 望遠鏡画像からの渦状楕円型自動銀河形態分類

Spiral-Elliptical automated galaxy morphology classification from telescope images ( http://arxiv.org/abs/2310.07740v1 )

ライセンス: Link先を確認
Matthew J. Baumstark and Giuseppe Vinci(参考訳) 銀河形態学の分類は、階層構造の形成の理論を研究する重要なステップである。 人間の視覚的分類は非常に効果的で正確だが、新興のスカイサーベイからの大量のデータに追随することはできない。 多数の銀河を分類する様々な手法が提案されており、これらにはクラウドソースによる視覚分類や、設計された形態学統計や深層学習に基づく機械学習手法などの自動計算手法が含まれる。 本研究では、望遠鏡銀河画像から効率的に抽出できる2つの新しい銀河形態統計(降下平均と降下分散)を開発した。 さらに,銀河形態学の文献で広く用いられている既存の画像統計量濃度,非対称性,不連続性の簡易版も提案する。 Sloan Digital Sky Surveyの銀河画像データを用いて、ランダムな森林分類器の特徴として、渦巻銀河と楕円銀河を正確に検出する画像統計の有効性能を実証した。

The classification of galaxy morphologies is an important step in the investigation of theories of hierarchical structure formation. While human expert visual classification remains quite effective and accurate, it cannot keep up with the massive influx of data from emerging sky surveys. A variety of approaches have been proposed to classify large numbers of galaxies; these approaches include crowdsourced visual classification, and automated and computational methods, such as machine learning methods based on designed morphology statistics and deep learning. In this work, we develop two novel galaxy morphology statistics, descent average and descent variance, which can be efficiently extracted from telescope galaxy images. We further propose simplified versions of the existing image statistics concentration, asymmetry, and clumpiness, which have been widely used in the literature of galaxy morphologies. We utilize the galaxy image data from the Sloan Digital Sky Survey to demonstrate the effective performance of our proposed image statistics at accurately detecting spiral and elliptical galaxies when used as features of a random forest classifier.
翻訳日:2023-10-15 11:39:31 公開日:2023-10-10
# Jaynes Machine: ディープニューラルネットワークの普遍的ミクロ構造

Jaynes Machine: The universal microstructure of deep neural networks ( http://arxiv.org/abs/2310.06960v1 )

ライセンス: Link先を確認
Venkat Venkatasubramanian, N. Sanjeevrajan, Manasi Khandekar(参考訳) 本稿では,深層ニューラルネットワークの微細構造に関する新しい理論を提案する。 統計的熱力学と潜在的ゲーム理論の概念的合成である統計テレオダイナミックスと呼ばれる理論的枠組みを用いて、ディープニューラルネットワークの高結合層はすべて、対数正規分布(ln({\mu}, {\sigma})$)の接続強度の普遍的微細構造を有すると予測する。 さらに理想的な条件下では、${\mu}$ と ${\sigma}$ は全てのネットワークの全ての層で同じであると予測される。 これは、すべての接続が競合し、全体の損失関数の最小化に向けて同じ有効性に寄与する仲裁均衡の結果である。 これらの驚くべき予測は、実生活における6つの大規模ディープニューラルネットワークの実証データによって裏付けられている。 また,大規模ニューラルネットワークのトレーニングに必要なデータ量,時間,計算リソースを削減するために,これらの結果をどのように活用するかについても論じる。

We present a novel theory of the microstructure of deep neural networks. Using a theoretical framework called statistical teleodynamics, which is a conceptual synthesis of statistical thermodynamics and potential game theory, we predict that all highly connected layers of deep neural networks have a universal microstructure of connection strengths that is distributed lognormally ($LN({\mu}, {\sigma})$). Furthermore, under ideal conditions, the theory predicts that ${\mu}$ and ${\sigma}$ are the same for all layers in all networks. This is shown to be the result of an arbitrage equilibrium where all connections compete and contribute the same effective utility towards the minimization of the overall loss function. These surprising predictions are shown to be supported by empirical data from six large-scale deep neural networks in real life. We also discuss how these results can be exploited to reduce the amount of data, time, and computational resources needed to train large deep neural networks.
翻訳日:2023-10-14 14:46:25 公開日:2023-10-10
# アイデンティティの崩壊? 2024年大統領選挙における台湾人有権者の再編成

Identity Collapse? Realignment of Taiwanese Voters in the 2024 Presidential Elections on Social Media ( http://arxiv.org/abs/2310.07739v1 )

ライセンス: Link先を確認
Ho-Chun Herbert Chang, Sunny Fang(参考訳) 2024年の台湾大統領選挙は、単に重要な地政学的出来事であるだけでなく、新しい政党や候補者の台頭に繋がる要因に関する長年にわたる政治論争にも関与している。 2021年、エコノミストは台湾が脆弱なサプライチェーンにおいて重要な役割を担ったため、台湾を「地球上で最も危険な場所」と呼んだ。 さらに、伝統的に二党制の選挙で4人の候補者が登場し、有権者はどうやって4人の候補者を選ぶかという疑問が浮かび上がっている。 ソーシャルメディア上で100万以上の投稿を活用すれば、国民のアイデンティティ、課題、党派的な調整の軸に沿ったユーザー(台湾人)の会話とエンゲージメントを分析します。 以上の結果から,国家のアイデンティティよりもフリンジに注目される代替候補(koとgou)の存在が明らかとなり,伝統的候補は伝統的なメディアやサリアンスから地政学的問題へとより多くの関与がもたらされた。 重要なことに、グループ内の参照は、西洋ベースの研究とは対照的に、グループ外の参照よりも多くのエンゲージメントを生成する。 我々は,台湾の単発社会の解体が,より有望な候補者や多国間談話につながるだけでなく,国家的・党派的アイデンティティの誤認が,根深い党派的分断を癒す可能性があることを論じる。

The 2024 Taiwanese Presidential Election is not just a critical geopolitical event, it also engages with long-standing debate in politics regarding the factors that lead to the rise of new political parties and candidates. In 2021, the Economist called Taiwan "the most dangerous place on earth" due to its critical role in a fragile supply chain. Additionally, a four-candidate race has emerged in a traditionally bipartisan election which begs the question: how will voters realign given the choice of four candidates? Leveraging more than a million posts on social media, we analyze user (predominantly Taiwanese) discourse and engagement along the axes of national identity, issue topic, and partisan alignment. Results reveal alternative candidates (Ko and Gou) draw attention from the fringes rather than the center relative to national identity, and traditional candidates derive more engagement from the traditional media and salience to geopolitical issues. Crucially, in-group references generate more engagement than out-group references, contrary to Western-based studies. We discuss how the dissolution of Taiwan's single-issue society may not just lead to more viable candidates and multi-issue discourse, but the misalignment of national and partisan identity may heal deep-seated partisan cleavages.
翻訳日:2023-10-14 14:31:30 公開日:2023-10-10
# チャネルの整合性を考慮した動的写像のCPディバイザビリティの関連

Relating CP divisibility of dynamical maps with compatibility of channels ( http://arxiv.org/abs/2309.10806v2 )

ライセンス: Link先を確認
Arindam Mitra, Debashis Saha, Samyadeb Bhattacharya, and A. S. Majumdar(参考訳) 情報理論の課題に有用な資源として,CP-indivisibilityと非互換性が果たす役割は広く認識されている。 本研究ではcp分割性とチャネル互換性の関係について考察する。 本研究は,一対の一般力学写像に対する量子チャネルの不整合性の挙動に着目した。 本研究では,一対の一般CP分割動的写像に対して,チャネルの不整合性は単調に増加しないことを示す。 さらに,いくつかの動的マップの時間に伴う不整合性頑健性の挙動を明示的に研究した結果,CP非可分状態における非単調な挙動が明らかとなった。 さらに,量子チャネルの不整合性に基づくCPの可視性の尺度を提案する。 本研究は,量子力学マップの性質とその情報理論応用への応用に関する貴重な知見を提供する。

The role of CP-indivisibility and incompatibility as valuable resources for various information-theoretic tasks is widely acknowledged. This study delves into the intricate relationship between CP-divisibility and channel compatibility. Our investigation focuses on the behaviour of incompatibility robustness of quantum channels for a pair of generic dynamical maps. We show that the incompatibility robustness of channels is monotonically non-increasing for a pair of generic CP-divisible dynamical maps. Further, our explicit study of the behaviour of incompatibility robustness with time for some specific dynamical maps reveals non-monotonic behaviour in the CP-indivisible regime. Additionally, we propose a measure of CP-indivisibility based on the incompatibility robustness of quantum channels. Our investigation provides valuable insights into the nature of quantum dynamical maps and their relevance in information-theoretic applications.
翻訳日:2023-10-14 03:06:16 公開日:2023-10-10
# 量子忠実性の簡易表現法

A Simplified Expression for Quantum Fidelity ( http://arxiv.org/abs/2309.10565v4 )

ライセンス: Link先を確認
Adrian M\"uller(参考訳) 量子忠実度は混合量子状態間の類似性の最も重要な尺度の1つである。 しかし、通常の定式化は面倒で、初めて遭遇したときは理解しにくい。 この研究は、表現がより簡潔であるだけでなく、対称性の性質もより明確になるような形式に書き換えられるという、新しいエレガントな証明で示している。 さらに、より単純な表現は、完全な分解を避けることによって、以前の最良の方法よりも計算効率が高いことが示される定式化をもたらす。 将来の研究は、他の定理が影響を受ける方法を探したり、忠実性が計算のボトルネックである再構成を利用するかもしれない。

Quantum fidelity is one of the most important measures of similarity between mixed quantum states. However, the usual formulation is cumbersome and hard to understand when encountering the first time. This work shows in a novel, elegant proof that the expression can be rewritten into a form, which is not only more concise but also makes its symmetry property more obvious. Further, the simpler expression gives rise to a formulation that is subsequently shown to be more computationally efficient than the best previous methods by avoiding any full decomposition. Future work might look for ways in which other theorems could be affected or utilize the reformulation where fidelity is the computational bottleneck.
翻訳日:2023-10-14 03:06:06 公開日:2023-10-10
# 協調量子現象のための固体プラットフォーム

A solid-state platform for cooperative quantum phenomena ( http://arxiv.org/abs/2309.08991v2 )

ライセンス: Link先を確認
Xin Li, Jamir Marino, Darrick E. Chang and Benedetta Flebus(参考訳) システムと環境の結合によって生じる散逸は、一般的に量子技術にとっての敵と見なされる。 にもかかわらず、近年の光物質界面における研究は、相関散逸を多体量子系の新しい動的状態や絡み合いの工学に活用できることを示した。 この進歩に触発されて、ここでは量子ハイブリッド固体プラットフォームにおける協調量子現象の探索の舞台を定めます。 我々は, 共有固体貯水池の磁場変動を介して相互作用する固体スピン欠陥の集合の量子多体力学の包括的定式化を開発する。 我々の一般フレームワークは、相関散逸によって媒介される有効量子ビット-量子ビット相互作用を捉え、単一固体スピン欠陥による局所磁気ノイズの量子センシング理論を非局所時間的および空間的相関のセンシングへと自然に拡張する。 分散相関が実際の実験環境において重要な役割を果たすかどうかを理解するため、強磁性貯留層のスピン揺らぎを介して相互作用する量子ビットアレイに適用する。 その結果, 強磁性薄膜近傍に配置した固体スピン欠陥の集団緩和速度は, 適切なパラメータ領域において, 超レイ度, サブレイディアンスの明確なシグネチャを示すことがわかった。 さらに, 協調量子行動は空間障害や熱ゆらぎに対して顕著な堅牢性を示す。 私たちの研究は、スピントロニクスと量子光学を融合する基礎を、今後の共通の研究の地平に向けて築き上げています。

The dissipation resulting from the coupling of a system with its environment is commonly viewed as a foe for quantum technologies. Nonetheless, recent developments at light-matter interfaces have shown that correlated dissipation can be leveraged to engineer novel dynamical states of matter and entanglement in many-body quantum systems. Inspired by this progress, here we set the stage for the -- yet uncharted -- exploration of cooperative quantum phenomena in quantum hybrid solid-state platforms. We develop a comprehensive formalism for the quantum many-body dynamics of an ensemble of solid-state spin defects interacting via the magnetic field fluctuations of a common solid-state reservoir. Our general framework captures effective qubit-qubit interactions mediated by correlated dissipation and naturally extends the theory of quantum sensing of local magnetic noise via single solid-state spin defects to sensing of nonlocal temporal and spatial correlations. To understand whether dissipative correlations can play a relevant role in a realistic experimental setup, we apply our model to a qubit array interacting via the spin fluctuations of a ferromagnetic reservoir. Our results show that collective relaxation rates of an ensemble of solid-state spin defects placed nearby a common ferromagnetic thin film can display clear signatures of superradiance and subradiance in the appropriate parameter regime. Furthermore, we find that the cooperative quantum behavior exhibits remarkable robustness against spatial disorder and thermal fluctuations. Our work lays the foundation for merging spintronics and quantum optics towards a common research horizon in the incoming future.
翻訳日:2023-10-14 03:05:55 公開日:2023-10-10
# 2モード相関多光子束放出

Two-mode correlated multiphoton bundle emission ( http://arxiv.org/abs/2309.08858v2 )

ライセンス: Link先を確認
Yi Wang, Fen Zou, Jie-Qiao Liao(参考訳) 相関多光子源の作成は、量子光学と量子情報科学において重要な研究トピックである。 ここでは, 2つのキャビティモードを結合した2レベルシステムからなる非退化多光子Jaynes-Cummingsモデルにおける2モード相関多光子束放出について検討した。 2レベルシステムは、モロー状態がこの系の物理過程を支配するように、ほぼ共鳴強いレーザーによって駆動される。 ある共鳴条件下では、ゼロ光子状態 $|0\rangle_{a}|0\rangle_{b}$ と、(n+m$)-光子状態 $|n\rangle_{a}|m\rangle_{b}$ の間の完全な超ラビ振動が起こる。 光子崩壊によって引き起こされる2モード相関多光子束放出はこの系で起こる。 さらに重要なことは、強い相関を持つ光子束の間に反結合効果があることを示し、この系は反結合(n+m$)光子源として振る舞う。 この研究は、現代の量子技術に潜在的な応用をもたらす2モード相関多光子源デバイスを実現するための道を開く。

The preparation of correlated multiphoton sources is an important research topic in quantum optics and quantum information science. Here, two-mode correlated multiphoton bundle emission in a nondegenerate multiphoton Jaynes-Cummings model, which is comprised of a two-level system coupled with two cavity modes is studied. The two-level system is driven by a near-resonant strong laser such that the Mollow regime dominates the physical processes in this system. Under certain resonance conditions, a perfect super-Rabi oscillation between the zero-photon state $|0\rangle_{a}|0\rangle_{b}$ and the ($n+m$)-photon state $|n\rangle_{a}|m\rangle_{b}$ of the two cavity modes can take place. Induced by the photon decay, the two-mode correlated multiphoton bundle emission occurs in this system. More importantly, the results show that there is an antibunching effect between the strongly-correlated photon bundles, so that the system behaves as an antibunched ($n+m$)-photon source. The work opens up a route towards achieving two-mode correlated multiphoton source device, which has potential applications in modern quantum technology.
翻訳日:2023-10-14 03:05:31 公開日:2023-10-10
# 6つの拡張ウィグナーの友人議論のレビューと分析

A review and analysis of six extended Wigner's friend arguments ( http://arxiv.org/abs/2308.16220v2 )

ライセンス: Link先を確認
David Schmid, Y\`il\`e Y\=ing, Matthew Leifer(参考訳) ウィグナーの友人による思考実験は、エージェントが測定を行う際に、エージェントを量子システムとして記述することの難しさを説明することを目的としていた。 量子論の正統的な解釈に挑戦する一方で、現代の解釈の多くは難解さの解消に支障を来さない。 近年、ウィグナーのアイデアの拡張がいくつか提案されている。 我々はそのような6つの議論を穏やかに紹介し、それらの多くは可能な限りシンプルで統一されたものに修正する。 特に、すべての議論が、原理上もどの観測者にもアクセスできない測定結果間の相関関係に関する仮定にヒンジしていることを示す。 次に,各議論の批判的分析を行い,特に,これらの到達不能な相関関係について,必要な仮定がどの程度動機づけられるかに焦点をあてた。 これらの仮定のいくつかは十分に動機づけられているわけではないが、量子論の性質、特にエージェントの記述とその測定について、全ての議論が明らかになっている。 その他の反応は考えられるが、これらの非ゴー定理の最も説得力のあるものは、測定結果が絶対的ではなくパースペクティブであるという見解を支持することができる。

The Wigner's friend thought experiment was intended to illustrate the difficulty one has in describing an agent as a quantum system when that agent performs a measurement. While it does pose a challenge to the orthodox interpretation of quantum theory, most modern interpretations have no trouble in resolving the difficulty. Recently, a number of extensions of Wigner's ideas have been proposed. We provide a gentle introduction to six such arguments, modifying the specifics of many of them so that they are as simple and unified as possible. In particular, we show that all of the arguments hinge on assumptions about correlations between measurement outcomes that are not accessible to any observer, even in principle. We then provide a critical analysis of each argument, focusing especially on how well one can motivate the required assumptions regarding these inaccessible correlations. Although we argue that some of these assumptions are not entirely well-motivated, all of the arguments do shed light on the nature of quantum theory, especially when concerning the description of agents and their measurements. Although there are other possible responses, the most compelling of these no-go theorems can be taken to support the view that measurement outcomes are perspectival rather than absolute.
翻訳日:2023-10-14 03:05:05 公開日:2023-10-10
# リンドブラディアンによる単層地盤準備

Single-ancilla ground state preparation via Lindbladians ( http://arxiv.org/abs/2308.15676v2 )

ライセンス: Link先を確認
Zhiyan Ding and Chi-Fang Chen and Lin Lin(参考訳) 我々は、早期耐故障状態における基底状態の準備のための量子アルゴリズムを設計する。 モンテカルロ型量子アルゴリズムとして,対象状態が定常なリンドブラジアンを特徴とし,その進化は1つのアンシラ量子ビットを用いて効率的に実装できる。 我々のアルゴリズムは、初期状態が基底状態と重複しない場合でも基底状態を作成することができ、量子位相推定のような手法の最も重要な制限を回避できる。 変種として、より優れた効率性を示し、所望の進化時間と精度に応じてほぼ最適なシミュレーションコストを提供する離散時間アルゴリズムを提案する。 イジングモデルとハバードモデルを用いた数値シミュレーションにより,本手法の有効性と適用性を示す。

We design a quantum algorithm for ground state preparation in the early fault tolerant regime. As a Monte Carlo-style quantum algorithm, our method features a Lindbladian where the target state is stationary, and its evolution can be efficiently implemented using just one ancilla qubit. Our algorithm can prepare the ground state even when the initial state has zero overlap with the ground state, bypassing the most significant limitation of methods like quantum phase estimation. As a variant, we also propose a discrete-time algorithm, demonstrating even better efficiency and providing a near-optimal simulation cost depending on the desired evolution time and precision. Numerical simulation using Ising models and Hubbard models demonstrates the efficacy and applicability of our method.
翻訳日:2023-10-14 03:04:44 公開日:2023-10-10
# マルチパーティライト量子相関とその3種類の測定方法

Multipartite Bipartite Quantum Correlation and Its Three Types of Measures ( http://arxiv.org/abs/2308.03044v4 )

ライセンス: Link先を確認
Jing-Min Zhu(参考訳) MQC (Multipartite quantum correlation) は多くの新しい微視的およびマクロ的な量子現象を説明できるだけでなく、異なる利点を持つ特定の量子技術にも期待できる。 MQCのリッチで複雑な組織と構造のため、その説明と対策は進行中の議論の対象となっている。 本稿では,mqcの記述と量子技術への応用について再考する。 本稿では,直観的かつ明快な物理像を提供する多成分二成分qcと呼ばれる新しい記述を提案する。 具体的には,局所測定の極小エントロピー様差に基づく第1類,多成分二分体qdなどの多成分密度行列に基づく第2類,多成分二分体hsdなどの極小トレース状幾何距離に基づく第3類,多成分二分体lmimdやlemidなどの非一貫性に基づく第3類について述べる。 これらの測定に必要な計算は比較的容易である。 さらに、これらすべての利点は、様々な量子技術における特定の潜在的な応用への有望な候補となる。 最後に、これらの3つの尺度を用いて、典型的なMQCの組織と構造を調査し、それらの物理的意味と数学的構造に基づいて、それらの利点と欠点を分析する。

Multipartite quantum correlation (MQC) not only explains many novel microscopic and macroscopic quantum phenomena, but also holds promise for specific quantum technologies with distinct advantages. Due to the rich and complex organization and structure of MQC, their descriptions and measures have been a subject of ongoing discussion. In this paper, we reconsider the descriptions of MQC and their practical applications in quantum technologies. We propose a novel description called multipartite bipartite QC, which provides an intuitive and clear physical picture. Specifically, we present three types of measures: the first class based on minimal entropy-like difference of local measurement fore-and-aft multipartite bipartite density matrix such as multipartite bipartite QD, the second based on minimal trace-like geometric distance such as multipartite bipartite HSD, and the third based on decoherence such as multipartite bipartite LMIMD and LEMID. The computations required for these measures are relatively easy. Furthermore, all of the advantages make them promising candidates for specific potential applications in various quantum technologies. Finally, we employ these three measures to explore the organization and structure of typical genuine MQCs, and analyze their advantages and disadvantages based on their physical implications and mathematical structures.
翻訳日:2023-10-14 03:04:33 公開日:2023-10-10
# 量子コンピュータの利用に関する包括的調査:どの目的でクビットが使われているか?

A comprehensive survey on quantum computer usage: How many qubits are employed for what purposes? ( http://arxiv.org/abs/2307.16130v2 )

ライセンス: Link先を確認
Tsubasa Ichikawa, Hideaki Hakoshima, Koji Inui, Kosuke Ito, Ryo Matsuda, Kosuke Mitarai, Koichi Miyamoto, Wataru Mizukami, Kaoru Mizuta, Toshio Mori, Yuichiro Nakano, Akimoto Nakayama, Ken N. Okada, Takanori Sugimoto, Souichi Takahira, Nayuta Takemori, Satoyuki Tsukano, Hiroshi Ueda, Ryo Watanabe, Yuichiro Yoshida, Keisuke Fujii(参考訳) 量子力学の法則に基づく量子コンピュータ(qcs)は、素因数分解や量子多体系のシミュレーションのようないくつかの計算タスクにおいて、古典的コンピュータよりも高速であることが期待されている。 過去10年間で、QCの研究と開発が急速に進んでいる。 今では数百の物理キュービットが使われており、いくつかの驚くべき実験が、特定の計算タスクで古典的コンピュータを上回っています。 一方、QCの典型的な使用法は定かではない。 ここでは,arxiv の quant-ph セクションに投稿された論文について広範な調査を行い,その要約に qcs を用いたと主張している。 我々は,QCの研究・開発の現状を理解するため,採用キュービット数,QPUベンダ数,アプリケーションドメイン数など,論文に関する記述統計を評価した。 調査の結果,出版物の年次数は増加傾向にあり,典型的なクビット数は6~10であり,量子ボリューム(QV)の増加とともに増加することがわかった。 プリプリントのほとんどは量子機械学習、凝縮物質物理学、量子化学などの応用に特化しているが、量子エラー補正と量子ノイズ軽減は他のトピックよりも多くの量子ビットを使用する。 これらのことから、qvの増加は基本的に関連しており、量子誤差補正の実験や、より量子ビットの浅い回路によるノイズ緩和が行われる。

Quantum computers (QCs), which work based on the law of quantum mechanics, are expected to be faster than classical computers in several computational tasks such as prime factoring and simulation of quantum many-body systems. In the last decade, research and development of QCs have rapidly advanced. Now hundreds of physical qubits are at our disposal, and one can find several remarkable experiments actually outperforming the classical computer in a specific computational task. On the other hand, it is unclear what the typical usages of the QCs are. Here we conduct an extensive survey on the papers that are posted in the quant-ph section in arXiv and claim to have used QCs in their abstracts. To understand the current situation of the research and development of the QCs, we evaluated the descriptive statistics about the papers, including the number of qubits employed, QPU vendors, application domains and so on. Our survey shows that the annual number of publications is increasing, and the typical number of qubits employed is about six to ten, growing along with the increase in the quantum volume (QV). Most of the preprints are devoted to applications such as quantum machine learning, condensed matter physics, and quantum chemistry, while quantum error correction and quantum noise mitigation use more qubits than the other topics. These imply that the increase in QV is fundamentally relevant, and more experiments for quantum error correction, and noise mitigation using shallow circuits with more qubits will take place.
翻訳日:2023-10-14 03:04:07 公開日:2023-10-10
# ユニバーサルトランスバーサルゲート集合のための量子ゴレイ符号を用いたコード変換

Code conversion with the quantum Golay code for a universal transversal gate set ( http://arxiv.org/abs/2307.14425v2 )

ライセンス: Link先を確認
Matthew Sullivan(参考訳) 7,1,3]]$ steane codeと$[[23,1,7]]$ quantum golay codeは、コード結合によるフォールトトレラントな量子コンピューティングの候補として認識されている。 これら2つの符号はクリフォードゲートを横断的に実装するが、フォールトトレラントな$T$ゲートの他のスキームを必要とする。 マジックステート、クリフォード演算、測定は一般的なスキームであるが、マジックステート蒸留には大きなオーバーヘッドがある。 コード変換は、マジック状態蒸留を使わずにユニバーサルゲートセットをフォールトトレラントに実装するための1つの方法である。 $[[7,1,3]]$ Steaneコードをフォールトトレラントに変換し、$[[[15,1,3]]$ Reed-Mullerコードから、$T$ゲートを変換した$[[23,1,7]$ Golayコードを$[[[95,1,7]$ triorthogonal code with a transversal $T$ gateに変換できる。 この手順の重要な要素は$[[49,1,5]]$ triorthogonal codeであり、これはそれ自体が$[[17,1,5]$ 2dカラーコードと関連していると見なすことができる。 さらに、安定化器の測定値ではなく、符号間の横断的cnotに基づく新しい符号変換法について述べる。

The $[[7,1,3]]$ Steane code and $[[23,1,7]]$ quantum Golay code have been identified as good candidates for fault-tolerant quantum computing via code concatenation. These two codes have transversal implementations of all Clifford gates, but require some other scheme for fault-tolerant $T$ gates. Using magic states, Clifford operations, and measurements is one common scheme, but magic state distillation can have a large overhead. Code conversion is one avenue for implementing a universal gate set fault-tolerantly without the use of magic state distillation. Analogously to how the $[[7,1,3]]$ Steane code can be fault-tolerantly converted to and from the $[[15,1,3]]$ Reed-Muller code which has a transversal $T$ gate, the $[[23,1,7]]$ Golay code can be converted to a $[[95,1,7]]$ triorthogonal code with a transversal $T$ gate. A crucial ingredient to this procedure is the $[[49,1,5]]$ triorthogonal code, which can itself be seen as related to the self-dual $[[17,1,5]]$ 2D color code. Additionally, a new method for code conversion based off a transversal CNOT between the codes, rather than stabilizer measurements, is described.
翻訳日:2023-10-14 03:03:42 公開日:2023-10-10
# 産業サイバー物理システムにおけるロバストな物理形サイバー攻撃認識のための変分オートエンコーダフレームワーク

A Variational Autoencoder Framework for Robust, Physics-Informed Cyberattack Recognition in Industrial Cyber-Physical Systems ( http://arxiv.org/abs/2310.06948v1 )

ライセンス: Link先を確認
Navid Aftabi, Dan Li and Paritosh Ramanan(参考訳) 産業用サイバーフィジカルシステムのサイバーセキュリティは、データ通信がますます無線ネットワークを活用しているため、重大な懸念にさらされている。 サイバー攻撃を検出するために多くのデータ駆動手法が開発されたが、機器の故障と区別することに焦点を絞ったものは少ない。 本稿では,ネットワーク化された産業制御システムに対する隠蔽攻撃と呼ばれるサイバー攻撃の検知,診断,局所化に使用できるデータ駆動型フレームワークを開発する。 このフレームワークは、可変オートエンコーダ(VAE)、リカレントニューラルネットワーク(RNN)、ディープニューラルネットワーク(DNN)を組み合わせたハイブリッド設計である。 このデータ駆動フレームワークは、センサ測定の時系列から特徴を抽出する汎用物理システムの時間的挙動を考慮し、隠密な攻撃の検出、機器の故障との区別、アタック/フォールトのローカライズに使用できる。 ICSの典型例として,ネットワーク型電力伝送システムにおける実例シミュレーションによる提案手法の性能評価を行った。 提案手法の性能を従来のモデルベース手法と比較し,適用性と有効性を示す。

Cybersecurity of Industrial Cyber-Physical Systems is drawing significant concerns as data communication increasingly leverages wireless networks. A lot of data-driven methods were develope for detecting cyberattacks, but few are focused on distinguishing them from equipment faults. In this paper, we develop a data-driven framework that can be used to detect, diagnose, and localize a type of cyberattack called covert attacks on networked industrial control systems. The framework has a hybrid design that combines a variational autoencoder (VAE), a recurrent neural network (RNN), and a Deep Neural Network (DNN). This data-driven framework considers the temporal behavior of a generic physical system that extracts features from the time series of the sensor measurements that can be used for detecting covert attacks, distinguishing them from equipment faults, as well as localize the attack/fault. We evaluate the performance of the proposed method through a realistic simulation study on a networked power transmission system as a typical example of ICS. We compare the performance of the proposed method with the traditional model-based method to show its applicability and efficacy.
翻訳日:2023-10-14 02:54:51 公開日:2023-10-10
# llmsがスクリプトキッディを殺害:大規模言語モデルでサポートされたエージェントがネットワーク脅威テストの展望を変える

LLMs Killed the Script Kiddie: How Agents Supported by Large Language Models Change the Landscape of Network Threat Testing ( http://arxiv.org/abs/2310.06936v1 )

ライセンス: Link先を確認
Stephen Moskal, Sam Laney, Erik Hemberg, Una-May O'Reilly(参考訳) 本稿では,脅威を推論し,ツールに関する情報を生成し,サイバーキャンペーンを自動化するLarge Language Models(LLM)の可能性を検討する。 まず、特定の脅威に関連する行動や決定を支援するために、LSMを手動で調査することから始めます。 サイバーキャンペーンにおける意思決定プロセスの自動化を進めます。 本稿では,脅威キャンペーンの1つのアクションに対する計画-行動-報告ループと,マルチアクションキャンペーンの逐次決定過程を指示する迅速な連鎖設計について述べる。 LLMのサイバー特有の知識の程度を、我々がデモした短いキャンペーンで評価し、実行可能な応答を引き出すための迅速な設計に関する洞察を提供する。 我々は,脅威環境に対するllmの潜在的影響と,脅威アクタ能力の促進にllmを使用する倫理的考察について論じる。 我々は、創造的AIをサイバー脅威に応用する有望だが、それについて報告する。 しかし、より複雑なネットワーク、高度な脆弱性、およびプロンプトの感度を扱うLLMの能力は、オープンな疑問である。 この研究は、LLMが支援するサイバー敵の状況における必然的な進歩に関する議論を喚起するだろう。

In this paper, we explore the potential of Large Language Models (LLMs) to reason about threats, generate information about tools, and automate cyber campaigns. We begin with a manual exploration of LLMs in supporting specific threat-related actions and decisions. We proceed by automating the decision process in a cyber campaign. We present prompt engineering approaches for a plan-act-report loop for one action of a threat campaign and and a prompt chaining design that directs the sequential decision process of a multi-action campaign. We assess the extent of LLM's cyber-specific knowledge w.r.t the short campaign we demonstrate and provide insights into prompt design for eliciting actionable responses. We discuss the potential impact of LLMs on the threat landscape and the ethical considerations of using LLMs for accelerating threat actor capabilities. We report a promising, yet concerning, application of generative AI to cyber threats. However, the LLM's capabilities to deal with more complex networks, sophisticated vulnerabilities, and the sensitivity of prompts are open questions. This research should spur deliberations over the inevitable advancements in LLM-supported cyber adversarial landscape.
翻訳日:2023-10-14 02:54:32 公開日:2023-10-10
# オーディオブックの韻律解析

Prosody Analysis of Audiobooks ( http://arxiv.org/abs/2310.06930v1 )

ライセンス: Link先を確認
Charuta Pethe, Yunting Yin, Steven Skiena(参考訳) 近年のテキスト音声合成の進歩により、テキストから自然な音声を生成できるようになった。 しかし、オーディオブックのナレーションには、読者による劇的な発声とイントネーションが含まれており、物語中の感情、対話、説明に依拠している。 93組の本とオーディオブックのペアのデータセットを用いて,言語モデルを用いた物語テキストから韻律予測特性(ピッチ,ボリューム,発話率)の改善モデルを提案する。 私たちの予測した韻律属性は、最先端の商用ttsシステムによる結果よりも、人間のオーディオブックの読みにかなりよく相関する: 予測されたピッチは、24冊中22冊の人間の読みと高い相関を示し、予測されたボリューム属性は、24冊中23冊の人間の読みとよりよく似ていることを証明します。 最後に,本研究では,商用音声読み上げシステムよりも韻律エンハンスドオーディオブックが好まれる程度を定量化するために,人間による評価を行った。

Recent advances in text-to-speech have made it possible to generate natural-sounding audio from text. However, audiobook narrations involve dramatic vocalizations and intonations by the reader, with greater reliance on emotions, dialogues, and descriptions in the narrative. Using our dataset of 93 aligned book-audiobook pairs, we present improved models for prosody prediction properties (pitch, volume, and rate of speech) from narrative text using language modeling. Our predicted prosody attributes correlate much better with human audiobook readings than results from a state-of-the-art commercial TTS system: our predicted pitch shows a higher correlation with human reading for 22 out of the 24 books, while our predicted volume attribute proves more similar to human reading for 23 out of the 24 books. Finally, we present a human evaluation study to quantify the extent that people prefer prosody-enhanced audiobook readings over commercial text-to-speech systems.
翻訳日:2023-10-14 02:54:14 公開日:2023-10-10
# 縮退拡散モデルによる宇宙シミュレーションの確率的超解像

Stochastic Super-resolution of Cosmological Simulations with Denoising Diffusion Models ( http://arxiv.org/abs/2310.06929v1 )

ライセンス: Link先を確認
Andreas Schanz, Florian List, Oliver Hahn(参考訳) 近年、深層学習モデルが「スーパーレゾリューション」として知られる小規模情報を用いた低解像度宇宙シミュレーションの強化に成功している。 これらの宇宙論的超解像モデルは、非常に現実的な結果が得られるが、様々な欠点(サンプルの多様性の低さなど)に悩まされているGAN(Generative Adversarial Network)に依存している。 超解宇宙大規模構造予測のための強力な生成モデルとしてデノナイジング拡散モデルを導入する(2次元における最初の概念実証として)。 そこで我々は,画素単位の学習目標において,異なる尺度の重要性を再分配する新しい「フィルタブースト」訓練手法を開発した。 我々は,提案モデルが高解像度画像とパワースペクトルをパーセンテージレベルで一貫するだけでなく,与えられた低解像度シミュレーションと整合した小型特徴の多様性を再現できることを示した。 これにより、生成された小さな特徴に対する不確実な定量化が可能となり、宇宙構造形成のための生存可能な代理モデルとしてそのような超解像モデルの有用性に重要なものとなる。

In recent years, deep learning models have been successfully employed for augmenting low-resolution cosmological simulations with small-scale information, a task known as "super-resolution". So far, these cosmological super-resolution models have relied on generative adversarial networks (GANs), which can achieve highly realistic results, but suffer from various shortcomings (e.g. low sample diversity). We introduce denoising diffusion models as a powerful generative model for super-resolving cosmic large-scale structure predictions (as a first proof-of-concept in two dimensions). To obtain accurate results down to small scales, we develop a new "filter-boosted" training approach that redistributes the importance of different scales in the pixel-wise training objective. We demonstrate that our model not only produces convincing super-resolution images and power spectra consistent at the percent level, but is also able to reproduce the diversity of small-scale features consistent with a given low-resolution simulation. This enables uncertainty quantification for the generated small-scale features, which is critical for the usefulness of such super-resolution models as a viable surrogate model for cosmic structure formation.
翻訳日:2023-10-14 02:53:56 公開日:2023-10-10
# 定深度回路によるフォールトトレラント論理ゲートと非配向位相安定器及びフロケ符号上の創発対称性

Fault-tolerant logical gates via constant depth circuits and emergent symmetries on non-orientable topological stabilizer and Floquet codes ( http://arxiv.org/abs/2310.06917v1 )

ライセンス: Link先を確認
Ryohei Kobayashi, Guanyu Zhu(参考訳) 我々は、Showrの9ビットコードを拡張するコード群である、位相安定器符号とFloquet符号を、非配向曲面上で定義する。 この設定における$\mathbb{z}_2$ toric符号のフォールトトレラント論理ゲートについて検討し、基礎となる$\mathbb{z}_2$ゲージ理論の対称性を交換する$e\leftrightarrow m$に対応する。 非向き付け可能な幾何学は、創発的対称性がコード空間に作用する新しい方法を提供し、また、単一クロスキャップを持つ曲面上の2d$\mathbb{z}_2$ toric符号のフォールトトレラントなアダマールゲートが、$\mathbb{rp}^2$コードと呼ばれる新しい実現を見出している。 このアダマールゲートは、クロスキャップによって生じる局所的な局所的一様回路の非局所性により実現可能であり、これによりエラーの伝搬を低減し、表面符号上の既知実現よりも2倍距離低減の問題を解消する。 折り畳みによって、$\mathbb{RP}^2$の符号は二層局所量子コードに変換され、折り畳まれたクロスキャップはギャップ境界上の二層ねじれと等価であり、論理的アダマールは層内結合を持つ局所ゲートのみを含む。 さらに、$\mathbb{rp}^2$符号のスタックに対する完全な論理クリフォードゲート集合を得る。 次に,単一クロスキャップの存在下でハニカム・フロッケ符号を構築し,シーケンシャル・ポーリの周期が単一論理キュービット上の$hz$論理ゲートとして作用することを見いだし,クロスキャップが向き付け可能な場合と比較してダイナミクスを豊かにする。 ハニカム・フロッケ符号の動力学は、$\mathbb{z}_2$ゲージ理論の凝縮作用素によって正確に説明され、向き付け不可能な曲面で支持される凝縮作用素の観点で、我々のコードのエキゾチックなダイナミクスを示す。

We consider the topological stabilizer code and Floquet code defined on a non-orientable surface, which can be considered as families of codes extending Shor's 9-qubit code. We investigate the fault-tolerant logical gates of the $\mathbb{Z}_2$ toric code in this setup, which corresponds to $e\leftrightarrow m$ exchanging symmetry of the underlying $\mathbb{Z}_2$ gauge theory. We find that non-orientable geometry provides a new way the emergent symmetry acts on the code space, and discover the new realization of the fault-tolerant Hadamard gate of 2d $\mathbb{Z}_2$ toric code on a surface with a single cross-cap, dubbed an $\mathbb{RP}^2$ code. This Hadamard gate can be realized by a constant-depth local unitary circuit modulo non-locality caused by a cross-cap, thus reduces the error propagation and eliminates the problem of the factor-of-two distance reduction compared with the previously known realization on a surface code. Via folding, the $\mathbb{RP}^2$ code can be turned into a bilayer local quantum code, where the folded cross-cap is equivalent to a bi-layer twist terminated on a gapped boundary and the logical Hadamard only contains local gates with intra-layer couplings. We further obtain the complete logical Clifford gate set for a stack of $\mathbb{RP}^2$ codes. We then construct the honeycomb Floquet code in the presence of a single cross-cap, and find that the period of the sequential Pauli measurements acts as a $HZ$ logical gate on the single logical qubit, where the cross-cap enriches the dynamics compared with the orientable case. We find that the dynamics of the honeycomb Floquet code is precisely described by a condensation operator of the $\mathbb{Z}_2$ gauge theory, and illustrate the exotic dynamics of our code in terms of a condensation operator supported at a non-orientable surface.
翻訳日:2023-10-14 02:53:38 公開日:2023-10-10
# エンタングルメントによる重力におけるヨルダンとアインシュタインのフレームの識別

Distinguishing Jordan and Einstein frames in gravity through entanglement ( http://arxiv.org/abs/2310.06899v1 )

ライセンス: Link先を確認
Sumanta Chakraborty, Anupam Mazumdar and Ritapriya Pradhan(参考訳) 一般相対性理論では、共形変換の使用はユビキタスであり、ヨルダンフレームとアインシュタインフレームと呼ばれる2つの異なる参照フレームにつながり、どちらも古典的に同じ方法で物理現象を記述することができる。 通常、ヨルダンのフレームからアインシュタインのフレームへの変換は、しばしば既に理論に存在している追加のスカラー自由度を導入することである。 量子レベルでは、この余分な自由度のため、これらの2つのフレームは、2つの大きな物体間の絡み合いが探究できる微妙な違いを示す。

In general relativity, the use of conformal transformation is ubiquitous and leads to two different frames of reference, known as the Jordan and the Einstein frames, both of which can describe the physical phenomena in an equivalent manner, classically. Typically, the transformation from the Jordan frame to the Einstein frame involves introducing an additional scalar degree of freedom, often already present in the theory. We will show that at the quantum level, owing to this extra scalar degree of freedom these two frames exhibit subtle differences that the entanglement between two massive objects can probe.
翻訳日:2023-10-14 02:52:55 公開日:2023-10-10
# 断熱超伝導論理を用いたスケーラブル量子ビット制御

Scalable quantum-bit controller using adiabatic superconductor logic ( http://arxiv.org/abs/2310.06544v1 )

ライセンス: Link先を確認
Naoki Takeuchi, Taiki Yamae, Taro Yamashita, Tsuyoshi Yamamoto, Nobuyuki Yoshikawa(参考訳) 低温量子ビット(QC)コントローラは、大規模な超伝導量子プロセッサを構築する鍵である。 しかし、拡張性のあるQCの開発は、希釈冷凍機の冷却力が小さすぎる(約10mK)ため、補体金属酸化物-半導体論理や超伝導単流体-量子論理などの従来の論理ファミリを操作するのが困難である。 本稿では,超低消費電力超伝導体論理系,すなわちAQFP論理を用いたスケーラブルQCについて報告する。 AQFPベースのQCは、AQFP-multiplexed QC (AQFP-mux QC) と呼ばれ、量子ビット制御のためのマルチトンマイクロ波信号を生成する。 さらに、AQFP-mux QCはマイクロ波多重化を採用し、システム全体を操作するための同軸ケーブルの数を減らす。 概念実証として、マイクロ波多重化と非多重化による2つの出力ポートでマイクロ波信号を生成するAQFP-mux QCチップを実証する。 実験の結果,出力ポートの出力電力は80dbm,オン/オフ比は40dbであった。 また, サイドバンド信号の観測により, 基本混合動作を示す。

Cryogenic quantum-bit (qubit) controllers (QCs) are the key to build large-scale superconducting quantum processors. However, developing scalable QCs is challenging because the cooling power of a dilution refrigerator is too small (~10 {\mu}W at ~10 mK) to operate conventional logic families, such as complementary metal-oxide-semiconductor logic and superconducting single-flux-quantum logic, near qubits. Here we report a scalable QC using an ultra-low-power superconductor logic family, namely adiabatic quantum-flux-parametron (AQFP) logic. The AQFP-based QC, referred to as the AQFP-multiplexed QC (AQFP-mux QC), produces multi-tone microwave signals for qubit control with an extremely small power dissipation of 81.8 pW per qubit. Furthermore, the AQFP-mux QC adopts microwave multiplexing to reduce the number of coaxial cables for operating the entire system. As a proof of concept, we demonstrate an AQFP-mux QC chip that produces microwave signals at two output ports through microwave multiplexing and demultiplexing. Experimental results show an output power of ~80 dBm and on/off ratio of ~40 dB at each output port. Basic mixing operation is also demonstrated by observing sideband signals.
翻訳日:2023-10-14 02:52:43 公開日:2023-10-10
# SMOOT: オンライントレーニングを最適化したSaliency Guided Mask

SMOOT: Saliency Guided Mask Optimized Online Training ( http://arxiv.org/abs/2310.00772v2 )

ライセンス: Link先を確認
Ali Karkehabadi, Houman Homayoun, Avesta Sasan(参考訳) ディープニューラルネットワークは、複雑なパターンを理解し、意思決定するための強力なツールである。 しかし、そのブラックボックスの性質は内部の動作を完全に理解することを妨げている。 Saliency-Guided Training (SGT)メソッドは、この問題を緩和するために出力に基づいて、モデルのトレーニングで顕著な特徴を強調しようとする。 これらの方法はバックプロパゲーションと修正された勾配を用いてモデルを最も関連する特徴へと導くと同時に、予測精度への影響を無視する。 SGTは入力を部分的にマスキングすることで、モデルの最終的な結果をより解釈できるようにする。 このように、モデルの出力を考えると、入力の各セグメントが出力にどのように影響するかを推測できる。 入力として画像の特定の場合には、入力画素にマスキングが適用される。 しかし、マスキング戦略と、我々がマスキングする画素数は、ハイパーパラメータと見なされている。 マスキング戦略の適切な設定は、モデルのトレーニングに直接影響を及ぼす可能性がある。 本稿では,この問題に着目し,その貢献について述べる。 本稿では,トレーニング中の入力,精度,モデル損失に基づいて,マスク画像の最適数を決定する手法を提案する。 この戦略は情報損失を防ぎ、精度を向上させる。 また,モデルの性能を戦略公式に組み込むことにより,我々のモデルがより有意義な特徴を表すことを示す。 実験の結果, モデル精度, 精度の両面で有意な改善がみられ, 提案手法の有効性が確認された。

Deep Neural Networks are powerful tools for understanding complex patterns and making decisions. However, their black-box nature impedes a complete understanding of their inner workings. Saliency-Guided Training (SGT) methods try to highlight the prominent features in the model's training based on the output to alleviate this problem. These methods use back-propagation and modified gradients to guide the model toward the most relevant features while keeping the impact on the prediction accuracy negligible. SGT makes the model's final result more interpretable by masking input partially. In this way, considering the model's output, we can infer how each segment of the input affects the output. In the particular case of image as the input, masking is applied to the input pixels. However, the masking strategy and number of pixels which we mask, are considered as a hyperparameter. Appropriate setting of masking strategy can directly affect the model's training. In this paper, we focus on this issue and present our contribution. We propose a novel method to determine the optimal number of masked images based on input, accuracy, and model loss during the training. The strategy prevents information loss which leads to better accuracy values. Also, by integrating the model's performance in the strategy formula, we show that our model represents the salient features more meaningful. Our experimental results demonstrate a substantial improvement in both model accuracy and the prominence of saliency, thereby affirming the effectiveness of our proposed solution.
翻訳日:2023-10-14 02:51:37 公開日:2023-10-10
# 人工知能による分解に基づく最適化から人間を外す:その2 初期化の学習

Taking the human out of decomposition-based optimization via artificial intelligence: Part II. Learning to initialize ( http://arxiv.org/abs/2310.07082v1 )

ライセンス: Link先を確認
Ilias Mitrai, Prodromos Daoutidis(参考訳) 大規模最適化問題の繰り返し解は、プロセスシステム工学のタスクで頻繁に発生する。 分解に基づく解法は、対応する計算時間を短縮するために広く用いられているが、その実装には構成が難しい複数のステップがある。 計算時間を最小化するアルゴリズムの最適初期化を学習するための機械学習手法を提案する。 アクティブおよび教師付き学習は、与えられた初期化の計算性能を予測する代理モデルを学ぶために使用される。 この手法を,混合整数モデル予測制御問題の解に対する一般化ベンダ分解の初期化に適用する。 代理モデルは、マスター問題に追加すべき初期カットの最適な数を見つけるために使用される。 その結果,提案手法は解の時間を大幅に削減し,アクティブラーニングは学習に必要なデータを減らすことができることがわかった。

The repeated solution of large-scale optimization problems arises frequently in process systems engineering tasks. Decomposition-based solution methods have been widely used to reduce the corresponding computational time, yet their implementation has multiple steps that are difficult to configure. We propose a machine learning approach to learn the optimal initialization of such algorithms which minimizes the computational time. Active and supervised learning is used to learn a surrogate model that predicts the computational performance for a given initialization. We apply this approach to the initialization of Generalized Benders Decomposition for the solution of mixed integer model predictive control problems. The surrogate models are used to find the optimal number of initial cuts that should be added in the master problem. The results show that the proposed approach can lead to a significant reduction in solution time, and active learning can reduce the data required for learning.
翻訳日:2023-10-14 02:46:25 公開日:2023-10-10
# ブロックチェーンによるセキュアな分散学習

Secure Decentralized Learning with Blockchain ( http://arxiv.org/abs/2310.07079v1 )

ライセンス: Link先を確認
Xiaoxue Zhang, Yifan Hua and Chen Qian(参考訳) Federated Learning(FL)は、データプライバシを保持し、通信効率を最適化する、モバイルおよびIoTデバイス上での分散機械学習のよく知られたパラダイムである。 FLにおける単一障害点を回避するため、分散パーソナルデバイス上での機械学習タスクの魅力的なソリューションと考えられるモデル集約にピアツーピア通信を使用するために分散フェデレーションラーニング(DFL)が提案されている。 しかし、このプロセスは、偽のモデルとデータを共有する攻撃者には弱い。 悪意のあるクライアントのグループが存在する場合、悪質な攻撃を行うことでモデルの性能を害する可能性がある。 加えて、dflでは、クライアントはモデルトレーニングを行うためのコンピューティング能力に貢献するインセンティブを欠くことが多い。 本稿では,分散モデル検証と監査にブロックチェーンを利用するブロックチェーンベースの分散連合学習(bdfl)を提案する。 bdflには、モデル検証のための監査委員会、クライアントの参加を促すインセンティブメカニズム、クライアントの信頼性を評価する評価モデル、動的ネットワーク更新のためのプロトコルスイートが含まれている。 評価の結果,システム内に悪意のあるクライアントが30~%存在しても,評価機構により,bdflは高速なモデル収束と実データセットの高精度を実現することがわかった。

Federated Learning (FL) is a well-known paradigm of distributed machine learning on mobile and IoT devices, which preserves data privacy and optimizes communication efficiency. To avoid the single point of failure problem in FL, decentralized federated learning (DFL) has been proposed to use peer-to-peer communication for model aggregation, which has been considered an attractive solution for machine learning tasks on distributed personal devices. However, this process is vulnerable to attackers who share false models and data. If there exists a group of malicious clients, they might harm the performance of the model by carrying out a poisoning attack. In addition, in DFL, clients often lack the incentives to contribute their computing powers to do model training. In this paper, we proposed Blockchain-based Decentralized Federated Learning (BDFL), which leverages a blockchain for decentralized model verification and auditing. BDFL includes an auditor committee for model verification, an incentive mechanism to encourage the participation of clients, a reputation model to evaluate the trustworthiness of clients, and a protocol suite for dynamic network updates. Evaluation results show that, with the reputation mechanism, BDFL achieves fast model convergence and high accuracy on real datasets even if there exist 30\% malicious clients in the system.
翻訳日:2023-10-14 02:46:13 公開日:2023-10-10
# 人工知能による分解に基づく最適化から人間を外す:その1. 分解のタイミングの学習

Taking the human out of decomposition-based optimization via artificial intelligence: Part I. Learning when to decompose ( http://arxiv.org/abs/2310.07068v1 )

ライセンス: Link先を確認
Ilias Mitrai, Prodromos Daoutidis(参考訳) 本稿では,モノリシックあるいは分解ベースの解法を用いるかどうかを自動的に判定するグラフ分類手法を提案する。 このアプローチでは、最適化問題は、適切な特徴セットを介して問題の変数と制約の間の構造的および機能的結合をキャプチャするグラフとして表現される。 この表現が与えられると、グラフ分類器は与えられた問題の最適解法を決定するために構築される。 提案手法は,凸混合整数非線形計画問題の解法を分岐および境界法あるいは外近似法を用いて決定する分類器の開発に用いられている。 最後に、学習した分類器を既存の混合整数最適化解法に組み込む方法を示す。

In this paper, we propose a graph classification approach for automatically determining whether to use a monolithic or a decomposition-based solution method. In this approach, an optimization problem is represented as a graph that captures the structural and functional coupling among the variables and constraints of the problem via an appropriate set of features. Given this representation, a graph classifier is built to determine the best solution method for a given problem. The proposed approach is used to develop a classifier that determines whether a convex Mixed Integer Nonlinear Programming problem should be solved using branch and bound or the outer approximation algorithm. Finally, it is shown how the learned classifier can be incorporated into existing mixed integer optimization solvers.
翻訳日:2023-10-14 02:45:54 公開日:2023-10-10
# エンドツーエンド音声認識のための音響モデル融合

Acoustic Model Fusion for End-to-end Speech Recognition ( http://arxiv.org/abs/2310.07062v1 )

ライセンス: Link先を確認
Zhihong Lei, Mingbin Xu, Shiyi Han, Leo Liu, Zhen Huang, Tim Ng, Yuanyuan Zhang, Ernest Pusateri, Mirko Hannemann, Yaqiao Deng, Man-Hung Siu(参考訳) 近年のディープラーニングと音声認識(ASR)の進歩により、エンドツーエンド(E2E)のASRシステムが実現され、精度が新たなレベルに向上した。 E2Eシステムは、音響モデル(AM)や言語モデル(LM)などの従来のASRコンポーネントを、音声テキストペアで訓練された単一のネットワークで暗黙的にモデル化する。 この単純なシステムアーキテクチャにもかかわらず、テキストコーパスのみに訓練された別々のLMをE2Eシステムに融合させることは、有益であることが証明されている。 しかし、LM融合の適用は、内部AM固有のドメインミスマッチ問題に対処できないなど、ある種の欠点を生じさせる。 LM融合の概念からインスピレーションを得て,外部AMをE2Eシステムに統合してドメインミスマッチに対処する手法を提案する。 この新しいアプローチを実装することで、様々なテストセットで最大14.3%の印象的な低下で、単語エラー率を大幅に削減しました。 また,このAM融合アプローチは,エンティティ認識の強化に特に有用であることが判明した。

Recent advances in deep learning and automatic speech recognition (ASR) have enabled the end-to-end (E2E) ASR system and boosted the accuracy to a new level. The E2E systems implicitly model all conventional ASR components, such as the acoustic model (AM) and the language model (LM), in a single network trained on audio-text pairs. Despite this simpler system architecture, fusing a separate LM, trained exclusively on text corpora, into the E2E system has proven to be beneficial. However, the application of LM fusion presents certain drawbacks, such as its inability to address the domain mismatch issue inherent to the internal AM. Drawing inspiration from the concept of LM fusion, we propose the integration of an external AM into the E2E system to better address the domain mismatch. By implementing this novel approach, we have achieved a significant reduction in the word error rate, with an impressive drop of up to 14.3% across varied test sets. We also discovered that this AM fusion approach is particularly beneficial in enhancing named entity recognition.
翻訳日:2023-10-14 02:45:41 公開日:2023-10-10
# FedMFS:選択的モーダル通信を用いた多モード融合学習

FedMFS: Federated Multimodal Fusion Learning with Selective Modality Communication ( http://arxiv.org/abs/2310.07048v1 )

ライセンス: Link先を確認
Liangqi Yuan and Dong-Jun Han and Vishnu Pandi Chellapandi and Stanislaw H. \.Zak and Christopher G. Brinton(参考訳) Federated Learning (FL) は分散機械学習(ML)パラダイムであり、モデルパラメータのみを共有することで、クライアントがオリジナルのユーザデータをアクセス、侵害、あるいはリークすることなく、協力できる。 iot(internet of things)では、エッジデバイスがマルチモーダルデータ構成と融合パラダイムを活用して、モデルパフォーマンスを高めている。 しかし、FLアプリケーションでは、2つの大きな課題が残っている。 (i)特定のモダリティを欠いた異種顧客によって引き起こされる問題に対処すること (ii)学習性能を最大化しつつコミュニケーションオーバーヘッドを最小化するために最適なモダリティアップロード戦略を考案すること。 本稿では,上記の課題に対処可能な新しいマルチモーダル融合fl手法であるfedmfs(federated multimodal fusion learning with selective modality communication)を提案する。 鍵となるアイデアは、Shapley値を使用して、各モダリティのコントリビューションとモダリティモデルサイズを定量化し、通信オーバーヘッドを測定することで、各クライアントがアグリゲーションのためにモダリティモデルをサーバに選択的にアップロードできるようにすることである。 これにより、リソースの制約やアプリケーションによって、FedMFSは通信コストに対して柔軟にパフォーマンスのバランスをとることができます。 実世界のマルチモーダルデータセットに関する実験は、fedmfsの有効性を示し、ベースラインと比較して通信オーバーヘッドを20パーセント削減しながら、同等の精度を達成している。

Federated learning (FL) is a distributed machine learning (ML) paradigm that enables clients to collaborate without accessing, infringing upon, or leaking original user data by sharing only model parameters. In the Internet of Things (IoT), edge devices are increasingly leveraging multimodal data compositions and fusion paradigms to enhance model performance. However, in FL applications, two main challenges remain open: (i) addressing the issues caused by heterogeneous clients lacking specific modalities and (ii) devising an optimal modality upload strategy to minimize communication overhead while maximizing learning performance. In this paper, we propose Federated Multimodal Fusion learning with Selective modality communication (FedMFS), a new multimodal fusion FL methodology that can tackle the above mentioned challenges. The key idea is to utilize Shapley values to quantify each modality's contribution and modality model size to gauge communication overhead, so that each client can selectively upload the modality models to the server for aggregation. This enables FedMFS to flexibly balance performance against communication costs, depending on resource constraints and applications. Experiments on real-world multimodal datasets demonstrate the effectiveness of FedMFS, achieving comparable accuracy while reducing communication overhead by one twentieth compared to baselines.
翻訳日:2023-10-14 02:45:16 公開日:2023-10-10
# ニューラルハーモニウム:非線形動的システム同定のための解釈可能な深部構造とオーディオ処理への応用

Neural Harmonium: An Interpretable Deep Structure for Nonlinear Dynamic System Identification with Application to Audio Processing ( http://arxiv.org/abs/2310.07032v1 )

ライセンス: Link先を確認
Karim Helwani, Erfan Soltanmohammadi, Michael M. Goodwin(参考訳) 深層ニューラルネットワークの解釈性の向上は、特に物理学の問題を解くために深層学習の力を活用した場合、近年注目を集めている。 解釈性はモデルが一般化し、その限界を明らかにする能力を理解するのに役立ちます。 本稿では,動的システムモデリングのための因果解釈可能な深部構造を提案する。 提案モデルでは,高時間分解能とスペクトル分解能を維持しつつ,時間周波数領域でシステムのモデル化を行い,高調波解析を行う。 さらに、モデルは順序再帰的な方法で構築され、明示的なヘッセン計算を必要とせず、高速で堅牢で正確な2階最適化が可能となる。 システムを構成するブロックの高次元性を回避するため,ニューラルネットワークは周波数依存性を識別するように設計されている。 提案手法は,音声信号処理タスクに必要となる非線形システム同定問題に対して説明と検証を行う。 クラウドソース実験は, 提案手法と, 音響エコーキャンセラシナリオにおける他の最先端ソリューションとの対比により, 本手法の有効性を確認した。

Improving the interpretability of deep neural networks has recently gained increased attention, especially when the power of deep learning is leveraged to solve problems in physics. Interpretability helps us understand a model's ability to generalize and reveal its limitations. In this paper, we introduce a causal interpretable deep structure for modeling dynamic systems. Our proposed model makes use of the harmonic analysis by modeling the system in a time-frequency domain while maintaining high temporal and spectral resolution. Moreover, the model is built in an order recursive manner which allows for fast, robust, and exact second order optimization without the need for an explicit Hessian calculation. To circumvent the resulting high dimensionality of the building blocks of our system, a neural network is designed to identify the frequency interdependencies. The proposed model is illustrated and validated on nonlinear system identification problems as required for audio signal processing tasks. Crowd-sourced experimentation contrasting the performance of the proposed approach to other state-of-the-art solutions on an acoustic echo cancellation scenario confirms the effectiveness of our method for real-life applications.
翻訳日:2023-10-14 02:44:36 公開日:2023-10-10
# 消音器(ダイド・ユー・ミーン:サウンドスクワット?)AIを利用した除草用発電機

Sound-skwatter (Did You Mean: Sound-squatter?) AI-powered Generator for Phishing Prevention ( http://arxiv.org/abs/2310.07005v1 )

ライセンス: Link先を確認
Rodolfo Valentim and Idilio Drago and Marco Mellia and Federico Cerutti(参考訳) サウンドスクワット(Sound-squatting)は、単語の発音の類似性を利用して悪意あるリソースを騙すフィッシング攻撃である。 サウンドスキャッティング候補に対する積極的な防御は複雑であり、既存のソリューションは手作業によるホモフォンのリストに依存している。 本稿では,多言語AIベースのシステムであるSound-skwatterを紹介する。 sound-skwatterは、トランスフォーマーネットワークと音響モデルの革新的なマルチモーダル組み合わせを使って音の類似性を学ぶ。 sound-skwatterは、既知のホモフォンや何千もの高品質な候補を自動的にリストアップできる。 さらに、読み手と聞き手が異なる言語を話し、いかなる言語の組み合わせもサポートしている場合に、クロスランゲージのサウンドスクワットをカバーしている。 ネットワーク中心のフィッシングに対して,squated domain nameを用いたサウンドスクワッタを適用する。 生成したドメインの10%が野生に存在し、その大部分は保護ソリューションとして知られていません。 次に、人気パッケージの約17%が少なくとも1つの候補を持っているpypiパッケージマネージャへの攻撃を示す。 われわれはSound-skwatterが、インターネット上で積極的にサウンドスクワット現象を緩和するための重要な資産であると信じている。 インパクトを高めるために、オンラインデモを公開し、モデルとコードをオープンソースとしてリリースします。

Sound-squatting is a phishing attack that tricks users into malicious resources by exploiting similarities in the pronunciation of words. Proactive defense against sound-squatting candidates is complex, and existing solutions rely on manually curated lists of homophones. We here introduce Sound-skwatter, a multi-language AI-based system that generates sound-squatting candidates for proactive defense. Sound-skwatter relies on an innovative multi-modal combination of Transformers Networks and acoustic models to learn sound similarities. We show that Sound-skwatter can automatically list known homophones and thousands of high-quality candidates. In addition, it covers cross-language sound-squatting, i.e., when the reader and the listener speak different languages, supporting any combination of languages. We apply Sound-skwatter to network-centric phishing via squatted domain names. We find ~ 10% of the generated domains exist in the wild, the vast majority unknown to protection solutions. Next, we show attacks on the PyPI package manager, where ~ 17% of the popular packages have at least one existing candidate. We believe Sound-skwatter is a crucial asset to mitigate the sound-squatting phenomenon proactively on the Internet. To increase its impact, we publish an online demo and release our models and code as open source.
翻訳日:2023-10-14 02:43:39 公開日:2023-10-10
# CarDS-Plus ECGプラットフォーム:ポータブル・ウェアラブルデバイス心電図用多プラットフォーム人工知能ツールキットの開発と実現可能性評価

CarDS-Plus ECG Platform: Development and Feasibility Evaluation of a Multiplatform Artificial Intelligence Toolkit for Portable and Wearable Device Electrocardiograms ( http://arxiv.org/abs/2310.07000v1 )

ライセンス: Link先を確認
Sumukh Vasisht Shankar, Evangelos K Oikonomou, Rohan Khera(参考訳) 現代医療の急速な発展の中で、ウェアラブルとポータブルテクノロジーの統合は、コミュニティにおけるパーソナライズされた健康モニタリングにユニークな機会を提供する。 Apple Watch、FitBit、AliveCor KardiaMobileなどのデバイスは、複雑な健康データストリームの取得と処理に革命をもたらした。 これらのガジェットが収集するさまざまなデータの中で、単誘導心電図(ecg)記録は心血管の健康を監視する上で重要な情報源となっている。 これらの1誘導心電図を解釈し, 臨床診断の容易化と, 稀な心疾患の発見を図り, 人工知能の進歩が目覚ましい。 本稿では,臨床研究とケア提供を目的とした,AIベースのECGソリューションの迅速な展開を目的とした,革新的なマルチプラットフォームシステムの開発について述べる。 本研究は, 研究と臨床利用の効率を最大化するために, 設計検討を行い, 特定の応用と整合させ, データフローを発達させる。 このプロセスは、多様なウェアラブルデバイスからシングルリードのECGを受信し、データを集中型データレイクに流し、ECG解釈のためのAIモデルによるリアルタイム推論を容易にする。 プラットフォームの評価は、標準30秒の取得の後、取得から33.0秒から35.7秒の報告までの平均期間を示す。 2つの商用デバイス(apple watchとkardiamobile)でのレポート取得に大きな違いはなかった。 これらの結果は、ai-ecgアルゴリズムによるプラットフォーム間の1リードecgの活用と解釈のための、設計原則の完全統合的かつ効率的な戦略への簡潔な変換を示している。 このようなプラットフォームは、ウェアラブルおよびポータブルECGデバイス用のAI発見を、迅速なデプロイメントを通じて臨床的インパクトに翻訳する上で重要なものだ。

In the rapidly evolving landscape of modern healthcare, the integration of wearable & portable technology provides a unique opportunity for personalized health monitoring in the community. Devices like the Apple Watch, FitBit, and AliveCor KardiaMobile have revolutionized the acquisition and processing of intricate health data streams. Amidst the variety of data collected by these gadgets, single-lead electrocardiogram (ECG) recordings have emerged as a crucial source of information for monitoring cardiovascular health. There has been significant advances in artificial intelligence capable of interpreting these 1-lead ECGs, facilitating clinical diagnosis as well as the detection of rare cardiac disorders. This design study describes the development of an innovative multiplatform system aimed at the rapid deployment of AI-based ECG solutions for clinical investigation & care delivery. The study examines design considerations, aligning them with specific applications, develops data flows to maximize efficiency for research & clinical use. This process encompasses the reception of single-lead ECGs from diverse wearable devices, channeling this data into a centralized data lake & facilitating real-time inference through AI models for ECG interpretation. An evaluation of the platform demonstrates a mean duration from acquisition to reporting of results of 33.0 to 35.7 seconds, after a standard 30 second acquisition. There were no substantial differences in acquisition to reporting across two commercially available devices (Apple Watch and KardiaMobile). These results demonstrate the succcessful translation of design principles into a fully integrated & efficient strategy for leveraging 1-lead ECGs across platforms & interpretation by AI-ECG algorithms. Such a platform is critical to translating AI discoveries for wearable and portable ECG devices to clinical impact through rapid deployment.
翻訳日:2023-10-14 02:43:10 公開日:2023-10-10
# 低用量CTにおける拡散前定期的反復再建術

Diffusion Prior Regularized Iterative Reconstruction for Low-dose CT ( http://arxiv.org/abs/2310.06949v1 )

ライセンス: Link先を確認
Wenjun Xia and Yongyi Shi and Chuang Niu and Wenxiang Cong and Ge Wang(参考訳) CT(Computed tomography)は、患者が電離放射線に曝露すること。 放射線線量を減らすために、X線光子カウントを下げるか、ダウンサンプルプロジェクションビューを下げることができる。 しかし、どちらの方法も画像の品質を損なうことが多い。 そこで本研究では,拡散前に正規化される反復再構成アルゴリズムを提案する。 denoising diffusion probabilistic model (ddpm) の異常なイメージング能力について考察し,データ忠実度を優先する再構成手順と融合する。 この融合は両方の技術の利点を活かし、教師なしの枠組みで例外的な再構築結果をもたらす。 復元プロセスの効率をさらに高めるため, ネステロフ運動量加速度法を応用した。 この強化は、少ないステップで優れた拡散サンプリングを促進する。 実験で示されたように,本手法は放射線の最小化による高精細CT画像再構成への潜在的経路を提供する。

Computed tomography (CT) involves a patient's exposure to ionizing radiation. To reduce the radiation dose, we can either lower the X-ray photon count or down-sample projection views. However, either of the ways often compromises image quality. To address this challenge, here we introduce an iterative reconstruction algorithm regularized by a diffusion prior. Drawing on the exceptional imaging prowess of the denoising diffusion probabilistic model (DDPM), we merge it with a reconstruction procedure that prioritizes data fidelity. This fusion capitalizes on the merits of both techniques, delivering exceptional reconstruction results in an unsupervised framework. To further enhance the efficiency of the reconstruction process, we incorporate the Nesterov momentum acceleration technique. This enhancement facilitates superior diffusion sampling in fewer steps. As demonstrated in our experiments, our method offers a potential pathway to high-definition CT image reconstruction with minimized radiation.
翻訳日:2023-10-14 02:42:44 公開日:2023-10-10
# 次元縮小散乱レイアウトの重なりをグリッドベースで除去する手法

A Grid-based Method for Removing Overlaps of Dimensionality Reduction Scatterplot Layouts ( http://arxiv.org/abs/1903.06262v8 )

ライセンス: Link先を確認
Gladys M. Hilasaca, Wilson E. Marc\'ilio-Jr, Danilo M. Eler, Rafael M. Martins, and Fernando V. Paulovich(参考訳) 多次元データセットを解析するためのユビキタスな可視化ツールとして,DR(Diality Reduction) scatterplotレイアウトが利用されている。 それらの人気にもかかわらず、そのような散乱体は、特にデータインスタンスを表すために情報的なグリフが使われる場合、排他的であり、実行中の分析に重要な情報を難読化する可能性がある。 興味深いデータパターンの発見において、現代のDR技術の強力な能力に欠ける重複のないレイアウトを生成するか、後処理戦略として重複を取り除くか、この問題に対処するために様々な戦略が考案されている。 ポストプロセッシング技術のよい結果にもかかわらず、最も優れた手法のほとんどは散乱プロット領域を広げたり歪めたりすることで、グリフのサイズ(時々)を読めない次元に縮小し、重なりを取り除く目的を打ち破った。 本稿では,DRレイアウトの特徴を忠実に保存し,グリフサイズを最小限に制限する,DRレイアウトの重複を除去する新しい後処理戦略であるDGridを提案する。 DGridは(複数のメトリクスを考慮した大規模な比較評価を通じて)重複除去において最先端の手法であると同時に,特に大規模データセットにおいて最も高速な手法であることを示す。 また,51名の被験者を対象にしたユーザスタディでは,DGridが元の散布板の視覚的特徴と最終結果の美学を保存するための最上位技術であることが示された。

Dimensionality Reduction (DR) scatterplot layouts have become a ubiquitous visualization tool for analyzing multidimensional datasets. Despite their popularity, such scatterplots suffer from occlusion, especially when informative glyphs are used to represent data instances, potentially obfuscating critical information for the analysis under execution. Different strategies have been devised to address this issue, either producing overlap-free layouts that lack the powerful capabilities of contemporary DR techniques in uncovering interesting data patterns or eliminating overlaps as a post-processing strategy. Despite the good results of post-processing techniques, most of the best methods typically expand or distort the scatterplot area, thus reducing glyphs' size (sometimes) to unreadable dimensions, defeating the purpose of removing overlaps. This paper presents Distance Grid (DGrid), a novel post-processing strategy to remove overlaps from DR layouts that faithfully preserves the original layout's characteristics and bounds the minimum glyph sizes. We show that DGrid surpasses the state-of-the-art in overlap removal (through an extensive comparative evaluation considering multiple different metrics) while also being one of the fastest techniques, especially for large datasets. A user study with 51 participants also shows that DGrid is consistently ranked among the top techniques for preserving the original scatterplots' visual characteristics and the aesthetics of the final results.
翻訳日:2023-10-13 22:51:02 公開日:2023-10-10
# ハードデータ一貫性による潜時拡散モデルによる逆問題の解法

Solving Inverse Problems with Latent Diffusion Models via Hard Data Consistency ( http://arxiv.org/abs/2307.08123v2 )

ライセンス: Link先を確認
Bowen Song, Soo Min Kwon, Zecheng Zhang, Xinyu Hu, Qing Qu, Liyue Shen(参考訳) 拡散モデルは最近、逆問題を解くための強力な生成前駆体として現れている。 しかし、画素空間におけるトレーニング拡散モデルは、データ集約的かつ計算的に要求されるものであり、医用画像などの高次元実世界のデータに対する事前適用性を制限する。 非常に低次元空間で動作する潜在拡散モデルは、これらの課題に対する解決策を提供する。 しかし、逆問題を解くために潜在拡散モデルを導入することは、エンコーダとデコーダの非線形性のために難しい問題である。 これらの問題に対処するために,事前学習された潜在拡散モデルを用いて一般的な逆問題を解くアルゴリズムである \textit{resample} を提案する。 本アルゴリズムは,データ整合性の概念である逆サンプリングプロセス中に最適化問題を解くことによって,データの整合性を実現する。 この最適化問題を解くために, 測定一貫性のあるサンプルを雑音データ多様体にマッピングし, その利点を理論的に実証する新しい再サンプリング手法を提案する。 最後に,本手法を自然画像と医学画像の両方の線形および非線形逆問題に適用し,画素空間拡散モデルに基づく手法を含む既存の最先端手法よりも優れることを示す。

Diffusion models have recently emerged as powerful generative priors for solving inverse problems. However, training diffusion models in the pixel space are both data-intensive and computationally demanding, which restricts their applicability as priors for high-dimensional real-world data such as medical images. Latent diffusion models, which operate in a much lower-dimensional space, offer a solution to these challenges. However, incorporating latent diffusion models to solve inverse problems remains a challenging problem due to the nonlinearity of the encoder and decoder. To address these issues, we propose \textit{ReSample}, an algorithm that can solve general inverse problems with pre-trained latent diffusion models. Our algorithm incorporates data consistency by solving an optimization problem during the reverse sampling process, a concept that we term as hard data consistency. Upon solving this optimization problem, we propose a novel resampling scheme to map the measurement-consistent sample back onto the noisy data manifold and theoretically demonstrate its benefits. Lastly, we apply our algorithm to solve a wide range of linear and nonlinear inverse problems in both natural and medical images, demonstrating that our approach outperforms existing state-of-the-art approaches, including those based on pixel-space diffusion models.
翻訳日:2023-10-13 22:42:27 公開日:2023-10-10
# MyStyle++: コントロール可能なパーソナライズされた生成先

MyStyle++: A Controllable Personalized Generative Prior ( http://arxiv.org/abs/2306.04865v3 )

ライセンス: Link先を確認
Libing Zeng, Lele Chen, Yi Xu, Nima Kalantari(参考訳) 本稿では,属性の集合を明示的に制御したパーソナライズされた生成先行情報を得る手法を提案する。 最近導入されたMyStyleは、トレーニング済みのStyleGANフェイスジェネレータの重量を、個人の数枚の画像に調整する。 本システムは、顔の特徴に対する忠実度の高い対象者の画像の合成、編集、強化を可能にする。 しかし、MyStyleは生成された画像の属性を正確に制御していない。 本稿では, 発電機のチューニングに加えて, 潜在空間を整理する新しい最適化システムによってこの問題に対処することを提案する。 私たちの重要な貢献は、属性に従って特定の方向のセットに沿って、入力画像に対応する潜在符号を配置する損失を定式化することです。 提案手法はMyStyle++と呼ばれ,個々の顔の特徴を保ちながら,属性を非常に制御した人物の画像を合成,編集,拡張することが可能であることを実証する。

In this paper, we propose an approach to obtain a personalized generative prior with explicit control over a set of attributes. We build upon MyStyle, a recently introduced method, that tunes the weights of a pre-trained StyleGAN face generator on a few images of an individual. This system allows synthesizing, editing, and enhancing images of the target individual with high fidelity to their facial features. However, MyStyle does not demonstrate precise control over the attributes of the generated images. We propose to address this problem through a novel optimization system that organizes the latent space in addition to tuning the generator. Our key contribution is to formulate a loss that arranges the latent codes, corresponding to the input images, along a set of specific directions according to their attributes. We demonstrate that our approach, dubbed MyStyle++, is able to synthesize, edit, and enhance images of an individual with great control over the attributes, while preserving the unique facial characteristics of that individual.
翻訳日:2023-10-13 22:40:30 公開日:2023-10-10
# 都市土地利用における駐車時間モデル化のための機械学習アプローチ

A Machine Learning Approach for Modelling Parking Duration in Urban Land-use ( http://arxiv.org/abs/2008.01674v2 )

ライセンス: Link先を確認
Janak Parmar, Pritikana Das, Sanjaykumar Dave(参考訳) パーキングは急速に成長する途上国では避けられない問題である。 車両の数が増えるにつれて、駐車場に割り当てられる土地はますます増えていく。 しかし、インドのような発展途上国の駐車問題には注意が向けられている。 本研究では,自動車利用者の社会経済的・旅行特性が駐車時間に与える影響を解析するためのモデルを提案する。 具体的には、運転特性と駐車期間の相互関係を捉えるために、ニューラルネットワーク(anns)がデプロイされる。 ANNは、結果の最良の予測のためのパラメータ間の接続を学習し、認識するのに非常に効率的である。 ブラックボックスの性質から、アンの実用性は批判的に制限されているため、この研究はモデル解釈にガーソンアルゴリズムと局所解釈可能なモデル非依存説明(lime)を使用している。 LIMEは、開発された解釈可能なモデルで局所的に近似することで、任意の分類の予測を示す。 本研究は,オフィス・ビジネスと市場・ショッピングの2つの土地利用状況を考慮したインタビュー調査を通じて,現場で収集したマイクロデータに基づく。 その結果, LIMEによる予測の確率が高く, ユビキタスに適用可能であることがわかった。 さらに、両土地利用の結果をもとに、政策含意について論じる。 このユニークな研究は、持続可能性目標を達成するための駐車政策と管理を強化する可能性がある。

Parking is an inevitable issue in the fast-growing developing countries. Increasing number of vehicles require more and more urban land to be allocated for parking. However, a little attention has been conferred to the parking issues in developing countries like India. This study proposes a model for analysing the influence of car users' socioeconomic and travel characteristics on parking duration. Specifically, artificial neural networks (ANNs) is deployed to capture the interrelationship between driver characteristics and parking duration. ANNs are highly efficient in learning and recognizing connections between parameters for best prediction of an outcome. Since, utility of ANNs has been critically limited due to its Black Box nature, the study involves the use of Garson algorithm and Local interpretable model-agnostic explanations (LIME) for model interpretations. LIME shows the prediction for any classification, by approximating it locally with the developed interpretable model. This study is based on microdata collected on-site through interview surveys considering two land-uses: office-business and market/shopping. Results revealed the higher probability of prediction through LIME and therefore, the methodology can be adopted ubiquitously. Further, the policy implications are discussed based on the results for both land-uses. This unique study could lead to enhanced parking policy and management to achieve the sustainability goals.
翻訳日:2023-10-13 17:42:27 公開日:2023-10-10
# マルチコンセンサス分散加速グラディエント蛍光

Multi-consensus Decentralized Accelerated Gradient Descent ( http://arxiv.org/abs/2005.00797v2 )

ライセンス: Link先を確認
Haishan Ye, Luo Luo, Ziang Zhou, Tong Zhang(参考訳) 本稿では,大規模機械学習,センサネットワーク,制御理論に幅広く応用されている分散凸最適化問題について考察する。 最適な計算複雑性とほぼ最適な通信複雑性を実現する新しいアルゴリズムを提案する。 我々の理論的結果は,局所的な問題ではなく,大域的な条件数に依存する下界に一致する通信複雑性(ほぼ)を達成できるアルゴリズムが存在するかどうかに関して,オープンな問題に対して肯定的な回答を与える。 さらに、我々のアルゴリズムの線形収束は、大域的目的の強い凸性にのみ依存し、局所関数が凸であることを要求する。 提案手法の設計は,ネステロフの加速度,マルチコンセンサス,勾配追跡など,よく知られた手法の新たな統合に依拠する。 実証研究は、機械学習アプリケーションにおける我々の手法のアウトパフォーマンスを示している。

This paper considers the decentralized convex optimization problem, which has a wide range of applications in large-scale machine learning, sensor networks, and control theory. We propose novel algorithms that achieve optimal computation complexity and near optimal communication complexity. Our theoretical results give affirmative answers to the open problem on whether there exists an algorithm that can achieve a communication complexity (nearly) matching the lower bound depending on the global condition number instead of the local one. Furthermore, the linear convergence of our algorithms only depends on the strong convexity of global objective and it does \emph{not} require the local functions to be convex. The design of our methods relies on a novel integration of well-known techniques including Nesterov's acceleration, multi-consensus and gradient-tracking. Empirical studies show the outperformance of our methods for machine learning applications.
翻訳日:2023-10-13 17:41:30 公開日:2023-10-10
# グラフニューラルネットワークによる影響の最大化

Maximizing Influence with Graph Neural Networks ( http://arxiv.org/abs/2108.04623v6 )

ライセンス: Link先を確認
George Panagopoulos, Nikolaos Tziortziotis, Fragkiskos D. Malliaros, Michalis Vazirgiannis(参考訳) ネットワーク上に広がる影響を最大化するシードセットを見つけることは、よく知られたNPハード問題である。 グリーディアルゴリズムは最適に近い解を与えることができるが、影響推定のサブ確率は解を非効率にする。 本研究では,独立カスケードの影響拡散を推定する方法を学習するグラフニューラルネットワークである \textsc{glie} を提案する。 GLIEは, 教師付きトレーニングによって強化された理論上界に依存しており, 実験により, 実グラフが列車の最大10倍の精度で影響を推定できることが示されている。 計算効率を向上させるため,まずglieの予測を用いて種子選択を逐次学習するq学習法を考案する。 最後に,種集合を適応的に構築しながらノードのランク付けを行うために,glieの表現に基づいて拡散する有理サブモジュラー的影響を開発することで,最も効率的なアプローチに到達した。 提案されたアルゴリズムはインダクティブであり、300ノード未満のグラフと最大5シードのグラフでトレーニングされ、数百万ノードと最大200シードのグラフでテストされる。 最後の方法は、時間効率と影響品質の最も有望な組み合わせを示し、いくつかのベースラインを上回っている。

Finding the seed set that maximizes the influence spread over a network is a well-known NP-hard problem. Though a greedy algorithm can provide near-optimal solutions, the subproblem of influence estimation renders the solutions inefficient. In this work, we propose \textsc{Glie}, a graph neural network that learns how to estimate the influence spread of the independent cascade. GLIE relies on a theoretical upper bound that is tightened through supervised training.Experiments indicate that it provides accurate influence estimation for real graphs up to 10 times larger than the train set.Subsequently, we incorporate it into three influence maximization techniques.We first utilize Cost Effective Lazy Forward optimization substituting Monte Carlo simulations with GLIE, surpassing the benchmarks albeit with a computational overhead. To improve computational efficiency we first devise a Q-learning method that learns to choose seeds sequentially using GLIE's predictions. Finally, we arrive at the most efficient approach by developing a provably submodular influence spread based on GLIE's representations, to rank nodes while building the seed set adaptively. The proposed algorithms are inductive, meaning they are trained on graphs with less than 300 nodes and up to 5 seeds, and tested on graphs with millions of nodes and up to 200 seeds. The final method exhibits the most promising combination of time efficiency and influence quality, outperforming several baselines.
翻訳日:2023-10-13 17:34:18 公開日:2023-10-10
# unbounded loss を用いた非回帰学習--対数プールの場合

No-Regret Learning with Unbounded Losses: The Case of Logarithmic Pooling ( http://arxiv.org/abs/2202.11219v2 )

ライセンス: Link先を確認
Eric Neyman and Tim Roughgarden(参考訳) t$の時間ステップ毎に、$m$のエキスパートは、n$の成果に対する確率分布を報告します。 我々は、ログ損失を最小化することに関心がある場合(損失関数となるために)、プーリング法を最適に選択するという意味で、対数プール法(対数プール法)と呼ばれる基本的で実践的な手法に焦点を当てる。 我々は,オンラインの対戦環境において,最適なパラメータセット(すなわち,専門家の重み付け)を学習する問題を考察する。 我々は、専門家が予測を校正するという意味で、結果と予測の敵対的な選択が一貫していると仮定する。 この制約を課すことで、敵が大量の柔軟性を保った(我々の知識に)新しい半敵設定が生まれます。 本研究では,オンラインミラー降下に基づくアルゴリズムを提示し,専門家の重み付けを学習し,後見の最良の重み付けと比較して,期待する後悔値o(\sqrt{t} \log t)$を得る。

For each of $T$ time steps, $m$ experts report probability distributions over $n$ outcomes; we wish to learn to aggregate these forecasts in a way that attains a no-regret guarantee. We focus on the fundamental and practical aggregation method known as logarithmic pooling -- a weighted average of log odds -- which is in a certain sense the optimal choice of pooling method if one is interested in minimizing log loss (as we take to be our loss function). We consider the problem of learning the best set of parameters (i.e. expert weights) in an online adversarial setting. We assume (by necessity) that the adversarial choices of outcomes and forecasts are consistent, in the sense that experts report calibrated forecasts. Imposing this constraint creates a (to our knowledge) novel semi-adversarial setting in which the adversary retains a large amount of flexibility. In this setting, we present an algorithm based on online mirror descent that learns expert weights in a way that attains $O(\sqrt{T} \log T)$ expected regret as compared with the best weights in hindsight.
翻訳日:2023-10-13 17:24:31 公開日:2023-10-10
# 重み付き異方性-等方性全変動を伴う効率的な平滑化と閾値画像分割フレームワーク

An Efficient Smoothing and Thresholding Image Segmentation Framework with Weighted Anisotropic-Isotropic Total Variation ( http://arxiv.org/abs/2202.10115v4 )

ライセンス: Link先を確認
Kevin Bui, Yifei Lou, Fredrick Park, Jack Xin(参考訳) 本稿では,異方性および等方性全変動(AITV)の重み付き差を組み込んだ,効率的な多段階画像分割フレームワークを設計する。 セグメンテーションフレームワークは一般的に、平滑化としきい値化という2つの段階で構成されている。 第1段階では、$\ell_1-\alpha \ell_2$正則化器の近位演算子の閉形式解と乗算器(ADMM)の交互方向法により効率よく解けるAITV正規化ムフォードシャー(MS)モデルにより滑らかな画像を得る。 ADMMアルゴリズムの収束性を分析する。 第2段階では、スムーズな画像を$K$-meansクラスタリングで閾値付けし、最終的なセグメンテーション結果を得る。 数値実験により, 提案したセグメンテーションフレームワークは, グレースケールとカラー画像の両方に汎用性があり, 高品質なセグメンテーション結果を数秒以内で生成し, ノイズやぼかし, あるいはその両方で劣化した画像に対して頑健であることが示された。 提案手法の質的,定量的優位性を実証し,AITV法と元の凸型TVと非凸型TVの^p(0<p<1)$とを比較した。

In this paper, we design an efficient, multi-stage image segmentation framework that incorporates a weighted difference of anisotropic and isotropic total variation (AITV). The segmentation framework generally consists of two stages: smoothing and thresholding, thus referred to as SaT. In the first stage, a smoothed image is obtained by an AITV-regularized Mumford-Shah (MS) model, which can be solved efficiently by the alternating direction method of multipliers (ADMM) with a closed-form solution of a proximal operator of the $\ell_1 -\alpha \ell_2$ regularizer. Convergence of the ADMM algorithm is analyzed. In the second stage, we threshold the smoothed image by $K$-means clustering to obtain the final segmentation result. Numerical experiments demonstrate that the proposed segmentation framework is versatile for both grayscale and color images, efficient in producing high-quality segmentation results within a few seconds, and robust to input images that are corrupted with noise, blur, or both. We compare the AITV method with its original convex TV and nonconvex TV$^p (0<p<1)$ counterparts, showcasing the qualitative and quantitative advantages of our proposed method.
翻訳日:2023-10-13 17:13:50 公開日:2023-10-10
# ディープフェイクコンテンツ検出のための深層学習に基づくアプローチのレビュー

A Review of Deep Learning-based Approaches for Deepfake Content Detection ( http://arxiv.org/abs/2202.06095v2 )

ライセンス: Link先を確認
Leandro A. Passos, Danilo Jodas, Kelton A. P. da Costa, Luis A. Souza J\'unior, Douglas Rodrigues, Javier Del Ser, David Camacho, Jo\~ao Paulo Papa(参考訳) ディープラーニング生成モデルの最近の進歩は、非常に説得力のある偽造画像やビデオを作成できるという懸念を提起している。 これは人々の完全性に脅威をもたらし、社会的不安定に繋がる可能性がある。 この問題に対処するためには、偽コンテンツを効率的に検出し、潜在的な画像やビデオ操作にユーザーに警告できる新しい計算モデルを開発する必要がある。 本稿では,ディープラーニングを用いたコンテンツ検出に関する最近の研究を概観する。 我々は,偽コンテンツ検出の異なるカテゴリを体系的にレビューすることにより,最先端の研究を広めることを目指している。 さらに,本研究のメリットと欠点を報告するとともに,深度検出に未解決の課題と欠点について述べる。

Recent advancements in deep learning generative models have raised concerns as they can create highly convincing counterfeit images and videos. This poses a threat to people's integrity and can lead to social instability. To address this issue, there is a pressing need to develop new computational models that can efficiently detect forged content and alert users to potential image and video manipulations. This paper presents a comprehensive review of recent studies for deepfake content detection using deep learning-based approaches. We aim to broaden the state-of-the-art research by systematically reviewing the different categories of fake content detection. Furthermore, we report the advantages and drawbacks of the examined works and future directions towards the issues and shortcomings still unsolved on deepfake detection.
翻訳日:2023-10-13 17:13:07 公開日:2023-10-10
# 単一量子クエリを用いた一般部分ブール関数の多項式表現

Polynomial representation of general partial Boolean functions with a single quantum query ( http://arxiv.org/abs/2112.12416v3 )

ライセンス: Link先を確認
Xu Guoliang, Qiu Daowen(参考訳) 1992年初頭、deutsch-jozsaアルゴリズムは1つの量子クエリを持つ対称部分ブール関数を計算し、古典的決定論と厳密な量子クエリの複雑性の間の最良の分離を達成した。 近年まで、単一の量子クエリを持つすべての対称部分ブール関数は、deutsch-jozsaアルゴリズムによって正確に計算できることが明らかになった。 単一の量子クエリを持つ一般部分ブール関数の場合、最新の特徴付けは複雑であり、あまり満足できない。 Based on this, this paper proves and discovers three new results: (1) Establishing a new equivalence, each partial Boolean function with a single quantum query can be transformed to a simple partial Boolean function whose polynomial degree is just one; (2) For partial Boolean functions up to four bits, there are only 10 non-trivial partial Boolean functions with a single quantum query; (3) For each quantum 1-query algorithm with undefined measurement, there exists a constructive method for finding out all partial Boolean functions that can be computed exactly by the algorithm. 本質的には、最初の発見は、単一の量子クエリを持つ部分ブール関数の多項式次数が1つか2であるという基本的な結論への一歩であり、最後の2つの結果は、量子的な利点を持つより三価でない部分ブール関数の探索に寄与する。

Early in 1992, Deutsch-Jozsa algorithm computed a symmetric partial Boolean function with a single quantum query, and thus achieved the best separation between classical deterministic and exact quantum query complexity. Until recent years, it was clarified that all symmetric partial Boolean functions with a single quantum query can be computed exactly by Deutsch-Jozsa algorithm. For the general partial Boolean functions with a single quantum query, the latest characterizations is complex and not very satisfactory. Based on this, this paper proves and discovers three new results: (1) Establishing a new equivalence, each partial Boolean function with a single quantum query can be transformed to a simple partial Boolean function whose polynomial degree is just one; (2) For partial Boolean functions up to four bits, there are only 10 non-trivial partial Boolean functions with a single quantum query; (3) For each quantum 1-query algorithm with undefined measurement, there exists a constructive method for finding out all partial Boolean functions that can be computed exactly by the algorithm. Essentially, the first discovery represent a step forward for a fundamental conclusion that the polynomial degree of partial Boolean functions with a single quantum query is one or two, and the last two results contribute a way for searching more nontrival partial Boolean functions that have quantum advantages.
翻訳日:2023-10-13 17:12:37 公開日:2023-10-10
# 単一量子クエリを用いた一般部分ブール関数の多項式表現

Polynomial representation of general partial Boolean functions with a single quantum query ( http://arxiv.org/abs/2112.12416v2 )

ライセンス: Link先を確認
Xu Guoliang, Qiu Daowen(参考訳) 1992年初頭、deutsch-jozsaアルゴリズムは1つの量子クエリを持つ対称部分ブール関数を計算し、古典的決定論と厳密な量子クエリの複雑性の間の最良の分離を達成した。 近年まで、単一の量子クエリを持つすべての対称部分ブール関数は、deutsch-jozsaアルゴリズムによって正確に計算できることが明らかになった。 単一の量子クエリを持つ一般部分ブール関数の場合、最新の特徴付けは複雑であり、あまり満足できない。 Based on this, this paper proves and discovers three new results: (1) Establishing a new equivalence, each partial Boolean function with a single quantum query can be transformed to a simple partial Boolean function whose polynomial degree is just one; (2) For partial Boolean functions up to four bits, there are only 10 non-trivial partial Boolean functions with a single quantum query; (3) For each quantum 1-query algorithm with undefined measurement, there exists a constructive method for finding out all partial Boolean functions that can be computed exactly by the algorithm. 本質的には、最初の発見は、単一の量子クエリを持つ部分ブール関数の多項式次数が1つか2であるという基本的な結論への一歩であり、最後の2つの結果は、量子的な利点を持つより三価でない部分ブール関数の探索に寄与する。

Early in 1992, Deutsch-Jozsa algorithm computed a symmetric partial Boolean function with a single quantum query, and thus achieved the best separation between classical deterministic and exact quantum query complexity. Until recent years, it was clarified that all symmetric partial Boolean functions with a single quantum query can be computed exactly by Deutsch-Jozsa algorithm. For the general partial Boolean functions with a single quantum query, the latest characterizations is complex and not very satisfactory. Based on this, this paper proves and discovers three new results: (1) Establishing a new equivalence, each partial Boolean function with a single quantum query can be transformed to a simple partial Boolean function whose polynomial degree is just one; (2) For partial Boolean functions up to four bits, there are only 10 non-trivial partial Boolean functions with a single quantum query; (3) For each quantum 1-query algorithm with undefined measurement, there exists a constructive method for finding out all partial Boolean functions that can be computed exactly by the algorithm. Essentially, the first discovery represent a step forward for a fundamental conclusion that the polynomial degree of partial Boolean functions with a single quantum query is one or two, and the last two results contribute a way for searching more nontrival partial Boolean functions that have quantum advantages.
翻訳日:2023-10-13 17:12:15 公開日:2023-10-10
# 非支配的ソーティング遺伝的アルゴリズム(NSGA-II)の数学的実行解析

Mathematical Runtime Analysis for the Non-Dominated Sorting Genetic Algorithm II (NSGA-II) ( http://arxiv.org/abs/2112.08581v7 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 非支配的ソート遺伝アルゴリズムII(NSGA-II)は、現実世界の応用において最も集中的に使用される多目的進化アルゴリズムである。 しかし、数学的な方法で解析されたいくつかの単純なMOEAとは対照的に、NSGA-IIにはそのような研究は存在しない。 本研究では,NSGA-IIにも数学的ランタイム解析が適用可能であることを示す。 特に,paretoフロントの大きさの4倍の大きさの個体群を持つnsga-iiは,従来の2つの変異演算子と4つの異なる方法で親を選択することで,基本oneminmaxおよびleadingonestrailingzerosベンチマークにおけるsemoおよびgsemoアルゴリズムと同じ漸近的実行保証を満足できることが証明された。 しかし、人口の大きさがパレート前線のサイズに等しい場合、nsga-iiは完全なパレート前線を効率的に計算することはできない。 我々の実験は上記の結果を確認した。

The non-dominated sorting genetic algorithm II (NSGA-II) is the most intensively used multi-objective evolutionary algorithm (MOEA) in real-world applications. However, in contrast to several simple MOEAs analyzed also via mathematical means, no such study exists for the NSGA-II so far. In this work, we show that mathematical runtime analyses are feasible also for the NSGA-II. As particular results, we prove that with a population size four times larger than the size of the Pareto front, the NSGA-II with two classic mutation operators and four different ways to select the parents satisfies the same asymptotic runtime guarantees as the SEMO and GSEMO algorithms on the basic OneMinMax and LeadingOnesTrailingZeros benchmarks. However, if the population size is only equal to the size of the Pareto front, then the NSGA-II cannot efficiently compute the full Pareto front: for an exponential number of iterations, the population will always miss a constant fraction of the Pareto front. Our experiments confirm the above findings.
翻訳日:2023-10-13 17:11:51 公開日:2023-10-10
# MaskOCR: Masked Encoder-Decoder Pretraining によるテキスト認識

MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining ( http://arxiv.org/abs/2206.00311v3 )

ライセンス: Link先を確認
Pengyuan Lyu, Chengquan Zhang, Shanshan Liu, Meina Qiao, Yangliu Xu, Liang Wu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang(参考訳) テキスト画像は視覚情報と言語情報の両方を含んでいる。 しかし、既存のテキスト認識のための事前学習技術は主に視覚表現学習と言語知識学習に重点を置いている。 本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語事前学習を統一するための新しいアプローチであるMaskOCRを提案する。 マスク付き画像モデリングアプローチを採用して,ラベルなしの実画像の大規模なセットを用いた特徴エンコーダの事前学習を行い,強固な視覚的表現の学習を可能にした。 追加言語モデルによる言語知識の導入とは対照的に,シーケンスデコーダを直接事前学習する。 具体的には、テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、マスク付き画像言語モデリング手法を用いてシーケンスデコーダの言語モデリング能力を向上する。 重要なことに、エンコーダはシーケンシャルデコーダの事前学習フェーズ中に凍結される。 実験の結果,提案手法は,中国語や英語のテキスト画像を含むベンチマークデータセットにおいて,優れた性能を示すことがわかった。

Text images contain both visual and linguistic information. However, existing pre-training techniques for text recognition mainly focus on either visual representation learning or linguistic knowledge learning. In this paper, we propose a novel approach MaskOCR to unify vision and language pre-training in the classical encoder-decoder recognition framework. We adopt the masked image modeling approach to pre-train the feature encoder using a large set of unlabeled real text images, which allows us to learn strong visual representations. In contrast to introducing linguistic knowledge with an additional language model, we directly pre-train the sequence decoder. Specifically, we transform text data into synthesized text images to unify the data modalities of vision and language, and enhance the language modeling capability of the sequence decoder using a proposed masked image-language modeling scheme. Significantly, the encoder is frozen during the pre-training phase of the sequence decoder. Experimental results demonstrate that our proposed method achieves superior performance on benchmark datasets, including Chinese and English text images.
翻訳日:2023-10-13 16:53:01 公開日:2023-10-10
# MaskOCR: Masked Encoder-Decoder Pretraining によるテキスト認識

MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining ( http://arxiv.org/abs/2206.00311v2 )

ライセンス: Link先を確認
Pengyuan Lyu, Chengquan Zhang, Shanshan Liu, Meina Qiao, Yangliu Xu, Liang Wu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang(参考訳) テキスト画像は視覚情報と言語情報の両方を含んでいる。 しかし、既存のテキスト認識のための事前学習技術は主に視覚表現学習と言語知識学習に重点を置いている。 本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語事前学習を統一するための新しいアプローチであるMaskOCRを提案する。 マスク付き画像モデリングアプローチを採用して,ラベルなしの実画像の大規模なセットを用いた特徴エンコーダの事前学習を行い,強固な視覚的表現の学習を可能にした。 追加言語モデルによる言語知識の導入とは対照的に,シーケンスデコーダを直接事前学習する。 具体的には、テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、マスク付き画像言語モデリング手法を用いてシーケンスデコーダの言語モデリング能力を向上する。 重要なことに、エンコーダはシーケンシャルデコーダの事前学習フェーズ中に凍結される。 実験の結果,提案手法は,中国語や英語のテキスト画像を含むベンチマークデータセットにおいて,優れた性能を示すことがわかった。

Text images contain both visual and linguistic information. However, existing pre-training techniques for text recognition mainly focus on either visual representation learning or linguistic knowledge learning. In this paper, we propose a novel approach MaskOCR to unify vision and language pre-training in the classical encoder-decoder recognition framework. We adopt the masked image modeling approach to pre-train the feature encoder using a large set of unlabeled real text images, which allows us to learn strong visual representations. In contrast to introducing linguistic knowledge with an additional language model, we directly pre-train the sequence decoder. Specifically, we transform text data into synthesized text images to unify the data modalities of vision and language, and enhance the language modeling capability of the sequence decoder using a proposed masked image-language modeling scheme. Significantly, the encoder is frozen during the pre-training phase of the sequence decoder. Experimental results demonstrate that our proposed method achieves superior performance on benchmark datasets, including Chinese and English text images.
翻訳日:2023-10-13 16:52:44 公開日:2023-10-10
# 多重ランダム特徴モデルにおける多重降下

Multiple Descent in the Multiple Random Feature Model ( http://arxiv.org/abs/2208.09897v3 )

ライセンス: Link先を確認
Xuran Meng, Jianfeng Yao, Yuan Cao(参考訳) 近年の研究では、過パラメータ学習における二重降下現象が示されている。 この現象は近年研究されているが、理論上は完全には理解されていない。 本稿では,多成分予測モデルのクラスにおける多重降下現象について検討する。 まず,2種類のランダム特徴を結合した「二重ランダム特徴モデル」 (drfm) を考察し,リッジ回帰におけるdrfmによる過剰リスクについて検討した。 トレーニングサンプルサイズ,データ次元,ランダム特徴の次元が比例的に無限大となる高次元枠組みにおいて,過剰リスクの正確な限界を計算する。 この計算に基づいて,drfmのリスク曲線が三重降下を示すことを理論的に証明する。 次に、理論を検証するための徹底した実験研究を行う。 最後に, MRFM (Multiple random feature model) に研究を拡張し, MRFMが$K$のランダムな特徴を組み合わすと$(K+1)$-fold降下を示すことを示した。 本分析は,多成分予測モデルの学習において,特定の降下数を持つリスク曲線が一般的に存在することを指摘する。

Recent works have demonstrated a double descent phenomenon in over-parameterized learning. Although this phenomenon has been investigated by recent works, it has not been fully understood in theory. In this paper, we investigate the multiple descent phenomenon in a class of multi-component prediction models. We first consider a ''double random feature model'' (DRFM) concatenating two types of random features, and study the excess risk achieved by the DRFM in ridge regression. We calculate the precise limit of the excess risk under the high dimensional framework where the training sample size, the dimension of data, and the dimension of random features tend to infinity proportionally. Based on the calculation, we further theoretically demonstrate that the risk curves of DRFMs can exhibit triple descent. We then provide a thorough experimental study to verify our theory. At last, we extend our study to the ''multiple random feature model'' (MRFM), and show that MRFMs ensembling $K$ types of random features may exhibit $(K+1)$-fold descent. Our analysis points out that risk curves with a specific number of descent generally exist in learning multi-component prediction models.
翻訳日:2023-10-13 16:32:44 公開日:2023-10-10
# 時系列からのドメイン固有因果発見の学習

Learning domain-specific causal discovery from time series ( http://arxiv.org/abs/2209.05598v3 )

ライセンス: Link先を確認
Xinyue Wang, Konrad Paul Kording(参考訳) 時間変化データからの因果発見(CD)は神経科学、医学、機械学習において重要である。 ランダム化実験のための手法は、一般に偏りなく高価であるが、グランジャー因果関係、条件付き独立性に基づく、構造的等式に基づく、そして人間の設計者による強い仮定の下でのみ正確であるスコアに基づくアルゴリズムを含む。 しかし、機械学習の他の領域で示されているように、人間の専門知識は必ずしも正確ではなく、豊富なデータを持つドメインでは性能が優れている。 本研究では,データ駆動手法を用いて時系列のドメイン固有因果探索を向上できるかを検討する。 以上の結果から,MOS 6502マイクロプロセッサ,NetSim fMRIデータセット,Dream3遺伝子データセットの相互情報,VAR-LiNGAM,Granger Causalityなど,ヒトが設計したドメインに依存しない因果発見手法よりも有意に優れていることが示唆された。 我々は、因果関係が既知の因果関係を持つ広範囲なデータセットから、人間の専門家によって設計されるのではなく、ドメイン固有のCDプロシージャを学習する教師ありアプローチを考えるべきであると論じる。 本研究は、神経・医療データにおけるcd改善と、より広範な機械学習コミュニティに向けた新しいアプローチを約束する。

Causal discovery (CD) from time-varying data is important in neuroscience, medicine, and machine learning. Techniques for CD encompass randomized experiments, which are generally unbiased but expensive, and algorithms such as Granger causality, conditional-independence-based, structural-equation-based, and score-based methods that are only accurate under strong assumptions made by human designers. However, as demonstrated in other areas of machine learning, human expertise is often not entirely accurate and tends to be outperformed in domains with abundant data. In this study, we examine whether we can enhance domain-specific causal discovery for time series using a data-driven approach. Our findings indicate that this procedure significantly outperforms human-designed, domain-agnostic causal discovery methods, such as Mutual Information, VAR-LiNGAM, and Granger Causality on the MOS 6502 microprocessor, the NetSim fMRI dataset, and the Dream3 gene dataset. We argue that, when feasible, the causality field should consider a supervised approach in which domain-specific CD procedures are learned from extensive datasets with known causal relationships, rather than being designed by human specialists. Our findings promise a new approach toward improving CD in neural and medical data and for the broader machine learning community.
翻訳日:2023-10-13 16:20:24 公開日:2023-10-10
# 高次元連続関数のニューラルネットワーク近似と逆問題への応用

Neural Network Approximation of Continuous Functions in High Dimensions with Applications to Inverse Problems ( http://arxiv.org/abs/2208.13305v3 )

ライセンス: Link先を確認
Santhosh Karnik, Rongrong Wang, and Mark Iwen(参考訳) さまざまな逆問題におけるニューラルネットワークの顕著な成功は、過去10年間に医療画像から地震解析まで、さまざまな分野に採用されている。 しかし、そのような逆問題の高次元性は同時に現在の理論を残しており、これはネットワークが問題の次元で指数関数的にスケールすべきであると予測し、これらの設定で使用されるように見える小さなネットワークが実際に機能する理由を説明することができない。 この理論と実践のギャップを小さくするために、ニューラルネットワークが低複素構造を持つ高次元集合上で定義されるH\(あるいは一様)連続関数を近似するのに要する複雑さを境界付ける一般的な方法を提案する。 このアプローチは、与えられた高次元集合 $s\subset\mathbb{r}^d$ を低次元立方体 $[-m,m]^d$ に埋め込みた johnson-lindenstrauss の存在が、任意の h\"older (または一様) 連続函数 $f:s\to\mathbb{r}^p$ に対して、すべての $x\in s$ に対して $g(ax)=f(x)$ となるような h\"older (または一様)連続函数 $g:[-m,m]^d\to\mathbb{r}^p$ が存在することを仮定している。 したがって、もし$g:[-m,m]^d\to\mathbb{r}^p$に近いニューラルネットワークがある場合、$f:s\to\mathbb{r}^p$に近いニューラルネットワークを得るために、jl埋め込み$a$を実装する層を追加することができる。 jl埋め込み結果をニューラルネットワークによるh\"older(または一様)連続関数の近似結果と組み合わせることで、ニューラルネットワークが高次元集合上でh\"older(または一様)連続関数を近似するために必要な複雑性を境界とする結果が得られる。 最終的な結果は、現在の理論よりも幅広い逆問題において、より小さなネットワークで観測された経験的成功を説明するのに使用できる一般的な理論フレームワークである。

The remarkable successes of neural networks in a huge variety of inverse problems have fueled their adoption in disciplines ranging from medical imaging to seismic analysis over the past decade. However, the high dimensionality of such inverse problems has simultaneously left current theory, which predicts that networks should scale exponentially in the dimension of the problem, unable to explain why the seemingly small networks used in these settings work as well as they do in practice. To reduce this gap between theory and practice, we provide a general method for bounding the complexity required for a neural network to approximate a H\"older (or uniformly) continuous function defined on a high-dimensional set with a low-complexity structure. The approach is based on the observation that the existence of a Johnson-Lindenstrauss embedding $A\in\mathbb{R}^{d\times D}$ of a given high-dimensional set $S\subset\mathbb{R}^D$ into a low dimensional cube $[-M,M]^d$ implies that for any H\"older (or uniformly) continuous function $f:S\to\mathbb{R}^p$, there exists a H\"older (or uniformly) continuous function $g:[-M,M]^d\to\mathbb{R}^p$ such that $g(Ax)=f(x)$ for all $x\in S$. Hence, if one has a neural network which approximates $g:[-M,M]^d\to\mathbb{R}^p$, then a layer can be added that implements the JL embedding $A$ to obtain a neural network that approximates $f:S\to\mathbb{R}^p$. By pairing JL embedding results along with results on approximation of H\"older (or uniformly) continuous functions by neural networks, one then obtains results which bound the complexity required for a neural network to approximate H\"older (or uniformly) continuous functions on high dimensional sets. The end result is a general theoretical framework which can then be used to better explain the observed empirical successes of smaller networks in a wider variety of inverse problems than current theory allows.
翻訳日:2023-10-13 16:18:52 公開日:2023-10-10
# 主要サブモデルトレーニングによるエッジにおける大規模モデルのフェデレーション学習

Federated Learning of Large Models at the Edge via Principal Sub-Model Training ( http://arxiv.org/abs/2208.13141v3 )

ライセンス: Link先を確認
Yue Niu, Saurav Prakash, Souvik Kundu, Sunwoo Lee, Salman Avestimehr(参考訳) フェデレーション学習(federated learning, fl)は、クライアント間のプライベートデータ共有や集中型サーバへの共有を必要とせずに、クライアント間のコラボレーショントレーニングを可能にする、ポピュラーで有望な分散学習フレームワークとして登場している。 しかし、多くのエッジクライアントは十分なコンピューティング、メモリ、通信能力を持っていないため、大規模モデルの連合学習は依然として重大なボトルネックに直面している。 このような弱いが重要なクライアントをループに保持するには、クライアントが異なるサイズのモデルをトレーニングするヘテロジニアスクライアントの設定を検討するか、サーバにトレーニングをオフロードするかのどちらかである。 しかし、不均一なクライアント側設定では、一部のクライアントはリソース制限された設定と一致しないフルモデルをトレーニングする必要がある。 このような制限を克服するため、本研究では、クライアントが完全な大規模モデルをトレーニングしたり、中間情報をリモートサーバと共有したりできないような、現実的な、しかしはるかに探索の少ないクロスデバイスfl設定を定式化します。 このような定式化の下で,我々は,完全サーバモデルに対する確率的低ランク近似である小さなサブモデルを各クライアントに割り当てながら,完全大規模モデルを協調的に訓練するプリンシパルサブモデル(PriSM)訓練手法を開発した。 サブモデルを作成するとき、prismはまず直交カーネル空間で主カーネル解析を行い、各カーネルの重要性を得る。 次に、prismは、カーネルのサブセットを選択するために、新しい重要度対応サンプリングプロセスを採用する(すなわち、重要度の高いカーネルは、高いサンプリング確率で割り当てられる)。 このサンプリングプロセスにより、各サブモデルは依然としてフルモデルに対する低ランク近似であり、全てのサブモデルは主カーネルのほぼ完全なカバレッジを達成する。

Federated Learning (FL) is emerging as a popular, promising decentralized learning framework that enables collaborative training among clients, with no need to share private data between them or to a centralized server. However, considering many edge clients do not have sufficient computing, memory, or communication capabilities, federated learning of large models still faces significant bottlenecks. To keep such weak but crucial clients in the loop, prior works either consider a heterogeneous-client setting where clients train models with different sizes; or offload training to the server. However, the heterogeneous-client setting requires some clients to train full model, which is not aligned with the resource-constrained setting; while the latter ones break privacy promises in FL when sharing intermediate representations or labels with the server. To overcome these limitations, in this work, we formulate a realistic, but much less explored, cross-device FL setting in which no client can train a full large model nor is willing to share any intermediate information with the remote server. Under such a formulation, we develop a principal sub-model (PriSM) training methodology to collaboratively train a full large model, while assigning each client a small sub-model that is a probabilistic low-rank approximation to the full server model. When creating sub-models, PriSM first performs a principal kernel analysis in the orthogonal kernel space to obtain importance of each kernel. Then, PriSM adopts a novel importance-aware sampling process to select a subset of kernels (i.e., a kernel with high importance is assigned with a higher sampling probability). This sampling process ensures each sub-model is still a low-rank approximation to the full model, while all sub-models together achieve nearly full coverage on the principal kernels.
翻訳日:2023-10-13 16:18:03 公開日:2023-10-10
# Rank-N-Contrast: 回帰の継続的表現を学ぶ

Rank-N-Contrast: Learning Continuous Representations for Regression ( http://arxiv.org/abs/2210.01189v2 )

ライセンス: Link先を確認
Kaiwen Zha, Peng Cao, Jeany Son, Yuzhe Yang, Dina Katabi(参考訳) 深い回帰モデルは通常、回帰認識表現を明示的に強調することなくエンドツーエンドで学習する。 その結果、学習された表現は断片化を示し、サンプル順序の連続的な性質を捉えることができず、幅広い回帰タスクで最適以下の結果をもたらす。 このギャップを埋めるために、ターゲット空間のランキングに基づいてサンプルを互いに対比することで回帰の連続表現を学習するフレームワークである Rank-N-Contrast (RNC) を提案する。 理論的かつ実証的に、RNCは、目標命令に従って学習表現の望ましい順序を保証し、より良い性能だけでなく、堅牢性、効率、一般化を著しく改善したことを実証する。 コンピュータビジョン、ヒューマンコンピュータインタラクション、ヘルスケアにまたがる5つの実世界の回帰データセットを使用した大規模な実験は、RCNが最先端のパフォーマンスを達成することを確認し、データ効率の向上、刺激的なターゲットやデータの破損に対する堅牢性、分散シフトへの一般化といった興味深い特性を強調している。 コードは、https://github.com/kaiwenzha/Rank-N-Contrast.comで入手できる。

Deep regression models typically learn in an end-to-end fashion without explicitly emphasizing a regression-aware representation. Consequently, the learned representations exhibit fragmentation and fail to capture the continuous nature of sample orders, inducing suboptimal results across a wide range of regression tasks. To fill the gap, we propose Rank-N-Contrast (RNC), a framework that learns continuous representations for regression by contrasting samples against each other based on their rankings in the target space. We demonstrate, theoretically and empirically, that RNC guarantees the desired order of learned representations in accordance with the target orders, enjoying not only better performance but also significantly improved robustness, efficiency, and generalization. Extensive experiments using five real-world regression datasets that span computer vision, human-computer interaction, and healthcare verify that RNC achieves state-of-the-art performance, highlighting its intriguing properties including better data efficiency, robustness to spurious targets and data corruptions, and generalization to distribution shifts. Code is available at: https://github.com/kaiwenzha/Rank-N-Contrast.
翻訳日:2023-10-13 16:09:56 公開日:2023-10-10
# ビデオの時間的アクションセグメンテーションをリアルタイムでストリーミングする

Streaming Video Temporal Action Segmentation In Real Time ( http://arxiv.org/abs/2209.13808v3 )

ライセンス: Link先を確認
Wujun Wen, Yunheng Li, Zhuben Dong, Lin Feng, Wanxiao Yang, Shenlan Liu(参考訳) テンポラリアクションセグメンテーション(tas)は、長期的なビデオ理解への重要なステップである。 近年の研究は、生の映像情報の代わりに特徴に基づくモデルを構築するパターンに従っている。 しかし、これらのモデルは複雑に訓練され、アプリケーションのシナリオを制限していると主張する。 ビデオの全特徴が抽出された後に動作しなければならないため、ビデオの人間の動作をリアルタイムでセグメント化することは困難である。 リアルタイムアクションセグメンテーションタスクはtasタスクとは異なるので、ストリーミングビデオリアルタイムアクションセグメンテーション(svtas)タスクと定義する。 本稿では,SVTASタスクのためのリアルタイムエンドツーエンドマルチモーダリティモデルを提案する。 具体的には、将来的な情報が得られない状況下では、ビデオチャンクをリアルタイムにストリーミングする現在の人間の行動を分類する。 さらに,本モデルでは,言語モデルが抽出した最後の蒸散映像特徴と,画像モデルが抽出した現在の画像特徴とを組み合わせることにより,リアルタイムな時間的行動セグメンテーションの量を改善する。 我々の知る限りでは、これは初めてのマルチモーダルリアルタイム時空間行動分割モデルである。 フルビデオの時間的動作セグメンテーションと同じ評価基準の下では,最先端のモデル計算の40%未満でリアルタイムにヒューマンアクションをセグメンテーションし,全映像の90%の精度を達成する。

Temporal action segmentation (TAS) is a critical step toward long-term video understanding. Recent studies follow a pattern that builds models based on features instead of raw video picture information. However, we claim those models are trained complicatedly and limit application scenarios. It is hard for them to segment human actions of video in real time because they must work after the full video features are extracted. As the real-time action segmentation task is different from TAS task, we define it as streaming video real-time temporal action segmentation (SVTAS) task. In this paper, we propose a real-time end-to-end multi-modality model for SVTAS task. More specifically, under the circumstances that we cannot get any future information, we segment the current human action of streaming video chunk in real time. Furthermore, the model we propose combines the last steaming video chunk feature extracted by language model with the current image feature extracted by image model to improve the quantity of real-time temporal action segmentation. To the best of our knowledge, it is the first multi-modality real-time temporal action segmentation model. Under the same evaluation criteria as full video temporal action segmentation, our model segments human action in real time with less than 40% of state-of-the-art model computation and achieves 90% of the accuracy of the full video state-of-the-art model.
翻訳日:2023-10-13 16:09:00 公開日:2023-10-10
# 深層学習による時系列変化点の自動検出

Automatic Change-Point Detection in Time Series via Deep Learning ( http://arxiv.org/abs/2211.03860v3 )

ライセンス: Link先を確認
Jie Li, Paul Fearnhead, Piotr Fryzlewicz, Tengyao Wang(参考訳) データにおける変更点の検出は、変更がない場合にデータの種類や動作のタイプが変更される可能性があるため、難しい。 統計的に効率的な変化検出手法はこれらの特徴の双方に依存しており、実践者が関心をそそる適切な検出方法を開発することは困難である。 ニューラルネットワークのトレーニングに基づいて,新しいオフライン検出手法を自動生成する方法を示す。 我々のアプローチは、変更点の存在を単純なニューラルネットワークで表現できるような既存の多くのテストによって動機付けられており、十分なデータでトレーニングされたニューラルネットワークは、これらの手法に匹敵するパフォーマンスを持つべきである。 このようなアプローチの誤り率を定量化する理論と、トレーニングデータの量に依存する方法を提案する。 実験結果から, 学習データに制限がある場合でも, ノイズが独立かつガウス的である場合の平均変化を検出する標準のCUSUM分類器と競合し, オートコラージュノイズやヘビーテールノイズの存在下では著しく優れることがわかった。 また,加速度計データに基づく活動変化の検出と位置推定にも強い効果が得られた。

Detecting change-points in data is challenging because of the range of possible types of change and types of behaviour of data when there is no change. Statistically efficient methods for detecting a change will depend on both of these features, and it can be difficult for a practitioner to develop an appropriate detection method for their application of interest. We show how to automatically generate new offline detection methods based on training a neural network. Our approach is motivated by many existing tests for the presence of a change-point being representable by a simple neural network, and thus a neural network trained with sufficient data should have performance at least as good as these methods. We present theory that quantifies the error rate for such an approach, and how it depends on the amount of training data. Empirical results show that, even with limited training data, its performance is competitive with the standard CUSUM-based classifier for detecting a change in mean when the noise is independent and Gaussian, and can substantially outperform it in the presence of auto-correlated or heavy-tailed noise. Our method also shows strong results in detecting and localising changes in activity based on accelerometer data.
翻訳日:2023-10-13 16:00:07 公開日:2023-10-10
# HaarPoolingメッセージパッシングを用いたグラフネットワークのジェットタグ付けアルゴリズム

Jet tagging algorithm of graph network with HaarPooling message passing ( http://arxiv.org/abs/2210.13869v5 )

ライセンス: Link先を確認
Fei Ma, Feiyi Liu, and Wei Li(参考訳) 近年,高エネルギー物理学 (HEP) における問題を解くためにグラフニューラルネットワーク (GNN) の手法が適用され, ジェット事象のグラフ表現を用いたクォークグルーオンタギングの大きな可能性を示している。 本稿では,HarPooling Message Passing Neural Network(HMPNet)と呼ばれる,GNNのアプローチとHaarPooling操作を組み合わせることで,事象を解析する手法を提案する。 HMPNetでは、HaarPoolingはグラフの特徴を抽出するだけでなく、異なる粒子特徴のk平均のクラスタリングによって得られる追加情報を埋め込む。 絶対エネルギー $\log E$, 横運動量 $\log p_T$, 相対座標 $(\Delta\eta,\Delta\phi)$, 混合エネルギー $(\log E, \log p_T)$, $(\log E, \log p_T, \Delta\eta,\Delta\phi)$ である。 その結果、HMPNetに$\log P_T$の余分な情報を付加すると、HarPoolingの適切な情報選択がクォークグルーオンタグの精度を高める一方、相対座標情報$(\Delta\eta,\Delta\phi)$は、あまり有効ではないことがわかった。 これは、HaarPoolingから有効なパーティクル機能を追加することで、単に純粋なメッセージパッシング中立ネットワーク(MPNN)ができることよりも、はるかに優れた結果が得られることを意味している。 最後に、HMPNet研究を$p_T$で順序付けし、他の研究と比較し、HMPNetがジェットタグ付けのためのGNNアルゴリズムのよい選択であることを示す。

Recently methods of graph neural networks (GNNs) have been applied to solving the problems in high energy physics (HEP) and have shown its great potential for quark-gluon tagging with graph representation of jet events. In this paper, we introduce an approach of GNNs combined with a HaarPooling operation to analyze the events, called HaarPooling Message Passing neural network (HMPNet). In HMPNet, HaarPooling not only extracts the features of graph, but embeds additional information obtained by clustering of k-means of different particle features. We construct Haarpooling from five different features: absolute energy $\log E$, transverse momentum $\log p_T$, relative coordinates $(\Delta\eta,\Delta\phi)$, the mixed ones $(\log E, \log p_T)$ and $(\log E, \log p_T, \Delta\eta,\Delta\phi)$. The results show that an appropriate selection of information for HaarPooling enhances the accuracy of quark-gluon tagging, as adding extra information of $\log P_T$ to the HMPNet outperforms all the others, whereas adding relative coordinates information $(\Delta\eta,\Delta\phi)$ is not very effective. This implies that by adding effective particle features from HaarPooling can achieve much better results than solely pure message passing neutral network (MPNN) can do, which demonstrates significant improvement of feature extraction via the pooling process. Finally we compare the HMPNet study, ordering by $p_T$, with other studies and prove that the HMPNet is also a good choice of GNN algorithms for jet tagging.
翻訳日:2023-10-13 15:58:56 公開日:2023-10-10
# ガイドイマジネーションによる小規模データセットの拡張

Expanding Small-Scale Datasets with Guided Imagination ( http://arxiv.org/abs/2211.13976v6 )

ライセンス: Link先を確認
Yifan Zhang, Daquan Zhou, Bryan Hooi, Kai Wang, Jiashi Feng(参考訳) DNNのパワーは、トレーニングデータの量と品質に大きく依存している。 しかし、大規模なデータの収集と注釈は、しばしば高価で時間がかかります。 この問題に対処するために、新しいラベル付きサンプルを自動生成することで、利用可能な小さなデータセットを拡張することを目的とした、データセット拡張と呼ばれる新しいタスクを探索する。 この目的のために、DALL-E2やStable Diffusion(SD)といった最先端の生成モデルを活用して、入力されたシードデータから「想像」し、情報的な新しいデータを生成するガイドImagination Framework(GIF)を提案する。 具体的には、シードデータの潜在的な特徴を事前モデルの意味的に意味のある空間に最適化することで、新たなコンテンツによるフォトリアリスティックな画像を作成することで、データの想像力を高める。 モデルトレーニングのための情報的サンプル作成に向けたイマジネーションを導くため、クラス維持情報強化とサンプル多様性促進という2つの重要な基準を導入する。 gif-sdは、sdによる誘導されていない拡張よりも、自然画像データセットのモデル精度が13.5%高い。 これらの必須基準により、GIFは様々なシナリオで小さなデータセットを拡張し、モデル精度を6つの天然画像データセットで平均36.9%、医療データセットで平均13.5%向上させることに成功した。 ソースコードはhttps://github.com/Vanint/DatasetExpansionで入手できる。

The power of DNNs relies heavily on the quantity and quality of training data. However, collecting and annotating data on a large scale is often expensive and time-consuming. To address this issue, we explore a new task, termed dataset expansion, aimed at expanding a ready-to-use small dataset by automatically creating new labeled samples. To this end, we present a Guided Imagination Framework (GIF) that leverages cutting-edge generative models like DALL-E2 and Stable Diffusion (SD) to "imagine" and create informative new data from the input seed data. Specifically, GIF conducts data imagination by optimizing the latent features of the seed data in the semantically meaningful space of the prior model, resulting in the creation of photo-realistic images with new content. To guide the imagination towards creating informative samples for model training, we introduce two key criteria, i.e., class-maintained information boosting and sample diversity promotion. These criteria are verified to be essential for effective dataset expansion: GIF-SD obtains 13.5% higher model accuracy on natural image datasets than unguided expansion with SD. With these essential criteria, GIF successfully expands small datasets in various scenarios, boosting model accuracy by 36.9% on average over six natural image datasets and by 13.5% on average over three medical datasets. The source code is available at https://github.com/Vanint/DatasetExpansion.
翻訳日:2023-10-13 15:51:21 公開日:2023-10-10
# ネットワーク上の2つの直接接続ノード間のセキュア通信のための量子ウォークベースのプロトコル

Quantum walk-based protocol for secure communication between any two directly connected nodes on a network ( http://arxiv.org/abs/2211.12938v2 )

ライセンス: Link先を確認
Prateek Chawla, Adithi Ajith, and C. M. Chandrashekar(参考訳) 暗号資源としての量子絡み合いの利用は、セキュアな通信への従来のアプローチに取って代わった。 量子デバイス間のネットワーク内通信のセキュリティと忠実性は、量子ネットワークのバックボーンである。 この研究は、ネットワーク内のそのペア間で量子通信を可能にするリソースとして使用される量子ネットワークの任意の2つの直結ノード間の絡み合いを生成するアルゴリズムを示す。 このアルゴリズムは、有向離散時間量子ウォークに基づいており、ネットワーク内のプライベートなノード間量子通信チャネルへの道を舗装する。 また,様々なモデルから生成されたランダムネットワーク上でのシミュレーション結果を示す。 実装後、ウォーカーがソースとターゲット以外の全てのノードに存在する確率は無視可能であり、これはランダムグラフ生成モデルとは無関係であることを示す。 これは任意のランダムネットワークトポロジ上でセキュアな通信を実現するための有効な方法である。

The utilization of quantum entanglement as a cryptographic resource has superseded conventional approaches to secure communication. Security and fidelity of intranetwork communication between quantum devices is the backbone of a quantum network. This work presents an algorithm that generates entanglement between any two directly connected nodes of a quantum network to be used as a resource to enable quantum communication across that pair in the network. The algorithm is based on a directed discrete-time quantum walk and paves the way for private inter-node quantum communication channels in the network. We also present the simulation results of this algorithm on random networks generated from various models. We show that after implementation, the probability of the walker being at all nodes other than the source and target is negligible, and this holds independent of the random graph generation model. This constitutes a viable method for the practical realisation of secure communication over any random network topology.
翻訳日:2023-10-13 15:50:26 公開日:2023-10-10
# sgdで視覚モデルを微調整する方法

How to Fine-Tune Vision Models with SGD ( http://arxiv.org/abs/2211.09359v2 )

ライセンス: Link先を確認
Ananya Kumar and Ruoqi Shen and Sebastien Bubeck and Suriya Gunasekar(参考訳) SGDとAdamWは、コンピュータビジョンにおいて大きなニューラルネットワークを微調整するのに最もよく使われる2つのオプティマイザである。 2つの方法が同じ場合、SGDはAdamW(16バイト/パラメータ)よりもメモリ(運動量12バイト/パラメータ、パラメータなし8バイト/パラメータ)が少ないため、好ましい。 しかし、下流タスク、特に分布シフトのあるタスクでは、現代のビジョントランスフォーマーやConvNeXtモデルでは、AdamWによる微調整の方がSGDよりもかなり優れていることが分かる。 その結果,SGDとAdamWの差は,第1層における微調整勾配がモデルの他の層よりもはるかに大きい場合に生じることがわかった。 組み込み層の凍結(パラメータの1%未満)は、メモリ使用量が少ない場合(vit-lの場合、sgdは33%少ないgpuメモリを使用するなど)、adamwよりもわずかに優れた運動量でsgdを動作させる。 我々の洞察は、WILDS-FMoW、WILDS-Camelyon、BREEDS-Living-17、Waterbirds、DomainNetの5つの人気のある分散シフトベンチマークにおける最先端の精度をもたらす。

SGD and AdamW are the two most used optimizers for fine-tuning large neural networks in computer vision. When the two methods perform the same, SGD is preferable because it uses less memory (12 bytes/parameter with momentum and 8 bytes/parameter without) than AdamW (16 bytes/parameter). However, on a suite of downstream tasks, especially those with distribution shifts, we find that fine-tuning with AdamW performs substantially better than SGD on modern Vision Transformer and ConvNeXt models. We find that large gaps in performance between SGD and AdamW occur when the fine-tuning gradients in the first "embedding" layer are much larger than in the rest of the model. Our analysis suggests an easy fix that works consistently across datasets and models: freezing the embedding layer (less than 1% of the parameters) leads to SGD with or without momentum performing slightly better than AdamW while using less memory (e.g., on ViT-L, SGD uses 33% less GPU memory). Our insights result in state-of-the-art accuracies on five popular distribution shift benchmarks: WILDS-FMoW, WILDS-Camelyon, BREEDS-Living-17, Waterbirds, and DomainNet.
翻訳日:2023-10-13 15:50:13 公開日:2023-10-10
# クロスドメイン自己教師付きディープラーニングを用いたロバストアルツハイマーの進行モデル

Robust Alzheimer's Progression Modeling using Cross-Domain Self-Supervised Deep Learning ( http://arxiv.org/abs/2211.08559v2 )

ライセンス: Link先を確認
Saba Dadsetan, Mohsen Hejrati, Shandong Wu, Somaye Hashemifar(参考訳) 実際に成功した人工知能システムの開発は、堅牢なディープラーニングモデルと、大規模で高品質なデータの両方に依存する。 しかしながら、臨床疾患モデルのような現実世界の多くのアプリケーションにおいて、データの取得とラベリングは禁止的に高価で時間がかかります。 自己教師付き学習は、小さなデータ体制においてモデル精度と堅牢性を高める大きな可能性を示している。 加えて、多くの臨床画像および疾患モデリングアプリケーションは連続量の回帰に大きく依存している。 しかし,これらの医用画像回帰課題に対する自己教師付き学習の適用性は広く研究されていない。 本研究では,医療画像を入力として回帰問題として,疾患予測モデルのためのクロスドメイン自己教師付き学習手法を開発した。 自己教師付き前訓練は脳mriからアルツハイマー病の進行予測を改善できることを実証する。 また,脳MRIデータの拡張(ラベル付きではない)による事前トレーニングは,自然画像の事前トレーニングよりも優れていた。 さらに、自然画像と拡張脳MRIデータの両方が事前トレーニングに使用される場合に、最高の性能が得られることを観察する。

Developing successful artificial intelligence systems in practice depends on both robust deep learning models and large, high-quality data. However, acquiring and labeling data can be prohibitively expensive and time-consuming in many real-world applications, such as clinical disease models. Self-supervised learning has demonstrated great potential in increasing model accuracy and robustness in small data regimes. In addition, many clinical imaging and disease modeling applications rely heavily on regression of continuous quantities. However, the applicability of self-supervised learning for these medical-imaging regression tasks has not been extensively studied. In this study, we develop a cross-domain self-supervised learning approach for disease prognostic modeling as a regression problem using medical images as input. We demonstrate that self-supervised pretraining can improve the prediction of Alzheimer's Disease progression from brain MRI. We also show that pretraining on extended (but not labeled) brain MRI data outperforms pretraining on natural images. We further observe that the highest performance is achieved when both natural images and extended brain-MRI data are used for pretraining.
翻訳日:2023-10-13 15:49:50 公開日:2023-10-10
# 学生の達成度におけるソシオデモグラフィーの不平等--ロンドンにおける個人不均一性と差別的正確性(MAIHDA)の交差多段階分析と応用

Sociodemographic inequalities in student achievement: An intersectional multilevel analysis of individual heterogeneity and discriminatory accuracy (MAIHDA) with application to students in London, England ( http://arxiv.org/abs/2211.06321v2 )

ライセンス: Link先を確認
Lucy Prior, Clare Evans, Juan Merlo and George Leckie(参考訳) 学生の成績の不等式は、教育システムに対する継続的な懸念であり、交叉的であると認識されている。 補間性は不利の多次元的な性質を考慮し、個人の経験を形作る社会的決定要因を認識させる。 MAIHDA (Intersectional multilevel analysis of individual heterogeneity and discriminatory accuracy) は、人口健康において開発された新しいアプローチであるが、教育研究には限定的である。 本研究では,このアプローチをイングランド・ロンドンにおける学生の2つのコホート間で,学生の達成度における社会デモグラフィの不等式を研究するために導入し,応用する。 我々は,学生の年齢,性別,フリースクールの食事状況,特別な教育的ニーズ,民族性の組み合わせから生じる144の交叉構造を定義する。 結果がコホート間で頑固に一貫性のあるインタラクティブな効果ではなく,主に添加物によって構成される達成度において,実質的な階層レベルの変動が見いだされる。 我々は,政策立案者がより注意を払うべきだと結論し,交差型MAIHDAは自らの経験を研究する上で有用なアプローチを提供する。

Sociodemographic inequalities in student achievement are a persistent concern for education systems and are increasingly recognized to be intersectional. Intersectionality considers the multidimensional nature of disadvantage, appreciating the interlocking social determinants which shape individual experience. Intersectional multilevel analysis of individual heterogeneity and discriminatory accuracy (MAIHDA) is a new approach developed in population health but with limited application in educational research. In this study, we introduce and apply this approach to study sociodemographic inequalities in student achievement across two cohorts of students in London, England. We define 144 intersectional strata arising from combinations of student age, gender, free school meal status, special educational needs, and ethnicity. We find substantial strata-level variation in achievement composed primarily by additive rather than interactive effects with results stubbornly consistent across the cohorts. We conclude that policymakers should pay greater attention to multiply marginalized students and intersectional MAIHDA provides a useful approach to study their experiences.
翻訳日:2023-10-13 15:48:56 公開日:2023-10-10
# 空洞内のキュービットをクローズする

Cloaking a qubit in a cavity ( http://arxiv.org/abs/2211.05758v2 )

ライセンス: Link先を確認
Crist\'obal Lled\'o, R\'emy Dassonneville, Adrien Moulinas, Joachim Cohen, Ross Shillito, Audrey Bienfait, Benjamin Huard, Alexandre Blais(参考訳) キャビティ量子電磁力学(qed)は、光と物質の間の相互作用を強化するために真空電磁場のモード構造を設計するためにキャビティを用いる。 これらのアイデアを固体系に爆発させることで、QEDは量子光学のリッチな物理学を探求し、量子計算のプラットフォームとして貴重なツールとして登場した。 ここでは、光子集団からキュービットを制御的に分離し、効果的に空洞からクビットを詰まらせることにより、駆動キャビティ内の光-物質相互作用を更なる工学的手法を提案する。 これは、空洞磁場に破壊的に干渉するように調整された外音でキュービットを駆動することで実現され、真空状態にあるように見える空洞と相互作用する。 本実験では,ac-starkシフトのキャンセルと測定による遅延の解消,およびqubit読み出しの高速化にqubitクローキングを活用できることを実証する。

Cavity quantum electrodynamics (QED) uses a cavity to engineer the mode structure of the vacuum electromagnetic field such as to enhance the interaction between light and matter. Exploiting these ideas in solid-state systems has lead to circuit QED which has emerged as a valuable tool to explore the rich physics of quantum optics and as a platform for quantum computation. Here we introduce a simple approach to further engineer the light-matter interaction in a driven cavity by controllably decoupling a qubit from the cavity's photon population, effectively cloaking the qubit from the cavity. This is realized by driving the qubit with an external tone tailored to destructively interfere with the cavity field, leaving the qubit to interact with a cavity which appears to be in the vacuum state. Our experiment demonstrates how qubit cloaking can be exploited to cancel ac-Stark shift and measurement-induced dephasing, and to accelerate qubit readout.
翻訳日:2023-10-13 15:48:33 公開日:2023-10-10
# 言語間要約における翻訳の理解

Understanding Translationese in Cross-Lingual Summarization ( http://arxiv.org/abs/2212.07220v2 )

ライセンス: Link先を確認
Jiaan Wang, Fandong Meng, Yunlong Liang, Tingyi Zhang, Jiarong Xu, Zhixu Li, Jie Zhou(参考訳) ソース言語の文書が与えられた場合、言語間要約(CLS)は、異なるターゲット言語で簡潔な要約を生成することを目的としている。 単言語要約(MS)とは異なり、自然に発生するソース言語文書とターゲット言語要約との組み合わせは稀である。 大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を含む。 しかし、翻訳されたテキストは元々その言語で書かれたテキスト、すなわち翻訳語と区別される。 本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。 次に,翻訳がclsモデルの評価と性能にどのように影響するかを体系的に検討する。 具体的には,(1)文書の翻訳文やテストセットの要約文が人間の判断と自動評価の相違につながること,(2)訓練文の翻訳文は実世界のアプリケーションにおけるモデル性能を損なうこと,(3)機械翻訳文には翻訳文が伴うが,低リソース言語上で特定の学習戦略の下でCLSシステムを構築するのに非常に有用であることを示す。 最後に、データセットやモデル開発を含む今後のCLS研究について提案する。 私たちの研究は、clsにおける翻訳現象を研究者が認識し、将来考慮できることを期待しています。

Given a document in a source language, cross-lingual summarization (CLS) aims at generating a concise summary in a different target language. Unlike monolingual summarization (MS), naturally occurring source-language documents paired with target-language summaries are rare. To collect large-scale CLS data, existing datasets typically involve translation in their creation. However, the translated text is distinguished from the text originally written in that language, i.e., translationese. In this paper, we first confirm that different approaches of constructing CLS datasets will lead to different degrees of translationese. Then we systematically investigate how translationese affects CLS model evaluation and performance when it appears in source documents or target summaries. In detail, we find that (1) the translationese in documents or summaries of test sets might lead to the discrepancy between human judgment and automatic evaluation; (2) the translationese in training sets would harm model performance in real-world applications; (3) though machine-translated documents involve translationese, they are very useful for building CLS systems on low-resource languages under specific training strategies. Lastly, we give suggestions for future CLS research including dataset and model developments. We hope that our work could let researchers notice the phenomenon of translationese in CLS and take it into account in the future.
翻訳日:2023-10-13 15:39:42 公開日:2023-10-10
# 細調整BERTモデルにおける名前付きエンティティの記憶

Memorization of Named Entities in Fine-tuned BERT Models ( http://arxiv.org/abs/2212.03749v2 )

ライセンス: Link先を確認
Andor Diera and Nicolas Lell and Aygul Garifullina and Ansgar Scherp(参考訳) ディープラーニングを保存するプライバシーは、ディープラーニングの新たな分野であり、ディープニューラルネットワークの使用によるプライバシーリスクを軽減することを目指している。 そのようなリスクの1つは、個人的およびプライバシーに敏感な情報を含むデータセットでトレーニングされた言語モデルからデータ抽出をトレーニングすることである。 本研究では,細調整BERTモデルにおける名前付き実体記憶の程度について検討した。 実験では,単一ラベルのテキスト分類を代表的な下流タスクとして使用し,差分プライバシー(dp)を持つものを含む3種類の微調整設定を実験で採用した。 2つのプロンプト戦略を持つカスタムシーケンシャルサンプリング戦略を用いて、細調整されたBERTモデルから大量のテキストサンプルを作成する。 名前付きエンティティのサンプルを検索し、微調整データセットにも存在するかどうかを確認する。 我々は2つのベンチマークデータセットをメールとブログのドメインで実験する。 本稿では,DP の適用が BERT のテキスト生成能力に有害な影響を与えることを示す。 さらに、細調整されたBERTは、事前訓練されたBERTモデルよりも、細調整されたデータセット固有の名前付きエンティティを生成できないことを示す。 これはBERTが個人またはプライバシーに敏感な名前のエンティティを発行する可能性は低いことを示唆している。 総じて、BERTベースのサービスがデータ抽出攻撃の訓練を行う傾向にあるかを理解することが重要である。

Privacy preserving deep learning is an emerging field in machine learning that aims to mitigate the privacy risks in the use of deep neural networks. One such risk is training data extraction from language models that have been trained on datasets, which contain personal and privacy sensitive information. In our study, we investigate the extent of named entity memorization in fine-tuned BERT models. We use single-label text classification as representative downstream task and employ three different fine-tuning setups in our experiments, including one with Differentially Privacy (DP). We create a large number of text samples from the fine-tuned BERT models utilizing a custom sequential sampling strategy with two prompting strategies. We search in these samples for named entities and check if they are also present in the fine-tuning datasets. We experiment with two benchmark datasets in the domains of emails and blogs. We show that the application of DP has a detrimental effect on the text generation capabilities of BERT. Furthermore, we show that a fine-tuned BERT does not generate more named entities specific to the fine-tuning dataset than a BERT model that is pre-trained only. This suggests that BERT is unlikely to emit personal or privacy sensitive named entities. Overall, our results are important to understand to what extent BERT-based services are prone to training data extraction attacks.
翻訳日:2023-10-13 15:38:59 公開日:2023-10-10
# Med-Query: クエリ埋め込みによる9-DoF医療解剖の静的解析

Med-Query: Steerable Parsing of 9-DoF Medical Anatomies with Query Embedding ( http://arxiv.org/abs/2212.02014v2 )

ライセンス: Link先を確認
Heng Guo, Jianfeng Zhang, Ke Yan, Le Lu, Minfeng Xu(参考訳) 3次元CTスキャンによるヒト解剖のインスタンスレベルでの自動解析は、多くの臨床応用に必須のステップである。 病理、壊れた構造、または限定視野(FOV)の存在は、全て解剖学的解析アルゴリズムを脆弱にすることができる。 本研究は,3次元医療データにおける有能な検出・隠蔽パラダイムの活用と実施方法について検討し,CTスキャンにおける解剖学の検出・識別・セグメント化のための,安定かつ堅牢かつ効率的な計算フレームワークを提案する。 解剖学の複雑な形状、大きさ、配向を考えると、一般性を失うことなく、新しい単段非階層的前方表現を用いて、9自由度(9-DoF)ポーズ推定解をフル3次元空間に提示する。 私たちのフレームワーク全体は、推論効率をさらに高めるために、関心の解剖を直接的に取得できる、ステアブルな方法で実行されます。 今回我々は,リブ,脊椎,腹部臓器の3つの医用画像解析タスクにおいて,提案手法を検証した。 胸椎や腹部臓器と同様に, 胸部CT検査では, 胸部CT検査にて定量的な評価が試みられている。 9-DoFボックスの検出とリブインスタンスのセグメンテーションに関する大規模な実験は、高い効率でフレームワークの有効性(97.0%、セグメンテーションDiceスコア90.9%)を示し、いくつかの強力なベースライン(例えば、CenterNet、FCOS、nnU-Net)と比較した。 スピン識別とセグメンテーションのために,提案手法はパブリックなCTSpine1Kデータセット上で新しい最先端結果を実現する。 最後に,FLARE22コンペティションにおける多臓器セグメンテーションの競争成績を報告する。 私たちのアノテーション、コード、モデルは、https://github.com/alibaba-damo-academy/Med_Queryで公開されます。

Automatic parsing of human anatomies at instance-level from 3D computed tomography (CT) scans is a prerequisite step for many clinical applications. The presence of pathologies, broken structures or limited field-of-view (FOV) all can make anatomy parsing algorithms vulnerable. In this work, we explore how to exploit and conduct the prosperous detection-then-segmentation paradigm in 3D medical data, and propose a steerable, robust, and efficient computing framework for detection, identification, and segmentation of anatomies in CT scans. Considering complicated shapes, sizes and orientations of anatomies, without lose of generality, we present the nine degrees-of-freedom (9-DoF) pose estimation solution in full 3D space using a novel single-stage, non-hierarchical forward representation. Our whole framework is executed in a steerable manner where any anatomy of interest can be directly retrieved to further boost the inference efficiency. We have validated the proposed method on three medical imaging parsing tasks of ribs, spine, and abdominal organs. For rib parsing, CT scans have been annotated at the rib instance-level for quantitative evaluation, similarly for spine vertebrae and abdominal organs. Extensive experiments on 9-DoF box detection and rib instance segmentation demonstrate the effectiveness of our framework (with the identification rate of 97.0% and the segmentation Dice score of 90.9%) in high efficiency, compared favorably against several strong baselines (e.g., CenterNet, FCOS, and nnU-Net). For spine identification and segmentation, our method achieves a new state-of-the-art result on the public CTSpine1K dataset. Last, we report highly competitive results in multi-organ segmentation at FLARE22 competition. Our annotations, code and models will be made publicly available at: https://github.com/alibaba-damo-academy/Med_Query.
翻訳日:2023-10-13 15:38:38 公開日:2023-10-10
# 量子コンピューティングによる最適化問題を解決するための解経路の推薦

Recommending Solution Paths for Solving Optimization Problems with Quantum Computing ( http://arxiv.org/abs/2212.11127v2 )

ライセンス: Link先を確認
Benedikt Poggel, Nils Quetschlich, Lukas Burgholzer, Robert Wille, Jeanette Miriam Lorenz(参考訳) 量子コンピューティングで現実の最適化問題を解決するには、定式化、エンコーディング、アルゴリズム、ハードウェアに関する多くの選択肢を選択する必要がある。 エンドユーザや研究者にとっても、優れたソリューションパスを見つけることは難しい。 我々は,最適なソリューションパスを識別し,推奨するフレームワークを提案する。 これは、量子コンピューティング支援ソリューション技術が、量子技術に関する深い知識を必要とせず、エンドユーザーにアクセスできるようにするのに必要な、新しい抽象化レイヤーを導入する。 最新のハイブリッドアルゴリズム、エンコーディングおよび分解技術はモジュラー方式で統合することができ、問題固有のパフォーマンス指標を用いて評価することができる。 同様に、変分量子アルゴリズムのグラフィカル解析ツールも開発されている。 古典的、フォールトトレラントな量子および量子インスパイアされた手法は、有効な解経路をもたらす公平な比較を保証するために含めることができる。 我々は,選択した選択肢の集合に対する我々のアプローチを実証し,そのキャパシタン化車両ルーティング問題(CVRP)への適用例を示す。 また、最適化問題に対する量子支援ソリューションワークフローにおいて、提案する自動化層の重要な要件と設計上の課題を特定する。

Solving real-world optimization problems with quantum computing requires choosing between a large number of options concerning formulation, encoding, algorithm and hardware. Finding good solution paths is challenging for end users and researchers alike. We propose a framework designed to identify and recommend the best-suited solution paths. This introduces a novel abstraction layer that is required to make quantum-computing-assisted solution techniques accessible to end users without requiring a deeper knowledge of quantum technologies. State-of-the-art hybrid algorithms, encoding and decomposition techniques can be integrated in a modular manner and evaluated using problem-specific performance metrics. Equally, tools for the graphical analysis of variational quantum algorithms are developed. Classical, fault tolerant quantum and quantum-inspired methods can be included as well to ensure a fair comparison resulting in useful solution paths. We demonstrate and validate our approach on a selected set of options and illustrate its application on the capacitated vehicle routing problem (CVRP). We also identify crucial requirements and the major design challenges for the proposed automation layer within a quantum-assisted solution workflow for optimization problems.
翻訳日:2023-10-13 15:27:48 公開日:2023-10-10
# Scene-centric vs. Object-centric Image-Text Cross-Modal Retrieval: Reproducibility Study

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study ( http://arxiv.org/abs/2301.05174v2 )

ライセンス: Link先を確認
Mariya Hendriksen, Svitlana Vakulenko, Ernst Kuiper, Maarten de Rijke(参考訳) クロスモーダル検索(CMR)へのほとんどのアプローチは、オブジェクト中心のデータセット、つまり各ドキュメントが1つのオブジェクトを描写または記述すること、またはシーン中心のデータセットに焦点を当てている。 我々は、ロバストなcmrモデルが両方のデータセットタイプをまたいでうまく一般化するべきであると仮定する。 CMRの最近の進歩にもかかわらず、結果の再現性と、異なるデータセットタイプにわたるそれらの一般化性は、これまで研究されていない。 我々はこのギャップに対処し,オブジェクト中心およびシーン中心のデータセット上での評価において,最先端のcmr結果の再現性に注目する。 アーキテクチャの異なる2つの最先端CMRモデルを選択します。 (i)CLIP、および (ii)x-vlm。 さらに,シーン中心のデータセットを2つ,オブジェクト中心のデータセットを3つ選択し,これらのデータセット上で選択したモデルの相対性能を決定する。 先行するcmr実験の結果の再現性,再現性,一般化性に注目した。 実験が完全に再現可能で複製可能でないことが分かりました。 さらに、相対的なパフォーマンス結果は、オブジェクト中心およびシーン中心のデータセットで部分的に一般化される。 さらに、オブジェクト中心のデータセットで得られるスコアは、シーン中心のデータセットで得られるスコアよりもはるかに低い。 再現性と透明性のために、ソースコードとトレーニング済みモデルを公開しています。

Most approaches to cross-modal retrieval (CMR) focus either on object-centric datasets, meaning that each document depicts or describes a single object, or on scene-centric datasets, meaning that each image depicts or describes a complex scene that involves multiple objects and relations between them. We posit that a robust CMR model should generalize well across both dataset types. Despite recent advances in CMR, the reproducibility of the results and their generalizability across different dataset types has not been studied before. We address this gap and focus on the reproducibility of the state-of-the-art CMR results when evaluated on object-centric and scene-centric datasets. We select two state-of-the-art CMR models with different architectures: (i) CLIP; and (ii) X-VLM. Additionally, we select two scene-centric datasets, and three object-centric datasets, and determine the relative performance of the selected models on these datasets. We focus on reproducibility, replicability, and generalizability of the outcomes of previously published CMR experiments. We discover that the experiments are not fully reproducible and replicable. Besides, the relative performance results partially generalize across object-centric and scene-centric datasets. On top of that, the scores obtained on object-centric datasets are much lower than the scores obtained on scene-centric datasets. For reproducibility and transparency we make our source code and the trained models publicly available.
翻訳日:2023-10-13 15:16:55 公開日:2023-10-10
# 適応グラフ畳み込みネットワークを用いた複数ラベル画像分類:単一領域から複数の領域へ

Multi-label Image Classification using Adaptive Graph Convolutional Networks: from a Single Domain to Multiple Domains ( http://arxiv.org/abs/2301.04494v3 )

ライセンス: Link先を確認
Indel Pal Singh, Enjie Ghorbel, Oyebade Oyedotun, Djamila Aouada(参考訳) 本稿では,マルチラベル画像分類のための適応グラフベースアプローチを提案する。 グラフベースの手法はラベル相関をモデル化する能力から、マルチラベル分類の分野で広く利用されている。 特に、それらの効果は、単一のドメインを考える場合だけでなく、複数のドメインを考慮に入れる場合にも証明されている。 しかし、使用グラフの位相はヒューリスティックに定義されているため最適ではない。 さらに、連続的なグラフ畳み込みネットワーク(GCN)集約は、特徴の類似性を損なう傾向がある。 これらの問題を克服するために、エンドツーエンドでグラフ接続を学ぶためのアーキテクチャを導入する。 これは注意に基づくメカニズムと類似性保存戦略を統合することで実現される。 提案するフレームワークは,複数のドメインに拡張し,対戦型トレーニングスキームを用いて拡張する。 多くの実験が、よく知られた単一ドメインとマルチドメインのベンチマークで報告されている。 その結果,提案手法は平均精度 (mAP) とモデルサイズを,最先端技術と比較して比較して比較した結果を得た。 コードは公開される予定だ。

This paper proposes an adaptive graph-based approach for multi-label image classification. Graph-based methods have been largely exploited in the field of multi-label classification, given their ability to model label correlations. Specifically, their effectiveness has been proven not only when considering a single domain but also when taking into account multiple domains. However, the topology of the used graph is not optimal as it is pre-defined heuristically. In addition, consecutive Graph Convolutional Network (GCN) aggregations tend to destroy the feature similarity. To overcome these issues, an architecture for learning the graph connectivity in an end-to-end fashion is introduced. This is done by integrating an attention-based mechanism and a similarity-preserving strategy. The proposed framework is then extended to multiple domains using an adversarial training scheme. Numerous experiments are reported on well-known single-domain and multi-domain benchmarks. The results demonstrate that our approach achieves competitive results in terms of mean Average Precision (mAP) and model size as compared to the state-of-the-art. The code will be made publicly available.
翻訳日:2023-10-13 15:16:12 公開日:2023-10-10
# 強化学習におけるロバストな知識伝達

Robust Knowledge Transfer in Tiered Reinforcement Learning ( http://arxiv.org/abs/2302.05534v2 )

ライセンス: Link先を確認
Jiawei Huang, Niao He(参考訳) 本稿では,低レベル(ソース)タスクから高レベル(ターゲット)タスクに知識を転送し,2つのタスクを並列に解きながら,後者の探索リスクを低減することを目的とした,並列転送学習フレームワークである階層強化学習セットについて検討する。 従来の作業とは異なり、低層タスクと高層タスクは同じダイナミクスや報酬関数を共有していないと仮定し、タスクの類似性に関する事前の知識がなければ、堅牢な知識伝達に注力する。 我々は目的の ‘optimal value dominant'' と呼ばれる自然な条件と必要条件を特定する。 この条件下では,ハイレベルなタスクではタスクの類似度に応じて部分的な状態に対して常に後悔し,2つのタスクが異なってもオプティマイズに近い後悔を保ちながら,低レベルなタスクでは犠牲をすることなく最適に近い状態を維持することができるという,新しいオンライン学習アルゴリズムを提案する。 さらに、複数の低層タスクで設定を更に研究し、全ての低層タスクから情報をアンサンブルし、より大きな状態-動作空間で証明可能な利点を享受できる新しい転送ソース選択機構を提案する。

In this paper, we study the Tiered Reinforcement Learning setting, a parallel transfer learning framework, where the goal is to transfer knowledge from the low-tier (source) task to the high-tier (target) task to reduce the exploration risk of the latter while solving the two tasks in parallel. Unlike previous work, we do not assume the low-tier and high-tier tasks share the same dynamics or reward functions, and focus on robust knowledge transfer without prior knowledge on the task similarity. We identify a natural and necessary condition called the ``Optimal Value Dominance'' for our objective. Under this condition, we propose novel online learning algorithms such that, for the high-tier task, it can achieve constant regret on partial states depending on the task similarity and retain near-optimal regret when the two tasks are dissimilar, while for the low-tier task, it can keep near-optimal without making sacrifice. Moreover, we further study the setting with multiple low-tier tasks, and propose a novel transfer source selection mechanism, which can ensemble the information from all low-tier tasks and allow provable benefits on a much larger state-action space.
翻訳日:2023-10-13 14:59:02 公開日:2023-10-10
# 過度パラメータ化は1つのニューロンを学習するグラディエントDescentを指数的に遅くする

Over-Parameterization Exponentially Slows Down Gradient Descent for Learning a Single Neuron ( http://arxiv.org/abs/2302.10034v2 )

ライセンス: Link先を確認
Weihang Xu, Simon S. Du(参考訳) 正方形損失を持つガウス入力下でのrelu活性化による単一ニューロン学習の課題を再考する。 特に,学生ネットワークが$n\ge 2$ニューロンを持つ過パラメータ設定に注目する。 ランダム初期化勾配勾配のグローバル収束を$O\left(T^{-3}\right)$ rateで証明する。 これは、勾配降下が$\exp(-\Omega(T))$レートを楽しむ正確なパラメータ化設定(n=1$)を超えるこの問題に対する最初のグローバル収束結果である。 おそらく意外なことに、オーバーパラメータ設定においてランダムに初期化された勾配流に対して、$\Omega\left(T^{-3}\right)$ lowerboundを示す。 これら2つの境界は、収束率の正確な特徴を与え、初めて過度パラメータ化が収束率を指数関数的に遅くすることができることを暗示する。 大域収束を証明するためには、正確なパラメータ化の場合に存在しない勾配降下ダイナミクスにおいて、学生ニューロン間の相互作用に取り組む必要がある。 gdの動力学解析には三相構造を用いる。 その過程で、勾配降下が自動的に学生ニューロンのバランスをとることを証明し、この特性を用いて目的関数の非滑らか性に対処する。 収束率の低い境界を証明するために、学生ニューロン間の対距離を特徴付ける新しいポテンシャル関数を構築する(正確なパラメータ化の場合では実現できない)。 このポテンシャル関数はゆっくりと収束し、損失関数の緩やかな収束率を示す。

We revisit the problem of learning a single neuron with ReLU activation under Gaussian input with square loss. We particularly focus on the over-parameterization setting where the student network has $n\ge 2$ neurons. We prove the global convergence of randomly initialized gradient descent with a $O\left(T^{-3}\right)$ rate. This is the first global convergence result for this problem beyond the exact-parameterization setting ($n=1$) in which the gradient descent enjoys an $\exp(-\Omega(T))$ rate. Perhaps surprisingly, we further present an $\Omega\left(T^{-3}\right)$ lower bound for randomly initialized gradient flow in the over-parameterization setting. These two bounds jointly give an exact characterization of the convergence rate and imply, for the first time, that over-parameterization can exponentially slow down the convergence rate. To prove the global convergence, we need to tackle the interactions among student neurons in the gradient descent dynamics, which are not present in the exact-parameterization case. We use a three-phase structure to analyze GD's dynamics. Along the way, we prove gradient descent automatically balances student neurons, and use this property to deal with the non-smoothness of the objective function. To prove the convergence rate lower bound, we construct a novel potential function that characterizes the pairwise distances between the student neurons (which cannot be done in the exact-parameterization case). We show this potential function converges slowly, which implies the slow convergence rate of the loss function.
翻訳日:2023-10-13 14:49:47 公開日:2023-10-10
# 重み特徴アライメントによる点雲の一般回転不変性学習

General Rotation Invariance Learning for Point Clouds via Weight-Feature Alignment ( http://arxiv.org/abs/2302.09907v3 )

ライセンス: Link先を確認
Liang Xie, Yibo Yang, Wenxiao Wang, Binbin Lin, Deng Cai, Xiaofei He, Ronghua Liang(参考訳) 2d画像と比較して、3dポイント雲は回転に対してずっと敏感である。 我々は、回転変換に不変なパターンを記述する点特徴を期待する。 最近のSOTAは3次元点雲の回転不変学習に特化している。 しかし、現在の回転不変法は、グローバル分布に依存し、グローバルシーンと背景に依存するため、オープンシーンにおける点雲の一般化性を欠いている。 本稿では,入力点と同じ3次元空間に分布する点の集合としてネットワーク重みを考慮し,その特徴をネットワーク重みの主軸と整列させて局所的不変参照フレーム(IRF)を構築するために,出力活性化がパターンとその向きの関数であることを考慮し,ネットワーク重みを入力点と同じ3次元空間に分布する点の集合と見なすことができるという考えから着想を得た。 当社のwfaアルゴリズムは,すべてのシーンのポイントクラウドに対する一般的なソリューションを提供します。 WFAは、応答アクティビティがパターン整合度の必要十分条件であることをモデルが目標を達成することを保証します。 実際、私たちは単一のオブジェクトのポイントクラウド上で実験を行い、広い範囲のシーンを開きます。 その結果,本手法は回転不変性学習と通常の手法とのギャップをほぼ埋めることが示唆された。

Compared to 2D images, 3D point clouds are much more sensitive to rotations. We expect the point features describing certain patterns to keep invariant to the rotation transformation. There are many recent SOTA works dedicated to rotation-invariant learning for 3D point clouds. However, current rotation-invariant methods lack generalizability on the point clouds in the open scenes due to the reliance on the global distribution, \ie the global scene and backgrounds. Considering that the output activation is a function of the pattern and its orientation, we need to eliminate the effect of the orientation.In this paper, inspired by the idea that the network weights can be considered a set of points distributed in the same 3D space as the input points, we propose Weight-Feature Alignment (WFA) to construct a local Invariant Reference Frame (IRF) via aligning the features with the principal axes of the network weights. Our WFA algorithm provides a general solution for the point clouds of all scenes. WFA ensures the model achieves the target that the response activity is a necessary and sufficient condition of the pattern matching degree. Practically, we perform experiments on the point clouds of both single objects and open large-range scenes. The results suggest that our method almost bridges the gap between rotation invariance learning and normal methods.
翻訳日:2023-10-13 14:49:22 公開日:2023-10-10
# 量子状態移動最適化:ポントリャーギン最大原理を用いたフィデリティとエネルギー消費のバランス

Quantum State Transfer Optimization: Balancing Fidelity and Energy Consumption using Pontryagin Maximum Principle ( http://arxiv.org/abs/2302.09142v2 )

ライセンス: Link先を確認
Nahid Binandeh Dehaghani and A. Pedro Aguiar(参考訳) 本研究では,量子状態の変換に関する制御制約のある最適制御問題に対処する。 我々の目的は、Liouville-von Neumann方程式の原理に従いながら、初期状態から所望の目標状態へ量子システムをナビゲートすることである。 これを実現するために,忠実度最大化とエネルギー消費最小化の2つの目標を両立するコスト関数を導入する。 この問題に関連する行列値力学に対して、ポントリャーギン最大原理(PMP)の形で最適条件を導出する。 次に,最適制御問題を解くための時間離散化計算方式を提案する。 この計算スキームは、PMPに基盤を置く間接的手法に根ざし、その汎用性と有効性を示している。 本手法の実用性と適用性を説明するために, 磁場との相互作用を受けるスピン $\frac{1}{2}$ 粒子の場合に応用する。 我々の発見は、複雑な量子制御シナリオに取り組み、量子状態変換の幅広い分野に寄与するこのアプローチの可能性に光を当てた。

In this study, we address a control-constrained optimal control problem pertaining to the transformation of quantum states. Our objective is to navigate a quantum system from an initial state to a desired target state while adhering to the principles of the Liouville-von Neumann equation. To achieve this, we introduce a cost functional that balances the dual goals of fidelity maximization and energy consumption minimization. We derive optimality conditions in the form of the Pontryagin Maximum Principle (PMP) for the matrix-valued dynamics associated with this problem. Subsequently, we present a time-discretized computational scheme designed to solve the optimal control problem. This computational scheme is rooted in an indirect method grounded in the PMP, showcasing its versatility and efficacy. To illustrate the practicality and applicability of our methodology, we employ it to address the case of a spin $\frac{1}{2}$ particle subjected to interaction with a magnetic field. Our findings shed light on the potential of this approach to tackle complex quantum control scenarios and contribute to the broader field of quantum state transformations.
翻訳日:2023-10-13 14:48:45 公開日:2023-10-10
# AliasNet: Alias Artefact Suppression Network for Accelerated Phase-Encode MRI

AliasNet: Alias Artefact Suppression Network for Accelerated Phase-Encode MRI ( http://arxiv.org/abs/2302.08861v2 )

ライセンス: Link先を確認
Marlon E. Bran Lorenzana, Shekhar S. Chandra and Feng Liu(参考訳) スパース再構成はMRIの重要な側面であり、取得時間を短縮し、空間時間分解能を改善するのに役立つ。 一般的な手法は主に圧縮センシング(CS)に基づいており、これはk空間をランダムにサンプリングして非コヒーレントな(ノイズのような)アーティファクトを生成する。 ハードウェアの制約により、1Dカルト位相エンコードアンダーサンプリングスキームは2D CS-MRIに人気がある。 しかし、1次元アンダーサンプリングは測定値間の2次元の一貫性を制限し、2次元スパーシティモデルを仮定すると取り除くのが難しい構造的なエイリアシングアーティファクト(ghost)を生成する。 レコンストラクションアルゴリズムは通常、これらの方向関連アーティファクトに対して方向非感受性の2次元正則化を展開する。 位相エンコードアーチファクトを連続した1D信号に分割できることを認識し, 明示的な1D正規化を可能にし, 優れた1D不整合特性を利用する2つのデカップリング技術を開発した。 また,画像内の空間的関係を活かした1次元+2次元再構成手法も提案する。 脳と膝のデータをふりかえりにサンプリングした実験では、提案された1d aliasnetモジュールと既存の2d deep learn (dl)リカバリ技術の組み合わせが、画像品質の向上に繋がることを示している。 また、AliasNetは元の2Dネットワーク層のサイズを拡大するよりもパフォーマンスのスケーリングが優れていることもわかりました。 したがって、aliasnetは、ネットワークアーキテクチャをその期待される外観に合わせて調整することで、フェーズエンコードによるアンダーサンプリングから生じるエイリアシングアーティファクトの規則化を改善している。 提案した1D + 2Dアプローチは、既存の2D DLリカバリ技術と互換性がある。

Sparse reconstruction is an important aspect of MRI, helping to reduce acquisition time and improve spatial-temporal resolution. Popular methods are based mostly on compressed sensing (CS), which relies on the random sampling of k-space to produce incoherent (noise-like) artefacts. Due to hardware constraints, 1D Cartesian phase-encode under-sampling schemes are popular for 2D CS-MRI. However, 1D under-sampling limits 2D incoherence between measurements, yielding structured aliasing artefacts (ghosts) that may be difficult to remove assuming a 2D sparsity model. Reconstruction algorithms typically deploy direction-insensitive 2D regularisation for these direction-associated artefacts. Recognising that phase-encode artefacts can be separated into contiguous 1D signals, we develop two decoupling techniques that enable explicit 1D regularisation and leverage the excellent 1D incoherence characteristics. We also derive a combined 1D + 2D reconstruction technique that takes advantage of spatial relationships within the image. Experiments conducted on retrospectively under-sampled brain and knee data demonstrate that combination of the proposed 1D AliasNet modules with existing 2D deep learned (DL) recovery techniques leads to an improvement in image quality. We also find AliasNet enables a superior scaling of performance compared to increasing the size of the original 2D network layers. AliasNet therefore improves the regularisation of aliasing artefacts arising from phase-encode under-sampling, by tailoring the network architecture to account for their expected appearance. The proposed 1D + 2D approach is compatible with any existing 2D DL recovery technique deployed for this application.
翻訳日:2023-10-13 14:48:26 公開日:2023-10-10
# バッチバイナリ分類を超えた量子学習理論

Quantum Learning Theory Beyond Batch Binary Classification ( http://arxiv.org/abs/2302.07409v3 )

ライセンス: Link先を確認
Preetham Mohan, Ambuj Tewari(参考訳) Arunachalam と de Wolf (2018) は、ブール関数の量子バッチ学習のサンプル複雑性が、実現可能で不可知的な設定において、対応する古典的なサンプル複雑度と同じ形式と順序を持つことを示した。 本稿では、これを表向きは意外なことに、バッチマルチクラス学習、オンラインブール学習、オンラインマルチクラス学習に拡張する。 オンライン学習の結果について、我々はまずダウィドとテワリの古典的モデル(2022年)の適応的逆変種を考える。 次に、量子実例を用いたオンライン学習の最初の(私たちの知る限りの)モデルを紹介します。

Arunachalam and de Wolf (2018) showed that the sample complexity of quantum batch learning of boolean functions, in the realizable and agnostic settings, has the same form and order as the corresponding classical sample complexities. In this paper, we extend this, ostensibly surprising, message to batch multiclass learning, online boolean learning, and online multiclass learning. For our online learning results, we first consider an adaptive adversary variant of the classical model of Dawid and Tewari (2022). Then, we introduce the first (to the best of our knowledge) model of online learning with quantum examples.
翻訳日:2023-10-13 14:47:15 公開日:2023-10-10
# RACCER:強化学習のための到達可能かつ確実な対実的説明を目指して

RACCER: Towards Reachable and Certain Counterfactual Explanations for Reinforcement Learning ( http://arxiv.org/abs/2303.04475v2 )

ライセンス: Link先を確認
Jasmina Gajcin and Ivana Dusparic(参考訳) 強化学習(RL)アルゴリズムは多くのタスクにうまく適用されているが、ニューラルネットワークに依存しているため、彼らの行動を理解し信頼することは困難である。 counterfactual descriptionsは、ブラックボックスシステムから望ましいアウトプットを達成するためにモデル入力をどのように変更するか、ユーザにアクション可能なアドバイスを提供する、人間フレンドリーな説明である。 しかし、RLにおける反事実生成への現在のアプローチは、RLタスクの確率的かつシーケンシャルな性質を無視し、望まれる結果を得るのが困難または得られない反事実を生成することができる。 そこで本研究では,RLエージェントの動作に対する反実的説明を生成するための,RL固有のアプローチであるRACCERを提案する。 まず,RL固有の対物的特性の集合を提案し,その対物的特性を高い確率で容易に到達できるようにする。 我々はエージェントの実行軌跡のヒューリスティックな木探索を用いて、定義された特性に基づいて最も適切な対策を見つける。 2つのタスクでraccerを評価し,rl固有の偽物がエージェントの行動を理解するのに役立つことを示すために,ユーザ調査を行った。

While reinforcement learning (RL) algorithms have been successfully applied to numerous tasks, their reliance on neural networks makes their behavior difficult to understand and trust. Counterfactual explanations are human-friendly explanations that offer users actionable advice on how to alter the model inputs to achieve the desired output from a black-box system. However, current approaches to generating counterfactuals in RL ignore the stochastic and sequential nature of RL tasks and can produce counterfactuals that are difficult to obtain or do not deliver the desired outcome. In this work, we propose RACCER, the first RL-specific approach to generating counterfactual explanations for the behavior of RL agents. We first propose and implement a set of RL-specific counterfactual properties that ensure easily reachable counterfactuals with highly probable desired outcomes. We use a heuristic tree search of the agent's execution trajectories to find the most suitable counterfactuals based on the defined properties. We evaluate RACCER in two tasks as well as conduct a user study to show that RL-specific counterfactuals help users better understand agents' behavior compared to the current state-of-the-art approaches.
翻訳日:2023-10-13 14:27:48 公開日:2023-10-10
# 注意的意味単位を用いたビデオ行動認識

Video Action Recognition with Attentive Semantic Units ( http://arxiv.org/abs/2303.09756v2 )

ライセンス: Link先を確認
Yifei Chen, Dapeng Chen, Ruijin Liu, Hao Li, Wei Peng(参考訳) VLM(Visual-Language Models)は、かなり高度なアクションビデオ認識を持つ。 アクションラベルのセマンティクスによって監督された最近の研究は、ビデオ表現を学ぶためにVLMの視覚的分岐に適応している。 これらの研究によって証明された効果にもかかわらず、我々はVLMの可能性はまだ十分に活用されていないと考えている。 そこで我々は,アクションラベルの裏側に隠された意味単位(SU)を活用し,フレーム内の細粒度アイテムとの相関を利用してより正確なアクション認識を行う。 SUは、ボディパーツ、オブジェクト、シーン、モーションを含むアクションセット全体の言語記述から抽出されたエンティティである。 視覚コンテンツとSUのアライメントをさらに強化するため,VLMの視覚枝にマルチリージョンモジュール(MRA)を導入する。 mraは、元のグローバル機能を超えた、地域対応の視覚特徴の認識を可能にする。 本手法は,フレームの視覚的特徴と関連するsusを適応的に対応・選択する。 クロスモーダルデコーダにより、選択されたSUは時空間ビデオ表現をデコードする。 要約すると、媒体としてのSUは差別能力と伝達可能性を高めることができる。 具体的には,完全教師付き学習において,速度論400で87.8%のtop-1精度を得た。 K=2小ショット実験では, HMDB-51 と UCF-101 で, 従来手法を+7.1%, +15.0% で上回った。

Visual-Language Models (VLMs) have significantly advanced action video recognition. Supervised by the semantics of action labels, recent works adapt the visual branch of VLMs to learn video representations. Despite the effectiveness proved by these works, we believe that the potential of VLMs has yet to be fully harnessed. In light of this, we exploit the semantic units (SU) hiding behind the action labels and leverage their correlations with fine-grained items in frames for more accurate action recognition. SUs are entities extracted from the language descriptions of the entire action set, including body parts, objects, scenes, and motions. To further enhance the alignments between visual contents and the SUs, we introduce a multi-region module (MRA) to the visual branch of the VLM. The MRA allows the perception of region-aware visual features beyond the original global feature. Our method adaptively attends to and selects relevant SUs with visual features of frames. With a cross-modal decoder, the selected SUs serve to decode spatiotemporal video representations. In summary, the SUs as the medium can boost discriminative ability and transferability. Specifically, in fully-supervised learning, our method achieved 87.8% top-1 accuracy on Kinetics-400. In K=2 few-shot experiments, our method surpassed the previous state-of-the-art by +7.1% and +15.0% on HMDB-51 and UCF-101, respectively.
翻訳日:2023-10-13 14:17:47 公開日:2023-10-10
# リフレクション: 言語エージェントによる言語強化学習

Reflexion: Language Agents with Verbal Reinforcement Learning ( http://arxiv.org/abs/2303.11366v4 )

ライセンス: Link先を確認
Noah Shinn, Federico Cassano, Edward Berman, Ashwin Gopinath, Karthik Narasimhan, Shunyu Yao(参考訳) 大規模言語モデル(LLM)は、ゲーム、コンパイラ、APIといった外部環境との対話にゴール駆動エージェントとして使われるようになった。 しかし、従来の強化学習法では広範なトレーニングサンプルと高価なモデル微調整が必要であるため、これらの言語エージェントが試行錯誤から迅速かつ効率的に学習することは依然として困難である。 本稿では,重み付けの更新ではなく,言語フィードバックによる言語エージェント強化のための新しいフレームワークであるreflexionを提案する。 具体的には、リフレクションエージェントはタスクフィードバック信号を口頭で反射し、その後、エピソディックメモリバッファに独自のリフレクションテキストを保持し、その後の試行でより良い意思決定を誘導する。 反射は様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレーション)を組み込むのに十分な柔軟性があり、様々なタスク(逐次意思決定、コーディング、言語推論)でベースラインエージェントよりも大幅に改善されている。 例えば、reflexionは、humanevalコーディングベンチマークで91%のpass@1精度を達成し、80%を達成する以前の最先端gpt-4を上回っている。 また, 異なるフィードバック信号, フィードバック組込み法, エージェントタイプを用いたアブレーションおよび分析を行い, それらの性能への影響について考察する。

Large language models (LLMs) have been increasingly used to interact with external environments (e.g., games, compilers, APIs) as goal-driven agents. However, it remains challenging for these language agents to quickly and efficiently learn from trial-and-error as traditional reinforcement learning methods require extensive training samples and expensive model fine-tuning. We propose Reflexion, a novel framework to reinforce language agents not by updating weights, but instead through linguistic feedback. Concretely, Reflexion agents verbally reflect on task feedback signals, then maintain their own reflective text in an episodic memory buffer to induce better decision-making in subsequent trials. Reflexion is flexible enough to incorporate various types (scalar values or free-form language) and sources (external or internally simulated) of feedback signals, and obtains significant improvements over a baseline agent across diverse tasks (sequential decision-making, coding, language reasoning). For example, Reflexion achieves a 91% pass@1 accuracy on the HumanEval coding benchmark, surpassing the previous state-of-the-art GPT-4 that achieves 80%. We also conduct ablation and analysis studies using different feedback signals, feedback incorporation methods, and agent types, and provide insights into how they affect performance.
翻訳日:2023-10-13 14:05:20 公開日:2023-10-10
# StepMix: 外部変数を持つ一般化混合モデルの擬似的推定のためのPythonパッケージ

StepMix: A Python Package for Pseudo-Likelihood Estimation of Generalized Mixture Models with External Variables ( http://arxiv.org/abs/2304.03853v4 )

ライセンス: Link先を確認
Sacha Morin, Robin Legault, F\'elix Lalibert\'e, Zsuzsa Bakk, Charles-\'Edouard Gigu\`ere, Roxane de la Sablonni\`ere, \'Eric Lacourse(参考訳) StepMixは、外部変数(共変量および遠位結果)を持つ一般化有限混合モデル(潜時プロファイルおよび潜時クラス分析)の擬似的様相推定(1段階、2段階、3段階のアプローチ)のためのオープンソースのPythonパッケージである。 社会科学における多くの応用において、主な目的は個人を潜在クラスに分類するだけでなく、これらのクラスを使用してより複雑な統計モデルを開発することである。 これらのモデルは一般に、潜在クラスを観測指標に関連付ける測定モデルと、共変量と結果変数を潜在クラスに関連付ける構造モデルに分けられる。 測定と構造モデルは、いわゆるワンステップアプローチまたはステップワイズ手法を用いて共同で推定することができ、推定された潜在クラスの解釈可能性に関する実践者にとって重要な利点を示す。 1段階法に加えて、Blk-Croon-Hagenaarsを用いたバイアス調整3段階法や最大誤差補正、より最近の2段階法など、文献から最も重要なステップワイズ推定手法を実装している。 これらの擬似的様相推定器は、特定の期待-最大化サブルーチンとして統一された枠組みの下で提示される。 データサイエンスコミュニティで採用を促進するため、StepMixはScikit-Lernライブラリのオブジェクト指向設計に従い、追加のRラッパーを提供する。

StepMix is an open-source Python package for the pseudo-likelihood estimation (one-, two- and three-step approaches) of generalized finite mixture models (latent profile and latent class analysis) with external variables (covariates and distal outcomes). In many applications in social sciences, the main objective is not only to cluster individuals into latent classes, but also to use these classes to develop more complex statistical models. These models generally divide into a measurement model that relates the latent classes to observed indicators, and a structural model that relates covariates and outcome variables to the latent classes. The measurement and structural models can be estimated jointly using the so-called one-step approach or sequentially using stepwise methods, which present significant advantages for practitioners regarding the interpretability of the estimated latent classes. In addition to the one-step approach, StepMix implements the most important stepwise estimation methods from the literature, including the bias-adjusted three-step methods with Bolk-Croon-Hagenaars and maximum likelihood corrections and the more recent two-step approach. These pseudo-likelihood estimators are presented in this paper under a unified framework as specific expectation-maximization subroutines. To facilitate and promote their adoption among the data science community, StepMix follows the object-oriented design of the scikit-learn library and provides an additional R wrapper.
翻訳日:2023-10-13 13:57:20 公開日:2023-10-10
# 量子基底状態シフトの効率的な並列化

Efficient parallelization of quantum basis state shift ( http://arxiv.org/abs/2304.01704v2 )

ライセンス: Link先を確認
Ljubomir Budinski, Ossi Niemim\"aki, Roberto Zamora-Zamora, Valtteri Lahtinen(参考訳) 基底状態シフトは多くの量子アルゴリズム、特に量子ウォークの中心である。 効率的な実装は、計算アプリケーションのための量子スピードアップを達成する上で重要である。 異なる方向のシフトを並列に組み込むことにより、状態シフトアルゴリズムを最適化する。 これにより、現在知られている方法と比較して量子回路の深さが大幅に減少し、量子フーリエ変換に基づく最先端の方法の二次スケーリングとは対照的に、ゲート数と動作する量子ビット数の線形スケーリングが得られる。 1次元の大きさの2^n$ for $n > 4$の場合、並列回路の総個数は15n + 74$ 2-qubit $CX$ gatesであり、マルチコントロールゲートの分解のためのアンシラレジスタを含む合計2n-2$ qubitsである。 我々は1次元と周期的なシフトに焦点をあてるが、より複雑なケースに拡張できる点に注意する。

Basis state shift is central to many quantum algorithms, most notably the quantum walk. Efficient implementations are of major importance for achieving a quantum speedup for computational applications. We optimize the state shift algorithm by incorporating the shift in different directions in parallel. This provides a significant reduction in the depth of the quantum circuit in comparison to the currently known methods, giving a linear scaling in the number of gates versus working qubits in contrast to the quadratic scaling of the state-of-the-art method based on the quantum Fourier transform. For a one-dimensional array of size $2^n$ for $n > 4$, we derive the total number of $15n + 74$ two-qubit $CX$ gates in the parallel circuit, using a total of $2n-2$ qubits including an ancilla register for the decomposition of multi-controlled gates. We focus on the one-dimensional and periodic shift, but note that the method can be extended to more complex cases.
翻訳日:2023-10-13 13:56:20 公開日:2023-10-10
# 半監督型医用画像分割のための二重不確実性を伴う自己訓練

Self-training with dual uncertainty for semi-supervised medical image segmentation ( http://arxiv.org/abs/2304.04441v2 )

ライセンス: Link先を確認
Zhanhong Qiu, Haitao Gan, Ming Shi, Zhongwei Huang, Zhi Yang(参考訳) 半教師付き医療画像セグメンテーションの分野では、ラベル付きデータの不足が根本的な問題である。 ラベルのない画像から画像の特徴を効果的に学習し、セグメンテーション精度を向上させる方法は、この分野の主要な研究方向である。 従来の自己学習手法は、反復学習のための擬似ラベルを生成することによって、ラベル付きデータ不足の問題を部分的に解決することができる。 しかし、トレーニング中のモデルの不確実性に起因するノイズは、セグメント化結果に直接影響する。 そこで我々は,自己学習フレームワークに基づくトレーニングプロセスの安定化のために,サンプルレベルと画素レベルの不確実性を付加した。 具体的には、事前トレーニング中にモデルのいくつかのモーメントを保存し、標本の標本レベルの不確実性推定としてラベルなしサンプルの予測値の違いを用いた。 そして、トレーニング中にラベルのないサンプルを徐々に追加します。 同時に、セグメント化ネットワークに異なるアップサンプリング手法を持つデコーダを追加し、2つのデコーダの出力差を画素レベルの不確実性として使用した。 簡単に言えば、ラベルなしサンプルを選択的に再訓練し、擬似ラベルに画素レベルの不確実性を割り当て、自己学習プロセスを最適化する。 我々は、2017 ACDCデータセットと2018 Prostateデータセットの5つの半教師付きアプローチと、モデルのセグメンテーション結果を比較した。 提案手法は,同じ条件下で両方のデータセットのセグメンテーション性能を向上し,その有効性,堅牢性,および他の医用画像セグメンテーションタスクへの潜在的な転送可能性を示す。 キーワード:医療画像分割、半教師付き学習、自己学習、不確実性推定

In the field of semi-supervised medical image segmentation, the shortage of labeled data is the fundamental problem. How to effectively learn image features from unlabeled images to improve segmentation accuracy is the main research direction in this field. Traditional self-training methods can partially solve the problem of insufficient labeled data by generating pseudo labels for iterative training. However, noise generated due to the model's uncertainty during training directly affects the segmentation results. Therefore, we added sample-level and pixel-level uncertainty to stabilize the training process based on the self-training framework. Specifically, we saved several moments of the model during pre-training, and used the difference between their predictions on unlabeled samples as the sample-level uncertainty estimate for that sample. Then, we gradually add unlabeled samples from easy to hard during training. At the same time, we added a decoder with different upsampling methods to the segmentation network and used the difference between the outputs of the two decoders as pixel-level uncertainty. In short, we selectively retrained unlabeled samples and assigned pixel-level uncertainty to pseudo labels to optimize the self-training process. We compared the segmentation results of our model with five semi-supervised approaches on the public 2017 ACDC dataset and 2018 Prostate dataset. Our proposed method achieves better segmentation performance on both datasets under the same settings, demonstrating its effectiveness, robustness, and potential transferability to other medical image segmentation tasks. Keywords: Medical image segmentation, semi-supervised learning, self-training, uncertainty estimation
翻訳日:2023-10-13 13:47:08 公開日:2023-10-10
# 高次元多目的問題に対するランクベース学習と局所モデルに基づく進化的アルゴリズム

Rank-Based Learning and Local Model Based Evolutionary Algorithm for High-Dimensional Expensive Multi-Objective Problems ( http://arxiv.org/abs/2304.09444v2 )

ライセンス: Link先を確認
Guodong Chen, Jiu Jimmy Jiao, Xiaoming Xue, Xin Luo and Zhongzheng Wang(参考訳) 近年,複雑で計算コストのかかる多目的最適化問題を解くためにサロゲート支援進化アルゴリズムが広く開発されている。 しかし、高次元最適化問題を扱う場合、これらのサロゲート支援多目的進化アルゴリズムの性能は大幅に低下する。 本研究では,高次元高コスト多目的最適化問題に対して,新しい分類器支援のランクベース学習と局所モデルに基づく多目的進化アルゴリズム(CLMEA)を提案する。 提案アルゴリズムは,分類子支援のランクベース学習,ハイパーボリュームベース非支配探索,比較的少ない対象空間での局所探索の3つの部分からなる。 具体的には、確率論的ニューラルネットワークを分類器として構築し、子孫を複数のランクに分割する。 異なる階級の子孫はランクベースの学習戦略を用いて、実機能評価のためのより有望で有意義な候補を生成する。 次に、対象関数を近似する代理として放射基底関数ネットワークを構築する。 サーロゲートモデルに支援された非優位解を探索した後、高体積改善候補を実評価に選定する。 その後、溶液の多様性を維持するため、群集距離で測定した非支配溶液からの最も不確定なサンプルポイントを誘導親として選択し、前線の不確実領域にさらに侵入する。 地熱貯留層熱抽出最適化におけるベンチマーク問題と実世界の応用の実験結果から,提案アルゴリズムは現状のサロゲート支援多目的進化アルゴリズムと比較して優れた性能を示した。 この作業のソースコードはhttps://github.com/jellychen7/clmeaで入手できる。

Surrogate-assisted evolutionary algorithms have been widely developed to solve complex and computationally expensive multi-objective optimization problems in recent years. However, when dealing with high-dimensional optimization problems, the performance of these surrogate-assisted multi-objective evolutionary algorithms deteriorate drastically. In this work, a novel Classifier-assisted rank-based learning and Local Model based multi-objective Evolutionary Algorithm (CLMEA) is proposed for high-dimensional expensive multi-objective optimization problems. The proposed algorithm consists of three parts: classifier-assisted rank-based learning, hypervolume-based non-dominated search, and local search in the relatively sparse objective space. Specifically, a probabilistic neural network is built as classifier to divide the offspring into a number of ranks. The offspring in different ranks uses rank-based learning strategy to generate more promising and informative candidates for real function evaluations. Then, radial basis function networks are built as surrogates to approximate the objective functions. After searching non-dominated solutions assisted by the surrogate model, the candidates with higher hypervolume improvement are selected for real evaluations. Subsequently, in order to maintain the diversity of solutions, the most uncertain sample point from the non-dominated solutions measured by the crowding distance is selected as the guided parent to further infill in the uncertain region of the front. The experimental results of benchmark problems and a real-world application on geothermal reservoir heat extraction optimization demonstrate that the proposed algorithm shows superior performance compared with the state-of-the-art surrogate-assisted multi-objective evolutionary algorithms. The source code for this work is available at https://github.com/JellyChen7/CLMEA.
翻訳日:2023-10-13 13:37:28 公開日:2023-10-10
# 注意機構に基づく脳腫瘍の2段階mr画像分割法

Two-stage MR Image Segmentation Method for Brain Tumors based on Attention Mechanism ( http://arxiv.org/abs/2304.08072v2 )

ライセンス: Link先を確認
Li Zhu, Jiawei Jiang, Lin Lu, Jin Li(参考訳) マルチモーダルMRI(Multimodal magnetic resonance imaging)は、ヒト組織の異なるパターンを明らかにし、臨床診断に不可欠である。 しかしながら、コスト、ノイズ、手動ラベリングによって制限され、多様で信頼性の高いマルチモーダルmr画像を得ることは課題である。 同じ病変に対して、異なるMRI像は背景情報、粗い位置決め、微細構造に大きな違いがある。 よりよい生成・分節化性能を得るために,サイクル一貫性のある生成型逆ネットワーク(cyclegan)に基づく協調空間的注意生成逆ネットワーク(casp-gan)を提案する。 ジェネレータの性能は、コーディネート・アテンション(CA)モジュールと空間アテンション(SA)モジュールを導入することで最適化される。 2つのモジュールは、キャプチャされた位置情報をフル活用し、関心領域を正確に特定し、ジェネレータモデルネットワーク構造を拡張できる。 元の医用画像の構造情報と詳細な情報を抽出する能力は、所望の画像をより高品質に生成するのに役立つ。 元のサイクルガンには、トレーニング時間が長く、パラメータ量が大きすぎ、収束が難しいという問題が存在する。 この問題に対する対策として,Res Blockの代替となるCoordinate Attention(CA)モジュールを導入し,パラメータ数を削減し,上記の空間情報抽出ネットワークと連携して情報抽出能力を強化する。 さらにcasp-ganに基づいて,注意型生成的クロスモダリティセグメンテーション(agcms)法を提案する。 CASP-GANによって生成されたモダリティと実際のモダリティを脳腫瘍セグメンテーションのためのセグメンテーションネットワークに入力する。 実験の結果, CASP-GANはPSNR, SSMI, RMSEにおいてCycleGANや最先端手法よりも優れていた。

Multimodal magnetic resonance imaging (MRI) can reveal different patterns of human tissue and is crucial for clinical diagnosis. However, limited by cost, noise and manual labeling, obtaining diverse and reliable multimodal MR images remains a challenge. For the same lesion, different MRI manifestations have great differences in background information, coarse positioning and fine structure. In order to obtain better generation and segmentation performance, a coordination-spatial attention generation adversarial network (CASP-GAN) based on the cycle-consistent generative adversarial network (CycleGAN) is proposed. The performance of the generator is optimized by introducing the Coordinate Attention (CA) module and the Spatial Attention (SA) module. The two modules can make full use of the captured location information, accurately locating the interested region, and enhancing the generator model network structure. The ability to extract the structure information and the detailed information of the original medical image can help generate the desired image with higher quality. There exist some problems in the original CycleGAN that the training time is long, the parameter amount is too large, and it is difficult to converge. In response to this problem, we introduce the Coordinate Attention (CA) module to replace the Res Block to reduce the number of parameters, and cooperate with the spatial information extraction network above to strengthen the information extraction ability. On the basis of CASP-GAN, an attentional generative cross-modality segmentation (AGCMS) method is further proposed. This method inputs the modalities generated by CASP-GAN and the real modalities into the segmentation network for brain tumor segmentation. Experimental results show that CASP-GAN outperforms CycleGAN and some state-of-the-art methods in PSNR, SSMI and RMSE in most tasks.
翻訳日:2023-10-13 13:36:47 公開日:2023-10-10
# MC-ViViT:Multi-branch Classifier-ViViTによる高齢者の軽度認知障害の検出

MC-ViViT: Multi-branch Classifier-ViViT to detect Mild Cognitive Impairment in older adults using facial videos ( http://arxiv.org/abs/2304.05292v3 )

ライセンス: Link先を確認
Jian Sun, Hiroko H. Dodge, and Mohammad H. Mahoor(参考訳) 畳み込みニューラルネットワーク(cnn)を含む深層機械学習モデルは、医療画像、アンケート、ビデオを用いた軽度認知障害(mci)の検出に成功している。 本稿では,mciと正常認知を有するものを顔特徴解析により区別するマルチブランチ分類器・ビデオビジョントランスフォーマ(mc-vivit)モデルを提案する。 このデータは、頻繁なビデオチャットを提供することで認知機能を改善するための行動介入試験であるI-CONECTから得られたものだ。 MC-ViViTは1つのブランチでビデオの時空間的特徴を抽出し、MCモジュールによる表現を拡大する。 I-CONECTデータセットは、MC-ViViTのパフォーマンスを妨げるHard-EasyとPositive-Negativeのサンプルを含むデータセットの不均衡のため、難しい。 不均衡な問題に対処するために,Focal LossとAD-CORRE Lossを組み合わせたHP Loss(HP Loss)の損失関数を提案する。 i-conectデータセットを用いた実験結果から,インタビュービデオの精度90.63%の精度でmciを予測できるmc-vivitの可能性が示唆された。

Deep machine learning models including Convolutional Neural Networks (CNN) have been successful in the detection of Mild Cognitive Impairment (MCI) using medical images, questionnaires, and videos. This paper proposes a novel Multi-branch Classifier-Video Vision Transformer (MC-ViViT) model to distinguish MCI from those with normal cognition by analyzing facial features. The data comes from the I-CONECT, a behavioral intervention trial aimed at improving cognitive function by providing frequent video chats. MC-ViViT extracts spatiotemporal features of videos in one branch and augments representations by the MC module. The I-CONECT dataset is challenging as the dataset is imbalanced containing Hard-Easy and Positive-Negative samples, which impedes the performance of MC-ViViT. We propose a loss function for Hard-Easy and Positive-Negative Samples (HP Loss) by combining Focal loss and AD-CORRE loss to address the imbalanced problem. Our experimental results on the I-CONECT dataset show the great potential of MC-ViViT in predicting MCI with a high accuracy of 90.63% accuracy on some of the interview videos.
翻訳日:2023-10-13 13:33:33 公開日:2023-10-10
# ベイズアクティブラーニングによる自己補正ベイズ最適化

Self-Correcting Bayesian Optimization through Bayesian Active Learning ( http://arxiv.org/abs/2304.11005v2 )

ライセンス: Link先を確認
Carl Hvarfner, Erik Hellsten, Frank Hutter, Luigi Nardi(参考訳) ガウス過程はベイズ最適化とアクティブ学習における選択モデルである。 しかし、彼らは十分に選択されたハイパーパラメーターに非常に依存しており、文献の中で優れたハイパーパラメーターを見つけることにはほとんど注力していない。 本稿では,GPに対する優れたハイパーパラメータ選択の影響を実証し,ハイパーパラメータ学習を優先する2つの獲得関数を提案する。 統計的距離に基づくアクティブラーニング(SAL)は、統計的距離によって測定された後部からのサンプル間の平均的な不一致を考察する。 salはいくつかのテスト関数でベイズアクティブラーニングの最先端を上回っている。 次に、SALを拡張してベイズ最適化とアクティブラーニングを同時に行う自己補正ベイズ最適化(SCoreBO)を導入する。 SCoreBOは、バニラBOと比べて改善された速度でモデルハイパーパラメータを学習し、従来のベンチマークで最新のベイズ最適化手法より優れている。 さらに,非定型ベイズ最適化タスクにおける自己補正の重要性を示す。

Gaussian processes are the model of choice in Bayesian optimization and active learning. Yet, they are highly dependent on cleverly chosen hyperparameters to reach their full potential, and little effort is devoted to finding good hyperparameters in the literature. We demonstrate the impact of selecting good hyperparameters for GPs and present two acquisition functions that explicitly prioritize hyperparameter learning. Statistical distance-based Active Learning (SAL) considers the average disagreement between samples from the posterior, as measured by a statistical distance. SAL outperforms the state-of-the-art in Bayesian active learning on several test functions. We then introduce Self-Correcting Bayesian Optimization (SCoreBO), which extends SAL to perform Bayesian optimization and active learning simultaneously. SCoreBO learns the model hyperparameters at improved rates compared to vanilla BO, while outperforming the latest Bayesian optimization methods on traditional benchmarks. Moreover, we demonstrate the importance of self-correction on atypical Bayesian optimization tasks.
翻訳日:2023-10-13 13:25:39 公開日:2023-10-10
# メタレビュー生成のための会話構造を持つ複数文書の要約

Summarizing Multiple Documents with Conversational Structure for Meta-Review Generation ( http://arxiv.org/abs/2305.01498v3 )

ライセンス: Link先を確認
Miao Li, Eduard Hovy, Jey Han Lau(参考訳) 我々は,科学論文のメタレビューを生成するための新しいデータセットpeersumを提案する。 メタレビューは、レビュー、マルチターン議論、論文要約の抽象的な要約と解釈できる。 これらのソース文書は、明示的な階層的な会話構造、相互参照、(文書間の)相反する情報を含む豊富な文書間関係を持つ。 事前学習された言語モデルに構造的帰納的バイアスを導入するために,対話構造に基づくスパース注意を使用するrammer(relation-aware multi-task meta-review generator)と,メタデータ特徴を予測するマルチタスクトレーニング目標(例えば,レビューレーティング)を導入する。 実験の結果,Rammerは他の強力なベースラインモデルよりも優れた自動評価指標が得られた。 しかし、さらに分析した結果、RAMMERや他のモデルがPeerSumのソース文書のコンフリクトを扱うのに苦労していることが判明し、メタリビュー生成は難しい課題であり、さらなる研究のための有望な道のりであることを示唆している。

We present PeerSum, a novel dataset for generating meta-reviews of scientific papers. The meta-reviews can be interpreted as abstractive summaries of reviews, multi-turn discussions and the paper abstract. These source documents have rich inter-document relationships with an explicit hierarchical conversational structure, cross-references and (occasionally) conflicting information. To introduce the structural inductive bias into pre-trained language models, we introduce Rammer ( Relationship-aware Multi-task Meta-review Generator), a model that uses sparse attention based on the conversational structure and a multi-task training objective that predicts metadata features (e.g., review ratings). Our experimental results show that Rammer outperforms other strong baseline models in terms of a suite of automatic evaluation metrics. Further analyses, however, reveal that RAMMER and other models struggle to handle conflicts in source documents of PeerSum, suggesting meta-review generation is a challenging task and a promising avenue for further research.
翻訳日:2023-10-13 13:14:38 公開日:2023-10-10
# メタレビュー生成のための会話構造を持つ複数文書の要約

Summarizing Multiple Documents with Conversational Structure for Meta-Review Generation ( http://arxiv.org/abs/2305.01498v2 )

ライセンス: Link先を確認
Miao Li, Eduard Hovy, Jey Han Lau(参考訳) 我々は,科学論文のメタレビューを生成するための新しいデータセットpeersumを提案する。 メタレビューは、レビュー、マルチターン議論、論文要約の抽象的な要約と解釈できる。 これらのソース文書は、明示的な階層的な会話構造、相互参照、(文書間の)相反する情報を含む豊富な文書間関係を持つ。 事前学習された言語モデルに構造的帰納的バイアスを導入するために,対話構造に基づくスパース注意を使用するrammer(relation-aware multi-task meta-review generator)と,メタデータ特徴を予測するマルチタスクトレーニング目標(例えば,レビューレーティング)を導入する。 実験の結果,Rammerは他の強力なベースラインモデルよりも優れた自動評価指標が得られた。 しかし、さらに分析した結果、RAMMERや他のモデルがPeerSumのソース文書のコンフリクトを扱うのに苦労していることが判明し、メタリビュー生成は難しい課題であり、さらなる研究のための有望な道のりであることを示唆している。

We present PeerSum, a novel dataset for generating meta-reviews of scientific papers. The meta-reviews can be interpreted as abstractive summaries of reviews, multi-turn discussions and the paper abstract. These source documents have rich inter-document relationships with an explicit hierarchical conversational structure, cross-references and (occasionally) conflicting information. To introduce the structural inductive bias into pre-trained language models, we introduce Rammer ( Relationship-aware Multi-task Meta-review Generator), a model that uses sparse attention based on the conversational structure and a multi-task training objective that predicts metadata features (e.g., review ratings). Our experimental results show that Rammer outperforms other strong baseline models in terms of a suite of automatic evaluation metrics. Further analyses, however, reveal that RAMMER and other models struggle to handle conflicts in source documents of PeerSum, suggesting meta-review generation is a challenging task and a promising avenue for further research.
翻訳日:2023-10-13 13:14:19 公開日:2023-10-10
# 生成拡散特徴を持つ3次元階層構造の教師なし発見

Unsupervised Discovery of 3D Hierarchical Structure with Generative Diffusion Features ( http://arxiv.org/abs/2305.00067v2 )

ライセンス: Link先を確認
Nurislam Tursynbek, Marc Niethammer(参考訳) 生成拡散モデルが意味論的に意味のある表現を学習する最近の知見に触発されて,非教師なしセグメンテーションを用いた生体医用3次元画像の内在的階層構造を発見する。 U-Netベースのはしご型アーキテクチャの異なる段階からの拡散モデルの特徴は、生体医用画像の様々な階層レベルをキャプチャする。 我々は3つの損失を予測的教師なしセグメンテーションネットワークのトレーニングとして設計し、3次元ボリュームを階層を表す意味のあるネスト付きサブボリュームに分解することを奨励する。 まず,3次元拡散モデルを事前学習し,サブボリュームにまたがる特徴の一貫性を利用する。 第二に、サブボリューム間の視覚的整合性を利用する。 第3に、光度増倍に対する不変性を正則化として用いる。 我々のモデルは、生物学的にインスパイアされた合成データセットと現実世界の脳腫瘍MRIデータセットに挑戦する、教師なし構造発見アプローチよりも優れたパフォーマンスを実現する。

Inspired by recent findings that generative diffusion models learn semantically meaningful representations, we use them to discover the intrinsic hierarchical structure in biomedical 3D images using unsupervised segmentation. We show that features of diffusion models from different stages of a U-Net-based ladder-like architecture capture different hierarchy levels in 3D biomedical images. We design three losses to train a predictive unsupervised segmentation network that encourages the decomposition of 3D volumes into meaningful nested subvolumes that represent a hierarchy. First, we pretrain 3D diffusion models and use the consistency of their features across subvolumes. Second, we use the visual consistency between subvolumes. Third, we use the invariance to photometric augmentations as a regularizer. Our models achieve better performance than prior unsupervised structure discovery approaches on challenging biologically-inspired synthetic datasets and on a real-world brain tumor MRI dataset.
翻訳日:2023-10-13 13:13:32 公開日:2023-10-10
# chatgptとgpt-4は金融テキスト分析の汎用解法か? いくつかの典型的な課題に関する研究

Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? A Study on Several Typical Tasks ( http://arxiv.org/abs/2305.05862v2 )

ライセンス: Link先を確認
Xianzhi Li, Samuel Chan, Xiaodan Zhu, Yulong Pei, Zhiqiang Ma, Xiaomo Liu and Sameena Shah(参考訳) ChatGPT や GPT-4 のような最近の大規模言語モデル(LLM)は、汎用モデルの例外的な能力を示し、ほとんどあるいは全く適応しない幅広いNLPタスクで最先端のパフォーマンスを達成する。 このようなモデルは金融分野でどの程度有効か? この基本的な質問を理解することは、下流の財務分析タスクの多くに大きな影響を与えるだろう。 本稿では,5つのタスクのカテゴリから8つのベンチマークデータセットを用いて,多種多様な財務テキスト分析問題に関する実証的研究を行い,その性能に関する実験的証拠を提供する。 現状の細調整アプローチと最近リリースされたドメイン固有事前訓練モデルとの比較により,現行モデルの長所と短所について報告する。 この研究により、金融分野における既存モデルの能力を理解し、さらなる改善を促進することが期待できる。

The most recent large language models(LLMs) such as ChatGPT and GPT-4 have shown exceptional capabilities of generalist models, achieving state-of-the-art performance on a wide range of NLP tasks with little or no adaptation. How effective are such models in the financial domain? Understanding this basic question would have a significant impact on many downstream financial analytical tasks. In this paper, we conduct an empirical study and provide experimental evidences of their performance on a wide variety of financial text analytical problems, using eight benchmark datasets from five categories of tasks. We report both the strengths and limitations of the current models by comparing them to the state-of-the-art fine-tuned approaches and the recently released domain-specific pretrained models. We hope our study can help understand the capability of the existing models in the financial domain and facilitate further improvements.
翻訳日:2023-10-13 13:07:47 公開日:2023-10-10
# 弱教師付き意味セグメンテーションのためのsegment anything model (sam)拡張擬似ラベル

Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.05803v2 )

ライセンス: Link先を確認
Tianle Chen, Zheda Mai, Ruiwen Li, Wei-lun Chao(参考訳) 弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、画像レベルのアノテーションのみを使用することで、精細なピクセルレベルのアノテーションの必要性を回避することを目的としている。 既存の手法の多くは、ピクセルレベルの擬似ラベルを導出し、完全に教師付きセマンティクスセグメンテーションモデルを訓練するためにクラスアクティベーションマップ(cam)に依存している。 これらの擬似ラベルはクラスアウェアであり、特定のクラスの粗い領域を示すが、オブジェクトアウェアではなく、正確なオブジェクト境界を記述できない。 そこで本研究では,Segment Anything Model(SAM)を用いて,オブジェクト,部品,サブ部品のきめ細かいインスタンスマスクを生成可能な,クラスに依存しない基礎モデルを提案する。 我々は CAM 擬似ラベルを SAM マスクの選択と組み合わせに用い,その結果,クラス認識とオブジェクト認識の両方の高品質な擬似ラベルが得られる。 我々のアプローチは非常に多用途であり、変更することなく既存のWSSSメソッドに簡単に統合できる。 その単純さにもかかわらず、当社の手法はPASCAL VOCとMS-COCOの両方のデータセット上で、最先端のWSSS手法よりも一貫した利得を示している。

Weakly supervised semantic segmentation (WSSS) aims to bypass the need for laborious pixel-level annotation by using only image-level annotation. Most existing methods rely on Class Activation Maps (CAM) to derive pixel-level pseudo-labels and use them to train a fully supervised semantic segmentation model. Although these pseudo-labels are class-aware, indicating the coarse regions for particular classes, they are not object-aware and fail to delineate accurate object boundaries. To address this, we introduce a simple yet effective method harnessing the Segment Anything Model (SAM), a class-agnostic foundation model capable of producing fine-grained instance masks of objects, parts, and subparts. We use CAM pseudo-labels as cues to select and combine SAM masks, resulting in high-quality pseudo-labels that are both class-aware and object-aware. Our approach is highly versatile and can be easily integrated into existing WSSS methods without any modification. Despite its simplicity, our approach shows consistent gain over the state-of-the-art WSSS methods on both PASCAL VOC and MS-COCO datasets.
翻訳日:2023-10-13 13:07:31 公開日:2023-10-10
# camil: コンテキスト対応の複数インスタンス学習によるがん検出と全スライド画像のサブタイプ

CAMIL: Context-Aware Multiple Instance Learning for Cancer Detection and Subtyping in Whole Slide Images ( http://arxiv.org/abs/2305.05314v2 )

ライセンス: Link先を確認
Olga Fourkioti, Matt De Vries and Chris Bakal(参考訳) 組織生検の視覚検査は、癌診断の基礎であり、病理学者は腫瘍細胞とそのサブタイプを識別するために、複数の倍率の部位を解析する。 しかし、がん診断において全スライド画像(WSI)を解析するために使用される既存の注意ベースの多重インスタンス学習(MIL)モデルは、しばしば腫瘍や近隣のタイルの文脈情報を見落とし、誤分類につながる。 そこで本研究では,コンテキスト認識型マルチインスタンス学習(CAMIL)アーキテクチャを提案する。 CAMILは、WSI内のタイル間の依存関係を考慮し、事前知識としてコンテキスト制約をMILモデルに統合するために、隣接する制約された注意を組み込む。 CAMILは非小細胞肺癌 (TCGA-NSCLC) とリンパ節転移(CAMELYON16) の検出において, それぞれ0.959\%, 0.975\%の試験AUCを達成し, 他方法よりも優れた成績を示した。 さらに、camilは高い診断値の領域を特定することで、モデルの解釈性を高める。

The visual examination of tissue biopsy sections is fundamental for cancer diagnosis, with pathologists analyzing sections at multiple magnifications to discern tumor cells and their subtypes. However, existing attention-based multiple instance learning (MIL) models, used for analyzing Whole Slide Images (WSIs) in cancer diagnostics, often overlook the contextual information of tumor and neighboring tiles, leading to misclassifications. To address this, we propose the Context-Aware Multiple Instance Learning (CAMIL) architecture. CAMIL incorporates neighbor-constrained attention to consider dependencies among tiles within a WSI and integrates contextual constraints as prior knowledge into the MIL model. We evaluated CAMIL on subtyping non-small cell lung cancer (TCGA-NSCLC) and detecting lymph node (CAMELYON16) metastasis, achieving test AUCs of 0.959\% and 0.975\%, respectively, outperforming other state-of-the-art methods. Additionally, CAMIL enhances model interpretability by identifying regions of high diagnostic value.
翻訳日:2023-10-13 13:06:19 公開日:2023-10-10
# マルチキュービットシステムにおけるエンタングルメントの可視化

Visualizing Entanglement in multi-Qubit Systems ( http://arxiv.org/abs/2305.07596v3 )

ライセンス: Link先を確認
Jonas Bley, Eva Rexigel, Alda Arias, Nikolas Longen, Lars Krupp, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz, Anna Donhauser, Stefan K\"uchemann, Jochen Kuhn, and Artur Widera(参考訳) 量子情報科学とテクノロジーの分野では、量子状態と関連するプロセスの表現と視覚化は研究と教育の両方に不可欠である。 この文脈では、特に数量子ビットのアンサンブルに焦点を当てる。 有名なブロッホ球面や一般化など、シングルキュービットおよびマルチキュービットシステムの多くの強力な表現が存在する。 ここでは、そのようなアンサンブルの表現として次元円記法を用い、量子ビットのいわゆる円記法と、n-粒子系をn-次元空間で表現するアイデアを適用する。 分離可能性の数学的条件は量子状態の対称性を可視化し、数量子ビット系の絡み合いや様々な量子アルゴリズムに対する新しい視点を提供する。 このようにして、次元記法は、数量子ビット系の非自明な量子絡み合い特性と過程をより広いオーディエンスに伝達する大きな可能性を約束し、これらの概念を直感的な量子洞察と形式的な数学的記述との橋渡しとして理解を深めることができる。

In the field of quantum information science and technology, the representation and visualization of quantum states and related processes are essential for both research and education. In this context, a focus especially lies on ensembles of few qubits. There exist many powerful representations for single-qubit and multi-qubit systems, such as the famous Bloch sphere and generalizations. Here, we utilize the dimensional circle notation as a representation of such ensembles, adapting the so-called circle notation of qubits and the idea of representing the n-particle system in an n-dimensional space. We show that the mathematical conditions for separability lead to symmetry conditions of the quantum state visualized, offering a new perspective on entanglement in few-qubit systems and therefore on various quantum algorithms. In this way, dimensional notations promise significant potential for conveying nontrivial quantum entanglement properties and processes in few-qubit systems to a broader audience, and could enhance understanding of these concepts as a bridge between intuitive quantum insight and formal mathematical descriptions.
翻訳日:2023-10-13 12:54:32 公開日:2023-10-10
# マルチキュービットシステムにおけるエンタングルメントの可視化

Visualizing Entanglement in multi-Qubit Systems ( http://arxiv.org/abs/2305.07596v2 )

ライセンス: Link先を確認
Jonas Bley, Eva Rexigel, Alda Arias, Nikolas Longen, Lars Krupp, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz, Anna Donhauser, Stefan K\"uchemann, Jochen Kuhn, and Artur Widera(参考訳) 量子情報科学とテクノロジーの分野では、量子状態と関連するプロセスの表現と視覚化は研究と教育の両方に不可欠である。 この文脈では、特に数量子ビットのアンサンブルに焦点を当てる。 有名なブロッホ球面や一般化など、シングルキュービットおよびマルチキュービットシステムの多くの強力な表現が存在する。 ここでは、そのようなアンサンブルの表現として次元円記法を用い、量子ビットのいわゆる円記法と、n-粒子系をn-次元空間で表現するアイデアを適用する。 分離可能性の数学的条件は量子状態の対称性を可視化し、数量子ビット系の絡み合いや様々な量子アルゴリズムに対する新しい視点を提供する。 このようにして、次元記法は、数量子ビット系の非自明な量子絡み合い特性と過程をより広いオーディエンスに伝達する大きな可能性を約束し、これらの概念を直感的な量子洞察と形式的な数学的記述との橋渡しとして理解を深めることができる。

In the field of quantum information science and technology, the representation and visualization of quantum states and related processes are essential for both research and education. In this context, a focus especially lies on ensembles of few qubits. There exist many powerful representations for single-qubit and multi-qubit systems, such as the famous Bloch sphere and generalizations. Here, we utilize the dimensional circle notation as a representation of such ensembles, adapting the so-called circle notation of qubits and the idea of representing the n-particle system in an n-dimensional space. We show that the mathematical conditions for separability lead to symmetry conditions of the quantum state visualized, offering a new perspective on entanglement in few-qubit systems and therefore on various quantum algorithms. In this way, dimensional notations promise significant potential for conveying nontrivial quantum entanglement properties and processes in few-qubit systems to a broader audience, and could enhance understanding of these concepts as a bridge between intuitive quantum insight and formal mathematical descriptions.
翻訳日:2023-10-13 12:54:13 公開日:2023-10-10
# 事前学習モデルからの効率的な等変伝達学習

Efficient Equivariant Transfer Learning from Pretrained Models ( http://arxiv.org/abs/2305.09900v2 )

ライセンス: Link先を確認
Sourya Basu, Pulkit Katdare, Prasanna Sattigeri, Vijil Chenthamarakshan, Katherine Driggs-Campbell, Payel Das, Lav R. Varshney(参考訳) 効率的な転送学習アルゴリズムは、限られたデータであっても様々な下流タスクの基礎モデルの成功の鍵となる。 Basu et al. (2023) と Kaba et al. (2022) の最近の研究は、群変換された入力の特徴に対して、グループ平均化(equitune)と最適化に基づく手法を提案し、非同変ニューラルネットワークから同変出力を得る。 Kaba et al. (2022) はスクラッチからしか訓練しないが、等式は良好な微調整結果にもかかわらず等式ゼロショットタスクでは不十分である。 これは、事前トレーニングされたモデルが特定の変換に対して、他のモデルよりも優れた品質機能を提供し、単に平均化が削除されるからだ、と仮定しています。 したがって、重要度重みを用いて特徴を平均化する {\lambda}-equitune を提案する。 これらの重みは、小さなニューラルネットワークを使ってデータから直接学習され、ゼロショットと微調整の結果が等級を上回る。 さらに、 {\lambda}-equitune が同変であり、同変関数の普遍近似器であることが証明される。 さらに,我々がequizeroと呼ぶ適切な損失関数を用いたkaba et al. (2022) の手法は,優れたゼロショット性能と微調整性能をもたらすことを示した。 等値と等値ともに、 {\lambda}-等値の特別な場合である。 提案手法の単純さと汎用性を示すため,多種多様なアプリケーションやモデルに対して検証を行った。 1) CLIP を用いた画像分類 2)深いQ-ラーニング。 3)自然言語生成における公平性(NLG) 4) 言語における構成一般化及び 5) ResnetやAlexnetなどの事前訓練CNNを用いた画像分類。

Efficient transfer learning algorithms are key to the success of foundation models on diverse downstream tasks even with limited data. Recent works of Basu et al. (2023) and Kaba et al. (2022) propose group averaging (equitune) and optimization-based methods, respectively, over features from group-transformed inputs to obtain equivariant outputs from non-equivariant neural networks. While Kaba et al. (2022) are only concerned with training from scratch, we find that equitune performs poorly on equivariant zero-shot tasks despite good finetuning results. We hypothesize that this is because pretrained models provide better quality features for certain transformations than others and simply averaging them is deleterious. Hence, we propose {\lambda}-equitune that averages the features using importance weights, {\lambda}s. These weights are learned directly from the data using a small neural network, leading to excellent zero-shot and finetuned results that outperform equitune. Further, we prove that {\lambda}-equitune is equivariant and a universal approximator of equivariant functions. Additionally, we show that the method of Kaba et al. (2022) used with appropriate loss functions, which we call equizero, also gives excellent zero-shot and finetuned performance. Both equitune and equizero are special cases of {\lambda}-equitune. To show the simplicity and generality of our method, we validate on a wide range of diverse applications and models such as 1) image classification using CLIP, 2) deep Q-learning, 3) fairness in natural language generation (NLG), 4) compositional generalization in languages, and 5) image classification using pretrained CNNs such as Resnet and Alexnet.
翻訳日:2023-10-13 12:46:02 公開日:2023-10-10
# ChatGPTは真実の信念を守れるか? ディベートによるLLM推論の評価

Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate ( http://arxiv.org/abs/2305.13160v2 )

ライセンス: Link先を確認
Boshi Wang, Xiang Yue, Huan Sun(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な性能を示している。 しかし、モデルが真理と論理の深い理解に基づく推論なのか、あるいは比較的表面的な方法で記憶されたパターンを利用するのかを知ることは困難である。 本研究では,LLMの推論を議論のような会話で行うことで検証する。そこでは,LLMとユーザは,対立する議論から始めて正しい判断を下すために議論する必要がある。 巧妙なハンス効果を緩和するにあたって、我々のタスクでは、llmは、それ自体で正しい答えを達成するだけでなく、ユーザーの(有害な)議論や批判によって盲目的に信じたり誤解されたりするのではなく、その信念を守り、llmが問題解決に必要な推論の本質を把握しているかを、より深くテストする必要があります。 数学、コモンセンス、論理学、BIG-Benchタスクにまたがる様々な複雑な推論ベンチマークにおいて、初期の段階では正しいステップバイステップのソリューションを生成するというこれまでの研究で報告されているような、印象的な性能にもかかわらず、ChatGPTのようなLLMは、しばしば不当な議論によって挑戦される場合のかなりの部分において、真実における信念を維持できない。 我々の研究は、モデルアライメントの危険領域を指摘し、LLMがフィードバックに基づいて応答を改善するという最近の知見のより慎重な治療と解釈を示唆している。

Large language models (LLMs) such as ChatGPT and GPT-4 have shown impressive performance in complex reasoning tasks. However, it is difficult to know whether the models are reasoning based on deep understandings of truth and logic, or leveraging their memorized patterns in a relatively superficial way. In this work, we explore testing LLMs' reasoning by engaging with them in a debate-like conversation, where given a question, the LLM and the user need to discuss to make the correct decision starting from opposing arguments. Upon mitigating the Clever Hans effect, our task requires the LLM to not only achieve the correct answer on its own, but also be able to hold and defend its belief instead of blindly believing or getting misled by the user's (invalid) arguments and critiques, thus testing in greater depth whether the LLM grasps the essence of the reasoning required to solve the problem. Across a range of complex reasoning benchmarks spanning math, commonsense, logic and BIG-Bench tasks, we find that despite their impressive performance as reported in existing work on generating correct step-by-step solutions in the beginning, LLMs like ChatGPT cannot maintain their beliefs in truth for a significant portion of examples when challenged by oftentimes absurdly invalid arguments. Our work points to danger zones of model alignment, and also suggests more careful treatments and interpretations of the recent findings that LLMs can improve their responses based on feedback.
翻訳日:2023-10-13 12:35:13 公開日:2023-10-10
# 表面の類似性-大規模言語モデルによる構造アブダクション後の科学的アナロジー

Beneath Surface Similarity: Large Language Models Make Reasonable Scientific Analogies after Structure Abduction ( http://arxiv.org/abs/2305.12660v2 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Xuyang Ge, Yanghua Xiao, Deqing Yang(参考訳) 人間の認知における類推的推論の不可欠な役割は、共用関係構造を通して親しみやすい概念とリンクすることで、新しい概念を把握できることである。 単語類似語に対する以前の研究の注目にもかかわらず、この研究は、大言語モデル(LLM)がこれらの類似語を支える構造をしばしば見落としていることを示唆し、単語類似語の有効性を、人間の認知に似たアナロジー推論スキルの尺度として提起している。 これに対応するために,認知心理学を基礎として,二つのシステム間の類似性を形成する構造を導出するための類推という課題を紹介する。 このタスクをサポートするために,13の異なる分野から400の科学的アナロジーを含むscarと呼ばれるベンチマークを構築し,構造アブダクションによるアナロジー推論を評価するための調整を行った。 実証的な証拠は、ChatGPT や GPT-4 など LLM がこのタスクを習得する上で直面している継続的な課題を浮き彫りにしており、これらの能力を高めるための将来の探査の必要性を示している。

The vital role of analogical reasoning in human cognition allows us to grasp novel concepts by linking them with familiar ones through shared relational structures. Despite the attention previous research has given to word analogies, this work suggests that Large Language Models (LLMs) often overlook the structures that underpin these analogies, raising questions about the efficacy of word analogies as a measure of analogical reasoning skills akin to human cognition. In response to this, our paper introduces a task of analogical structure abduction, grounded in cognitive psychology, designed to abduce structures that form an analogy between two systems. In support of this task, we establish a benchmark called SCAR, containing 400 scientific analogies from 13 distinct fields, tailored for evaluating analogical reasoning with structure abduction. The empirical evidence underlines the continued challenges faced by LLMs, including ChatGPT and GPT-4, in mastering this task, signifying the need for future exploration to enhance their abilities.
翻訳日:2023-10-13 12:34:13 公開日:2023-10-10
# 圧縮とプロンプト:転送可能なプロンプトによるllm推論の精度と効率のトレードオフを改善する

Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt ( http://arxiv.org/abs/2305.11186v2 )

ライセンス: Link先を確認
Zhaozhuo Xu, Zirui Liu, Beidi Chen, Yuxin Tang, Jue Wang, Kaixiong Zhou, Xia Hu and Anshumali Shrivastava(参考訳) LLM(Large Language Models)の多くのパラメータは、その優れたパフォーマンスに寄与するが、この大規模なスケールは、非効率でメモリ不足をもたらす。 したがって、単一のGPUのようなコモディティハードウェアにデプロイするのは困難である。 このようなデバイスのメモリと電力の制約を考えると、モデル圧縮法はモデルサイズと推論遅延の両方を減らすために広く使われており、それによってモデル品質は本質的にトレードオフされ効率が向上する。 したがって、この精度効率トレードオフを最適化することは、LLMをコモディティハードウェアに展開する上で極めて重要である。 本稿では,圧縮モデルの導入により,このトレードオフを最適化する新たな視点を提案する。 具体的には、特定の質問に対して、注意深くデザインされたハードプロンプトを追加することで、圧縮されたllmの生成品質が大幅に向上することを最初に観察します。 そこで本研究では,提案手法を用いて,圧縮されたモデルを高速学習プロセスに公開し,プロンプトの性能向上を目的としたソフトプロンプト学習手法を提案する。 我々のソフトプロンプト戦略は,8x圧縮LLaMA-7Bモデル(ジョイント4ビット量子化と50%加重プルーニング圧縮)の性能を大幅に向上させ,圧縮されていないモデルと一般的なベンチマークで一致させることができることを示す。 また、これらの学習プロンプトは、さまざまなデータセット、タスク、圧縮レベル間で転送可能であることを示す。 これにより,新たに圧縮したモデルにソフトプロンプトを縫い付け, ‘in-situ'''方式でテスト時間精度を向上させることができる。

While the numerous parameters in Large Language Models (LLMs) contribute to their superior performance, this massive scale makes them inefficient and memory-hungry. Thus, they are hard to deploy on commodity hardware, such as one single GPU. Given the memory and power constraints of such devices, model compression methods are widely employed to reduce both the model size and inference latency, which essentially trades off model quality in return for improved efficiency. Thus, optimizing this accuracy-efficiency trade-off is crucial for the LLM deployment on commodity hardware. In this paper, we introduce a new perspective to optimize this trade-off by prompting compressed models. Specifically, we first observe that for certain questions, the generation quality of a compressed LLM can be significantly improved by adding carefully designed hard prompts, though this isn't the case for all questions. Based on this observation, we propose a soft prompt learning method where we expose the compressed model to the prompt learning process, aiming to enhance the performance of prompts. Our experimental analysis suggests our soft prompt strategy greatly improves the performance of the 8x compressed LLaMA-7B model (with a joint 4-bit quantization and 50% weight pruning compression), allowing them to match their uncompressed counterparts on popular benchmarks. Also, we demonstrate that these learned prompts can be transferred across various datasets, tasks, and compression levels. Hence with this transferability, we can stitch the soft prompt to a newly compressed model to improve the test-time accuracy in an ``in-situ'' way.
翻訳日:2023-10-13 12:32:52 公開日:2023-10-10
# コンテキスト内学習のためのスキルベースマイノショット選択

Skill-Based Few-Shot Selection for In-Context Learning ( http://arxiv.org/abs/2305.14210v2 )

ライセンス: Link先を確認
Shengnan An, Bo Zhou, Zeqi Lin, Qiang Fu, Bei Chen, Nanning Zheng, Weizhu Chen and Jian-Guang Lou(参考訳) インコンテキスト学習(in-context learning)は,大規模な言語モデルをダウンストリームタスクに適用するパラダイムである。 テストインスタンス毎に適切な例を選択することの少ない選択は、コンテキスト内学習において重要です。 本稿では,テキスト内学習のためのスキルベース少数ショット選択手法であるSkill-KNNを提案する。 skill-knnの主な利点は、(1)事前学習された埋め込みに基づく既存のメソッドが、ターゲットタスクにとって重要でない表面的自然言語特徴によって、容易にバイアスを負うことができるという問題、(2)いかなるモデルのトレーニングや微調整も必要とせず、頻繁な拡張や変更に適すること、である。 重要な洞察は、モデル自体をチューニングするのではなく、組み込みモデルに供給される入力を最適化することだ。 技術的には、skill-knnは事前処理の少ないプロンプトを利用して各テストケースと候補サンプルのスキルベース記述を生成し、重要でない表面特徴を排除している。 5つのクロスドメインセマンティクスパースデータセットと6つのバックボーンモデルによる実験結果は、skill-knnが既存のメソッドを大きく上回っていることを示している。

In-context learning is the paradigm that adapts large language models to downstream tasks by providing a few examples. Few-shot selection -- selecting appropriate examples for each test instance separately -- is important for in-context learning. In this paper, we propose Skill-KNN, a skill-based few-shot selection method for in-context learning. The key advantages of Skill-KNN include: (1) it addresses the problem that existing methods based on pre-trained embeddings can be easily biased by surface natural language features that are not important for the target task; (2) it does not require training or fine-tuning of any models, making it suitable for frequently expanding or changing example banks. The key insight is to optimize the inputs fed into the embedding model, rather than tuning the model itself. Technically, Skill-KNN generates the skill-based descriptions for each test case and candidate example by utilizing a pre-processing few-shot prompting, thus eliminating unimportant surface features. Experimental results across five cross-domain semantic parsing datasets and six backbone models show that Skill-KNN significantly outperforms existing methods.
翻訳日:2023-10-13 12:25:27 公開日:2023-10-10
# 共有語彙を超えて:多言語機械翻訳のための言語間の表現的単語類似性の向上

Beyond Shared Vocabulary: Increasing Representational Word Similarities across Languages for Multilingual Machine Translation ( http://arxiv.org/abs/2305.14189v2 )

ライセンス: Link先を確認
Di Wu and Christof Monz(参考訳) 言語間で共有される語彙の使用は、MNMT(Multilingual Neural Machine Translation)において一般的な慣習である。 その単純な設計に加えて、共有トークンは言語間の類似の意味を参照していると仮定して、ポジティブな知識伝達において重要な役割を果たす。 しかし、単語重なりが小さい場合、特に異なる書き体系のため、転送が抑制される。 本稿では,単語等価クラスによる単語レベルの情報伝達経路を定義し,言語間の単語埋め込みを融合するグラフネットワークに依存する。 我々の実験は我々のアプローチの利点を示しています 1)類似した意味を持つ単語の埋め込みは、言語間で整合性がよい。 2) 高速・低出力MNMTにおいて, BLEUを最大2.3ポイントまで一貫した改善を実現する。 3) 計算コストが制限された場合,1.0 %未満のトレーニング可能なパラメータが要求される一方で,推論時間はベースラインと同一である。 コードベースをコミュニティにリリースします。

Using a vocabulary that is shared across languages is common practice in Multilingual Neural Machine Translation (MNMT). In addition to its simple design, shared tokens play an important role in positive knowledge transfer, assuming that shared tokens refer to similar meanings across languages. However, when word overlap is small, especially due to different writing systems, transfer is inhibited. In this paper, we define word-level information transfer pathways via word equivalence classes and rely on graph networks to fuse word embeddings across languages. Our experiments demonstrate the advantages of our approach: 1) embeddings of words with similar meanings are better aligned across languages, 2) our method achieves consistent BLEU improvements of up to 2.3 points for high- and low-resource MNMT, and 3) less than 1.0\% additional trainable parameters are required with a limited increase in computational costs, while inference time remains identical to the baseline. We release the codebase to the community.
翻訳日:2023-10-13 12:25:04 公開日:2023-10-10
# LLM-grounded Diffusion:大規模言語モデルを用いたテキスト間拡散モデルのプロンプト理解の促進

LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models ( http://arxiv.org/abs/2305.13655v2 )

ライセンス: Link先を確認
Long Lian, Boyi Li, Adam Yala, Trevor Darrell(参考訳) 最近のテキストから画像への拡散モデルの進歩は、リアルで多様な画像を生成する素晴らしい結果をもたらした。 しかし、これらのモデルはまだ、数量化や空間的推論を含むような複雑なプロンプトに苦しむ。 本研究は拡散モデルにおける迅速な理解能力を高めることを提案する。 提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデル(LLM)を基底生成に活用する。 第1段階で、LLMは、所望の画像を記述する所定のプロンプトからキャプション付きバウンディングボックスを含むシーンレイアウトを生成する。 第2段階では、新しいコントローラがレイアウト基底画像生成のためのオフザシェルフ拡散モデルを導出する。 どちらの段階も、追加のモデルパラメータ最適化なしで既存の事前訓練モデルを利用する。 提案手法は, 4つのタスクにまたがる生成精度を平均2倍にし, 様々な機能を必要とするプロンプトに従って, 画像の正確な生成において, ベース拡散モデルと強いベースラインを著しく上回っている。 さらに,命令ベースのマルチラウンドシーン仕様を実現し,基礎となる拡散モデルではサポートされていない言語でプロンプトを処理できる。 我々は,より複雑なプロンプトを正確に追従することで,ユーザの創造性を解き放つことを期待する。

Recent advancements in text-to-image diffusion models have yielded impressive results in generating realistic and diverse images. However, these models still struggle with complex prompts, such as those that involve numeracy and spatial reasoning. This work proposes to enhance prompt understanding capabilities in diffusion models. Our method leverages a pretrained large language model (LLM) for grounded generation in a novel two-stage process. In the first stage, the LLM generates a scene layout that comprises captioned bounding boxes from a given prompt describing the desired image. In the second stage, a novel controller guides an off-the-shelf diffusion model for layout-grounded image generation. Both stages utilize existing pretrained models without additional model parameter optimization. Our method significantly outperforms the base diffusion model and several strong baselines in accurately generating images according to prompts that require various capabilities, doubling the generation accuracy across four tasks on average. Furthermore, our method enables instruction-based multi-round scene specification and can handle prompts in languages not supported by the underlying diffusion model. We anticipate that our method will unleash users' creativity by accurately following more complex prompts.
翻訳日:2023-10-13 12:24:14 公開日:2023-10-10
# UniChart: チャート理解と推論のためのユニバーサルビジョン言語事前訓練モデル

UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning ( http://arxiv.org/abs/2305.14761v3 )

ライセンス: Link先を確認
Ahmed Masry, Parsa Kavehzadeh, Xuan Long Do, Enamul Hoque, Shafiq Joty(参考訳) チャートはデータ分析や重要な洞察の可視化、データに関する複雑な推論質問への回答に非常に人気がある。 自然言語を用いたチャートベースのデータ解析を容易にするために,近年,チャート質問応答やチャート要約などのダウンストリームタスクが導入されている。 しかし、これらのタスクを解決する方法の多くは、グラフの構造を明示的にモデル化しようとしない言語や視覚言語によるタスク(例えば、データがどのように視覚的に符号化され、チャート要素が相互に関連しているかなど)で事前訓練を使用する。 この問題に対処するために、私たちはまず、さまざまなトピックや視覚スタイルをカバーする大きなチャートコーパスを構築しました。 次に,グラフ理解と推論のための事前学習モデルであるunichartを提案する。 unichartは、チャートの関連するテキスト、データ、視覚要素をエンコードし、チャートで囲まれたテキストデコーダを使用して、自然言語で期待される出力を生成する。 グラフ固有の事前学習タスクをいくつか提案する。 (i)図表から視覚的要素(棒、線など)とデータを抽出するための低レベルタスク (ii)図の理解と推論のスキルを得るための高度なタスク。 その結果、3つのダウンストリームタスクを微調整すると、3つのダウンストリームタスクにおける最先端のパフォーマンスが得られることがわかった。

Charts are very popular for analyzing data, visualizing key insights and answering complex reasoning questions about data. To facilitate chart-based data analysis using natural language, several downstream tasks have been introduced recently such as chart question answering and chart summarization. However, most of the methods that solve these tasks use pretraining on language or vision-language tasks that do not attempt to explicitly model the structure of the charts (e.g., how data is visually encoded and how chart elements are related to each other). To address this, we first build a large corpus of charts covering a wide variety of topics and visual styles. We then present UniChart, a pretrained model for chart comprehension and reasoning. UniChart encodes the relevant text, data, and visual elements of charts and then uses a chart-grounded text decoder to generate the expected output in natural language. We propose several chart-specific pretraining tasks that include: (i) low-level tasks to extract the visual elements (e.g., bars, lines) and data from charts, and (ii) high-level tasks to acquire chart understanding and reasoning skills. We find that pretraining the model on a large corpus with chart-specific low- and high-level tasks followed by finetuning on three down-streaming tasks results in state-of-the-art performance on three downstream tasks.
翻訳日:2023-10-13 12:14:08 公開日:2023-10-10
# UniChart: チャート理解と推論のためのユニバーサルビジョン言語事前訓練モデル

UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning ( http://arxiv.org/abs/2305.14761v2 )

ライセンス: Link先を確認
Ahmed Masry, Parsa Kavehzadeh, Xuan Long Do, Enamul Hoque, Shafiq Joty(参考訳) チャートはデータ分析や重要な洞察の可視化、データに関する複雑な推論質問への回答に非常に人気がある。 自然言語を用いたチャートベースのデータ解析を容易にするために,近年,チャート質問応答やチャート要約などのダウンストリームタスクが導入されている。 しかし、これらのタスクを解決する方法の多くは、グラフの構造を明示的にモデル化しようとしない言語や視覚言語によるタスク(例えば、データがどのように視覚的に符号化され、チャート要素が相互に関連しているかなど)で事前訓練を使用する。 この問題に対処するために、私たちはまず、さまざまなトピックや視覚スタイルをカバーする大きなチャートコーパスを構築しました。 次に,グラフ理解と推論のための事前学習モデルであるunichartを提案する。 unichartは、チャートの関連するテキスト、データ、視覚要素をエンコードし、チャートで囲まれたテキストデコーダを使用して、自然言語で期待される出力を生成する。 グラフ固有の事前学習タスクをいくつか提案する。 (i)図表から視覚的要素(棒、線など)とデータを抽出するための低レベルタスク (ii)図の理解と推論のスキルを得るための高度なタスク。 その結果、3つのダウンストリームタスクを微調整すると、3つのダウンストリームタスクにおける最先端のパフォーマンスが得られることがわかった。

Charts are very popular for analyzing data, visualizing key insights and answering complex reasoning questions about data. To facilitate chart-based data analysis using natural language, several downstream tasks have been introduced recently such as chart question answering and chart summarization. However, most of the methods that solve these tasks use pretraining on language or vision-language tasks that do not attempt to explicitly model the structure of the charts (e.g., how data is visually encoded and how chart elements are related to each other). To address this, we first build a large corpus of charts covering a wide variety of topics and visual styles. We then present UniChart, a pretrained model for chart comprehension and reasoning. UniChart encodes the relevant text, data, and visual elements of charts and then uses a chart-grounded text decoder to generate the expected output in natural language. We propose several chart-specific pretraining tasks that include: (i) low-level tasks to extract the visual elements (e.g., bars, lines) and data from charts, and (ii) high-level tasks to acquire chart understanding and reasoning skills. We find that pretraining the model on a large corpus with chart-specific low- and high-level tasks followed by finetuning on three down-streaming tasks results in state-of-the-art performance on three downstream tasks.
翻訳日:2023-10-13 12:13:45 公開日:2023-10-10
# アドバンテージに基づくオフラインポリシーグラディエントによる言語モデルの改善

Improving Language Models with Advantage-based Offline Policy Gradients ( http://arxiv.org/abs/2305.14718v3 )

ライセンス: Link先を確認
Ashutosh Baheti, Ximing Lu, Faeze Brahman, Ronan Le Bras, Maarten Sap, Mark Riedl(参考訳) 言語モデル (LM) は、Reinforcement Learning with Human Feedback (RLHF) を用いて微調整された言語機能を実現する。 しかし、RLHFは不安定でデータ処理のプロセスであり、微調整のために新しい高品質なLM生成データを必要とする。 本稿では,既存のデータに対するRLトレーニングを可能にするオフラインポリシー勾配アルゴリズムであるAdvantage-Leftover Lunch RL (A-LoL)を紹介する。 LM出力シーケンス全体を単一のアクションとして仮定することで、A-LoLはシーケンスレベルの分類器や人間設計のスコアリング機能を報酬として組み込むことができる。 その後、LMの内部シーケンスレベル値を推定することにより、A-LoLはトレーニング中に負の利点(低品質)のデータポイントをフィルタし、ノイズに耐性を持たせる。 全体として、A-LoLはサンプル効率が高く安定したLMトレーニングレシピである。 A-LoLとその変種の有効性を4つの異なる言語生成タスクで示す。 オンラインRL(PPO)と最近のRL(DPO, PRO)とオフラインRL(GOLD)を比較した。 一般的に使用されているRLHFベンチマークであるHelpful and Harmless Assistant (HHA)では、A-LoLメソッドで訓練されたLMは、人間によるベースラインよりも安全で役に立つと評価されている。 さらに、残りの3つのタスクにおいて、a-lolは、ノイズやサブオプティカルトレーニングデータを使用しても、複数の異なる報酬機能を最適化することができる。 実験コードもリリースしています。 https://github.com/abaheti95/LoL-RL

Language Models (LMs) achieve substantial language capabilities when finetuned using Reinforcement Learning with Human Feedback (RLHF). However, RLHF is an unstable and data-hungry process that continually requires new high-quality LM-generated data for finetuning. We introduce Advantage-Leftover Lunch RL (A-LoL), a new class of offline policy gradient algorithms that enable RL training on any pre-existing data. By assuming the entire LM output sequence as a single action, A-LoL allows incorporating sequence-level classifiers or human-designed scoring functions as rewards. Subsequently, by using LM's internal sequence-level value estimate, A-LoL filters negative advantage (low-quality) data points during training, making it resilient to noise. Overall, A-LoL is an easy-to-implement LM training recipe that is sample-efficient and stable. We demonstrate the effectiveness of A-LoL and its variants with a set of four different language generation tasks. We compare against both online RL (PPO) and recent preference-based (DPO, PRO) and reward-based (GOLD) offline RL baselines. On the commonly-used RLHF benchmark, Helpful and Harmless Assistant (HHA), LMs trained with A-LoL methods achieve the highest diversity while also being rated more safe and helpful than baselines according to humans. Additionally, in the remaining three tasks, A-LoL could optimize multiple distinct reward functions even when using noisy or suboptimal training data. We also release our experimental code. https://github.com/abaheti95/LoL-RL
翻訳日:2023-10-13 12:13:22 公開日:2023-10-10
# Bactrian-X:低ランク適応型多言語レプリケート命令追従モデル

Bactrian-X: Multilingual Replicable Instruction-Following Models with Low-Rank Adaptation ( http://arxiv.org/abs/2305.15011v2 )

ライセンス: Link先を確認
Haonan Li and Fajri Koto and Minghao Wu and Alham Fikri Aji and Timothy Baldwin(参考訳) インストラクションチューニングは,大規模言語モデルの性能向上に大きく貢献している。 しかし、多言語命令チューニングの研究は、様々な言語にまたがる高品質な命令応答データセットの不足のために限られている。 このギャップを埋めるために,52言語にまたがる340万の命令応答ペアからなる包括的多言語並列データセットであるbactrian-xを提案する。 このデータセットを活用することで、大規模な言語モデルとシームレスに統合可能な軽量コンポーネントであるローランク適応(LoRA)を使用して、アダプタセットをトレーニングします。 これらのアダプタはベースモデルよりもパラメータ数をかなり少なくするので、さまざまな言語や言語グループのプラグインとして簡単に置き換えられる。 様々な多言語評価設定における広範囲な実験により、バニラモデルと既存の命令調整モデルの両方において、バクタリアンXによるLoRAベースのトレーニングから派生したモデルが優れていることが示された。 コードとモデルはhttps://github.com/mbzuai-nlp/bactrian-xで公開されている。

Instruction tuning has shown great promise in improving the performance of large language models. However, research on multilingual instruction tuning has been limited due to the scarcity of high-quality instruction-response datasets across different languages. To bridge this gap, we present Bactrian-X, a comprehensive multilingual parallel dataset of 3.4 million instruction-response pairs across 52 languages. Leveraging this dataset, we train a set of adapters using low-rank adaptation (LoRA), which are lightweight components that seamlessly integrate with large language models. These adapters have a substantially lower parameter count than the base model, making them easily replaceable and usable as plug-ins for different languages or language groups. Extensive experiments in various multilingual evaluation settings demonstrate that models derived from LoRA-based training over Bactrian-X outperform both the vanilla models and existing instruction-tuned models. The code and models are publicly available at https://github.com/mbzuai-nlp/bactrian-x
翻訳日:2023-10-13 12:03:57 公開日:2023-10-10
# LLMDet: サードパーティ製大規模言語モデル生成テキスト検出ツール

LLMDet: A Third Party Large Language Models Generated Text Detection Tool ( http://arxiv.org/abs/2305.15004v2 )

ライセンス: Link先を確認
Kangxi Wu, Liang Pang, Huawei Shen, Xueqi Cheng and Tat-Seng Chua(参考訳) 大規模言語モデル(LLM)から生成されたテキストは、高品質な人間によるテキストに非常に近いため、偽情報や学術的不正行為を広める際の誤用の可能性への懸念が高まっている。 これにより、与えられたテキストのソースを正確に識別できる高度に実用的な検出ツールが緊急に必要となる。 しかし、既存の検出ツールは一般的にLLMへのアクセスに依存しており、マシン生成テキストと人間によるテキストのみを区別することができ、きめ細かいトレーシング、中間判断、迅速な検出の要件を満たしていない。 そこで本研究では,GPT-2, OPT, LLaMAなどの特定のLLMからテキストを抽出可能な,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。 LLMDetでは、各LLMのプロキシパープレキシティを計算する機能として、有意なn-gramの次の確率を記録している。 llmのプロキシのパープレキシティを共同分析することで、生成されたテキストのソースを決定できる。 実験結果から、LLMDetは速度と安全性を確保しつつ、優れた検出性能を示し、98.54%の精度とx3.5の高速化を実現している。 さらにLLMDetは、その検出機能を新たなオープンソースモデルに拡張することも可能だ。 私たちはhttps://github.com/TrustedLLM/LLMDet.comでオープンソースツールを提供します。

Generated texts from large language models (LLMs) are remarkably close to high-quality human-authored text, raising concerns about their potential misuse in spreading false information and academic misconduct. Consequently, there is an urgent need for a highly practical detection tool capable of accurately identifying the source of a given text. However, existing detection tools typically rely on access to LLMs and can only differentiate between machine-generated and human-authored text, failing to meet the requirements of fine-grained tracing, intermediary judgment, and rapid detection. Therefore, we propose LLMDet, a model-specific, secure, efficient, and extendable detection tool, that can source text from specific LLMs, such as GPT-2, OPT, LLaMA, and others. In LLMDet, we record the next-token probabilities of salient n-grams as features to calculate proxy perplexity for each LLM. By jointly analyzing the proxy perplexities of LLMs, we can determine the source of the generated text. Experimental results show that LLMDet yields impressive detection performance while ensuring speed and security, achieving 98.54% precision and x3.5 faster for recognizing human-authored text. Additionally, LLMDet can effortlessly extend its detection capabilities to a new open-source model. We will provide an open-source tool at https://github.com/TrustedLLM/LLMDet.
翻訳日:2023-10-13 12:03:39 公開日:2023-10-10
# diffusion modelはマルチタスク強化学習のための効果的なプランナーおよびデータシンセサイザである

Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2305.18459v2 )

ライセンス: Link先を確認
Haoran He, Chenjia Bai, Kang Xu, Zhuoran Yang, Weinan Zhang, Dong Wang, Bin Zhao, Xuelong Li(参考訳) 拡散モデルは視覚とNLPにおいて非常に表現力の高い生成能力を示す。 最近の強化学習(rl)の研究により、拡散モデルはオフラインデータセットにおける複雑なポリシーや軌道のモデリングにも有効であることが示されている。 しかし、これらの作業は、マルチタスクのプレディショニングに対処できるジェネラリストエージェントがいないシングルタスク設定に限定されている。 本稿では,大規模マルチタスクオフラインデータのモデル化における単一拡散モデルの有効性について検討する。 具体的には、トランスフォーマーバックボーンとプロンプトラーニングを組み込んだ拡散ベース手法であるマルチタスク拡散モデル(\textsc{mtdiff})を提案する。 \textsc{MTDiff} はマルチタスクデータで利用可能な膨大な知識を活用し、タスク間で暗黙的な知識共有を行う。 生成計画では,Meta-World上の50のタスク,Maze2D上の8のマップにおいて,‘textsc{MTDiff} は最先端のアルゴリズムよりも優れていた。 データ合成のために、 \textsc{mtdiff} は、1つのデモンストレーションをプロンプトとして与えられたタスクをテストするための高品質なデータを生成する。

Diffusion models have demonstrated highly-expressive generative capabilities in vision and NLP. Recent studies in reinforcement learning (RL) have shown that diffusion models are also powerful in modeling complex policies or trajectories in offline datasets. However, these works have been limited to single-task settings where a generalist agent capable of addressing multi-task predicaments is absent. In this paper, we aim to investigate the effectiveness of a single diffusion model in modeling large-scale multi-task offline data, which can be challenging due to diverse and multimodal data distribution. Specifically, we propose Multi-Task Diffusion Model (\textsc{MTDiff}), a diffusion-based method that incorporates Transformer backbones and prompt learning for generative planning and data synthesis in multi-task offline settings. \textsc{MTDiff} leverages vast amounts of knowledge available in multi-task data and performs implicit knowledge sharing among tasks. For generative planning, we find \textsc{MTDiff} outperforms state-of-the-art algorithms across 50 tasks on Meta-World and 8 maps on Maze2D. For data synthesis, \textsc{MTDiff} generates high-quality data for testing tasks given a single demonstration as a prompt, which enhances the low-quality datasets for even unseen tasks.
翻訳日:2023-10-13 11:54:12 公開日:2023-10-10
# コンテキスト内学習はどのように学習するか? ベイズモデル平均化、パラメータ化、一般化

What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization ( http://arxiv.org/abs/2305.19420v2 )

ライセンス: Link先を確認
Yufeng Zhang, Fengzhuo Zhang, Zhuoran Yang, Zhaoran Wang(参考訳) 本稿では,いくつかのオープンな質問に答えることで,インコンテキスト学習(ICL)の総合的研究を行う。 (a)大規模言語モデルによって学習されるICL推定器の種類は? (b)iclの適切なパフォーマンス指標とエラー率とは何でしょうか。 (c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか? これらの疑問に答えるために、潜伏変数モデルから引き出された多くの例を考えると、現在の共変量に対応する応答を予測する問題としてベイズ的視点を採用し、ICLを定式化する。 答えるには (a)、ニューラルネットワークパラメータを更新することなく、ICLはアテンション機構によってほぼパラメータ化されているベイズ平均化アルゴリズムを暗黙的に実装することを示した。 のために (b)我々はオンライン学習の観点からiclのパフォーマンスを分析し、プリトレーニングされたiclに対して$t$がプロンプトの例の数である$\mathcal{o}(1/t)$ regret boundを確立する。 答えるには (c)、注意によるベイズモデル平均化の符号化に加えて、トランスフォーマーアーキテクチャは現実的な仮定の下で事前学習の詳細な統計解析を可能にする。 特に、事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることが証明され、前者は深さが大きくなるにつれて指数関数的にゼロに崩壊し、後者は事前学習データセットのトークン数に比例してゼロに崩壊する。 この結果から,iclの後悔,近似,一般化を境界としたトランスフォーマとicl能力の統一理解が得られ,現代言語モデルの本質的側面に関する知識を深めることができた。

In this paper, we conduct a comprehensive study of In-Context Learning (ICL) by addressing several open questions: (a) What type of ICL estimator is learned by large language models? (b) What is a proper performance metric for ICL and what is the error rate? (c) How does the transformer architecture enable ICL? To answer these questions, we adopt a Bayesian view and formulate ICL as a problem of predicting the response corresponding to the current covariate, given a number of examples drawn from a latent variable model. To answer (a), we show that, without updating the neural network parameters, ICL implicitly implements the Bayesian model averaging algorithm, which is proven to be approximately parameterized by the attention mechanism. For (b), we analyze the ICL performance from an online learning perspective and establish a $\mathcal{O}(1/T)$ regret bound for perfectly pretrained ICL, where $T$ is the number of examples in the prompt. To answer (c), we show that, in addition to encoding Bayesian model averaging via attention, the transformer architecture also enables a fine-grained statistical analysis of pretraining under realistic assumptions. In particular, we prove that the error of pretrained model is bounded by a sum of an approximation error and a generalization error, where the former decays to zero exponentially as the depth grows, and the latter decays to zero sublinearly with the number of tokens in the pretraining dataset. Our results provide a unified understanding of the transformer and its ICL ability with bounds on ICL regret, approximation, and generalization, which deepens our knowledge of these essential aspects of modern language models.
翻訳日:2023-10-13 11:44:33 公開日:2023-10-10
# MiniSUPERB:自己教師型音声モデルの軽量ベンチマーク

MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models ( http://arxiv.org/abs/2305.19011v2 )

ライセンス: Link先を確認
Yu-Hsiang Wang, Huang-Yu Chen, Kai-Wei Chang, Winston Hsu, Hung-yi Lee(参考訳) 自己教師付き学習(SSL)音声モデルの汎用性を評価するために,SUPERBを提案する。 しかし、大きなデータセットと多様なタスクのために高い計算コストが発生する。 本稿では,超高速だが計算コストは著しく低いssl音声モデルを効率的に評価する軽量ベンチマークであるminisuperbを提案する。 代表タスク、サンプルデータセットを慎重に選択し、オフラインでモデル表現を抽出する。 提案手法は, SUPERB Paper と SUPERB Challenge でそれぞれ 0.954 と 0.982 のSpearman のランク相関を達成している。 さらに,乗算積演算(MAC)の計算コストを97%削減する。 さらに,SSL音声モデルを数ショットのシナリオで評価し,その性能に有意な変動を観測する。 我々の知る限り、これはモデル自体の計算コストとベンチマークで評価するコストの両方を調査する最初の研究である。

SUPERB was proposed to evaluate the generalizability of self-supervised learning (SSL) speech models across various tasks. However, it incurs high computational costs due to the large datasets and diverse tasks. In this paper, we introduce MiniSUPERB, a lightweight benchmark that efficiently evaluates SSL speech models with comparable results to SUPERB but lower computational costs significantly. We carefully select representative tasks, sample datasets, and extract model representations offline. Our approach achieves a Spearman's rank correlation of 0.954 and 0.982 with SUPERB Paper and SUPERB Challenge, respectively. Additionally, we reduce the computational cost by 97% in terms of Multiply-ACcumulate operations (MACs). Furthermore, we evaluate SSL speech models in few-shot scenarios and observe significant variations in their performance. To our knowledge, this is the first study to examine both the computational cost of the model itself and the cost of evaluating it on a benchmark.
翻訳日:2023-10-13 11:43:31 公開日:2023-10-10
# 逆攻撃検出のためのグラフに基づく特定分布距離の結合法

Graph-based methods coupled with specific distributional distances for adversarial attack detection ( http://arxiv.org/abs/2306.00042v2 )

ライセンス: Link先を確認
Dwight Nwaigwe, Lucrezia Carboni, Martial Mermillod, Sophie Achard, Michel Dojat(参考訳) ニューラルネットワークは、慎重に混乱した入力によって騙されやすくなり、誤った分類を引き起こす。 これらの \textit{adversarial}攻撃は広範な研究の焦点となっている。 同様に、彼らに対する検知と防御方法の研究も数多く行われている。 グラフの観点から,敵攻撃の検出と解釈の新たなアプローチを導入する。 入力画像に対して,層間関係伝達アルゴリズム \cite{bach15} を用いて,関連するスパースグラフを計算する。 具体的には、最も関連性の高い値を持つニューラルネットワークのエッジのみを保持する。 その後、グラフから3つの量を計算し、トレーニングセットから計算したものと比較する。 比較の結果は、画像の良性または敵対的な分類である。 比較するために2つの分類法が導入された。 1) ノードの次数に適用されるワッサーシュタイン距離に基づく明示的な公式 2)ロジスティック回帰。 どちらの分類法も強力な結果をもたらし、グラフに基づく敵攻撃の解釈が重要であると考える。

Artificial neural networks are prone to being fooled by carefully perturbed inputs which cause an egregious misclassification. These \textit{adversarial} attacks have been the focus of extensive research. Likewise, there has been an abundance of research in ways to detect and defend against them. We introduce a novel approach of detection and interpretation of adversarial attacks from a graph perspective. For an input image, we compute an associated sparse graph using the layer-wise relevance propagation algorithm \cite{bach15}. Specifically, we only keep edges of the neural network with the highest relevance values. Three quantities are then computed from the graph which are then compared against those computed from the training set. The result of the comparison is a classification of the image as benign or adversarial. To make the comparison, two classification methods are introduced: 1) an explicit formula based on Wasserstein distance applied to the degree of node and 2) a logistic regression. Both classification methods produce strong results which lead us to believe that a graph-based interpretation of adversarial attacks is valuable.
翻訳日:2023-10-13 11:13:45 公開日:2023-10-10
# 変化に対応する: 細粒度視覚分類のための学習不変量および最小表現

Coping with Change: Learning Invariant and Minimum Sufficient Representations for Fine-Grained Visual Categorization ( http://arxiv.org/abs/2306.04893v2 )

ライセンス: Link先を確認
Shuo Ye and Shujian Yu and Wenjin Hou and Yu Wang and Xinge You(参考訳) 細粒度視覚分類(FGVC)は、様々な種間の類似した視覚的外観のために難しい課題である。 以前の研究では、トレーニングデータとテストデータは、同じ基礎的な分布を持ち、現代のバックボーンアーキテクチャによって抽出された特徴は差別的であり、見当たらないテストデータによく当てはまると暗黙に仮定していた。 しかし、これらの条件が必ずしもベンチマークデータセットに当てはまるとは限らないことを実証的に正当化する。 この目的のために、FGVCの不変かつ最小の十分(IMS)表現を学習するために、不変リスク最小化(IRM)と情報ボトルネック(IB)の原則を組み合わせる。 我々は行列ベースの r{\'e}nyi の $\alpha$-order entropy を適用して ib のトレーニングを単純化し安定化する。 我々の知る限りでは、我々は一般化の観点から初めてFGVCの問題に対処し、それに応じて新しい情報理論のソリューションを開発する。 大規模な実験では、IMSによる一貫したパフォーマンス向上が示されています。

Fine-grained visual categorization (FGVC) is a challenging task due to similar visual appearances between various species. Previous studies always implicitly assume that the training and test data have the same underlying distributions, and that features extracted by modern backbone architectures remain discriminative and generalize well to unseen test data. However, we empirically justify that these conditions are not always true on benchmark datasets. To this end, we combine the merits of invariant risk minimization (IRM) and information bottleneck (IB) principle to learn invariant and minimum sufficient (IMS) representations for FGVC, such that the overall model can always discover the most succinct and consistent fine-grained features. We apply the matrix-based R{\'e}nyi's $\alpha$-order entropy to simplify and stabilize the training of IB; we also design a ``soft" environment partition scheme to make IRM applicable to FGVC task. To the best of our knowledge, we are the first to address the problem of FGVC from a generalization perspective and develop a new information-theoretic solution accordingly. Extensive experiments demonstrate the consistent performance gain offered by our IMS.
翻訳日:2023-10-13 09:10:29 公開日:2023-10-10
# コード結合による資源効率の高いフォールトトレラントワンウェイ量子リピータ

Resource-efficient fault-tolerant one-way quantum repeater with code concatenation ( http://arxiv.org/abs/2306.07224v2 )

ライセンス: Link先を確認
Kah Jen Wo, Guus Avis, Filip Rozp\k{e}dek, Maria Flors Mor-Ruiz, Gregor Pieplow, Tim Schr\"oder, Liang Jiang, Anders S{\o}ndberg S{\o}rensen and Johannes Borregaard(参考訳) 損失と運用上のエラーが量子エラー訂正符号によって対処される一方通行の量子リピータは、量子ネットワークにおける高速で信頼性の高い量子ビット伝送を保証する。 このようなリピータのリソース要件、例えば、リピータノード当たりのキュービット数と量子エラー訂正操作の複雑さは、近い将来の実装を可能にするために最小限に保たれることが重要である。 そこで本稿では,通信チャネルにおける損失率と運用エラー率の両方を,コード結合を用いた資源効率の高い方法で目標とする一方向量子リピータを提案する。 具体的には、木クラスタコードは、パウリのエラーから保護するために外部の5量子ビットコードと結合した内部ロス耐性コードであると考える。 フラグベースの安定度測定を応用し、各ノードが損失や運用上のエラーの抑制を専門に行うことで、最大1万kmの大陸間距離を最小のリソースオーバーヘッドで橋渡しできることを示す。 我々の研究は、長距離量子通信の実験的な要件をいかに大幅に減らすかを示す。

One-way quantum repeaters where loss and operational errors are counteracted by quantum error correcting codes can ensure fast and reliable qubit transmission in quantum networks. It is crucial that the resource requirements of such repeaters, for example, the number of qubits per repeater node and the complexity of the quantum error correcting operations are kept to a minimum to allow for near-future implementations. To this end, we propose a one-way quantum repeater that targets both the loss and operational error rates in a communication channel in a resource-efficient manner using code concatenation. Specifically, we consider a tree-cluster code as an inner loss-tolerant code concatenated with an outer 5-qubit code for protection against Pauli errors. Adopting flag-based stabilizer measurements, we show that intercontinental distances of up to 10,000 km can be bridged with a minimal resource overhead by interspersing repeater nodes that each specializes in suppressing either loss or operational errors. Our work demonstrates how tailored error-correcting codes can significantly lower the experimental requirements for long-distance quantum communication.
翻訳日:2023-10-13 09:01:58 公開日:2023-10-10
# Strokes2Surface:4Dアーキテクチャ設計から曲線ネットワークを復元

Strokes2Surface: Recovering Curve Networks From 4D Architectural Design Sketches ( http://arxiv.org/abs/2306.07220v3 )

ライセンス: Link先を確認
S. Rasoulzadeh, M. Wimmer, I. Kovacic(参考訳) strokes2surfaceは,不正確な4次元スケッチからブリッジ概念設計とディジタルモデリング段階まで,うまく接続された曲線ネットワークを復元する,オフラインの幾何再構成パイプラインである。 パイプラインへの入力は、3dストロークのポリライン頂点と4次元のタイムスタンプと、スケッチを通して記録されたメタデータで構成されています。 アーキテクチャ上のスケッチのプラクティスに触発されて、パイプラインはその目標を達成するために、分類器と2つのクラスタリングモデルを組み合わせています。 まず、スケッチから抽出した手動特徴のセットを用いて、境界(シェープストローク)と囲まれた領域(スクリブルストローク)の間の個々のストロークの種類を認識する。 次に、2つのクラスタリングモデルは、各タイプのストロークを別々のグループにパースし、それぞれが意図したアーキテクチャオブジェクトの個々のエッジまたは顔を表す。 曲線ネットワークは、集積された形状クラスタのトポロジー回復によって形成され、サイクルディスカバリーを導くスクリブルクラスタを用いて表面化される。 我々は,建築設計のユースケースにおけるストロークs2surfaceパイプラインの有用性をユーザスタディで確認し,収集したデータセットの統計的解析とアブレーションによる特徴の選択を検証し,代替手法を用いて計算した各種復元結果と比較した。

We present Strokes2Surface, an offline geometry reconstruction pipeline that recovers well-connected curve networks from imprecise 4D sketches to bridge concept design and digital modeling stages in architectural design. The input to our pipeline consists of 3D strokes' polyline vertices and their timestamps as the 4th dimension, along with additional metadata recorded throughout sketching. Inspired by architectural sketching practices, our pipeline combines a classifier and two clustering models to achieve its goal. First, with a set of extracted hand-engineered features from the sketch, the classifier recognizes the type of individual strokes between those depicting boundaries (Shape strokes) and those depicting enclosed areas (Scribble strokes). Next, the two clustering models parse strokes of each type into distinct groups, each representing an individual edge or face of the intended architectural object. Curve networks are then formed through topology recovery of consolidated Shape clusters and surfaced using Scribble clusters guiding the cycle discovery. Our evaluation is threefold: We confirm the usability of the Strokes2Surface pipeline in architectural design use cases via a user study, we validate our choice of features via statistical analysis and ablation studies on our collected dataset, and we compare our outputs against a range of reconstructions computed using alternative methods.
翻訳日:2023-10-13 09:01:37 公開日:2023-10-10
# プロンプトチューニングによるドメイン認識検出ヘッドの学習

Learning Domain-Aware Detection Head with Prompt Tuning ( http://arxiv.org/abs/2306.05718v3 )

ライセンス: Link先を確認
Haochen Li, Rui Zhang, Hantao Yao, Xinkai Song, Yifan Hao, Yongwei Zhao, Ling Li and Yunji Chen(参考訳) ドメイン適応オブジェクト検出(DAOD)は、注釈付きソースドメインで訓練された検出器を、未ラベルのターゲットドメインに一般化することを目的としている。 しかし,既存の手法では,検出ヘッドの領域バイアスを無視しつつ,識別的視覚エンコーダを推定することにより,検出バックボーンの領域バイアスの低減に重点を置いている。 視覚言語モデル(VLM)の高一般化に触発されて、ドメイン認識検出ヘッドに続く堅牢な検出バックボーンとしてVLMを適用することは、従来の手法ではドメインバイアスを減らすのではなく、各ドメインの識別的検出を学習する合理的な方法である。 そこで本稿では,学習可能なドメイン適応型プロンプトを適用し,ドメイン毎の動的検出ヘッドを生成する新しいdaodフレームワークであるdomain-aware detection head with prompt tuning (da-pro)を提案する。 正式には、ドメイン適応プロンプトは、クラスラベルとともに、ドメイン不変トークン、ドメイン固有トークン、ドメイン関連テキスト記述で構成される。 さらに、ソースとターゲットドメイン間の2つの制約を適用して、ドメイン適応プロンプトがドメイン共有およびドメイン固有知識をキャプチャできるようにする。 即発的乱れの効果を低減するための即発的アンサンブル戦略も提案されている。 複数のクロスドメイン適応タスクに関する総合的な実験により、ドメイン適応プロンプトを使用することで、ドメイン適応オブジェクトの検出を促進できる効果的なドメイン関連検出ヘッドが得られることが示された。 私たちのコードはhttps://github.com/Therock90421/DA-Proで利用可能です。

Domain adaptive object detection (DAOD) aims to generalize detectors trained on an annotated source domain to an unlabelled target domain. However, existing methods focus on reducing the domain bias of the detection backbone by inferring a discriminative visual encoder, while ignoring the domain bias in the detection head. Inspired by the high generalization of vision-language models (VLMs), applying a VLM as the robust detection backbone following a domain-aware detection head is a reasonable way to learn the discriminative detector for each domain, rather than reducing the domain bias in traditional methods. To achieve the above issue, we thus propose a novel DAOD framework named Domain-Aware detection head with Prompt tuning (DA-Pro), which applies the learnable domain-adaptive prompt to generate the dynamic detection head for each domain. Formally, the domain-adaptive prompt consists of the domain-invariant tokens, domain-specific tokens, and the domain-related textual description along with the class label. Furthermore, two constraints between the source and target domains are applied to ensure that the domain-adaptive prompt can capture the domains-shared and domain-specific knowledge. A prompt ensemble strategy is also proposed to reduce the effect of prompt disturbance. Comprehensive experiments over multiple cross-domain adaptation tasks demonstrate that using the domain-adaptive prompt can produce an effectively domain-related detection head for boosting domain-adaptive object detection. Our code is available at https://github.com/Therock90421/DA-Pro.
翻訳日:2023-10-13 09:00:27 公開日:2023-10-10
# プロンプトチューニングによるドメイン認識検出ヘッドの学習

Learning Domain-Aware Detection Head with Prompt Tuning ( http://arxiv.org/abs/2306.05718v2 )

ライセンス: Link先を確認
Haochen Li, Rui Zhang, Hantao Yao, Xinkai Song, Yifan Hao, Yongwei Zhao, Ling Li and Yunji Chen(参考訳) ドメイン適応オブジェクト検出(DAOD)は、注釈付きソースドメインで訓練された検出器を、未ラベルのターゲットドメインに一般化することを目的としている。 しかし,既存の手法では,検出ヘッドの領域バイアスを無視しつつ,識別的視覚エンコーダを推定することにより,検出バックボーンの領域バイアスの低減に重点を置いている。 視覚言語モデル(VLM)の高一般化に触発されて、ドメイン認識検出ヘッドに続く堅牢な検出バックボーンとしてVLMを適用することは、従来の手法ではドメインバイアスを減らすのではなく、各ドメインの識別的検出を学習する合理的な方法である。 そこで本稿では,学習可能なドメイン適応型プロンプトを適用し,ドメイン毎の動的検出ヘッドを生成する新しいdaodフレームワークであるdomain-aware detection head with prompt tuning (da-pro)を提案する。 正式には、ドメイン適応プロンプトは、クラスラベルとともに、ドメイン不変トークン、ドメイン固有トークン、ドメイン関連テキスト記述で構成される。 さらに、ソースとターゲットドメイン間の2つの制約を適用して、ドメイン適応プロンプトがドメイン共有およびドメイン固有知識をキャプチャできるようにする。 即発的乱れの効果を低減するための即発的アンサンブル戦略も提案されている。 複数のクロスドメイン適応タスクに関する総合的な実験により、ドメイン適応プロンプトを使用することで、ドメイン適応オブジェクトの検出を促進できる効果的なドメイン関連検出ヘッドが得られることが示された。 私たちのコードはhttps://github.com/Therock90421/DA-Proで利用可能です。

Domain adaptive object detection (DAOD) aims to generalize detectors trained on an annotated source domain to an unlabelled target domain. However, existing methods focus on reducing the domain bias of the detection backbone by inferring a discriminative visual encoder, while ignoring the domain bias in the detection head. Inspired by the high generalization of vision-language models (VLMs), applying a VLM as the robust detection backbone following a domain-aware detection head is a reasonable way to learn the discriminative detector for each domain, rather than reducing the domain bias in traditional methods. To achieve the above issue, we thus propose a novel DAOD framework named Domain-Aware detection head with Prompt tuning (DA-Pro), which applies the learnable domain-adaptive prompt to generate the dynamic detection head for each domain. Formally, the domain-adaptive prompt consists of the domain-invariant tokens, domain-specific tokens, and the domain-related textual description along with the class label. Furthermore, two constraints between the source and target domains are applied to ensure that the domain-adaptive prompt can capture the domains-shared and domain-specific knowledge. A prompt ensemble strategy is also proposed to reduce the effect of prompt disturbance. Comprehensive experiments over multiple cross-domain adaptation tasks demonstrate that using the domain-adaptive prompt can produce an effectively domain-related detection head for boosting domain-adaptive object detection. Our code is available at https://github.com/Therock90421/DA-Pro.
翻訳日:2023-10-13 08:59:56 公開日:2023-10-10
# 変化に対応する: 細粒度視覚分類のための学習不変量および最小表現

Coping with Change: Learning Invariant and Minimum Sufficient Representations for Fine-Grained Visual Categorization ( http://arxiv.org/abs/2306.04893v3 )

ライセンス: Link先を確認
Shuo Ye and Shujian Yu and Wenjin Hou and Yu Wang and Xinge You(参考訳) 細粒度視覚分類(FGVC)は、様々な種間の類似した視覚的外観のために難しい課題である。 以前の研究では、トレーニングデータとテストデータは、同じ基礎的な分布を持ち、現代のバックボーンアーキテクチャによって抽出された特徴は差別的であり、見当たらないテストデータによく当てはまると暗黙に仮定していた。 しかし、これらの条件が必ずしもベンチマークデータセットに当てはまるとは限らないことを実証的に正当化する。 この目的のために、FGVCの不変かつ最小の十分(IMS)表現を学習するために、不変リスク最小化(IRM)と情報ボトルネック(IB)の原則を組み合わせる。 我々は行列ベースの r{\'e}nyi の $\alpha$-order entropy を適用して ib のトレーニングを単純化し安定化する。 我々の知る限りでは、我々は一般化の観点から初めてFGVCの問題に対処し、それに応じて新しい情報理論のソリューションを開発する。 大規模な実験では、IMSによる一貫したパフォーマンス向上が示されています。

Fine-grained visual categorization (FGVC) is a challenging task due to similar visual appearances between various species. Previous studies always implicitly assume that the training and test data have the same underlying distributions, and that features extracted by modern backbone architectures remain discriminative and generalize well to unseen test data. However, we empirically justify that these conditions are not always true on benchmark datasets. To this end, we combine the merits of invariant risk minimization (IRM) and information bottleneck (IB) principle to learn invariant and minimum sufficient (IMS) representations for FGVC, such that the overall model can always discover the most succinct and consistent fine-grained features. We apply the matrix-based R{\'e}nyi's $\alpha$-order entropy to simplify and stabilize the training of IB; we also design a ``soft" environment partition scheme to make IRM applicable to FGVC task. To the best of our knowledge, we are the first to address the problem of FGVC from a generalization perspective and develop a new information-theoretic solution accordingly. Extensive experiments demonstrate the consistent performance gain offered by our IMS.
翻訳日:2023-10-13 08:58:44 公開日:2023-10-10
# 縦型胸部X線を用いた放射線診断

Utilizing Longitudinal Chest X-Rays and Reports to Pre-Fill Radiology Reports ( http://arxiv.org/abs/2306.08749v2 )

ライセンス: Link先を確認
Qingqing Zhu, Tejas Sudharshan Mathai, Pritam Mukherjee, Yifan Peng, Ronald M. Summers, and Zhiyong Lu(参考訳) 音声認識ソフトウェアの使用による放射線学報告のターンアラウンドタイムの短縮にもかかわらず、持続的な通信エラーは、放射線学レポートの解釈に大きな影響を及ぼす可能性がある。 MIMIC-CXRデータセットにおける患者訪問記録の経時的性質を活かしたアプローチの欠如は,医療報告作成の文献的努力にもかかわらず,放射線学報告の補充が期待できる。 このギャップに対処するため, 患者の過去訪問CXR, 現在の訪問CXR, および過去の訪問報告など, 患者の現在訪問レポートの「最終」部分をプリフィルするために, 縦マルチモーダルデータを用いることを提案する。 まず,MIMIC-CXRデータセットから26,625人の患者を対象に,経時的訪問情報を収集した。 この新しいデータセットでは、マルチモーダルデータ(cxrイメージ+レポート)を含む縦断的な患者訪問記録から、クロスタッチベースのマルチモーダル融合モジュールと階層的メモリ駆動デコーダを介して情報をキャプチャするためにトランスフォーマベースのモデルが訓練された。 現在の訪問データのみを入力としてモデルトレーニングを行う従来の作業とは対照的に,本研究では,放射線学レポートの「発見」セクションを事前に埋めるために利用可能な縦断情報を活用している。 実験により、我々のアプローチは近年のアプローチより優れています。 コードはhttps://github.com/CelestialShine/Longitudinal-Chest-X-Rayで公開される。

Despite the reduction in turn-around times in radiology reports with the use of speech recognition software, persistent communication errors can significantly impact the interpretation of the radiology report. Pre-filling a radiology report holds promise in mitigating reporting errors, and despite efforts in the literature to generate medical reports, there exists a lack of approaches that exploit the longitudinal nature of patient visit records in the MIMIC-CXR dataset. To address this gap, we propose to use longitudinal multi-modal data, i.e., previous patient visit CXR, current visit CXR, and previous visit report, to pre-fill the 'findings' section of a current patient visit report. We first gathered the longitudinal visit information for 26,625 patients from the MIMIC-CXR dataset and created a new dataset called Longitudinal-MIMIC. With this new dataset, a transformer-based model was trained to capture the information from longitudinal patient visit records containing multi-modal data (CXR images + reports) via a cross-attention-based multi-modal fusion module and a hierarchical memory-driven decoder. In contrast to previous work that only uses current visit data as input to train a model, our work exploits the longitudinal information available to pre-fill the 'findings' section of radiology reports. Experiments show that our approach outperforms several recent approaches. Code will be published at https://github.com/CelestialShine/Longitudinal-Chest-X-Ray.
翻訳日:2023-10-13 08:49:34 公開日:2023-10-10
# コード結合による資源効率の高いフォールトトレラントワンウェイ量子リピータ

Resource-efficient fault-tolerant one-way quantum repeater with code concatenation ( http://arxiv.org/abs/2306.07224v3 )

ライセンス: Link先を確認
Kah Jen Wo, Guus Avis, Filip Rozp\k{e}dek, Maria Flors Mor-Ruiz, Gregor Pieplow, Tim Schr\"oder, Liang Jiang, Anders S{\o}ndberg S{\o}rensen and Johannes Borregaard(参考訳) 損失と運用上のエラーが量子エラー訂正符号によって対処される一方通行の量子リピータは、量子ネットワークにおける高速で信頼性の高い量子ビット伝送を保証する。 このようなリピータのリソース要件、例えば、リピータノード当たりのキュービット数と量子エラー訂正操作の複雑さは、近い将来の実装を可能にするために最小限に保たれることが重要である。 そこで本稿では,通信チャネルにおける損失率と運用エラー率の両方を,コード結合を用いた資源効率の高い方法で目標とする一方向量子リピータを提案する。 具体的には、木クラスタコードは、パウリのエラーから保護するために外部の5量子ビットコードと結合した内部ロス耐性コードであると考える。 フラグベースの安定度測定を応用し、各ノードが損失や運用上のエラーの抑制を専門に行うことで、最大1万kmの大陸間距離を最小のリソースオーバーヘッドで橋渡しできることを示す。 我々の研究は、長距離量子通信の実験的な要件をいかに大幅に減らすかを示す。

One-way quantum repeaters where loss and operational errors are counteracted by quantum error correcting codes can ensure fast and reliable qubit transmission in quantum networks. It is crucial that the resource requirements of such repeaters, for example, the number of qubits per repeater node and the complexity of the quantum error correcting operations are kept to a minimum to allow for near-future implementations. To this end, we propose a one-way quantum repeater that targets both the loss and operational error rates in a communication channel in a resource-efficient manner using code concatenation. Specifically, we consider a tree-cluster code as an inner loss-tolerant code concatenated with an outer 5-qubit code for protection against Pauli errors. Adopting flag-based stabilizer measurements, we show that intercontinental distances of up to 10,000 km can be bridged with a minimal resource overhead by interspersing repeater nodes that each specializes in suppressing either loss or operational errors. Our work demonstrates how tailored error-correcting codes can significantly lower the experimental requirements for long-distance quantum communication.
翻訳日:2023-10-13 08:46:57 公開日:2023-10-10
# 自律運転のためのオンライン地図ベクトル化:ラスタライズの視点から

Online Map Vectorization for Autonomous Driving: A Rasterization Perspective ( http://arxiv.org/abs/2306.10502v2 )

ライセンス: Link先を確認
Gongjie Zhang, Jiahao Lin, Shuang Wu, Yilin Song, Zhipeng Luo, Yang Xue, Shijian Lu, Zuoguan Wang(参考訳) ベクトル化高精細度(hd)マップは自動運転に必須であり、高度な知覚と計画のための詳細な環境情報を提供する。 しかし、現在の地図ベクトル化法はしばしば偏差を示し、既存の地図ベクトル化の評価基準ではこれらの偏差を検出するのに十分な感度が欠けている。 これらの制約に対処するため、ラスタ化の哲学をマップベクトル化に統合することを提案する。 具体的には、ラスタライズに基づく新しい評価指標を導入し、感度が良く、現実の自律運転シナリオに適している。 さらに、ベクトル化出力に微分可能ラスタ化を適用し、ラスタ化HDマップの精密かつ幾何学的監視を行う新しいフレームワークであるMapVR(Map Vectorization via Rasterization)を提案する。 特に、MapVRは様々な幾何学的な形状のラスタ化戦略を設計し、幅広い地図要素に効果的に適用することができる。 実験により、ラスタ化を地図ベクトル化に組み込むことは、推論中に余分な計算コストを伴わずに性能を大幅に向上させ、より正確な地図認識をもたらし、究極的にはより安全な自動運転を促進することが示されている。

Vectorized high-definition (HD) map is essential for autonomous driving, providing detailed and precise environmental information for advanced perception and planning. However, current map vectorization methods often exhibit deviations, and the existing evaluation metric for map vectorization lacks sufficient sensitivity to detect these deviations. To address these limitations, we propose integrating the philosophy of rasterization into map vectorization. Specifically, we introduce a new rasterization-based evaluation metric, which has superior sensitivity and is better suited to real-world autonomous driving scenarios. Furthermore, we propose MapVR (Map Vectorization via Rasterization), a novel framework that applies differentiable rasterization to vectorized outputs and then performs precise and geometry-aware supervision on rasterized HD maps. Notably, MapVR designs tailored rasterization strategies for various geometric shapes, enabling effective adaptation to a wide range of map elements. Experiments show that incorporating rasterization into map vectorization greatly enhances performance with no extra computational cost during inference, leading to more accurate map perception and ultimately promoting safer autonomous driving.
翻訳日:2023-10-13 08:38:12 公開日:2023-10-10
# 拡散モデルを用いた授業増分学習による蒸留・再生

Class-Incremental Learning using Diffusion Model for Distillation and Replay ( http://arxiv.org/abs/2306.17560v2 )

ライセンス: Link先を確認
Quentin Jodelet, Xin Liu, Yin Jun Phua, Tsuyoshi Murata(参考訳) クラスインクリメンタル学習は、新しいクラスをインクリメンタルに学習することを目的としている。 いくつかの研究は、破滅的な忘れを和らげるために、インクリメンタルモデルによって追加のデータを使用する方法を示している。 本研究では,テキストから画像への生成モデルとその広範な分布の最近の進展に続き,事前訓練された安定拡散モデルをクラス増分学習のための追加データ源として利用することを提案する。 実画像の外部的、しばしばラベルなしのデータセットに依存する競合手法と比較して、このアプローチは、以前遭遇した画像と同じクラスに属する合成サンプルを生成することができる。 これにより、これらの追加データサンプルを蒸留損失だけでなく、分類損失の再生にも利用できる。 競合ベンチマークであるcifar100、imagenet-subset、imagenetの実験では、この新たなアプローチが、大規模データセットでのクラスインクリメンタル学習における最先端メソッドのパフォーマンス向上にどのように役立つかが示されている。

Class-incremental learning aims to learn new classes in an incremental fashion without forgetting the previously learned ones. Several research works have shown how additional data can be used by incremental models to help mitigate catastrophic forgetting. In this work, following the recent breakthrough in text-to-image generative models and their wide distribution, we propose the use of a pretrained Stable Diffusion model as a source of additional data for class-incremental learning. Compared to competitive methods that rely on external, often unlabeled, datasets of real images, our approach can generate synthetic samples belonging to the same classes as the previously encountered images. This allows us to use those additional data samples not only in the distillation loss but also for replay in the classification loss. Experiments on the competitive benchmarks CIFAR100, ImageNet-Subset, and ImageNet demonstrate how this new approach can be used to further improve the performance of state-of-the-art methods for class-incremental learning on large scale datasets.
翻訳日:2023-10-13 08:28:48 公開日:2023-10-10
# セミインプシティデノイング拡散モデル(SIDDM)

Semi-Implicit Denoising Diffusion Models (SIDDMs) ( http://arxiv.org/abs/2306.12511v3 )

ライセンス: Link先を確認
Yanwu Xu, Mingming Gong, Shaoan Xie, Wei Wei, Matthias Grundmann, Kayhan Batmanghelich, Tingbo Hou(参考訳) 生成モデルの普及にもかかわらず、サンプルの多様性や品質を損なうことなく推論中に高速なサンプリングを実現することは依然として困難である。 Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。 DDGAN(Denoising Diffusion Generative Adversarial Networks)は、拡散過程におけるより大きなジャンプのためにGANモデルを統合することにより、この制限を回避することを試みた。 しかし、DDGANは大規模なデータセットに適用する場合、スケーラビリティの制限に直面した。 これらの制約に対処するために、暗黙的および明示的な要因をマッチングすることで問題に取り組む新しいアプローチを導入する。 より具体的には、ノイズデータの限界分布と前方拡散の明示的な条件分布とを一致させるために暗黙モデルを利用する手法である。 この組み合わせにより、ジョイント・デノイジング分布を効果的に一致させることができる。 DDPMと異なり、DDGANと似ているが、逆ステップではパラメトリック分布を強制しないため、推論中に大きなステップを踏むことができる。 ddpmと似ているが、ddganとは異なり、拡散過程の正確な形を利用する。 提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに非常に優れた結果が得られることを示す。

Despite the proliferation of generative models, achieving fast sampling during inference without compromising sample diversity and quality remains challenging. Existing models such as Denoising Diffusion Probabilistic Models (DDPM) deliver high-quality, diverse samples but are slowed by an inherently high number of iterative steps. The Denoising Diffusion Generative Adversarial Networks (DDGAN) attempted to circumvent this limitation by integrating a GAN model for larger jumps in the diffusion process. However, DDGAN encountered scalability limitations when applied to large datasets. To address these limitations, we introduce a novel approach that tackles the problem by matching implicit and explicit factors. More specifically, our approach involves utilizing an implicit model to match the marginal distributions of noisy data and the explicit conditional distribution of the forward diffusion. This combination allows us to effectively match the joint denoising distributions. Unlike DDPM but similar to DDGAN, we do not enforce a parametric distribution for the reverse step, enabling us to take large steps during inference. Similar to the DDPM but unlike DDGAN, we take advantage of the exact form of the diffusion process. We demonstrate that our proposed method obtains comparable generative performance to diffusion-based models and vastly superior results to models with a small number of sampling steps.
翻訳日:2023-10-13 08:25:47 公開日:2023-10-10
# 伸展性漏洩記憶ニューロン--高能率・高能率現象ニューロンモデルによる長期課題の解決

The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks ( http://arxiv.org/abs/2306.16922v2 )

ライセンス: Link先を確認
Aaron Spieler, Nasim Rahaman, Georg Martius, Bernhard Sch\"olkopf, Anna Levina(参考訳) 生物学的皮質ニューロンは驚くほど洗練された計算装置であり、複雑で非線形に相互作用する内部生物学的過程の対象となる複雑な樹状樹上にその広大なシナプス入力を時間的に統合する。 最近の研究では、精密なサロゲートモデルを用いて、詳細な生体物理学的錐体ニューロンモデルの入出力関係を再現し、数百万のパラメータを持つ時間的畳み込みネットワーク(tcn)が必要であることを発見した。 しかし、これらの多くのパラメータを必要とすることは、TCNの誘導バイアスと皮質ニューロンの計算のミスアライメントの結果である可能性がある。 これを踏まえ, 漏洩メモリユニットと非線形樹状突起処理の計算的意義を考察し, 生物学的に着想を得た皮質ニューロンの現象モデルであるExpressive Leaky Memory (ELM) ニューロンモデルを紹介する。 驚くべきことに、記憶様隠れ状態やシナプス入力の2層非線形積分を徐々に利用することで、エルムニューロンは上記の入力-出力関係を10番目の訓練可能なパラメーターと正確に一致させることができる。 ニューロン設計の計算的影響を更に評価するために,Long Range Arena(LRA)データセットや,Spyking Heidelberg Digitsデータセット(SHD-Adding)に基づく新しいニューロモルフィックデータセットなど,時間的構造を必要とするタスクについて検討した。 十分な時間スケールで多数のメモリユニットを利用でき、それに対応する洗練されたシナプス統合により、EMMニューロンは両方のデータセットで競合し、古典的なTransformerやChrono-LSTMアーキテクチャを確実に上回り、70ドル以上の精度でPathfinder-Xタスクを解く(16kコンテキスト長)。

Biological cortical neurons are remarkably sophisticated computational devices, temporally integrating their vast synaptic input over an intricate dendritic tree, subject to complex, nonlinearly interacting internal biological processes. A recent study proposed to characterize this complexity by fitting accurate surrogate models to replicate the input-output relationship of a detailed biophysical cortical pyramidal neuron model and discovered it needed temporal convolutional networks (TCN) with millions of parameters. Requiring these many parameters, however, could be the result of a misalignment between the inductive biases of the TCN and cortical neuron's computations. In light of this, and with the aim to explore the computational implications of leaky memory units and nonlinear dendritic processing, we introduce the Expressive Leaky Memory (ELM) neuron model, a biologically inspired phenomenological model of a cortical neuron. Remarkably, by exploiting a few such slowly decaying memory-like hidden states and two-layered nonlinear integration of synaptic input, our ELM neuron can accurately match the aforementioned input-output relationship with under ten-thousand trainable parameters. To further assess the computational ramifications of our neuron design, we evaluate on various tasks with demanding temporal structures, including the Long Range Arena (LRA) datasets, as well as a novel neuromorphic dataset based on the Spiking Heidelberg Digits dataset (SHD-Adding). Leveraging a larger number of memory units with sufficiently long timescales, and correspondingly sophisticated synaptic integration, the ELM neuron proves to be competitive on both datasets, reliably outperforming the classic Transformer or Chrono-LSTM architectures on latter, even solving the Pathfinder-X task with over $70\%$ accuracy (16k context length).
翻訳日:2023-10-13 08:18:51 公開日:2023-10-10
# RL$^3$: RLによるメタ強化学習をRL$^2$内で促進する

RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ ( http://arxiv.org/abs/2306.15909v2 )

ライセンス: Link先を確認
Abhinav Bhatia, Samer B. Nashed, Shlomo Zilberstein(参考訳) RL$^2$のようなメタ強化学習(meta-RL)手法は、与えられたタスク分布に合わせてデータ効率のよいRLアルゴリズムを学習するための有望なアプローチとして登場した。 しかしながら、これらのRLアルゴリズムは、値関数のような一般的なRLコンポーネントにまとめるのではなく、繰り返しニューラルネットワークを使用して経験のシーケンスを処理するため、長い水平タスクや分配タスクに苦労する。 さらに、トランスフォーマーでさえ、トレーニングや推論コストが禁じられる前に効率的に推論できる履歴の長さに実用的な制限がある。 対照的に、従来のRLアルゴリズムはドメイン知識を活用せず、より多くのデータが利用可能になるにつれて最適なポリシーに収束するので、データ非効率である。 本稿では,従来のRLとメタRLを組み合わせたハイブリッド手法であるRL$^3$を提案する。 rl$^3$ は rl$^2$ と比較して長期ホリゾン・アウト・オブ・ディストリビューション・タスクでより大きな累積報酬を得られるが、短期的には後者の効率は維持される。 様々な短期的、長期的、複雑な依存関係を示すメタRL文献から、カスタムドメインとベンチマークドメインの両方で実験を行う。

Meta reinforcement learning (meta-RL) methods such as RL$^2$ have emerged as promising approaches for learning data-efficient RL algorithms tailored to a given task distribution. However, these RL algorithms struggle with long-horizon tasks and out-of-distribution tasks since they rely on recurrent neural networks to process the sequence of experiences instead of summarizing them into general RL components such as value functions. Moreover, even transformers have a practical limit to the length of histories they can efficiently reason about before training and inference costs become prohibitive. In contrast, traditional RL algorithms are data-inefficient since they do not leverage domain knowledge, but they do converge to an optimal policy as more data becomes available. In this paper, we propose RL$^3$, a principled hybrid approach that combines traditional RL and meta-RL by incorporating task-specific action-values learned through traditional RL as an input to the meta-RL neural network. We show that RL$^3$ earns greater cumulative reward on long-horizon and out-of-distribution tasks compared to RL$^2$, while maintaining the efficiency of the latter in the short term. Experiments are conducted on both custom and benchmark discrete domains from the meta-RL literature that exhibit a range of short-term, long-term, and complex dependencies.
翻訳日:2023-10-13 08:17:19 公開日:2023-10-10
# エバネッセント粒子とunruh-dewitt検出器の相互作用

Interaction of evanescent particles with an Unruh-DeWitt detector ( http://arxiv.org/abs/2310.06716v1 )

ライセンス: Link先を確認
Daniele Colosi (ENES-Morelia-UNAM), Robert Oeckl (CCM-UNAM), Adamantia Zampeli (ICTQT)(参考訳) 我々は,最近導入された巨大なスカラー場のエバネッセント粒子がunruh-dewitt検出器によって放出・吸収されることを実証する。 その際、粒子は、通常の伝播する粒子と非常に類似した方法で、量子化されたエネルギー量を検出器から運び出すか、沈殿させる。 粒子の伝播と対照的に、エネルギーの量は磁場の質量よりも少ないが、それでも正である。 本研究は, プロパゲート粒子とエバネッセント粒子の両方を含む検出器発光スペクトル, 発光確率, 吸収確率について検討した。

We demonstrate that the recently introduced evanescent particles of a massive scalar field can be emitted and absorbed by an Unruh-DeWitt detector. In doing so the particles carry away from or deposit on the detector a quantized amount of energy, in a manner quite analogous to ordinary propagating particles. In contradistinction to propagating particles the amount of energy is less than the mass of the field, but still positive. We develop relevant methods and provide a study of the detector emission spectrum, emission probability and absorption probability involving both propagating and evanescent particles.
翻訳日:2023-10-13 08:07:19 公開日:2023-10-10
# チェスの正方形の価値

The Value of Chess Squares ( http://arxiv.org/abs/2307.05330v2 )

ライセンス: Link先を確認
Aditya Gupta and Shiva Maharaj and Nicholas Polson and Vadim Sokolov(参考訳) チェスの平方要素の組み合わせの値をニューラルネットワークで計算する手法を提案する。 我々のモデルは、入力として三重項(カラー、ピアース、スクエア)を取り、この片をこの四角に持つ利点/欠点を測る値を計算する。 本手法はチェスaiの最近の進歩を基盤とし,チェスのゲームにおける位置を正確に評価する。 従来の手法では固定値を$(\symking=\infty, \symqueen=9, \symrook=5, \symbishop=3, \symknight=3, \sympawn=1)$に割り当てる。 我々はこの分析を限界評価の導入によって強化する。 ディープラーニングを使ってモデルのパラメータを推定します。 我々は、騎士と司教の位置を調べることによって我々の方法を示し、ポーンの評価について貴重な洞察を提供する。 最後に,今後の研究への道筋を示唆する。

We propose a neural network-based approach to calculate the value of a chess square-piece combination. Our model takes a triplet (Color, Piece, Square) as an input and calculates a value that measures the advantage/disadvantage of having this piece on this square. Our methods build on recent advances in chess AI, and can accurately assess the worth of positions in a game of chess. The conventional approach assigns fixed values to pieces $(\symking=\infty, \symqueen=9, \symrook=5, \symbishop=3, \symknight=3, \sympawn=1)$. We enhance this analysis by introducing marginal valuations. We use deep Q-learning to estimate the parameters of our model. We demonstrate our method by examining the positioning of Knights and Bishops, and also provide valuable insights into the valuation of pawns. Finally, we conclude by suggesting potential avenues for future research.
翻訳日:2023-10-13 08:07:07 公開日:2023-10-10
# BeSt-LeS:Deep Supervision を用いたストローク病変セグメンテーションのベンチマーク

BeSt-LeS: Benchmarking Stroke Lesion Segmentation using Deep Supervision ( http://arxiv.org/abs/2310.07060v1 )

ライセンス: Link先を確認
Prantik Deb, Lalith Bharadwaj Baru, Kamalaker Dadi and Bapi Raju S(参考訳) 脳卒中は世界の健康に大きな負担となり、この課題を克服するには治療と予防戦略が必要です。 このため、脳卒中とリスク階層の即時識別は臨床医にとって重要な課題である。 専門医を助けるためには、自動セグメンテーションモデルが不可欠である。 本研究では,様々なエンドツーエンドの教師付きU-Netスタイルモデルをベンチマークするために,ATLAS $v2.0$の公開データセットを検討する。 具体的には,2次元および3次元脳画像のベンチマークモデルを作成し,標準測定値を用いて評価した。 2次元変圧器モデルでは0.583, 3次元残差U-Netでは0.504であった。 予測量と実際の脳卒中量の関係を関連付けるために,3dモデルに対するウィルコクソンテストを実施した。 再現性のために、コードとモデルの重み付けは、https://github.com/prantik-pdeb/BeSt-LeS.orgで公開されている。

Brain stroke has become a significant burden on global health and thus we need remedies and prevention strategies to overcome this challenge. For this, the immediate identification of stroke and risk stratification is the primary task for clinicians. To aid expert clinicians, automated segmentation models are crucial. In this work, we consider the publicly available dataset ATLAS $v2.0$ to benchmark various end-to-end supervised U-Net style models. Specifically, we have benchmarked models on both 2D and 3D brain images and evaluated them using standard metrics. We have achieved the highest Dice score of 0.583 on the 2D transformer-based model and 0.504 on the 3D residual U-Net respectively. We have conducted the Wilcoxon test for 3D models to correlate the relationship between predicted and actual stroke volume. For reproducibility, the code and model weights are made publicly available: https://github.com/prantik-pdeb/BeSt-LeS.
翻訳日:2023-10-13 08:00:14 公開日:2023-10-10
# 2種モジュラー量子コンピュータのための真空中高数値開口イメージングによるイオントラップ

Ion Trap with In-Vacuum High Numerical Aperture Imaging for a Dual-Species Modular Quantum Computer ( http://arxiv.org/abs/2310.07058v1 )

ライセンス: Link先を確認
Allison L. Carter, Jameson O'Reilly, George Toh, Sagnik Saha, Mikhail Shalaev, Isabella Goetting, Christopher Monroe(参考訳) 量子システム間のフォトニック相互接続は、スケーラブルな量子コンピューティングと量子ネットワークの両方において中心的な役割を果たす。 光子によるリモート量子ビットの絡み合いは、多くのプラットフォームで実証されているが、絡み合い生成速度の向上は、モジュラー量子コンピュータにフォトニックリンクを統合するのに役立つだろう。 本稿では,量子ネットワークにおける光子収集効率が最も高いイオントラップシステムを提案する。 我々は、一対の真空非球面レンズを用いて、それぞれ0.8の数値開口を持ち、$^{138}$Ba$^+$イオンから放出される493nm光子の10%を単一モードファイバーに結合させる。 また,レンズのイオン位置や運動に対する近位効果を緩和できることを示した。

Photonic interconnects between quantum systems will play a central role in both scalable quantum computing and quantum networking. Entanglement of remote qubits via photons has been demonstrated in many platforms; however, improving the rate of entanglement generation will be instrumental for integrating photonic links into modular quantum computers. We present an ion trap system that has the highest reported free-space photon collection efficiency for quantum networking. We use a pair of in-vacuum aspheric lenses, each with a numerical aperture of 0.8, to couple 10% of the 493 nm photons emitted from a $^{138}$Ba$^+$ ion into single-mode fibers. We also demonstrate that proximal effects of the lenses on the ion position and motion can be mitigated.
翻訳日:2023-10-13 07:59:58 公開日:2023-10-10
# 単独相互作用を持つ自由フェルミオン系における情報スクランブル

Information Scrambling in Free Fermion Systems with a Sole Interaction ( http://arxiv.org/abs/2310.07043v1 )

ライセンス: Link先を確認
Qucheng Gao, Pengfei Zhang, Xiao Chen(参考訳) 単一不純物の存在は、低温における量子多体系の輸送特性に大きな影響を与えることがよく知られている。 本研究では,量子情報力学の観点から,この問題の類似性について検討する。 我々は、自由フェルミオンホッピング項と単独相互作用からなるブラウン回路とクリフォード回路を構築する。 両回路とも,演算子のスクランブルの発生が明らかとなった。 特に、作用素の成長は1つの点に局所化されたソース項の存在下で対称排他過程に写像することができる。 1次元系では、作用素の大きさは時間とともに線形に成長し、絡み合いは時間とともに拡散的に増加する。 逆に、すべてのホッピングによって特徴づけられるシナリオでは、オペレータのサイズは指数関数的に成長し、エンタングルメントは時間とともに線形に増加する。

It is well-established that the presence of single impurity can have a substantial impact on the transport properties of quantum many-body systems at low temperature. In this work, we investigate a close analog of this problem from the perspective of quantum information dynamics. We construct Brownian circuits and Clifford circuits consisting of free fermion hopping term and a sole interaction. In both circuits, our findings reveal the emergence of operator scrambling. Notably, the growth of the operator can be mapped to the symmetric exclusion process in the presence of a source term localized at a single point. We demonstrate that in the one dimensional system, operator's size grows linearly in time and the entanglement grows diffusively in time. Conversely, in scenarios characterized by all-to-all hopping, the operator's size undergoes exponential growth, while the entanglement exhibits a linear increase over time.
翻訳日:2023-10-13 07:59:41 公開日:2023-10-10
# 移動ロボットナビゲーションのための事前学習マスク画像モデル

Pre-Trained Masked Image Model for Mobile Robot Navigation ( http://arxiv.org/abs/2310.07021v1 )

ライセンス: Link先を確認
Vishnu Dutt Sharma, Anukriti Singh, Pratap Tokekar(参考訳) 2dトップダウンマップは、未知の領域での移動ロボットのナビゲーションと探索によく用いられる。 通常、ロボットはオンボードセンサーを用いた局所観測から、ナビゲーションマップを段階的に構築する。 近年の研究では、学習に基づくアプローチによる環境構造パターンの予測により、タスク効率が大幅に向上することが示されている。 このような作業の多くは限られたデータセットを使ってタスク固有のネットワークを構築するが、既存の基本的なビジョンネットワークは微調整なしで同じことができる。 具体的には,街路画像に事前学習されたマスク付きオートエンコーダを用いて,フィールドオブビュー拡張,単一エージェントトポロジカル探索,屋内マッピングのためのマルチエージェント探索のための新しいアプリケーションを提案する。 我々の研究は、一般化された構造予測駆動アプリケーション、特にトレーニングデータにおける基礎的ビジョンモデルの利用を動機付けている。 より質的な結果については、https://raaslab.org/projects/MIM4Robotsを参照してください。

2D top-down maps are commonly used for the navigation and exploration of mobile robots through unknown areas. Typically, the robot builds the navigation maps incrementally from local observations using onboard sensors. Recent works have shown that predicting the structural patterns in the environment through learning-based approaches can greatly enhance task efficiency. While many such works build task-specific networks using limited datasets, we show that the existing foundational vision networks can accomplish the same without any fine-tuning. Specifically, we use Masked Autoencoders, pre-trained on street images, to present novel applications for field-of-view expansion, single-agent topological exploration, and multi-agent exploration for indoor mapping, across different input modalities. Our work motivates the use of foundational vision models for generalized structure prediction-driven applications, especially in the dearth of training data. For more qualitative results see https://raaslab.org/projects/MIM4Robots.
翻訳日:2023-10-13 07:59:29 公開日:2023-10-10
# 不確実性を考慮した視覚定位のためのニューラルラジアンスフィールドの活用

Leveraging Neural Radiance Fields for Uncertainty-Aware Visual Localization ( http://arxiv.org/abs/2310.06984v1 )

ライセンス: Link先を確認
Le Chen, Weirong Chen, Rui Wang, Marc Pollefeys(参考訳) 視覚的ローカライゼーションの有望な方法として、シーン座標回帰(SCR)は過去10年間で著しく進歩している。 最近の手法では、画像ピクセルから3dシーン座標へのマッピングを学ぶためにニューラルネットワークを採用することが多い。 我々はニューラルレージアンス場(NeRF)を利用してSCRのトレーニングサンプルを生成することを提案する。 レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まないため、回帰精度を妨げたり、冗長なデータで不要な計算コストを発生させる可能性がある。 1) nerfは、画素レベルでのデータ信頼性を明らかにするために、レンダリングされた色と深度画像の不確かさを別々に予測するように設計されている。 2) scrは,情報ゲインとシーン座標品質の評価に用いられる認識的不確かさを伴う深部実証学習として定式化されている。 (3)不確実性の3つの技術に基づいて,データ効率を著しく向上させる新しい視点選択政策を形成する。 公開データセットを用いた実験により,最も情報獲得率の高いサンプルを選択でき,高い効率で性能向上が期待できることを示した。

As a promising fashion for visual localization, scene coordinate regression (SCR) has seen tremendous progress in the past decade. Most recent methods usually adopt neural networks to learn the mapping from image pixels to 3D scene coordinates, which requires a vast amount of annotated training data. We propose to leverage Neural Radiance Fields (NeRF) to generate training samples for SCR. Despite NeRF's efficiency in rendering, many of the rendered data are polluted by artifacts or only contain minimal information gain, which can hinder the regression accuracy or bring unnecessary computational costs with redundant data. These challenges are addressed in three folds in this paper: (1) A NeRF is designed to separately predict uncertainties for the rendered color and depth images, which reveal data reliability at the pixel level. (2) SCR is formulated as deep evidential learning with epistemic uncertainty, which is used to evaluate information gain and scene coordinate quality. (3) Based on the three arts of uncertainties, a novel view selection policy is formed that significantly improves data efficiency. Experiments on public datasets demonstrate that our method could select the samples that bring the most information gain and promote the performance with the highest efficiency.
翻訳日:2023-10-13 07:59:07 公開日:2023-10-10
# 一般化リセット過程を考慮したマルコフ開量子力学における普遍的および非普遍的確率則

Universal and nonuniversal probability laws in Markovian open quantum dynamics subject to generalized reset processes ( http://arxiv.org/abs/2310.06981v1 )

ライセンス: Link先を確認
Federico Carollo, Igor Lesanovsky, Juan P. Garrahan(参考訳) 我々は、マルコフ開量子系の量子ジャンプ軌道を、初期配置への状態の確率的リセットの対象となるものとする。 リセットイベントは、量子軌道を連続した時間間隔に分割し、各間隔内で観測可能な軌道の値から確率変数のシーケンスを定義する。 量子状態の関数に関連する観測可能量に対して、列内の特定の順序の確率が普遍法則に従うことを示す。 この法則は、選択された可観測性に依存しず、ポアソニアンリセット過程の場合、ダイナミクスの詳細にも依存しない。 量子ジャンプの数え上げに関連する可観測性を考慮すると、一般の確率は普遍的な性質を失う。 普遍性は、同じシーケンスで等しい結果が観測される確率が、弱いリセット率の限界で達成できるような、消滅的に小さい場合にのみ回復される。 その結果,従来の確率過程 [N。 〜r。 ~smith et al., epl {\bf 142}, 51002 (2023)] 量子領域と状態依存リセット過程に関係し、普遍確率法則の出現に関連する側面に光を当てている。

We consider quantum jump trajectories of Markovian open quantum systems subject to stochastic in time resets of their state to an initial configuration. The reset events provide a partitioning of quantum trajectories into consecutive time intervals, defining sequences of random variables from the values of a trajectory observable within each of the intervals. For observables related to functions of the quantum state, we show that the probability of certain orderings in the sequences obeys a universal law. This law does not depend on the chosen observable and, in case of Poissonian reset processes, not even on the details of the dynamics. When considering (discrete) observables associated with the counting of quantum jumps, the probabilities in general lose their universal character. Universality is only recovered in cases when the probability of observing equal outcomes in a same sequence is vanishingly small, which we can achieve in a weak reset rate limit. Our results extend previous findings on classical stochastic processes [N.~R.~Smith et al., EPL {\bf 142}, 51002 (2023)] to the quantum domain and to state-dependent reset processes, shedding light on relevant aspects for the emergence of universal probability laws.
翻訳日:2023-10-13 07:58:30 公開日:2023-10-10
# 古典・量子物理学における科学理論構築のためのbild概念--ヘルツ・ボルツマンからシュル=オディンガーとド・ブロイへ

The Bild-conception for Scientific Theory Structuring in Classical and Quantum Physics: from Hertz and Boltzmann to Schr\"odinger and De Broglie ( http://arxiv.org/abs/2310.06954v1 )

ライセンス: Link先を確認
Andrei Khrennikov(参考訳) まず、科学的理論の概念とその現実との相互関係の方法論的分析から始める。 この分析はヘルムホルツ(helmholtz)、ヘルツ(hertz)、ボルツマン(boltzmann)、シュル=オディンガー(schr\"odinger)の作品に基づいている。ヘルムホルツ(hertz)に続いて、ヘルツは科学理論のための「ビルド概念」(bild concept)を確立した。「ビルド」(bild)は「モデル」(mathematical)を意味する。 自然科学の主な目的は自然現象の因果論的モデル(ctms)の構築である。 ヘルツは、CTMは観測データのみに基づいて設計することはできないと主張した。 実験データは観測モデル(om)によって記述され、しばしば可視性の価格に基づいて記述される。 CTM-OM相互相関は難しい。 Schr\"odinger はバイルドの概念を使って量子力学(QM)のための CTM を作成し、QM は OM として扱われた。 我々は、彼の後を追って、PCSFT(Prequantum classical statistical field theory)と呼ばれるQMのための特別なCTMを提案する。 ベルの不等式違反の一般的な解釈は、科学理論の2段階の構造化の観点から批判されている。 このような隠れ変数に対するフォン・ノイマンとベルのノーゴーの定理の批判的分析は、1970年代に既にデ・ブログリ(とロチャック)によって行われた。 Bild-approachはブラウン運動の2レベルCTM-OMモデリングに適用される。 科学理論(primas-atmanspacher)のontic-epistemic 構造と bild 概念との関係について簡単に論じる。

We start with methodological analysis of the notion of scientific theory and its interrelation with reality. This analysis is based on the works of Helmholtz, Hertz, Boltzmann, and Schr\"odinger (and reviews of D' Agostino). Following Helmholtz, Hertz established the "Bild concept" for scientific theories. Here "Bild" ("picture") carries the meaning "model" (mathematical). The main aim of natural sciences is construction of the causal theoretical models (CTMs) of natural phenomena. Hertz claimed that CTM cannot be designed solely on the basis of observational data; it typically contains hidden quantities. Experimental data can be described by an observational model (OM), often on the price of acausality. CTM-OM interrelation can be tricky. Schr\"odinger used the Bild concept to create CTM for quantum mechanics (QM) and QM was treated as OM. We follow him and suggest a special CTM for QM, so-called prequantum classical statistical field theory (PCSFT). The common interpretation of the violation of the Bell inequality is criticized from the perspective of the two level structuring of scientific theories. Such critical analysis of von Neumann and Bell no-go theorems for hidden variables was performed already by De Broglie (and Lochak) in 1970s. The Bild-approach is applied to the two level CTM-OM modeling of Brownian motion: the overdamped regime corresponds to OM. We briefly discuss ontic-epistemic structuring of scientific theories (Primas-Atmanspacher) and its relation to the Bild concept.
翻訳日:2023-10-13 07:57:50 公開日:2023-10-10
# 顔検出・認識のための映像解析システムのエンド・ツー・エンド評価

End-to-end Evaluation of Practical Video Analytics Systems for Face Detection and Recognition ( http://arxiv.org/abs/2310.06945v1 )

ライセンス: Link先を確認
Praneet Singh, Edward J. Delp, Amy R. Reibman(参考訳) 自動運転車のような帯域制限環境に配備された実用的なビデオ分析システムは、顔検出や認識などのコンピュータビジョンタスクを実行する。 エンドツーエンドの顔分析システムでは、入力はHEVCのような一般的なビデオコーデックを使用して最初に圧縮され、次に顔検出、アライメント、認識を順次実行するモジュールに渡される。 通常、これらのシステムのモジュールはタスク固有の不均衡データセットを使用して独立に評価される。 本稿では,運転固有のデータセットを用いた顔分析システムのエンドツーエンド評価を行い,有意義な解釈を可能にした。 独立したタスク評価,データセットの不均衡,一貫性のないアノテーションが,システムパフォーマンスの誤った推定につながることを示す。 我々は、データセットのバランスのとれた評価サブセットを作成し、そのアノテーションを複数の分析タスクやシナリオ間で一貫性を持たせる戦略を提案する。 次に,タスク間依存性を考慮したエンドツーエンドシステムの性能を逐次評価する。 本実験は,本手法が実世界のアプリケーションにとって重要なシステム性能の一貫性,正確性,解釈可能な推定値を提供することを示す。

Practical video analytics systems that are deployed in bandwidth constrained environments like autonomous vehicles perform computer vision tasks such as face detection and recognition. In an end-to-end face analytics system, inputs are first compressed using popular video codecs like HEVC and then passed onto modules that perform face detection, alignment, and recognition sequentially. Typically, the modules of these systems are evaluated independently using task-specific imbalanced datasets that can misconstrue performance estimates. In this paper, we perform a thorough end-to-end evaluation of a face analytics system using a driving-specific dataset, which enables meaningful interpretations. We demonstrate how independent task evaluations, dataset imbalances, and inconsistent annotations can lead to incorrect system performance estimates. We propose strategies to create balanced evaluation subsets of our dataset and to make its annotations consistent across multiple analytics tasks and scenarios. We then evaluate the end-to-end system performance sequentially to account for task interdependencies. Our experiments show that our approach provides consistent, accurate, and interpretable estimates of the system's performance which is critical for real-world applications.
翻訳日:2023-10-13 07:57:10 公開日:2023-10-10
# バグトリージングにおけるトランスフォーマティブに基づくニューラルテキスト表現手法の比較研究

A Comparative Study of Transformer-based Neural Text Representation Techniques on Bug Triaging ( http://arxiv.org/abs/2310.06913v1 )

ライセンス: Link先を確認
Atish Kumar Dipongkor, Kevin Moran(参考訳) 多くの場合、バグレポートを管理する最初のステップは、バグを理解し、ローカライズし、修正するのに最適な適切な開発者にバグをトリアージすることだ。 さらに、ソフトウェアプロジェクトの特定の部分に特定のバグを割り当てることは、修正プロセスの迅速化に役立ちます。 しかしながら、これらの活動の重要性にもかかわらず、手動のトリージングプロセスに数日を費やすことができるため、非常に困難である。 過去の研究では、バグレポートの限られたテキストデータを活用して、このプロセスを自動化したテキスト分類モデルのトレーニングを試みた。 しかしながら、先行作業で使用されるテキスト表現と機械学習モデルは、表現力によって制限され、しばしばトリアージプロセスに役立ちそうなニュアンスなテキストパターンをキャプチャできない。 近年、BERTのような大きなトランスフォーマーベースで事前訓練されたニューラルテキスト表現技術は、自然言語処理タスクにおいてより優れたパフォーマンスを実現している。 しかし、これらの技術を用いて自動バグトリアージの事前アプローチを改善する可能性は十分に研究されていない。 そこで本稿では,400人以上の開発者と150以上のソフトウェアプロジェクトコンポーネントを抱える53年に及ぶ開発履歴にまたがる,4つのオープンソースデータセットのバグトリアージ作業のための,ファイントゥーントランスフォーマーベースの言語モデルについて,最初の調査を行った。 本研究は有効性の定量的および定性的な分析を含む。 以上の結果から,DeBERTaはディベロッパとコンポーネントのトリアージ作業において最も有効な手法であり,測定結果の差は他の手法と比較して統計的に有意であることがわかった。 しかし,我々は質的分析を通じて,それぞれの手法が特定の種類のバグレポートに最も適したユニークな能力を持っていることを確かめた。

Often, the first step in managing bug reports is related to triaging a bug to the appropriate developer who is best suited to understand, localize, and fix the target bug. Additionally, assigning a given bug to a particular part of a software project can help to expedite the fixing process. However, despite the importance of these activities, they are quite challenging, where days can be spent on the manual triaging process. Past studies have attempted to leverage the limited textual data of bug reports to train text classification models that automate this process -- to varying degrees of success. However, the textual representations and machine learning models used in prior work are limited by their expressiveness, often failing to capture nuanced textual patterns that might otherwise aid in the triaging process. Recently, large, transformer-based, pre-trained neural text representation techniques such as BERT have achieved greater performance in several natural language processing tasks. However, the potential for using these techniques to improve upon prior approaches for automated bug triaging is not well studied or understood. Therefore, in this paper we offer one of the first investigations that fine-tunes transformer-based language models for the task of bug triaging on four open source datasets, spanning a collective 53 years of development history with over 400 developers and over 150 software project components. Our study includes both a quantitative and qualitative analysis of effectiveness. Our findings illustrate that DeBERTa is the most effective technique across the triaging tasks of developer and component assignment, and the measured performance delta is statistically significant compared to other techniques. However, through our qualitative analysis, we also observe that each technique possesses unique abilities best suited to certain types of bug reports.
翻訳日:2023-10-13 07:56:31 公開日:2023-10-10
# cvpr2023ニース画像キャプションチャレンジの解法

The Solution for the CVPR2023 NICE Image Captioning Challenge ( http://arxiv.org/abs/2310.06879v1 )

ライセンス: Link先を確認
Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu(参考訳) 本稿では,ゼロショット画像キャプション課題に対する新たなフロンティアへの解決策を提案する。 従来の画像キャプションデータセットとは異なり、この課題には、さまざまな画像タイプ(写真、イラスト、グラフィック)だけでなく、多くのドメイン(COVID-19など)からの新しいさまざまな視覚概念が含まれている。 データレベルでは、大規模なCLIPフィルタリング画像テキストデータセットであるLaion-5Bから外部トレーニングデータを収集する。 モデルレベルでは、手作りテンプレートに基づく大規模なビジュアル言語事前学習モデルofaを使用して、画像キャプションタスクを実行する。 さらに,画像とテキストのペアを並べ合わせることで,事前学習段階における新しい視覚概念を学習するコントラスト学習を導入する。 次に,類似性バケット戦略を提案し,この戦略をテンプレートに組み込んで,より高品質なキャプション生成をモデルに強制する。 最後に,検索提示戦略により,他の画像テキストペアから最も関連性の高いトップkキャプションを含むコンテンツリッチなテンプレートを構築し,セマンティックリッチなキャプション生成のモデルを導出する。 本手法は,まずリーダボード上で105.17と325.72のcider-scoreを検証およびテストフェーズで達成する。

In this paper, we present our solution to the New frontiers for Zero-shot Image Captioning Challenge. Different from the traditional image captioning datasets, this challenge includes a larger new variety of visual concepts from many domains (such as COVID-19) as well as various image types (photographs, illustrations, graphics). For the data level, we collect external training data from Laion-5B, a large-scale CLIP-filtered image-text dataset. For the model level, we use OFA, a large-scale visual-language pre-training model based on handcrafted templates, to perform the image captioning task. In addition, we introduce contrastive learning to align image-text pairs to learn new visual concepts in the pre-training stage. Then, we propose a similarity-bucket strategy and incorporate this strategy into the template to force the model to generate higher quality and more matching captions. Finally, by retrieval-augmented strategy, we construct a content-rich template, containing the most relevant top-k captions from other image-text pairs, to guide the model in generating semantic-rich captions. Our method ranks first on the leaderboard, achieving 105.17 and 325.72 Cider-Score in the validation and test phase, respectively.
翻訳日:2023-10-13 07:55:59 公開日:2023-10-10
# Deep Network Approximation: ReLUを超えて、さまざまなアクティベーション関数

Deep Network Approximation: Beyond ReLU to Diverse Activation Functions ( http://arxiv.org/abs/2307.06555v4 )

ライセンス: Link先を確認
Shijun Zhang, Jianfeng Lu, Hongkai Zhao(参考訳) 本稿では,多様な活性化関数に対するディープニューラルネットワークの表現力について検討する。 $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\matht{ReLU}^2$, $\matht{ELU}$, $\matht{SELU}$, $\matht{Softplus}$, $\matht{GELU}$, $\matht{SiLU}$, $\matht{Swish}$, $\matht{Swish}$, $\matht{Mish}$, $\matht{Sigmoid}$, $\matht{ReLU}$, $\matht{Sigmoid}$, $\matht{ReLU}^2$, $\mathtt{SELU}$, $, $\mathtt{Softplus}$, $\mathtt{GELU}$, $, $\mathttt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathttt{Sig}$\mathtt{Sig}$, $, $\mathttttt{Sig}$, $, $\mathttttt{Sig}$\matht{Sig}$, $, $\mathttttt{Sig}$}$, $\mathttt{Sig}$}$}$, $}$, $\matht{Swt{Swt{Sw}$, $, $\matht{Swt{Swt{Sw}$, $, $} 任意の活性化関数 $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ に対して、任意の有界集合上の$\varrho$-activated network of width $3N$ and depth $2L$ を任意の精度で近似できることを示した。 この発見により、$\mathtt{ReLU}$ネットワークで達成されるほとんどの近似結果を、定数がわずかに増加するにもかかわらず、様々な活性化関数に拡張することができる。 注目すべきなのは,前回の結果に現れた (width,$\,$depth) スケーリング係数が$(3,2)$ から $(1,1)$ まで,$\varrho$ が $\mathscr{a}$ の特定のサブセット内に入る場合,さらに削減可能であることだ。 このサブセットには、$\mathtt{ELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\matht{GELU}$, $\matht{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$などの活性化関数が含まれる。

This paper explores the expressive power of deep neural networks for a diverse range of activation functions. An activation function set $\mathscr{A}$ is defined to encompass the majority of commonly used activation functions, such as $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\mathtt{ReLU}^2$, $\mathtt{ELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$, $\mathtt{Sigmoid}$, $\mathtt{Tanh}$, $\mathtt{Arctan}$, $\mathtt{Softsign}$, $\mathtt{dSiLU}$, and $\mathtt{SRS}$. We demonstrate that for any activation function $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ can be approximated to arbitrary precision by a $\varrho$-activated network of width $3N$ and depth $2L$ on any bounded set. This finding enables the extension of most approximation results achieved with $\mathtt{ReLU}$ networks to a wide variety of other activation functions, albeit with slightly increased constants. Significantly, we establish that the (width,$\,$depth) scaling factors that appeared in the previous result can be further reduced from $(3,2)$ to $(1,1)$ if $\varrho$ falls within a specific subset of $\mathscr{A}$. This subset includes activation functions such as $\mathtt{ELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, and $\mathtt{Mish}$.
翻訳日:2023-10-13 05:46:02 公開日:2023-10-10
# TF-ICON:拡散型学習自由領域画像合成

TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition ( http://arxiv.org/abs/2307.12493v3 )

ライセンス: Link先を確認
Shilin Lu, Yanzhu Liu, Adams Wai-Kin Kong(参考訳) テキスト駆動拡散モデルは印象的な生成能力を示し、様々な画像編集タスクを可能にした。 本稿では,クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用する,新しいトレーニング自由画像合成フレームワークTF-ICONを提案する。 このタスクは、ユーザが提供するオブジェクトを視覚的なコンテキストにシームレスに統合することを目的としている。 現在の拡散ベースの方法は、多くの場合、カスタマイズされたデータセット上で事前学習されたモデルのコストのかかるインスタンスベースの最適化や微調整を伴う。 対照的に、TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずにクロスドメイン画像誘導合成を行うことができる。 さらに,実画像を正確に潜在表現に変換し,合成の基礎を形成するテキスト駆動拡散モデルを容易にするために,情報を持たない例外的なプロンプトを導入する。 実験により, 安定拡散を異常なプロンプトと組み合わせることで, 様々なデータセット(CelebA-HQ, COCO, ImageNet)における最先端の逆解析手法よりも優れており, TF-ICONは, 汎用視覚領域において従来のベースラインを超越していることがわかった。 コードはhttps://github.com/Shilin-LU/TF-ICONで入手できる。

Text-driven diffusion models have exhibited impressive generative capabilities, enabling various image editing tasks. In this paper, we propose TF-ICON, a novel Training-Free Image COmpositioN framework that harnesses the power of text-driven diffusion models for cross-domain image-guided composition. This task aims to seamlessly integrate user-provided objects into a specific visual context. Current diffusion-based methods often involve costly instance-based optimization or finetuning of pretrained models on customized datasets, which can potentially undermine their rich prior. In contrast, TF-ICON can leverage off-the-shelf diffusion models to perform cross-domain image-guided composition without requiring additional training, finetuning, or optimization. Moreover, we introduce the exceptional prompt, which contains no information, to facilitate text-driven diffusion models in accurately inverting real images into latent representations, forming the basis for compositing. Our experiments show that equipping Stable Diffusion with the exceptional prompt outperforms state-of-the-art inversion methods on various datasets (CelebA-HQ, COCO, and ImageNet), and that TF-ICON surpasses prior baselines in versatile visual domains. Code is available at https://github.com/Shilin-LU/TF-ICON
翻訳日:2023-10-13 05:33:19 公開日:2023-10-10
# AIに基づく欠陥検出と分類モデルを用いた推論のための形態的画像解析と特徴抽出

Morphological Image Analysis and Feature Extraction for Reasoning with AI-based Defect Detection and Classification Models ( http://arxiv.org/abs/2307.11643v3 )

ライセンス: Link先を確認
Jiajun Zhang, Georgina Cosma, Sarah Bugby, Axel Finke and Jason Watkins(参考訳) 人工知能(AI)モデルの使用が工学や製造などの産業で普及するにつれて、これらのモデルが予測の背後にある透明な推論を提供することが不可欠である。 本稿では,画像から欠陥(果柄)の形態的特徴を抽出し,決定木を用いて果柄値の推論を行うai-reasonerを提案する。 その後、AI-Reasonerは視覚化(チャート)とテキストの説明をエクスポートし、マスクによる欠陥検出と分類モデルによるアウトプットに関する洞察を提供する。 また、データ前処理と全体的なモデルパフォーマンスを強化する効果的な緩和戦略も提供する。 AI-Reasonerは、欠陥を含む366イメージのセットを使用して、IE Mask R-CNNモデルの出力を説明するためにテストされた。 この結果は,IE Mask R-CNNモデルの予測を説明する上での有効性を示した。 全体として、提案されたAI-Reasonerは、欠陥分析を必要とする産業アプリケーションにおけるAIモデルのパフォーマンスを改善するソリューションを提供する。

As the use of artificial intelligent (AI) models becomes more prevalent in industries such as engineering and manufacturing, it is essential that these models provide transparent reasoning behind their predictions. This paper proposes the AI-Reasoner, which extracts the morphological characteristics of defects (DefChars) from images and utilises decision trees to reason with the DefChar values. Thereafter, the AI-Reasoner exports visualisations (i.e. charts) and textual explanations to provide insights into outputs made by masked-based defect detection and classification models. It also provides effective mitigation strategies to enhance data pre-processing and overall model performance. The AI-Reasoner was tested on explaining the outputs of an IE Mask R-CNN model using a set of 366 images containing defects. The results demonstrated its effectiveness in explaining the IE Mask R-CNN model's predictions. Overall, the proposed AI-Reasoner provides a solution for improving the performance of AI models in industrial applications that require defect analysis.
翻訳日:2023-10-13 05:30:57 公開日:2023-10-10
# look before you leap: 大規模言語モデルにおける不確実性測定の探索的研究

Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models ( http://arxiv.org/abs/2307.10236v2 )

ライセンス: Link先を確認
Yuheng Huang, Jiayang Song, Zhijie Wang, Shengming Zhao, Huaming Chen, Felix Juefei-Xu, Lei Ma(参考訳) 最近の大規模言語モデル(llms)のパフォーマンス向上は、多くの産業アプリケーションやドメインにまたがる新しい機会を開く。 しかし、誤報、誤報、LLMによる幻覚といった誤った世代は、特に安全性、セキュリティ、信頼性に敏感なシナリオにおいて、LLMの信頼性に対する深刻な懸念を提起し、現実世界の採用を妨げる可能性がある。 不確実性推定は、一般的な機械学習(ML)モデルによる予測リスクを解釈する可能性を示しているが、LLMの能力を探究し、望ましくない振る舞いに対処するのにどの程度役立つかは、ほとんど分かっていない。 本稿では,このギャップを埋めるために,不確実性レンズからのLSMのリスク評価に関する探索的研究を開始する。 特に,4つの自然言語処理(NLP)タスクに対して,12の不確実性推定手法と4つのLLMを用いて実験を行い,LLMの予測リスクをどの程度評価できるかを検討した。 本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。 一般的なNLPタスクに加えて、2つのデータセット上のコード生成のための4つのLLMを用いて広範囲に実験を行う。 不確実性推定は,LSMが生成するバグプログラムを潜在的に発見する可能性がある。 本研究から得られた知見は,LLMの信頼性向上に向けた今後の設計・開発に光を当てたものである。

The recent performance leap of Large Language Models (LLMs) opens up new opportunities across numerous industrial applications and domains. However, erroneous generations, such as false predictions, misinformation, and hallucination made by LLMs, have also raised severe concerns for the trustworthiness of LLMs', especially in safety-, security- and reliability-sensitive scenarios, potentially hindering real-world adoptions. While uncertainty estimation has shown its potential for interpreting the prediction risks made by general machine learning (ML) models, little is known about whether and to what extent it can help explore an LLM's capabilities and counteract its undesired behavior. To bridge the gap, in this paper, we initiate an exploratory study on the risk assessment of LLMs from the lens of uncertainty. In particular, we experiment with twelve uncertainty estimation methods and four LLMs on four prominent natural language processing (NLP) tasks to investigate to what extent uncertainty estimation techniques could help characterize the prediction risks of LLMs. Our findings validate the effectiveness of uncertainty estimation for revealing LLMs' uncertain/non-factual predictions. In addition to general NLP tasks, we extensively conduct experiments with four LLMs for code generation on two datasets. We find that uncertainty estimation can potentially uncover buggy programs generated by LLMs. Insights from our study shed light on future design and development for reliable LLMs, facilitating further research toward enhancing the trustworthiness of LLMs.
翻訳日:2023-10-13 05:29:56 公開日:2023-10-10
# 核化正規化流れ

Kernelised Normalising Flows ( http://arxiv.org/abs/2307.14839v3 )

ライセンス: Link先を確認
Eshant English, Matthias Kirchler, Christoph Lippert(参考訳) 正規化フローは、密度推定と生成の二重能力によって特徴づけられる非パラメトリック統計モデルである。 この双対性は本質的に可逆的アーキテクチャを必要とする。 しかし、可逆性の要件は表現性に制約を課し、優れた結果を得るためには多数のパラメータと革新的なアーキテクチャ設計が必要である。 フローベースモデルは、主に表現的設計のためにニューラルネットベースの変換に依存しているが、代替変換法は注目されている。 本稿では,カーネルをフレームワークに統合した新しいカーネル正規化フローパラダイムであるFerumal Flowを紹介する。 その結果,カーネル化フローは,パラメータ効率を維持しつつ,ニューラルネットワークベースのフローと比較して,競合性や優れた結果が得られることがわかった。 カーネル化されたフローは、特に低データレシエーションにおいて優れており、スパースデータ可用性のあるアプリケーションで柔軟な非パラメトリック密度推定を可能にする。

Normalising Flows are non-parametric statistical models characterised by their dual capabilities of density estimation and generation. This duality requires an inherently invertible architecture. However, the requirement of invertibility imposes constraints on their expressiveness, necessitating a large number of parameters and innovative architectural designs to achieve good results. Whilst flow-based models predominantly rely on neural-network-based transformations for expressive designs, alternative transformation methods have received limited attention. In this work, we present Ferumal flow, a novel kernelised normalising flow paradigm that integrates kernels into the framework. Our results demonstrate that a kernelised flow can yield competitive or superior results compared to neural network-based flows whilst maintaining parameter efficiency. Kernelised flows excel especially in the low-data regime, enabling flexible non-parametric density estimation in applications with sparse data availability.
翻訳日:2023-10-13 05:23:13 公開日:2023-10-10
# forestmonkey:aiに基づく欠陥検出と分類モデルを用いた推論用ツールキット

ForestMonkey: Toolkit for Reasoning with AI-based Defect Detection and Classification Models ( http://arxiv.org/abs/2307.13815v2 )

ライセンス: Link先を確認
Jiajun Zhang, Georgina Cosma, Sarah Bugby, Jason Watkins(参考訳) 人工知能(AI)推論と説明可能なAI(XAI)タスクが最近人気となり、ユーザーはAIモデルの予測や決定プロセスを説明することができる。 本稿では,aiに基づく欠陥検出および/または分類モデルの出力をデータ説明性で推論するツールキットであるforest monkey (fm)を提案する。 Pythonパッケージとして実装されたFMは、データセットフォルダパス(オリジナル画像、グラウンドの真理ラベル、予測ラベルを含む)の形式で入力を取得し、推論結果を説明するためのチャートとテキストファイルのセットを提供し、改善の可能性を提案する。 FMツールキットは、予測から推論対象への特徴抽出、画像から欠陥特徴への特徴抽出、決定木に基づくAI-Reasonerなどのプロセスで構成されている。 さらに,異なるデータセットを持つ4つのAIモデルに適用した場合のFMツールキットの時間特性について検討する。 最後に、FMツールキットを使用した推論タスクのユーザガイドのためのチュートリアルが提供される。

Artificial intelligence (AI) reasoning and explainable AI (XAI) tasks have gained popularity recently, enabling users to explain the predictions or decision processes of AI models. This paper introduces Forest Monkey (FM), a toolkit designed to reason the outputs of any AI-based defect detection and/or classification model with data explainability. Implemented as a Python package, FM takes input in the form of dataset folder paths (including original images, ground truth labels, and predicted labels) and provides a set of charts and a text file to illustrate the reasoning results and suggest possible improvements. The FM toolkit consists of processes such as feature extraction from predictions to reasoning targets, feature extraction from images to defect characteristics, and a decision tree-based AI-Reasoner. Additionally, this paper investigates the time performance of the FM toolkit when applied to four AI models with different datasets. Lastly, a tutorial is provided to guide users in performing reasoning tasks using the FM toolkit.
翻訳日:2023-10-13 05:22:32 公開日:2023-10-10
# 注意ネットワークの学習ダイナミクスについて

On the Learning Dynamics of Attention Networks ( http://arxiv.org/abs/2307.13421v4 )

ライセンス: Link先を確認
Rahul Vashisht and Harish G. Ramaswamy(参考訳) 注意モデルは一般的に、ソフトアテンション(Soft attention)、ハードアテンション(ハードアテンション)、潜在変数の辺縁的可能性(Latent variable marginal chance, LVML)という3つの標準的な損失関数のうちの1つを最適化することによって学習される。これら3つのパラダイムは、入力の右 \textit{segment} を 'select' する 'focus' モデルと、選択したセグメントをターゲットラベルに処理する 'classification' モデルである。 しかし、これらは選択されたセグメントを集約する方法で大きく異なり、異なるダイナミクスと最終的な結果をもたらす。 これらのパラダイムを用いて学習したモデルのユニークなシグネチャを観察し,フォーカスモデルが固定された場合の勾配降下下での分類モデルの進化の帰結として説明する。 また,これらのパラダイムを簡単な設定で解析し,勾配流下のパラメータ軌跡の閉形式式を導出する。 ソフトアテンションの損失により、フォーカスモデルは初期化と後続のスパッタで急速に改善する。 一方、注意喪失は反対方向に振る舞う。 我々の観測に基づいて、異なる損失関数の利点を組み合わせた単純なハイブリッドアプローチを提案し、半合成および実世界のデータセットの集合上でそれを実証する。

Attention models are typically learned by optimizing one of three standard loss functions that are variously called -- soft attention, hard attention, and latent variable marginal likelihood (LVML) attention. All three paradigms are motivated by the same goal of finding two models -- a `focus' model that `selects' the right \textit{segment} of the input and a `classification' model that processes the selected segment into the target label. However, they differ significantly in the way the selected segments are aggregated, resulting in distinct dynamics and final results. We observe a unique signature of models learned using these paradigms and explain this as a consequence of the evolution of the classification model under gradient descent when the focus model is fixed. We also analyze these paradigms in a simple setting and derive closed-form expressions for the parameter trajectory under gradient flow. With the soft attention loss, the focus model improves quickly at initialization and splutters later on. On the other hand, hard attention loss behaves in the opposite fashion. Based on our observations, we propose a simple hybrid approach that combines the advantages of the different loss functions and demonstrates it on a collection of semi-synthetic and real-world datasets
翻訳日:2023-10-13 05:21:39 公開日:2023-10-10
# TF-ICON:拡散型学習自由領域画像合成

TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition ( http://arxiv.org/abs/2307.12493v4 )

ライセンス: Link先を確認
Shilin Lu, Yanzhu Liu, Adams Wai-Kin Kong(参考訳) テキスト駆動拡散モデルは印象的な生成能力を示し、様々な画像編集タスクを可能にした。 本稿では,クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用する,新しいトレーニング自由画像合成フレームワークTF-ICONを提案する。 このタスクは、ユーザが提供するオブジェクトを視覚的なコンテキストにシームレスに統合することを目的としている。 現在の拡散ベースの方法は、多くの場合、カスタマイズされたデータセット上で事前学習されたモデルのコストのかかるインスタンスベースの最適化や微調整を伴う。 対照的に、TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずにクロスドメイン画像誘導合成を行うことができる。 さらに,実画像を正確に潜在表現に変換し,合成の基礎を形成するテキスト駆動拡散モデルを容易にするために,情報を持たない例外的なプロンプトを導入する。 実験により, 安定拡散を異常なプロンプトと組み合わせることで, 様々なデータセット(CelebA-HQ, COCO, ImageNet)における最先端の逆解析手法よりも優れており, TF-ICONは, 汎用視覚領域において従来のベースラインを超越していることがわかった。 コードはhttps://github.com/Shilin-LU/TF-ICONで入手できる。

Text-driven diffusion models have exhibited impressive generative capabilities, enabling various image editing tasks. In this paper, we propose TF-ICON, a novel Training-Free Image COmpositioN framework that harnesses the power of text-driven diffusion models for cross-domain image-guided composition. This task aims to seamlessly integrate user-provided objects into a specific visual context. Current diffusion-based methods often involve costly instance-based optimization or finetuning of pretrained models on customized datasets, which can potentially undermine their rich prior. In contrast, TF-ICON can leverage off-the-shelf diffusion models to perform cross-domain image-guided composition without requiring additional training, finetuning, or optimization. Moreover, we introduce the exceptional prompt, which contains no information, to facilitate text-driven diffusion models in accurately inverting real images into latent representations, forming the basis for compositing. Our experiments show that equipping Stable Diffusion with the exceptional prompt outperforms state-of-the-art inversion methods on various datasets (CelebA-HQ, COCO, and ImageNet), and that TF-ICON surpasses prior baselines in versatile visual domains. Code is available at https://github.com/Shilin-LU/TF-ICON
翻訳日:2023-10-13 05:21:12 公開日:2023-10-10
# DatasetDM:拡散モデルを用いた知覚アノテーション付きデータの合成

DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models ( http://arxiv.org/abs/2308.06160v2 )

ライセンス: Link先を確認
Weijia Wu, Yuzhong Zhao, Hao Chen, Yuchao Gu, Rui Zhao, Yefei He, Hong Zhou, Mike Zheng Shou, Chunhua Shen(参考訳) 現在のディープネットワークは非常にデータ量が多く、大規模なデータセットでのトレーニングの恩恵を受ける。 対照的に、合成データはdall-eや拡散モデルのような生成モデルを使って最小限の労力とコストで無限に生成できる。 本稿では,多様な合成画像とそれに対応する高品質な認識アノテーション(セグメンテーションマスク,深さなど)を生成できる汎用データセット生成モデルであるDatasetDMを提案する。 本手法は,事前学習した拡散モデルに基づいてテキスト誘導画像合成を知覚データ生成に拡張する。 拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。 デコーダのトレーニングには、手動でラベル付けされたイメージが1%未満(約100イメージ)必要であり、無限に大きな注釈付きデータセットを生成することができる。 そして、これらの合成データは下流タスクの様々な知覚モデルのトレーニングに使用できる。 提案手法の威力を示すために, セマンティックセグメンテーション, インスタンスセグメンテーション, 深さ推定など, 幅広い下流タスクに対して, リッチなピクセル単位のラベル付きデータセットを生成する。 特筆すべきは 1) セマンティックセグメンテーション及びインスタンスセグメンテーションに関する最先端の結果 2) 実データのみを使用するよりも, 領域一般化においてかなり頑健であり, 最先端の結果がゼロショットセグメンテーション設定となる。 3)効率的なアプリケーションと新しいタスク構成のための柔軟性(画像編集など)。 プロジェクトのWebサイトとコードは、https://weijiawu.github.io/DatasetDM_page/とhttps://github.com/showlab/DatasetDMで見ることができる。

Current deep networks are very data-hungry and benefit from training on largescale datasets, which are often time-consuming to collect and annotate. By contrast, synthetic data can be generated infinitely using generative models such as DALL-E and diffusion models, with minimal effort and cost. In this paper, we present DatasetDM, a generic dataset generation model that can produce diverse synthetic images and the corresponding high-quality perception annotations (e.g., segmentation masks, and depth). Our method builds upon the pre-trained diffusion model and extends text-guided image synthesis to perception data generation. We show that the rich latent code of the diffusion model can be effectively decoded as accurate perception annotations using a decoder module. Training the decoder only needs less than 1% (around 100 images) manually labeled images, enabling the generation of an infinitely large annotated dataset. Then these synthetic data can be used for training various perception models for downstream tasks. To showcase the power of the proposed approach, we generate datasets with rich dense pixel-wise labels for a wide range of downstream tasks, including semantic segmentation, instance segmentation, and depth estimation. Notably, it achieves 1) state-of-the-art results on semantic segmentation and instance segmentation; 2) significantly more robust on domain generalization than using the real data alone; and state-of-the-art results in zero-shot segmentation setting; and 3) flexibility for efficient application and novel task composition (e.g., image editing). The project website and code can be found at https://weijiawu.github.io/DatasetDM_page/ and https://github.com/showlab/DatasetDM, respectively
翻訳日:2023-10-13 05:03:41 公開日:2023-10-10
# マルチパーティライト量子相関とその3種類の測定方法

Multipartite Bipartite Quantum Correlation and Its Three Types of Measures ( http://arxiv.org/abs/2308.03044v3 )

ライセンス: Link先を確認
Jing-Min Zhu(参考訳) MQC (Multipartite quantum correlation) は多くの新しい微視的およびマクロ的な量子現象を説明できるだけでなく、異なる利点を持つ特定の量子技術にも期待できる。 MQCのリッチで複雑な組織と構造のため、その説明と対策は進行中の議論の対象となっている。 本稿では,mqcの記述と量子技術への応用について再考する。 本稿では,直観的かつ明快な物理像を提供する多成分二成分qcと呼ばれる新しい記述を提案する。 具体的には,局所測定の極小エントロピー様差に基づく第1類,多成分二分体qdなどの多成分密度行列に基づく第2類,多成分二分体hsdなどの極小トレース状幾何距離に基づく第3類,多成分二分体lmimdやlemidなどの非一貫性に基づく第3類について述べる。 これらの測定に必要な計算は比較的容易である。 さらに、これらすべての利点は、様々な量子技術における特定の潜在的な応用への有望な候補となる。 最後に、これらの3つの尺度を用いて、典型的なMQCの組織と構造を調査し、それらの物理的意味と数学的構造に基づいて、それらの利点と欠点を分析する。

Multipartite quantum correlation (MQC) not only explains many novel microscopic and macroscopic quantum phenomena, but also holds promise for specific quantum technologies with distinct advantages. Due to the rich and complex organization and structure of MQC, their descriptions and measures have been a subject of ongoing discussion. In this paper, we reconsider the descriptions of MQC and their practical applications in quantum technologies. We propose a novel description called multipartite bipartite QC, which provides an intuitive and clear physical picture. Specifically, we present three types of measures: the first class based on minimal entropy-like difference of local measurement fore-and-aft multipartite bipartite density matrix such as multipartite bipartite QD, the second based on minimal trace-like geometric distance such as multipartite bipartite HSD, and the third based on decoherence such as multipartite bipartite LMIMD and LEMID. The computations required for these measures are relatively easy. Furthermore, all of the advantages make them promising candidates for specific potential applications in various quantum technologies. Finally, we employ these three measures to explore the organization and structure of typical genuine MQCs, and analyze their advantages and disadvantages based on their physical implications and mathematical structures.
翻訳日:2023-10-13 05:01:58 公開日:2023-10-10
# 分布シフトによる統計的推定:ワッサーシュタイン摂動とミニマックス理論

Statistical Estimation Under Distribution Shift: Wasserstein Perturbations and Minimax Theory ( http://arxiv.org/abs/2308.01853v2 )

ライセンス: Link先を確認
Patrick Chao, Edgar Dobriban(参考訳) 分散シフトは、データの性質を真実から体系的に変えられるため、現代の統計的学習において深刻な関心事である。 観測結果のごく一部が外れたハマー汚染モデルとは対照的に,各データポイントがわずかに摂動する可能性があるワッサースタイン分布シフトに注目した。 データポイント間の独立的あるいは協調的なジョイントシフトである摂動を考える。 位置推定,線形回帰,非パラメトリック密度推定など,いくつかの重要な統計問題を分析する。 線形回帰における平均推定誤差と予測誤差の2乗損失の下では、最小極小リスク、最も好ましい摂動を求め、サンプル平均と最小二乗推定器がそれぞれ最適であることを示す。 他の問題に対しては、ほぼ最適な推定器と正確な有限サンプル境界を提供する。 また,一般的な分布シフトの下でミニマックスリスクをバウンドするツールについても紹介し,ワッサースタイン摂動だけでなく,位置族に対する平滑化手法や,最善の事前列,連続性のモジュラス,ル・カム,ファノ,アソアドの手法を含む古典的ツールの一般化についても紹介する。

Distribution shifts are a serious concern in modern statistical learning as they can systematically change the properties of the data away from the truth. We focus on Wasserstein distribution shifts, where every data point may undergo a slight perturbation, as opposed to the Huber contamination model where a fraction of observations are outliers. We consider perturbations that are either independent or coordinated joint shifts across data points. We analyze several important statistical problems, including location estimation, linear regression, and non-parametric density estimation. Under a squared loss for mean estimation and prediction error in linear regression, we find the exact minimax risk, a least favorable perturbation, and show that the sample mean and least squares estimators are respectively optimal. For other problems, we provide nearly optimal estimators and precise finite-sample bounds. We also introduce several tools for bounding the minimax risk under general distribution shifts, not just for Wasserstein perturbations, such as a smoothing technique for location families, and generalizations of classical tools including least favorable sequences of priors, the modulus of continuity, as well as Le Cam's, Fano's, and Assouad's methods.
翻訳日:2023-10-13 05:00:46 公開日:2023-10-10
# DDF-HO:条件方向距離場を用いたハンドヘルド物体再構成

DDF-HO: Hand-Held Object Reconstruction via Conditional Directed Distance Field ( http://arxiv.org/abs/2308.08231v2 )

ライセンス: Link先を確認
Chenyangguang Zhang, Yan Di, Ruida Zhang, Guangyao Zhai, Fabian Manhardt, Federico Tombari and Xiangyang Ji(参考訳) 単一のRGB画像からハンドヘルドオブジェクトを再構築することは重要かつ困難な問題である。 署名距離場 (Signed Distance Fields, SDF) を利用した既存の作業では, SDF はターゲット近傍でのみ信頼性が高いため, 局所的な手とオブジェクトのキューを同時に符号化することができないため, 複雑な手-物体の相互作用を包括的に捕捉する限界が明らかにされている。 そこで本研究では,DDF(Directed Distance Field)を形状表現として活用した新しいアプローチであるDDF-HOを提案する。 sdfと異なり、ddfは原点と方向からなる3次元空間の光線を対応するddf値にマッピングし、その光線が物体と交わるかどうかを判定するバイナリ可視信号と、原点から目標までの距離を測定する距離値とを含む。 我々はランダムに複数の光線をサンプリングし、新しい2D線に基づく特徴集約スキームと3D交叉対応の手ポーズ埋め込みを導入し、2D-3D特徴とハンドオブジェクトの相互作用をモデル化することで、局所的・グローバルな幾何学的特徴を収集する。 合成および実世界のデータセットに関する大規模な実験により、DFF-HOは、特にChamfer Distanceの下では、すべてのベースラインメソッドを一貫してパフォーマンスし、約80\%の跳躍が期待できる。 コードは \url{https://github.com/zhangcyg/ddfho} で入手できる。

Reconstructing hand-held objects from a single RGB image is an important and challenging problem. Existing works utilizing Signed Distance Fields (SDF) reveal limitations in comprehensively capturing the complex hand-object interactions, since SDF is only reliable within the proximity of the target, and hence, infeasible to simultaneously encode local hand and object cues. To address this issue, we propose DDF-HO, a novel approach leveraging Directed Distance Field (DDF) as the shape representation. Unlike SDF, DDF maps a ray in 3D space, consisting of an origin and a direction, to corresponding DDF values, including a binary visibility signal determining whether the ray intersects the objects and a distance value measuring the distance from origin to target in the given direction. We randomly sample multiple rays and collect local to global geometric features for them by introducing a novel 2D ray-based feature aggregation scheme and a 3D intersection-aware hand pose embedding, combining 2D-3D features to model hand-object interactions. Extensive experiments on synthetic and real-world datasets demonstrate that DDF-HO consistently outperforms all baseline methods by a large margin, especially under Chamfer Distance, with about $80\%$ leap forward. Codes are available at \url{https://github.com/ZhangCYG/DDFHO}.
翻訳日:2023-10-13 04:51:08 公開日:2023-10-10
# グラフ構造残基:診断への学習的アプローチ

Graph Structural Residuals: A Learning Approach to Diagnosis ( http://arxiv.org/abs/2308.06961v3 )

ライセンス: Link先を確認
Jan Lukas Augustin and Oliver Niggemann(参考訳) 従来のモデルベースの診断は、明示的なシステムモデルの構築に依存している。 本稿では,モデルに基づく診断の概念と深層グラフ構造学習を組み合わせた新しいフレームワークを提案する。 このデータ駆動アプローチは、データを活用してシステムの基盤構造を学習し、2つの異なるグラフ隣接行列で表される動的な観察を提供する。 私たちの研究は3つの大きな貢献によって、グラフ構造学習とモデルベース診断のシームレスな統合を促進します。 (i)システム表現・観測・故障の構成を再定義すること (ii)自己教師付きグラフ構造学習モデルアーキテクチャの2つの異なるバージョンの導入と導入 3) 結合振動子系の実験により, データ駆動型診断法の可能性を実証した。

Traditional model-based diagnosis relies on constructing explicit system models, a process that can be laborious and expertise-demanding. In this paper, we propose a novel framework that combines concepts of model-based diagnosis with deep graph structure learning. This data-driven approach leverages data to learn the system's underlying structure and provide dynamic observations, represented by two distinct graph adjacency matrices. Our work facilitates a seamless integration of graph structure learning with model-based diagnosis by making three main contributions: (i) redefining the constructs of system representation, observations, and faults (ii) introducing two distinct versions of a self-supervised graph structure learning model architecture and (iii) demonstrating the potential of our data-driven diagnostic method through experiments on a system of coupled oscillators.
翻訳日:2023-10-13 04:48:27 公開日:2023-10-10
# 関節エコーキャンセレーションとノイズ抑制のための超デュアルパス圧縮

Ultra Dual-Path Compression For Joint Echo Cancellation And Noise Suppression ( http://arxiv.org/abs/2308.11053v2 )

ライセンス: Link先を確認
Hangting Chen, Jianwei Yu, Yi Luo, Rongzhi Gu, Weihua Li, Zhuocheng Lu, Chao Weng(参考訳) エコーキャンセレーションとノイズ低減は全二重通信に不可欠であるが、既存のニューラルネットワークの多くは高い計算コストを持ち、モデルの複雑さのチューニングには柔軟性がない。 本稿では,時間周波数デュアルパス圧縮を導入し,計算コストに対する圧縮比を広範囲に設定する。 具体的には、周波数圧縮のために、トレーニング可能なフィルタを使用して、手動で設計したフィルタを寸法縮小のために置き換える。 時間圧縮では、フレームスキップ予測のみを用いることで性能が大幅に低下し、完全なシーケンスモデリングを備えた後処理ネットワークによって軽減される。 固定圧縮比では,時間法と周波数法の両方を組み合わせたデュアルパス圧縮により,モデルサイズの変化が少なく,圧縮比が4倍から32倍まで,さらに性能が向上することがわかった。 さらに,提案手法は高速フルサブネットとdeepfilternetと比較して競合性能を示す。

Echo cancellation and noise reduction are essential for full-duplex communication, yet most existing neural networks have high computational costs and are inflexible in tuning model complexity. In this paper, we introduce time-frequency dual-path compression to achieve a wide range of compression ratios on computational cost. Specifically, for frequency compression, trainable filters are used to replace manually designed filters for dimension reduction. For time compression, only using frame skipped prediction causes large performance degradation, which can be alleviated by a post-processing network with full sequence modeling. We have found that under fixed compression ratios, dual-path compression combining both the time and frequency methods will give further performance improvement, covering compression ratios from 4x to 32x with little model size change. Moreover, the proposed models show competitive performance compared with fast FullSubNet and DeepFilterNet.
翻訳日:2023-10-13 04:41:55 公開日:2023-10-10
# 軽度注意機構を有するTransfer ResNetを用いた乳癌分類の強化

Enhancing Breast Cancer Classification Using Transfer ResNet with Lightweight Attention Mechanism ( http://arxiv.org/abs/2308.13150v3 )

ライセンス: Link先を確認
Suxing Liu(参考訳) 乳がん画像分類における深層学習の顕著な成果にもかかわらず、データ不均衡や解釈可能性といった課題は依然として存在し、医療専門家間のクロスドメイン知識と協調が必要である。 本研究では,データ不均衡や解釈可能性といった課題を効果的に解決する,ResNet50モジュールを用いた乳がん分類手法を提案する。 本モデルでは,事前学習したdeep resnet50と軽量なアテンション機構を融合させて,resnet50のレイヤ4にアテンションモジュールを埋め込み,完全接続層を2層追加することで分類を行う。 完全に接続されたネットワーク設計では、Leaky ReLU と ReLU のアクティベーション機能の両方を用いる。 病理組織学的データセットでは,従来のモデル,視覚変換器,大型モデルよりも精度,精度,リコール,F1スコア,GMeanが優れている。 特に、このモデルは、不均衡な乳癌データセットを扱う際に、大きな堅牢性と幅広い適用性を示す。 我々のモデルは40X、100X、200X、400Xの画像でテストされ、それぞれ98.5%、98.7%、97.9%、94.3%の精度を達成した。 損失と精度の詳細な分析とGrad-CAM分析を通じて、モデル性能を総合的に評価し、トレーニングプロセスの視点を得た。 トレーニングの後半段階では、検証された損失と精度は最小限に変化し、モデルが過度な適合を避け、優れた一般化能力を示すことを示す。 全体として,本研究は乳がん画像分類に有効な解決法である。

Despite the remarkable results of deep learning in breast cancer image classification, challenges such as data imbalance and interpretability still exist and require cross-domain knowledge and collaboration among medical experts. In this study, we propose a dual-activated lightweight attention ResNet50 module method-based breast cancer classification method that effectively addresses challenges such as data imbalance and interpretability. Our model fuses a pre-trained deep ResNet50 and a lightweight attention mechanism to accomplish classification by embedding an attention module in layer 4 of ResNet50 and adding two fully connected layers. For the fully connected network design, we employ both Leaky ReLU and ReLU activation functions. On medical histopathology datasets, our model outperforms conventional models, visual transformers, and large models in terms of precision, accuracy, recall, F1 score, and GMean. In particular, the model demonstrates significant robustness and broad applicability when dealing with the unbalanced breast cancer dataset. Our model is tested on 40X, 100X, 200X, and 400X images and achieves accuracies of 98.5%, 98.7%, 97.9%, and 94.3%, respectively. Through an in-depth analysis of loss and accuracy, as well as Grad-CAM analysis, we comprehensively assessed the model performance and gained perspective on its training process. In the later stages of training, the validated losses and accuracies change minimally, showing that the model avoids overfitting and exhibits good generalization ability. Overall, this study provides an effective solution for breast cancer image classification with practical applica
翻訳日:2023-10-13 04:31:09 公開日:2023-10-10
# 複数条件拡散モデルによる音声生成

Audio Generation with Multiple Conditional Diffusion Model ( http://arxiv.org/abs/2308.11940v2 )

ライセンス: Link先を確認
Zhifang Guo, Jianguo Mao, Rui Tao, Long Yan, Kazushige Ouchi, Hong Liu, Xiangdong Wang(参考訳) テキストベースの音声生成モデルは、音声中のすべての情報を包含できないため制限があり、テキストのみに依存する場合の制御性を制限する。 そこで本研究では,テキストの補足として,コンテンツ(タイムスタンプ)やスタイル(ピッチ輪郭,エネルギー輪郭)などの追加条件を組み込むことで,既存の事前学習テキスト・オーディオモデルの制御性を向上する新しいモデルを提案する。 このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。 生成の多様性を維持するため,大規模な言語モデルとFusion-Netによって強化された訓練可能な制御条件エンコーダを用いて,事前学習されたテキスト・オーディオモデルの重みを凍結させながら追加条件を符号化・融合する。 適切なデータセットと評価指標が欠如しているため、既存のデータセットを音声および対応する条件を含む新しいデータセットに統合し、一連の評価指標を用いて制御性の評価を行う。 実験結果から,制御可能な音声生成を実現するための粒度制御が得られた。 オーディオサンプルとデータセットはhttps://conditionaudiogen.github.io/conditionaudiogen/で公開されています。

Text-based audio generation models have limitations as they cannot encompass all the information in audio, leading to restricted controllability when relying solely on text. To address this issue, we propose a novel model that enhances the controllability of existing pre-trained text-to-audio models by incorporating additional conditions including content (timestamp) and style (pitch contour and energy contour) as supplements to the text. This approach achieves fine-grained control over the temporal order, pitch, and energy of generated audio. To preserve the diversity of generation, we employ a trainable control condition encoder that is enhanced by a large language model and a trainable Fusion-Net to encode and fuse the additional conditions while keeping the weights of the pre-trained text-to-audio model frozen. Due to the lack of suitable datasets and evaluation metrics, we consolidate existing datasets into a new dataset comprising the audio and corresponding conditions and use a series of evaluation metrics to evaluate the controllability performance. Experimental results demonstrate that our model successfully achieves fine-grained control to accomplish controllable audio generation. Audio samples and our dataset are publicly available at https://conditionaudiogen.github.io/conditionaudiogen/
翻訳日:2023-10-13 04:29:51 公開日:2023-10-10
# 拡散モデルにおける露光バイアスの解明

Elucidating the Exposure Bias in Diffusion Models ( http://arxiv.org/abs/2308.15321v5 )

ライセンス: Link先を確認
Mang Ning, Mingxiao Li, Jianlin Su, Albert Ali Salah, Itir Onal Ertugrul(参考訳) 拡散モデルは印象的な生成能力を示してきたが、その \textit{exposure bias} 問題は、トレーニングとサンプリングの入力ミスマッチとして説明され、詳細な探索が欠落している。 本稿では,まずサンプリング分布を解析的にモデル化し,各サンプリングステップにおける予測誤差を露光バイアス問題の根本原因として分類し,拡散モデルにおける露光バイアス問題を体系的に検討する。 さらに,この問題に対する潜在的な解決策を議論し,直観的な指標を提案する。 露光バイアスの解明とともに,エプシロンスケーリング(Epsilon Scaling)と呼ばれる簡易かつ効果的でトレーニングのない手法を提案し,露光バイアスを緩和する。 Epsilon Scalingは,ネットワーク出力(Epsilon)をスケールダウンし,トレーニングとサンプリングの間の入力ミスマッチを緩和することにより,トレーニング段階で学習したベクトル場に近いサンプリング軌道を明示的に移動させる。 各種拡散フレームワーク (ADM, DDPM/DDIM, EDM, LDM) , 非条件および条件設定, 決定論的対確率的サンプリング) の実験により, 提案手法の有効性が検証された。 注目すべきは、我々のADM-ESは、SOTA確率サンプリング器として、CIFAR-10上で100ステップの無条件発生下で2.17 FIDを得る。 コードは \url{https://github.com/forever208/ADM-ES} と \url{https://github.com/forever208/EDM-ES} で入手できる。

Diffusion models have demonstrated impressive generative capabilities, but their \textit{exposure bias} problem, described as the input mismatch between training and sampling, lacks in-depth exploration. In this paper, we systematically investigate the exposure bias problem in diffusion models by first analytically modelling the sampling distribution, based on which we then attribute the prediction error at each sampling step as the root cause of the exposure bias issue. Furthermore, we discuss potential solutions to this issue and propose an intuitive metric for it. Along with the elucidation of exposure bias, we propose a simple, yet effective, training-free method called Epsilon Scaling to alleviate the exposure bias. We show that Epsilon Scaling explicitly moves the sampling trajectory closer to the vector field learned in the training phase by scaling down the network output (Epsilon), mitigating the input mismatch between training and sampling. Experiments on various diffusion frameworks (ADM, DDPM/DDIM, EDM, LDM), unconditional and conditional settings, and deterministic vs. stochastic sampling verify the effectiveness of our method. Remarkably, our ADM-ES, as a SOTA stochastic sampler, obtains 2.17 FID on CIFAR-10 under 100-step unconditional generation. The code is available at \url{https://github.com/forever208/ADM-ES} and \url{https://github.com/forever208/EDM-ES}.
翻訳日:2023-10-13 04:22:59 公開日:2023-10-10
# 大規模視覚言語モデルにおける幻覚の評価と分析

Evaluation and Analysis of Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2308.15126v3 )

ライセンス: Link先を確認
Junyang Wang, Yiyang Zhou, Guohai Xu, Pengcheng Shi, Chenlin Zhao, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang, Jihua Zhu, Jitao Sang, Haoyu Tang(参考訳) LVLM(Large Vision-Language Models)は近年大きな成功を収めている。 しかし、LVLMは、多くのシナリオにおける実用性を制限する幻覚の問題に悩まされている。 幻覚とは、視覚入力に存在しないLVLMの反応の情報であり、実質的な結果の潜在的なリスクを引き起こす。 LVLMにおける幻覚評価の研究は限られている。 本稿では,LLMに基づく幻覚評価フレームワークである大規模言語モデル(HaELM)に基づく幻覚評価を提案する。 HaELMはChatGPTに匹敵するおよそ95%のパフォーマンスを実現し、低コスト、再現性、プライバシー保護、ローカルデプロイメントなど、さらなる利点がある。 HELMを応用し,現在のLVLMにおける幻覚の評価を行った。 さらに,lvlmsの幻覚に寄与する因子を分析し,幻覚問題を緩和するための有用な提案を行う。 私たちのトレーニングデータと人間のアノテーション幻覚データは、まもなく公開される予定だ。

Large Vision-Language Models (LVLMs) have recently achieved remarkable success. However, LVLMs are still plagued by the hallucination problem, which limits the practicality in many scenarios. Hallucination refers to the information of LVLMs' responses that does not exist in the visual input, which poses potential risks of substantial consequences. There has been limited work studying hallucination evaluation in LVLMs. In this paper, we propose Hallucination Evaluation based on Large Language Models (HaELM), an LLM-based hallucination evaluation framework. HaELM achieves an approximate 95% performance comparable to ChatGPT and has additional advantages including low cost, reproducibility, privacy preservation and local deployment. Leveraging the HaELM, we evaluate the hallucination in current LVLMs. Furthermore, we analyze the factors contributing to hallucination in LVLMs and offer helpful suggestions to mitigate the hallucination problem. Our training data and human annotation hallucination data will be made public soon.
翻訳日:2023-10-13 04:22:16 公開日:2023-10-10
# 複合型メタラーニングによるタンパク質シミュレータの精密調整

Mixup-Augmented Meta-Learning for Sample-Efficient Fine-Tuning of Protein Simulators ( http://arxiv.org/abs/2308.15116v3 )

ライセンス: Link先を確認
Jingbang Chen, Yian Wang, Xingwei Qu, Shuangjia Zheng, Yaodong Yang, Hao Dong, Jie Fu(参考訳) 分子動力学シミュレーションは生体分子の研究の基本的な道具として登場した。 同時に、分子が変動可能な様々な条件下で粒子の集合のシミュレーションを行うことが望ましい。 本稿では,分子動力学の課題に対してソフトプロンプトに基づく学習法を探索し,適応する。 私たちのモデルは、限られたトレーニングデータを使用して、未発見の分散シナリオに著しく一般化することができます。 我々の研究は、テストケースとしての温度に焦点を当てているが、我々のアプローチの汎用性は、圧力や体積などの連続的な動的条件を通した効率的なシミュレーションを可能にする。 枠組みには2つの段階があります 1)データミキシング技術による事前学習を行い,分子構造データと温度プロンプトを増強し,その比率をスムーズに増やしカリキュラム学習法を適用する。 2) メタラーニングに基づくファインチューニングフレームワークは, ファインチューニングプロセスのサンプル効率を向上し, ソフト・プロンプトチューニングを向上する。 包括的実験により,本フレームワークはドメイン内データの精度を向上し,未知および分布外サンプルの強力な一般化能力を示した。

Molecular dynamics simulations have emerged as a fundamental instrument for studying biomolecules. At the same time, it is desirable to perform simulations of a collection of particles under various conditions in which the molecules can fluctuate. In this paper, we explore and adapt the soft prompt-based learning method to molecular dynamics tasks. Our model can remarkably generalize to unseen and out-of-distribution scenarios with limited training data. While our work focuses on temperature as a test case, the versatility of our approach allows for efficient simulation through any continuous dynamic conditions, such as pressure and volumes. Our framework has two stages: 1) Pre-trains with data mixing technique, augments molecular structure data and temperature prompts, then applies a curriculum learning method by increasing the ratio of them smoothly. 2) Meta-learning-based fine-tuning framework improves sample-efficiency of fine-tuning process and gives the soft prompt-tuning better initialization points. Comprehensive experiments reveal that our framework excels in accuracy for in-domain data and demonstrates strong generalization capabilities for unseen and out-of-distribution samples.
翻訳日:2023-10-13 04:22:01 公開日:2023-10-10
# プロンプトベース成分指向オールインワン画像復元

Prompt-based Ingredient-Oriented All-in-One Image Restoration ( http://arxiv.org/abs/2309.03063v2 )

ライセンス: Link先を確認
Hu Gao and Depeng Dang(参考訳) 画像復元は、劣化した観察から高品質な画像を復元することを目的としている。 既存のほとんどの手法は単一劣化除去に特化しているため、実際のシナリオでの応用を満足しない他の種類の劣化に対して最適な結果を得ることはできないかもしれない。 本稿では,複数の画像劣化タスクを効率的に扱えるように,プロンプトベースの学習を活用する新しいデータ成分指向手法を提案する。 具体的には,デコーダを用いて特徴を抽出し,デコーダの劣化に影響を受ける画像の適応的復元を行う。 高品質画像復元のための局所不変特性と非局所情報をモデル化するために, cnns操作とトランスフォーマーを組み合わせた。 同時に,複数のトランスフォーマーブロック(プロンプトによるマルチヘッド再配置注意と単純なゲートフィードフォワードネットワーク)において,計算要件を低減し,潜在的にシャープな画像の効率的な復元を容易にするために,どの情報を透過すべきかを選択的に決定するために,いくつかの重要な設計を行った。 さらに,特徴融合機構を組み込んだマルチスケール情報を探索し,特徴の集約性を向上させる。 その結果,CAPTNetと呼ばれる密接な相互接続型階層構造が,我々の手法が最先端技術と競合することを示す広範な実験を行った。

Image restoration aims to recover the high-quality images from their degraded observations. Since most existing methods have been dedicated into single degradation removal, they may not yield optimal results on other types of degradations, which do not satisfy the applications in real world scenarios. In this paper, we propose a novel data ingredient-oriented approach that leverages prompt-based learning to enable a single model to efficiently tackle multiple image degradation tasks. Specifically, we utilize a encoder to capture features and introduce prompts with degradation-specific information to guide the decoder in adaptively recovering images affected by various degradations. In order to model the local invariant properties and non-local information for high-quality image restoration, we combined CNNs operations and Transformers. Simultaneously, we made several key designs in the Transformer blocks (multi-head rearranged attention with prompts and simple-gate feed-forward network) to reduce computational requirements and selectively determines what information should be persevered to facilitate efficient recovery of potentially sharp images. Furthermore, we incorporate a feature fusion mechanism further explores the multi-scale information to improve the aggregated features. The resulting tightly interlinked hierarchy architecture, named as CAPTNet, extensive experiments demonstrate that our method performs competitively to the state-of-the-art.
翻訳日:2023-10-13 04:11:53 公開日:2023-10-10
# DiscoverPath:生物医学研究における学際性のための知識検索システム

DiscoverPath: A Knowledge Refinement and Retrieval System for Interdisciplinarity on Biomedical Research ( http://arxiv.org/abs/2309.01808v2 )

ライセンス: Link先を確認
Yu-Neng Chuang, Guanchu Wang, Chia-Yuan Chang, Kwei-Herng Lai, Daochen Zha, Ruixiang Tang, Fan Yang, Alfredo Costilla Reyes, Kaixiong Zhou, Xiaoqian Jiang, Xia Hu(参考訳) 学術出版物の指数的な成長は、特に同様の研究を記述するために様々な用語が使用される学際分野において、効率的な記事検索のための高度なツールを必要とする。 従来のキーワードベースの検索エンジンは、特定の用語に慣れていないユーザーを助けるのに不足することが多い。 そこで本研究では,バイオメディカル研究のための知識グラフベースの紙検索エンジンを提案し,関連するクエリや記事の発見におけるユーザエクスペリエンスを向上させる。 DiscoverPathと呼ばれるこのシステムは、名前付きエンティティ認識(NER)とPOSタグを使用して、記事抽象化から用語や関係を抽出し、KGを作成する。 情報過負荷を軽減するため、DiscoverPathは、クエリエンティティとその近隣ノードを含む集中サブグラフをユーザに提示し、クエリレコメンデーションシステムを導入し、ユーザが反復的にクエリを洗練できるようにする。 このシステムは、KGの直感的な視覚化、クエリレコメンデーション、詳細な記事情報を提供し、効率的な記事検索を可能にし、学際的な知識探索を促進することのできるグラフィカルユーザインタフェースを備えている。 discoverpathはhttps://github.com/ynchuang/discoverpathでオープンソースである。

The exponential growth in scholarly publications necessitates advanced tools for efficient article retrieval, especially in interdisciplinary fields where diverse terminologies are used to describe similar research. Traditional keyword-based search engines often fall short in assisting users who may not be familiar with specific terminologies. To address this, we present a knowledge graph-based paper search engine for biomedical research to enhance the user experience in discovering relevant queries and articles. The system, dubbed DiscoverPath, employs Named Entity Recognition (NER) and part-of-speech (POS) tagging to extract terminologies and relationships from article abstracts to create a KG. To reduce information overload, DiscoverPath presents users with a focused subgraph containing the queried entity and its neighboring nodes and incorporates a query recommendation system, enabling users to iteratively refine their queries. The system is equipped with an accessible Graphical User Interface that provides an intuitive visualization of the KG, query recommendations, and detailed article information, enabling efficient article retrieval, thus fostering interdisciplinary knowledge exploration. DiscoverPath is open-sourced at https://github.com/ynchuang/DiscoverPath.
翻訳日:2023-10-13 04:09:46 公開日:2023-10-10
# 動的予測塗装領域によるストローク型ニューラルペイントとスティル化

Stroke-based Neural Painting and Stylization with Dynamically Predicted Painting Region ( http://arxiv.org/abs/2309.03504v2 )

ライセンス: Link先を確認
Teng Hu, Ran Yi, Haokun Zhu, Liang Liu, Jinlong Peng, Yabiao Wang, Chengjie Wang, Lizhuang Ma(参考訳) ストロークベースのレンダリングは、ストロークのセットで画像を再現することを目的としている。 既存のほとんどの手法では、一様ブロック分割戦略を使って複雑な画像をレンダリングする。 そこで本研究では,画像平面を絵画領域に均一に分割するのではなく,現在のキャンバスに基づいて次の絵画領域を動的に予測する新しいストロークベースレンダリングフレームワークである合成ニューラルネットワークを提案する。 空のキャンバスから始めて、絵の過程をいくつかのステップに分けます。 各ステップにおいて、ファシックRL戦略で訓練された合成器ネットワークがまず次の塗装領域を予測し、次にWGAN判別器で訓練された画家ネットワークがストロークパラメータを予測し、ストロークレンダが現在のキャンバスの塗装領域にストロークを描画する。 さらに,ストロークに基づくスタイライゼーション中に入力画像の構造を保存できる,新しい微分可能距離変換損失を用いたストローク型スタイル転送にも拡張した。 我々のモデルは脳卒中ベースニューラルペイントと脳卒中ベーススタイリゼーションの両方において既存モデルよりも優れていた。 コードはhttps://github.com/sjtuplayer/compositional_neural_painterで入手できる。

Stroke-based rendering aims to recreate an image with a set of strokes. Most existing methods render complex images using an uniform-block-dividing strategy, which leads to boundary inconsistency artifacts. To solve the problem, we propose Compositional Neural Painter, a novel stroke-based rendering framework which dynamically predicts the next painting region based on the current canvas, instead of dividing the image plane uniformly into painting regions. We start from an empty canvas and divide the painting process into several steps. At each step, a compositor network trained with a phasic RL strategy first predicts the next painting region, then a painter network trained with a WGAN discriminator predicts stroke parameters, and a stroke renderer paints the strokes onto the painting region of the current canvas. Moreover, we extend our method to stroke-based style transfer with a novel differentiable distance transform loss, which helps preserve the structure of the input image during stroke-based stylization. Extensive experiments show our model outperforms the existing models in both stroke-based neural painting and stroke-based stylization. Code is available at https://github.com/sjtuplayer/Compositional_Neural_Painter
翻訳日:2023-10-13 03:59:59 公開日:2023-10-10
# 精度予測器による大規模言語モデルの作成

Pruning Large Language Models via Accuracy Predictor ( http://arxiv.org/abs/2309.09507v2 )

ライセンス: Link先を確認
Yupeng Ji, Yibo Cao, Jiucai Liu(参考訳) 数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。 しかし、かなりのモデルサイズは、モデルを圧縮する必要があるように、トレーニング、推論、デプロイメントに課題をもたらします。 現在、LLMのモデル圧縮のほとんどは、複雑な最適化パイプラインやモデルの機能維持の難しさといった問題を伴うプルーニングの特徴を手動で設計する必要があるが、従来、あるアーキテクチャと精度のペアのトレーニングセットが確立され、非ニューラルモデルが精度予測器として訓練される新しいプルーニング手法が提案されている。 精度予測器を用いて探索空間と探索をさらに最適化し、最適なモデルを自動的に選択することができる。 実験の結果,提案手法は効率的かつ効果的であることがわかった。 ベースラインと比較すると、Wikitext2とPTBのパープレキシティ(PPL)はそれぞれ9.48%、PTBは5.76%減少し、MMLUの平均精度は6.28%上昇した。

Large language models(LLMs) containing tens of billions of parameters (or even more) have demonstrated impressive capabilities in various NLP tasks. However, substantial model size poses challenges to training, inference, and deployment so that it is necessary to compress the model. At present, most model compression for LLMs requires manual design of pruning features, which has problems such as complex optimization pipeline and difficulty in retaining the capabilities of certain parts of the model.Therefore, we propose a novel pruning approach: firstly, a training set of a certain number of architecture-accuracy pairs is established, and then a non-neural model is trained as an accuracy predictor. Using the accuracy predictor to further optimize the search space and search, the optimal model can be automatically selected. Experiments show that our proposed approach is effective and efficient. Compared with the baseline, the perplexity(PPL) on Wikitext2 and PTB dropped by 9.48% and 5,76% respectively, and the average accuracy of MMLU increased by 6.28%.
翻訳日:2023-10-13 03:50:14 公開日:2023-10-10
# 勾配近似による対向訓練コストの削減

Reducing Adversarial Training Cost with Gradient Approximation ( http://arxiv.org/abs/2309.09464v3 )

ライセンス: Link先を確認
Huihui Gong(参考訳) 深層学習モデルは様々な領域で最先端のパフォーマンスを達成してきたが、熟練した小さな摂動を持つ入力に対して脆弱であり、敵の例(AE)にちなんで名づけられている。 AEに対するモデルロバスト性を改善するための多くの戦略のうち、PGD(Projected Gradient Descent)に基づく対角訓練は最も効果的な方法の1つである。 残念なことに、損失関数の最大化によって十分な aes を生成することのできない計算上のオーバーヘッドは、より大きく複雑なモデルを使用する場合、通常の pgd 敵対訓練を非現実的にすることがある。 本稿では,Taylor級数の部分和によって逆損失を近似できることを示す。 さらに, 対向損失の勾配を近似し, 新たな効率的な対向訓練法, gaat (adversarial training with gradient approximation) を提案し, 頑健なモデルの構築コストを削減する。 また,本手法は,mnist,cifar-10,cifar-100データセットのモデルテスト精度に匹敵するトレーニング時間の最大60%を節約できることを示した。

Deep learning models have achieved state-of-the-art performances in various domains, while they are vulnerable to the inputs with well-crafted but small perturbations, which are named after adversarial examples (AEs). Among many strategies to improve the model robustness against AEs, Projected Gradient Descent (PGD) based adversarial training is one of the most effective methods. Unfortunately, the prohibitive computational overhead of generating strong enough AEs, due to the maximization of the loss function, sometimes makes the regular PGD adversarial training impractical when using larger and more complicated models. In this paper, we propose that the adversarial loss can be approximated by the partial sum of Taylor series. Furthermore, we approximate the gradient of adversarial loss and propose a new and efficient adversarial training method, adversarial training with gradient approximation (GAAT), to reduce the cost of building up robust models. Additionally, extensive experiments demonstrate that this efficiency improvement can be achieved without any or with very little loss in accuracy on natural and adversarial examples, which show that our proposed method saves up to 60\% of the training time with comparable model test accuracy on MNIST, CIFAR-10 and CIFAR-100 datasets.
翻訳日:2023-10-13 03:49:54 公開日:2023-10-10
# 勾配近似による対向訓練コストの削減

Reducing Adversarial Training Cost with Gradient Approximation ( http://arxiv.org/abs/2309.09464v2 )

ライセンス: Link先を確認
Huihui Gong(参考訳) 深層学習モデルは様々な領域で最先端のパフォーマンスを達成してきたが、熟練した小さな摂動を持つ入力に対して脆弱であり、敵の例(AE)にちなんで名づけられている。 AEに対するモデルロバスト性を改善するための多くの戦略のうち、PGD(Projected Gradient Descent)に基づく対角訓練は最も効果的な方法の1つである。 残念なことに、損失関数の最大化によって十分な aes を生成することのできない計算上のオーバーヘッドは、より大きく複雑なモデルを使用する場合、通常の pgd 敵対訓練を非現実的にすることがある。 本稿では,Taylor級数の部分和によって逆損失を近似できることを示す。 さらに, 対向損失の勾配を近似し, 新たな効率的な対向訓練法, gaat (adversarial training with gradient approximation) を提案し, 頑健なモデルの構築コストを削減する。 また,本手法は,mnist,cifar-10,cifar-100データセットのモデルテスト精度に匹敵するトレーニング時間の最大60%を節約できることを示した。

Deep learning models have achieved state-of-the-art performances in various domains, while they are vulnerable to the inputs with well-crafted but small perturbations, which are named after adversarial examples (AEs). Among many strategies to improve the model robustness against AEs, Projected Gradient Descent (PGD) based adversarial training is one of the most effective methods. Unfortunately, the prohibitive computational overhead of generating strong enough AEs, due to the maximization of the loss function, sometimes makes the regular PGD adversarial training impractical when using larger and more complicated models. In this paper, we propose that the adversarial loss can be approximated by the partial sum of Taylor series. Furthermore, we approximate the gradient of adversarial loss and propose a new and efficient adversarial training method, adversarial training with gradient approximation (GAAT), to reduce the cost of building up robust models. Additionally, extensive experiments demonstrate that this efficiency improvement can be achieved without any or with very little loss in accuracy on natural and adversarial examples, which show that our proposed method saves up to 60\% of the training time with comparable model test accuracy on MNIST, CIFAR-10 and CIFAR-100 datasets.
翻訳日:2023-10-13 03:49:30 公開日:2023-10-10
# ヒューリスティックスに基づくイテレーティブ最適化(MACCHIATO)による形態認識コンセンサス計算

Morphologically-Aware Consensus Computation via Heuristics-based IterATive Optimization (MACCHIatO) ( http://arxiv.org/abs/2309.08066v2 )

ライセンス: Link先を確認
Dimitri Hamzaoui, Sarah Montagne, Rapha\"ele Renard-Penna, Nicholas Ayache, Herv\'e Delingette(参考訳) 複数のバイナリまたは確率的マスクからのコンセンサスセグメンテーションの抽出は、レート間変動の解析や複数のニューラルネットワーク出力の融合といった様々な課題を解決するために重要である。 このようなコンセンサスセグメンテーションを得るために最も広く使われている手法の1つはSTAPLEアルゴリズムである。 本稿では,まず,そのアルゴリズムの出力が画像の背景サイズと前者の選択に大きく影響することを示す。 次に,画像の背景サイズから完全に独立な距離のfr\'{e}chet法に基づいて,バイナリあるいは確率的コンセンサスセグメンテーションを構築する新しい手法を提案する。 この基準を最適化するためのヒューリスティックなアプローチにより、voxelのクラスは、異なるマスクとのvoxel-wise距離、それが属する連結コンポーネント、そしてそれをセグメンテーションするレートラーのグループによって完全に決定される。 提案手法をスタプル法とナイーブセグメンテーション平均化法で比較した結果,多数票とスタプルの中間サイズのバイナリコンセンサスマスクと,マスク平均化法とスタプル法とでは後方確率が異なることがわかった。 私たちのコードはhttps://gitlab.inria.fr/dhamzaou/jaccardmapで利用可能です。

The extraction of consensus segmentations from several binary or probabilistic masks is important to solve various tasks such as the analysis of inter-rater variability or the fusion of several neural network outputs. One of the most widely used methods to obtain such a consensus segmentation is the STAPLE algorithm. In this paper, we first demonstrate that the output of that algorithm is heavily impacted by the background size of images and the choice of the prior. We then propose a new method to construct a binary or a probabilistic consensus segmentation based on the Fr\'{e}chet means of carefully chosen distances which makes it totally independent of the image background size. We provide a heuristic approach to optimize this criterion such that a voxel's class is fully determined by its voxel-wise distance to the different masks, the connected component it belongs to and the group of raters who segmented it. We compared extensively our method on several datasets with the STAPLE method and the naive segmentation averaging method, showing that it leads to binary consensus masks of intermediate size between Majority Voting and STAPLE and to different posterior probabilities than Mask Averaging and STAPLE methods. Our code is available at https://gitlab.inria.fr/dhamzaou/jaccardmap .
翻訳日:2023-10-13 03:49:06 公開日:2023-10-10
# 学習した表現と影響関数が相手の例を教えてくれるもの

What Learned Representations and Influence Functions Can Tell Us About Adversarial Examples ( http://arxiv.org/abs/2309.10916v3 )

ライセンス: Link先を確認
Shakila Mahjabin Tonni and Mark Dras(参考訳) 深いニューラルネットワークを騙すために小さな摂動を用いて意図的に構築された敵対的な例は、最初に画像処理で、最近ではNLPで研究された。 NLPにおける敵の例を検出するアプローチは、入力摂動の探索に大きく依存しているが、画像処理では、学習された表現上の敵のサブ空間を特徴付けるための様々な技術が見られた。 本稿では,NLPに2つのアプローチを適用する。1つは近接する近傍と影響関数に基づくもので,もう1つはマハラノビス距離に関するものである。 影響関数の新規利用は、NLPの逆例部分空間の性質が画像処理におけるそれとどのように関係しているか、また、NLPタスクの種類によってどのように異なるのかを洞察する。

Adversarial examples, deliberately crafted using small perturbations to fool deep neural networks, were first studied in image processing and more recently in NLP. While approaches to detecting adversarial examples in NLP have largely relied on search over input perturbations, image processing has seen a range of techniques that aim to characterise adversarial subspaces over the learned representations. In this paper, we adapt two such approaches to NLP, one based on nearest neighbors and influence functions and one on Mahalanobis distances. The former in particular produces a state-of-the-art detector when compared against several strong baselines; moreover, the novel use of influence functions provides insight into how the nature of adversarial example subspaces in NLP relate to those in image processing, and also how they differ depending on the kind of NLP task.
翻訳日:2023-10-13 03:40:38 公開日:2023-10-10
# PoSE: 位置的スキップワイドトレーニングによるLLMの効率的なコンテキストウィンドウ拡張

PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training ( http://arxiv.org/abs/2309.10400v2 )

ライセンス: Link先を確認
Dawei Zhu and Nan Yang and Liang Wang and Yifan Song and Wenhao Wu and Furu Wei and Sujian Li(参考訳) 大きな言語モデル(LLM)は、定義済みのコンテキスト長でトレーニングされ、長い入力を必要とするシナリオでの使用を制限する。 LLMをより長い長さに適合させるためには、通常、この目標長(フル長の微調整)で細調整する必要がある。 列車長を目標長から切り離して効率的なコンテキストウィンドウ拡張を行うため,固定されたコンテキストウィンドウを用いて長い入力をスマートにシミュレートするポジショナル・スキップ・ウィス(PoSE)トレーニングを提案する。 これは、最初に元のコンテキストウィンドウをいくつかのチャンクに分割することで実現され、次に各チャンクの位置インデックスを操作するために個別のスキップバイアス項を設計する。 これらのバイアス項と各チャンクの長さはトレーニング例ごとに変更され、モデルがターゲット長内のすべての位置に対応することができる。 実験結果から,PoSEはフル長微調整に比べてメモリと時間オーバーヘッドを大幅に低減し,性能への影響は最小限であった。 この利点を利用して、2kのトレーニングコンテキストウィンドウを使用してLLaMAモデルを128kトークンに拡張しました。 さらに,PoSE が全ての RoPE ベースの LLM および位置補間戦略と互換性があることを実証的に確認した。 特に、この手法は無限長のサポートが可能であり、推論におけるメモリ使用量によってのみ制限される。 効率的な推論の進行中の進歩により、PoSEは128kを超えるコンテキストウィンドウをさらに拡張できると考えています。

Large Language Models (LLMs) are trained with a pre-defined context length, restricting their use in scenarios requiring long inputs. Previous efforts for adapting LLMs to a longer length usually requires fine-tuning with this target length (Full-length fine-tuning), suffering intensive training cost. To decouple train length from target length for efficient context window extension, we propose Positional Skip-wisE (PoSE) training that smartly simulates long inputs using a fixed context window. This is achieved by first dividing the original context window into several chunks, then designing distinct skipping bias terms to manipulate the position indices of each chunk. These bias terms and the lengths of each chunk are altered for every training example, allowing the model to adapt to all positions within target length. Experimental results show that PoSE greatly reduces memory and time overhead compared with Full-length fine-tuning, with minimal impact on performance. Leveraging this advantage, we have successfully extended the LLaMA model to 128k tokens using a 2k training context window. Furthermore, we empirically confirm that PoSE is compatible with all RoPE-based LLMs and position interpolation strategies. Notably, our method can potentially support infinite length, limited only by memory usage in inference. With ongoing progress for efficient inference, we believe PoSE can further scale the context window beyond 128k.
翻訳日:2023-10-13 03:39:37 公開日:2023-10-10
# 十分かつ必要な原因の確率による不変学習

Invariant Learning via Probability of Sufficient and Necessary Causes ( http://arxiv.org/abs/2309.12559v2 )

ライセンス: Link先を確認
Mengyue Yang, Zhen Fang, Yonggang Zhang, Yali Du, Furui Liu, Jean-Francois Ton, Jun Wang(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、一般にテスト分布が未知であり、トレーニングとは異なる、野生のモデルの学習には不可欠である。 因果関係から導かれる最近の手法は、OOD一般化の実現に大きな可能性を示している。 しかし、既存の方法は主に原因の不変性に焦点を合わせ、主に \textit{sufficiency} と \textit{necessity} の条件の性質を見下ろしている。 すなわち、必要だが不十分な原因(特徴)は分布シフトに不変であるが、正確さは必要ではない。 対照的に、十分な不必要な原因(機能)は特定のデータによく適合する傾向があるが、新しいドメインに適応するリスクがある。 十分かつ必要な原因に関する情報を収集するために、我々は、必要かつ十分な原因であるかどうかを示す古典的な概念、充足確率と必要原因(PNS)を用いる。 PNS と OOD の一般化を関連付けるために,我々は PNS リスクを提案し,高い PNS 値で表現を学習するアルゴリズムを定式化する。 PNSリスクの一般化性を理論的に分析し,実証する。 合成および実世界のベンチマーク実験により,提案手法の有効性が示された。 実装の詳細はgithubリポジトリにある。 https://github.com/ymy4323460/casn。

Out-of-distribution (OOD) generalization is indispensable for learning models in the wild, where testing distribution typically unknown and different from the training. Recent methods derived from causality have shown great potential in achieving OOD generalization. However, existing methods mainly focus on the invariance property of causes, while largely overlooking the property of \textit{sufficiency} and \textit{necessity} conditions. Namely, a necessary but insufficient cause (feature) is invariant to distribution shift, yet it may not have required accuracy. By contrast, a sufficient yet unnecessary cause (feature) tends to fit specific data well but may have a risk of adapting to a new domain. To capture the information of sufficient and necessary causes, we employ a classical concept, the probability of sufficiency and necessary causes (PNS), which indicates the probability of whether one is the necessary and sufficient cause. To associate PNS with OOD generalization, we propose PNS risk and formulate an algorithm to learn representation with a high PNS value. We theoretically analyze and prove the generalizability of the PNS risk. Experiments on both synthetic and real-world benchmarks demonstrate the effectiveness of the proposed method. The details of the implementation can be found at the GitHub repository: https://github.com/ymy4323460/CaSN.
翻訳日:2023-10-13 03:27:24 公開日:2023-10-10
# 新規検出ロバスト性のための環境バイアス特徴ランキング

Environment-biased Feature Ranking for Novelty Detection Robustness ( http://arxiv.org/abs/2309.12301v2 )

ライセンス: Link先を確認
Stefan Smeu, Elena Burceanu, Emanuela Haller, Andrei Liviu Nicolicioiu(参考訳) 我々は,意味的内容の面での新規性の検出を,他の非関係な要因に不変でありながら行おうとする,堅牢な新規性検出の課題に取り組む。 具体的には、複数の環境を備えたセットアップで動作し、タスクに関連するコンテンツではなく、環境に関連付けられた機能のセットを決定します。 そこで本研究では,事前学習した組込みとマルチenv設定から始めて,その環境に焦点をあてて特徴をランク付けする手法を提案する。 まず,envs間の特徴分布のばらつきに基づいて,特徴単位のスコアを計算する。 次に,高得点を下げることにより,本課題に導入した実・合成ベンチマークにおいて,共分散・サブ人口シフトの両ケースにおいて,突発的な相関を取り除き,全体の性能を最大6%向上することを示す。

We tackle the problem of robust novelty detection, where we aim to detect novelties in terms of semantic content while being invariant to changes in other, irrelevant factors. Specifically, we operate in a setup with multiple environments, where we determine the set of features that are associated more with the environments, rather than to the content relevant for the task. Thus, we propose a method that starts with a pretrained embedding and a multi-env setup and manages to rank the features based on their environment-focus. First, we compute a per-feature score based on the feature distribution variance between envs. Next, we show that by dropping the highly scored ones, we manage to remove spurious correlations and improve the overall performance by up to 6%, both in covariance and sub-population shift cases, both for a real and a synthetic benchmark, that we introduce for this task.
翻訳日:2023-10-13 03:27:00 公開日:2023-10-10
# RGBD型変圧器ネットワークによるロバストディジタルツイン位置決めとモバイルデータに対する総合評価

Robust Digital-Twin Localization via An RGBD-based Transformer Network and A Comprehensive Evaluation on a Mobile Dataset ( http://arxiv.org/abs/2309.13570v3 )

ライセンス: Link先を確認
Zixun Huang, Keling Yao, Seth Z. Zhao, Chuanyu Pan, Tianjian Xu, Weiyu Feng, Allen Y. Yang(参考訳) 物理的オブジェクトの正確なデジタルレプリカを作成することを含むデジタルツイン技術のポテンシャルは、3DオブジェクトのトラッキングとローカライゼーションシナリオにおけるARエクスペリエンスを再形成する上で重要である。 しかし、動的なモバイルAR環境で堅牢な3Dオブジェクトトラッキングを可能にすることは、依然として大きな課題である。 これらのシナリオは、しばしば、固有のセンサーレベルの測定ノイズを扱うことができるより堅牢なポーズ推定器を必要とする。 本稿では,既存の文献における包括的解決の課題を認識し,実世界雑音データ下での最先端精度を実現するためのトランスフォーマティブ6dofポーズ推定器を提案する。 先行技術に対する新しいソリューションの性能を体系的に検証するために、デジタルツイントラッキングデータセットv2(dttd2)と呼ばれる新しいrgbdデータセットを導入し、デジタルツインオブジェクト追跡シナリオに焦点を当てた。 既存のdttd v1(dttd1)から拡張された新しいデータセットは、apple iphone 14 proの最先端のモバイルrgbdセンサースイートを使用してキャプチャされたデジタルトウィンデータを追加し、当社のアプローチをiphoneセンサーデータに適用可能にします。 大規模実験と奥行き解析により,既存のベースラインの性能を上回って,奥行きデータエラーによる手法の有効性を明らかにした。 コードとデータセットは、https://github.com/augcog/DTTD2で公開されている。

The potential of digital-twin technology, involving the creation of precise digital replicas of physical objects, to reshape AR experiences in 3D object tracking and localization scenarios is significant. However, enabling robust 3D object tracking in dynamic mobile AR environments remains a formidable challenge. These scenarios often require a more robust pose estimator capable of handling the inherent sensor-level measurement noise. In this paper, recognizing the challenges of comprehensive solutions in existing literature, we propose a transformer-based 6DoF pose estimator designed to achieve state-of-the-art accuracy under real-world noisy data. To systematically validate the new solution's performance against the prior art, we also introduce a novel RGBD dataset called Digital Twin Tracking Dataset v2 (DTTD2), which is focused on digital-twin object tracking scenarios. Expanded from an existing DTTD v1 (DTTD1), the new dataset adds digital-twin data captured using a cutting-edge mobile RGBD sensor suite on Apple iPhone 14 Pro, expanding the applicability of our approach to iPhone sensor data. Through extensive experimentation and in-depth analysis, we illustrate the effectiveness of our methods under significant depth data errors, surpassing the performance of existing baselines. Code and dataset are made publicly available at: https://github.com/augcog/DTTD2
翻訳日:2023-10-13 03:19:07 公開日:2023-10-10
# パラメータ効率の高い音声認識のための大言語モデルの低位適応化

Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition ( http://arxiv.org/abs/2309.15223v2 )

ライセンス: Link先を確認
Yu Yu, Chao-Han Huck Yang, Jari Kolehmainen, Prashanth G. Shivakumar, Yile Gu, Sungho Ryu, Roger Ren, Qi Luo, Aditya Gourav, I-Fan Chen, Yi-Chieh Liu, Tuan Dinh, Ankur Gandhe, Denis Filimonov, Shalini Ghosh, Andreas Stolcke, Ariya Rastow, Ivan Bulyko(参考訳) 音声認識出力再構成のための低ランク適応(LoRA)に基づくニューラルネットワークモデリングシステムを提案する。 BERTのような事前学習言語モデル(LM)は、第2パスの再構成において優れた性能を示しているが、事前学習段階をスケールアップし、事前訓練されたモデルを特定の領域に適応させることによる高い計算コストは、復調における実用的使用を制限する。 本稿では,事前学習されたパラメータの分数 (0.08%) のみを用いて,リコーリングbertモデルを学習し,新しい領域に適用するための低ランク分解法を提案する。 これらの挿入行列は、相関に基づく正規化損失とともに、識別訓練目的を通じて最適化される。 提案した低ランク適応型Rescore-BERT(LoRB)アーキテクチャは、LibriSpeechおよび内部データセット上で5.4から3.6の因子でトレーニング時間を短縮する。

We propose a neural language modeling system based on low-rank adaptation (LoRA) for speech recognition output rescoring. Although pretrained language models (LMs) like BERT have shown superior performance in second-pass rescoring, the high computational cost of scaling up the pretraining stage and adapting the pretrained models to specific domains limit their practical use in rescoring. Here we present a method based on low-rank decomposition to train a rescoring BERT model and adapt it to new domains using only a fraction (0.08%) of the pretrained parameters. These inserted matrices are optimized through a discriminative training objective along with a correlation-based regularization loss. The proposed low-rank adaptation Rescore-BERT (LoRB) architecture is evaluated on LibriSpeech and internal datasets with decreased training times by factors between 5.4 and 3.6.
翻訳日:2023-10-13 03:08:04 公開日:2023-10-10
# meta-rlのリカレントハイパーネットワークは驚くほど強力

Recurrent Hypernetworks are Surprisingly Strong in Meta-RL ( http://arxiv.org/abs/2309.14970v3 )

ライセンス: Link先を確認
Jacob Beck, Risto Vuorio, Zheng Xiong, Shimon Whiteson(参考訳) 深部強化学習(Deep reinforcement learning, RL)は, サンプル不効率のため, 展開が困難であることが知られている。 Meta-RLは、このサンプルの非効率性に直接対処し、メタトレーニングで関連するタスクの分散が利用できる場合に、数ショットの学習を実行する。 多くの特殊なメタrl手法が提案されているが、最近の研究は、リカレントネットワークのような市販のシーケンシャルモデルと組み合わせたエンドツーエンド学習が驚くほど強力なベースラインであることを示唆している。 しかし、このような主張は支持する証拠が限られているため、特に前回の作業が正反対に確立された場合、議論を呼んでいる。 本稿では,実証的な調査を行う。 同様に、リカレントネットワークは高いパフォーマンスを達成することができるが、ハイパーネットワークの利用は、その可能性の最大化に不可欠であることを示す。 驚くべきことに、ハイパーネットワークと組み合わせると、既存の特殊メソッドよりもはるかに単純なリカレントベースラインが、評価されるすべてのメソッドの最強のパフォーマンスを達成します。

Deep reinforcement learning (RL) is notoriously impractical to deploy due to sample inefficiency. Meta-RL directly addresses this sample inefficiency by learning to perform few-shot learning when a distribution of related tasks is available for meta-training. While many specialized meta-RL methods have been proposed, recent work suggests that end-to-end learning in conjunction with an off-the-shelf sequential model, such as a recurrent network, is a surprisingly strong baseline. However, such claims have been controversial due to limited supporting evidence, particularly in the face of prior work establishing precisely the opposite. In this paper, we conduct an empirical investigation. While we likewise find that a recurrent network can achieve strong performance, we demonstrate that the use of hypernetworks is crucial to maximizing their potential. Surprisingly, when combined with hypernetworks, the recurrent baselines that are far simpler than existing specialized methods actually achieve the strongest performance of all methods evaluated.
翻訳日:2023-10-13 03:06:54 公開日:2023-10-10
# meta-rlのリカレントハイパーネットワークは驚くほど強力

Recurrent Hypernetworks are Surprisingly Strong in Meta-RL ( http://arxiv.org/abs/2309.14970v2 )

ライセンス: Link先を確認
Jacob Beck, Risto Vuorio, Zheng Xiong, Shimon Whiteson(参考訳) 深部強化学習(Deep reinforcement learning, RL)は, サンプル不効率のため, 展開が困難であることが知られている。 Meta-RLは、このサンプルの非効率性に直接対処し、メタトレーニングで関連するタスクの分散が利用できる場合に、数ショットの学習を実行する。 多くの特殊なメタrl手法が提案されているが、最近の研究は、リカレントネットワークのような市販のシーケンシャルモデルと組み合わせたエンドツーエンド学習が驚くほど強力なベースラインであることを示唆している。 しかし、このような主張は支持する証拠が限られているため、特に前回の作業が正反対に確立された場合、議論を呼んでいる。 本稿では,実証的な調査を行う。 同様に、リカレントネットワークは高いパフォーマンスを達成することができるが、ハイパーネットワークの利用は、その可能性の最大化に不可欠であることを示す。 驚くべきことに、ハイパーネットワークと組み合わせると、既存の特殊メソッドよりもはるかに単純なリカレントベースラインが、評価されるすべてのメソッドの最強のパフォーマンスを達成します。

Deep reinforcement learning (RL) is notoriously impractical to deploy due to sample inefficiency. Meta-RL directly addresses this sample inefficiency by learning to perform few-shot learning when a distribution of related tasks is available for meta-training. While many specialized meta-RL methods have been proposed, recent work suggests that end-to-end learning in conjunction with an off-the-shelf sequential model, such as a recurrent network, is a surprisingly strong baseline. However, such claims have been controversial due to limited supporting evidence, particularly in the face of prior work establishing precisely the opposite. In this paper, we conduct an empirical investigation. While we likewise find that a recurrent network can achieve strong performance, we demonstrate that the use of hypernetworks is crucial to maximizing their potential. Surprisingly, when combined with hypernetworks, the recurrent baselines that are far simpler than existing specialized methods actually achieve the strongest performance of all methods evaluated.
翻訳日:2023-10-13 03:06:35 公開日:2023-10-10
# GPT-Fathom: GPT-4以降への進化経路を理解するための大規模言語モデルのベンチマーク

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond ( http://arxiv.org/abs/2309.16583v2 )

ライセンス: Link先を確認
Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang(参考訳) 大規模言語モデル(LLM)の急速な進歩により、その能力と限界を評価するための総合的な評価スイートの必要性が高まっている。 既存のLCMのリーダーボードは、一貫性のある設定やプロンプトのない他の論文で報告されたスコアを参照することが多い。 本稿では, OpenAI Evals 上に構築されたオープンソースかつ再現可能な LLM 評価スイートである GPT-Fathom を紹介する。 我々は,7つの機能カテゴリにまたがる20以上のベンチマークにおいて,10以上のLLMとOpenAIのレガシモデルを整列した設定で,体系的に評価した。 OpenAIの初期のモデルに関する我々の振り返り研究は、GPT-3からGPT-4への進化経路に関する貴重な洞察を提供する。 コードデータを追加することでLCMの推論能力が改善されるかどうか、SFTとRLHFによってLCMの能力のどの面が改善されるのか、アライメント税はいくらになるのか、といった技術的な詳細を含む。 我々の分析は、先進LLMの透明性向上を目的として、これらの疑問の多くに光を当てている。

With the rapid advancement of large language models (LLMs), there is a pressing need for a comprehensive evaluation suite to assess their capabilities and limitations. Existing LLM leaderboards often reference scores reported in other papers without consistent settings and prompts, which may inadvertently encourage cherry-picking favored settings and prompts for better results. In this work, we introduce GPT-Fathom, an open-source and reproducible LLM evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+ leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across 7 capability categories, all under aligned settings. Our retrospective study on OpenAI's earlier models offers valuable insights into the evolutionary path from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3 progressively improves to GPT-4, including technical details like whether adding code data improves LLM's reasoning capability, which aspects of LLM capability can be improved by SFT and RLHF, how much is the alignment tax, etc. Our analysis sheds light on many of these questions, aiming to improve the transparency of advanced LLMs.
翻訳日:2023-10-13 03:00:01 公開日:2023-10-10
# 大きな言語モデルとタスク活性化プロンプトを用いた生成音声認識誤り訂正

Generative Speech Recognition Error Correction with Large Language Models and Task-Activating Prompting ( http://arxiv.org/abs/2309.15649v2 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Yile Gu, Yi-Chieh Liu, Shalini Ghosh, Ivan Bulyko, Andreas Stolcke(参考訳) 我々は,大規模言語モデル (LLM) が音声認識後処理として機能し,再描画や誤り訂正を行う能力について検討する。 最初の焦点は、LLMが微調整なしでこれらのタスクを実行するように促すことであり、そこでは、ゼロショットと少数ショットのインコンテキスト学習の両方の異なるプロンプトスキームと、因果命令と実演を組み合わせた新しいタスクアクティベーションプロンプト法を評価し、コンテキストウィンドウを増やす。 次に, 既訓練の1パス認識システムを用いて, 2つの外部タスク (ATIS, WSJ) の出力を再現することにより, ドメイン学習されたLMの再構成と競合する結果が得られることを示す。 ファインチューニング技術と組み合わせることで,N-best Oracleレベル以下での誤差率を実現し,LLMの一般化能力を示す。

We explore the ability of large language models (LLMs) to act as speech recognition post-processors that perform rescoring and error correction. Our first focus is on instruction prompting to let LLMs perform these task without fine-tuning, for which we evaluate different prompting schemes, both zero- and few-shot in-context learning, and a novel task activation prompting method that combines causal instructions and demonstration to increase its context windows. Next, we show that rescoring only by in-context learning with frozen LLMs achieves results that are competitive with rescoring by domain-tuned LMs, using a pretrained first-pass recognition system and rescoring output on two out-of-domain tasks (ATIS and WSJ). By combining prompting techniques with fine-tuning we achieve error rates below the N-best oracle level, showcasing the generalization power of the LLMs.
翻訳日:2023-10-13 02:58:13 公開日:2023-10-10
# 繰り返しからの文脈内学習の理解

Understanding In-Context Learning from Repetitions ( http://arxiv.org/abs/2310.00297v2 )

ライセンス: Link先を確認
Jianhao Yan, Jin Xu, Chiyu Song, Chenming Wu, Yafu Li, Yue Zhang(参考訳) 本稿では,Large Language Models (LLMs) における文脈内学習を支える概念的メカニズムについて考察する。 我々の研究は、表面繰り返しのレンズを通してコンテキスト内学習を調べることによって、新しい視点を提供する。 テキスト生成における表層特徴の役割を定量的に検討し,文脈的共起に基づいて2つのトークン間の関係を強める原理である<emph{token co-occurrence reinforcement} の存在を実証的に確立する。 これらの特徴の二重的影響を調査することにより、本研究は、文脈内学習の内部動作を照らし、その失敗の原因について解説する。 本稿では,文脈内学習とその潜在的な限界を理解する上で重要な貢献をし,このエキサイティングな能力について新たな視点を提供する。

This paper explores the elusive mechanism underpinning in-context learning in Large Language Models (LLMs). Our work provides a novel perspective by examining in-context learning via the lens of surface repetitions. We quantitatively investigate the role of surface features in text generation, and empirically establish the existence of \emph{token co-occurrence reinforcement}, a principle that strengthens the relationship between two tokens based on their contextual co-occurrences. By investigating the dual impacts of these features, our research illuminates the internal workings of in-context learning and expounds on the reasons for its failures. This paper provides an essential contribution to the understanding of in-context learning and its potential limitations, providing a fresh perspective on this exciting capability.
翻訳日:2023-10-13 02:39:16 公開日:2023-10-10
# pairwise proximal policy optimization: 相対フィードバックを利用したllmアライメント

Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment ( http://arxiv.org/abs/2310.00212v3 )

ライセンス: Link先を確認
Tianhao Wu, Banghua Zhu, Ruoyu Zhang, Zhaojin Wen, Kannan Ramchandran, Jiantao Jiao(参考訳) 大規模言語モデル(LLM)は,大規模コーパスの事前学習を通じて,広範な世界知識を習得することができる。 しかし、低品質データに曝露されるため、LLMは人的価値に合わせることなく有害な行動を示す可能性がある。 有益な行動に向けてLLMを操る主要なアプローチは、RLHF(Reinforcement Learning with Human Feedback)であり、PPO(Proximal Policy Optimization)がデフォルトのRLオプティマイザとして機能する。 効果にもかかわらず、PPOは比較に基づく損失から訓練された報酬を最適化する際に制限がある。 主に、PPOは報酬尺度を校正する必要があるため、同一の嗜好情報を含む等価報酬関数に不変ではない。 さらに、トークンワイズ更新に必要なPPOは、トラジェクトリワイズ最適化と比較して関数近似とアルゴリズム設計の両方の複雑さをもたらす。 本稿では, 相対フィードバックを用いた強化学習と, 比較報酬に基づいて直接行動する新しい軌道方向政策勾配アルゴリズム, pairwise proximal policy optimization (p3o)を提案する。 理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。 実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。 要約すると、本研究は相対的なフィードバックを通じて、LLMを人間の好みに合わせるためのよりシンプルで効果的なアプローチを導入している。

Large Language Models (LLMs) can acquire extensive world knowledge through pre-training on large corpora. However, due to exposure to low-quality data, LLMs may exhibit harmful behavior without aligning with human values. The dominant approach for steering LLMs towards beneficial behavior involves Reinforcement Learning with Human Feedback (RLHF), with Proximal Policy Optimization (PPO) serving as the default RL optimizer. Despite its effectiveness, PPO has limitations when optimizing rewards trained from comparison-based loss. Primarily, PPO is not invariant to equivalent reward functions containing identical preference information due to the need to calibrate the reward scale. Additionally, PPO's necessity for token-wise updates introduces complexity in both function approximation and algorithm design compared to trajectory-wise optimization. This paper proposes a new framework, reinforcement learning with relative feedback, and a novel trajectory-wise policy gradient algorithm, Pairwise Proximal Policy Optimization (P3O) that operates directly on comparative rewards. We show theoretically that P3O is invariant to equivalent rewards and avoids the complexity of PPO. Empirical evaluations demonstrate that P3O outperforms PPO in the KL-Reward trade-off and can align with human preferences as well as or better than prior methods. In summary, this work introduces a simpler yet effective approach for aligning LLMs to human preferences through relative feedback.
翻訳日:2023-10-13 02:38:46 公開日:2023-10-10
# pairwise proximal policy optimization: 相対フィードバックを利用したllmアライメント

Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment ( http://arxiv.org/abs/2310.00212v2 )

ライセンス: Link先を確認
Tianhao Wu, Banghua Zhu, Ruoyu Zhang, Zhaojin Wen, Kannan Ramchandran, Jiantao Jiao(参考訳) 大規模言語モデル(LLM)は,大規模コーパスの事前学習を通じて,広範な世界知識を習得することができる。 しかし、低品質データに曝露されるため、LLMは人的価値に合わせることなく有害な行動を示す可能性がある。 有益な行動に向けてLLMを操る主要なアプローチは、RLHF(Reinforcement Learning with Human Feedback)であり、PPO(Proximal Policy Optimization)がデフォルトのRLオプティマイザとして機能する。 効果にもかかわらず、PPOは比較に基づく損失から訓練された報酬を最適化する際に制限がある。 主に、PPOは報酬尺度を校正する必要があるため、同一の嗜好情報を含む等価報酬関数に不変ではない。 さらに、トークンワイズ更新に必要なPPOは、トラジェクトリワイズ最適化と比較して関数近似とアルゴリズム設計の両方の複雑さをもたらす。 本稿では, 相対フィードバックを用いた強化学習と, 比較報酬に基づいて直接行動する新しい軌道方向政策勾配アルゴリズム, pairwise proximal policy optimization (p3o)を提案する。 理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。 実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。 要約すると、本研究は相対的なフィードバックを通じて、LLMを人間の好みに合わせるためのよりシンプルで効果的なアプローチを導入している。

Large Language Models (LLMs) can acquire extensive world knowledge through pre-training on large corpora. However, due to exposure to low-quality data, LLMs may exhibit harmful behavior without aligning with human values. The dominant approach for steering LLMs towards beneficial behavior involves Reinforcement Learning with Human Feedback (RLHF), with Proximal Policy Optimization (PPO) serving as the default RL optimizer. Despite its effectiveness, PPO has limitations when optimizing rewards trained from comparison-based loss. Primarily, PPO is not invariant to equivalent reward functions containing identical preference information due to the need to calibrate the reward scale. Additionally, PPO's necessity for token-wise updates introduces complexity in both function approximation and algorithm design compared to trajectory-wise optimization. This paper proposes a new framework, reinforcement learning with relative feedback, and a novel trajectory-wise policy gradient algorithm, Pairwise Proximal Policy Optimization (P3O) that operates directly on comparative rewards. We show theoretically that P3O is invariant to equivalent rewards and avoids the complexity of PPO. Empirical evaluations demonstrate that P3O outperforms PPO in the KL-Reward trade-off and can align with human preferences as well as or better than prior methods. In summary, this work introduces a simpler yet effective approach for aligning LLMs to human preferences through relative feedback.
翻訳日:2023-10-13 02:38:21 公開日:2023-10-10
# ABScribe:大規模言語モデルを用いた人間とAIの共筆作業における複数の記述変動の迅速探索

ABScribe: Rapid Exploration of Multiple Writing Variations in Human-AI Co-Writing Tasks using Large Language Models ( http://arxiv.org/abs/2310.00117v2 )

ライセンス: Link先を確認
Mohi Reza, Nathan Laundry, Ilya Musabirov, Peter Dushniku, Zhi Yuan "Michael" Yu, Kashish Mittal, Tovi Grossman, Michael Liut, Anastasia Kuzminykh, Joseph Jay Williams(参考訳) テキストの書き直しによる代替アイデアの探索は、記述プロセスに不可欠である。 State-of-the-art large language model (LLM) は、変動生成を単純化する。 テキストを上書きせずに新しいバージョンを作成することは困難であり、それらを逐次ペーストすることでドキュメントを乱し、作業負荷を増加させ、ライターのフローを乱す可能性がある。 ABScribeは高速かつ視覚的に構造化されたインタフェースで、人間とAIの共筆タスクにおける書込みのバリエーションを探索する。 ABScribeでは、再利用可能なボタンに自動変換されるLSMプロンプトを使用して、素早く複数のバリエーションを生成できる。 変化はテキストセグメント内に隣接して格納され、コンテキストツールバー上のマウスオーバーインタラクションを用いた高速なインプレース比較を行う。 12名のライターによるユーザスタディでは、ABScribeはタスクの作業負荷(d = 1.20, p < 0.001)を大幅に削減し、リビジョンプロセス(d = 2.41, p < 0.001)のユーザ認識を一般的なベースラインワークフローと比較して向上させ、LLMを用いたバリエーションの探索方法に関する洞察を提供する。

Exploring alternative ideas by rewriting text is integral to the writing process. State-of-the-art large language models (LLMs) can simplify writing variation generation. However, current interfaces pose challenges for simultaneous consideration of multiple variations: creating new versions without overwriting text can be difficult, and pasting them sequentially can clutter documents, increasing workload and disrupting writers' flow. To tackle this, we present ABScribe, an interface that supports rapid, yet visually structured, exploration of writing variations in human-AI co-writing tasks. With ABScribe, users can swiftly produce multiple variations using LLM prompts, which are auto-converted into reusable buttons. Variations are stored adjacently within text segments for rapid in-place comparisons using mouse-over interactions on a context toolbar. Our user study with 12 writers shows that ABScribe significantly reduces task workload (d = 1.20, p < 0.001), enhances user perceptions of the revision process (d = 2.41, p < 0.001) compared to a popular baseline workflow, and provides insights into how writers explore variations using LLMs.
翻訳日:2023-10-13 02:37:36 公開日:2023-10-10
# インダクティブバイアスの蒸留 : モデル圧縮以上の知識蒸留

Distilling Inductive Bias: Knowledge Distillation Beyond Model Compression ( http://arxiv.org/abs/2310.00369v2 )

ライセンス: Link先を確認
Gousia Habib, Tausifa Jan Saleem, Brejesh Lall(参考訳) コンピュータビジョンの急速な発展に伴い、ヴィジュアルトランスフォーマー(vits)は視覚領域とテキスト領域をまたいだ統一的な情報処理を実現する。 しかし、ViTに固有の誘導バイアスがないため、トレーニングには膨大な量のデータが必要である。 そこで本研究では, 共用軽量教師モデルからの帰納バイアスを蒸留する, アンサンブルに基づく蒸留手法を提案する。 以前の制度は畳み込みに基づく教育のみに頼っていた。 しかし, この手法では, コンボリューションやインボリューションなど, 異なる建築的傾向を持つ軽量教師のアンサンブルが組み込まれ, 学生トランスフォーマーを共同で指導する。 このような独特な帰納バイアスのため、インストラクターは容易に識別可能な記憶されたデータセットからでも幅広い知識を蓄積することができ、学生のパフォーマンスが向上する。 提案フレームワークでは,事前計算と事前保存,基本的にモデルの非正規化予測も含んでいる。 この最適化は、知識蒸留中の繰り返し前方通過の必要性をなくし、計算負荷を大幅に削減し、効率を向上させることにより、蒸留プロセスを加速することができる。

With the rapid development of computer vision, Vision Transformers (ViTs) offer the tantalizing prospect of unified information processing across visual and textual domains. But due to the lack of inherent inductive biases in ViTs, they require enormous amount of data for training. To make their applications practical, we introduce an innovative ensemble-based distillation approach distilling inductive bias from complementary lightweight teacher models. Prior systems relied solely on convolution-based teaching. However, this method incorporates an ensemble of light teachers with different architectural tendencies, such as convolution and involution, to instruct the student transformer jointly. Because of these unique inductive biases, instructors can accumulate a wide range of knowledge, even from readily identifiable stored datasets, which leads to enhanced student performance. Our proposed framework also involves precomputing and storing logits in advance, essentially the unnormalized predictions of the model. This optimization can accelerate the distillation process by eliminating the need for repeated forward passes during knowledge distillation, significantly reducing the computational burden and enhancing efficiency.
翻訳日:2023-10-13 02:25:53 公開日:2023-10-10
# 深部生成モデルを用いたアンサンブルに基づく地下評価

Subsurface Characterization using Ensemble-based Approaches with Deep Generative Models ( http://arxiv.org/abs/2310.00839v2 )

ライセンス: Link先を確認
Jichao Bao, Hongkyu Yoon, and Jonghyun Lee(参考訳) 使用可能なスパース測定から水圧伝導率(K)などの空間分布特性を推定することは,地下のキャラクタリゼーションにおいて大きな課題である。 しかし、計算コストとスパースデータセットによる予測精度の低下により、不適切な高次元アプリケーションには逆モデリングの使用が制限されている。 本稿では,複雑な地下構造を正確に把握できる深層生成モデルであるwasserstein generative adversarial networkと勾配ペナルティ(wgan-gp)と,アンサンブルに基づく逆解析法であるes-mda(multiple data assimilation)を用いたスムーザとを組み合わせることで,高精度かつ高速化した地下キャラクタリゼーションを実現する。 WGAN-GPは低次元の潜伏空間から高次元K場を生成するように訓練され、ES-MDAは利用可能な測定値を同化することにより潜伏変数を更新する。 提案手法の精度と効率を評価するためにいくつかの下地サンプルが用いられ、未知のkフィールドの主な特徴は信頼できる不確かさの定量化によって正確に特徴づけられる。 さらに, 推定性能を, 最適化ベース, インバージョンアプローチなど, 広く用いられている変分法と比較し, 提案手法は変分反転法, 特にチャネル化および破断フィールド例よりも優れる。 生成モデルによる非線形かつアグレッシブな次元の低減により、目的関数表面は極めて複雑になり、アンサンブル近似は最小化時にマルチモーダル曲面を滑らかにすることができる。 このことは、アンサンブルに基づくアプローチが、フォワードモデルのコストで深層生成モデルと組み合わせることで、収束-調整の修正が変分反転で実装されない限り、変分アプローチに対してうまく働くことを示唆している。

Estimating spatially distributed properties such as hydraulic conductivity (K) from available sparse measurements is a great challenge in subsurface characterization. However, the use of inverse modeling is limited for ill-posed, high-dimensional applications due to computational costs and poor prediction accuracy with sparse datasets. In this paper, we combine Wasserstein Generative Adversarial Network with Gradient Penalty (WGAN-GP), a deep generative model that can accurately capture complex subsurface structure, and Ensemble Smoother with Multiple Data Assimilation (ES-MDA), an ensemble-based inversion method, for accurate and accelerated subsurface characterization. WGAN-GP is trained to generate high-dimensional K fields from a low-dimensional latent space and ES-MDA then updates the latent variables by assimilating available measurements. Several subsurface examples are used to evaluate the accuracy and efficiency of the proposed method and the main features of the unknown K fields are characterized accurately with reliable uncertainty quantification. Furthermore, the estimation performance is compared with a widely-used variational, i.e., optimization-based, inversion approach, and the proposed approach outperforms the variational inversion method, especially for the channelized and fractured field examples. We explain such superior performance by visualizing the objective function in the latent space: because of nonlinear and aggressive dimension reduction via generative modeling, the objective function surface becomes extremely complex while the ensemble approximation can smooth out the multi-modal surface during the minimization. This suggests that the ensemble-based approach works well over the variational approach when combined with deep generative models at the cost of forward model runs unless convergence-ensuring modifications are implemented in the variational inversion.
翻訳日:2023-10-13 02:18:19 公開日:2023-10-10
# リアルタイムと汎用的なマルチタスクを一度だけ見る

You Only Look at Once for Real-time and Generic Multi-Task ( http://arxiv.org/abs/2310.01641v2 )

ライセンス: Link先を確認
Jiayuan Wang, Q. M. Jonathan Wu and Ning Zhang(参考訳) 高精度、軽量、リアルタイムの応答性は、自動運転を実装するための3つの必須要件である。 本研究では,オブジェクト検出,ドリブル領域分割,レーン線分割を同時に行うように設計された適応的,リアルタイム,軽量なマルチタスクモデルを提案する。 具体的には、統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。 セグメンテーションネックにおける特徴を適応結合する学習可能なパラメータを導入し,すべてのセグメンテーションタスクにおいて同じ損失関数を用いた。 これにより、カスタマイズの必要性がなくなり、モデルの一般化機能が強化される。 また,一連の畳み込み層のみからなるセグメンテーションヘッドを導入し,推論時間を短縮した。 BDD100kデータセット上で、特に視覚化結果の競合的な結果を達成したのです。 その結果, 物体検出用mAP50は81.1%, 乾燥領域分割用mIoUは91.0%, レーン線分割用IoUは28.8%であった。 さらに、実際のシーンでモデルのパフォーマンスを評価するために、実世界のシナリオを導入しました。 これは、我々のモデルは競争性能を示すだけでなく、既存のマルチタスクモデルよりも柔軟で高速であることを示している。 ソースコードと事前訓練済みモデルはhttps://github.com/JiayuanWang-JW/YOLOv8-multi-taskで公開されている。

High precision, lightweight, and real-time responsiveness are three essential requirements for implementing autonomous driving. In this study, we present an adaptive, real-time, and lightweight multi-task model designed to concurrently address object detection, drivable area segmentation, and lane line segmentation tasks. Specifically, we developed an end-to-end multi-task model with a unified and streamlined segmentation structure. We introduced a learnable parameter that adaptively concatenate features in segmentation necks, using the same loss function for all segmentation tasks. This eliminates the need for customizations and enhances the model's generalization capabilities. We also introduced a segmentation head composed only of a series of convolutional layers, which reduces the inference time. We achieved competitive results on the BDD100k dataset, particularly in visualization outcomes. The performance results show a mAP50 of 81.1% for object detection, a mIoU of 91.0% for drivable area segmentation, and an IoU of 28.8% for lane line segmentation. Additionally, we introduced real-world scenarios to evaluate our model's performance in a real scene, which significantly outperforms competitors. This demonstrates that our model not only exhibits competitive performance but is also more flexible and faster than existing multi-task models. The source codes and pre-trained models are released at https://github.com/JiayuanWang-JW/YOLOv8-multi-task
翻訳日:2023-10-13 02:07:59 公開日:2023-10-10
# コミュニケーションによるLLMエージェントの適応

Adapting LLM Agents Through Communication ( http://arxiv.org/abs/2310.01444v2 )

ライセンス: Link先を確認
Kuan Wang, Yadong Lu, Michael Santacroce, Yeyun Gong, Chao Zhang, Yelong Shen(参考訳) 近年の大型言語モデル(llm)の発展は、人間のようなエージェントの可能性を示している。 これらのエージェントが人間の監督なしに新しいタスクに適応するのを助けるため、LLMエージェントが環境や他のエージェントとの対話を通じて継続的に改善できる新しいトレーニング手法であるLearning through Communication(LTC)パラダイムを提案する。 近年の大型言語モデル(llm)の発展は、人間のようなエージェントの可能性を示している。 これらのエージェントが人間の監督なしに新しいタスクに適応するのを助けるため、LLMエージェントが環境や他のエージェントとの対話を通じて継続的に改善できる新しいトレーニング手法であるLearning through Communication(LTC)パラダイムを提案する。 反復探索とPPO訓練を通じて、LCCはエージェントに短期経験を長期記憶に同化させる権限を与える。 タスク固有の学習のためのエージェントインタラクションを最適化するために,意思決定,知識集約的推論,数値推論などの共通タスクに適したモノログ,対話,アナログの3つの構造化通信パターンを導入する。 我々はALFWorld(意思決定)、HotpotQA(知識集約推論)、GSM8k(数値推論)の3つのデータセットでLCCを評価した。 ALFWorldでは、インストラクションチューニングベースラインを12%以上成功率で上回る。 HotpotQAでは、LCCは命令調整されたLLaMA-7Bエージェントを5.1%のEMスコアで上回り、命令調整された9倍のPaLM-62Bエージェントを0.6%上回っている。 GSM8kでは、LCCはCoT-Tuningベースラインの精度を3.6%上回る。 その結果,様々な領域にまたがるltcアプローチの汎用性と効率性が示された。 コミュニティのさらなる発展を促進するために、コードをオープンソースにします。

Recent advancements in large language models (LLMs) have shown potential for human-like agents. To help these agents adapt to new tasks without extensive human supervision, we propose the Learning through Communication (LTC) paradigm, a novel training approach enabling LLM agents to improve continuously through interactions with their environments and other agents. Recent advancements in large language models (LLMs) have shown potential for human-like agents. To help these agents adapt to new tasks without extensive human supervision, we propose the Learning through Communication (LTC) paradigm, a novel training approach enabling LLM agents to improve continuously through interactions with their environments and other agents. Through iterative exploration and PPO training, LTC empowers the agent to assimilate short-term experiences into long-term memory. To optimize agent interactions for task-specific learning, we introduce three structured communication patterns: Monologue, Dialogue, and Analogue-tailored for common tasks such as decision-making, knowledge-intensive reasoning, and numerical reasoning. We evaluated LTC on three datasets: ALFWorld (decision-making), HotpotQA (knowledge-intensive reasoning), and GSM8k (numerical reasoning). On ALFWorld, it exceeds the instruction tuning baseline by 12% in success rate. On HotpotQA, LTC surpasses the instruction-tuned LLaMA-7B agent by 5.1% in EM score, and it outperforms the instruction-tuned 9x larger PaLM-62B agent by 0.6%. On GSM8k, LTC outperforms the CoT-Tuning baseline by 3.6% in accuracy. The results showcase the versatility and efficiency of the LTC approach across diverse domains. We will open-source our code to promote further development of the community.
翻訳日:2023-10-13 02:07:35 公開日:2023-10-10
# Representation Engineering: AIの透明性に対するトップダウンアプローチ

Representation Engineering: A Top-Down Approach to AI Transparency ( http://arxiv.org/abs/2310.01405v3 )

ライセンス: Link先を確認
Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks(参考訳) 本稿では,認知神経科学の知見に基づいて,AIシステムの透明性を高める手法である表現工学の新たな領域(RepE)を同定し,特徴付ける。 repeは、ニューロンや回路ではなく、人口レベルの表現を分析の中心に置き、深層ニューラルネットワーク(dnn)における高レベル認知現象の監視と操作のための新しい手法を我々に与えます。 我々はRepEテクニックのベースラインと初期分析を提供し、大規模な言語モデルの理解と制御を改善するための単純かつ効果的なソリューションを提供することを示した。 我々は、これらの手法が、誠実さ、無害さ、パワーシーキングなど、幅広い安全関連問題に対する牽引力を提供する方法を示し、トップダウンの透明性研究の可能性を実証する。 この取り組みがRepEのさらなる探索を触媒し、AIシステムの透明性と安全性の向上を促進することを願っている。

In this paper, we identify and characterize the emerging area of representation engineering (RepE), an approach to enhancing the transparency of AI systems that draws on insights from cognitive neuroscience. RepE places population-level representations, rather than neurons or circuits, at the center of analysis, equipping us with novel methods for monitoring and manipulating high-level cognitive phenomena in deep neural networks (DNNs). We provide baselines and an initial analysis of RepE techniques, showing that they offer simple yet effective solutions for improving our understanding and control of large language models. We showcase how these methods can provide traction on a wide range of safety-relevant problems, including honesty, harmlessness, power-seeking, and more, demonstrating the promise of top-down transparency research. We hope that this work catalyzes further exploration of RepE and fosters advancements in the transparency and safety of AI systems.
翻訳日:2023-10-13 02:05:51 公開日:2023-10-10
# 多レベルモンテカルロの確率勾配明度における並列複素性について

On the Parallel Complexity of Multilevel Monte Carlo in Stochastic Gradient Descent ( http://arxiv.org/abs/2310.02402v2 )

ライセンス: Link先を確認
Kei Ishikawa(参考訳) 神経確率微分方程式のような逐次シミュレーションのための確率勾配勾配(SGD)では、マルチレベルモンテカルロ法(MLMC)は、単純モンテカルロ法よりも理論的に複雑であることが知られている。 しかし、実際にはmlmcは、ナイーブモンテカルロ法と同等の大きな並列複雑性のため、現代のgpuのような超並列コンピューティングプラットフォームではスケールが貧弱である。 この問題に対処するため,計算済み勾配成分をSGDの初期段階から再利用することにより,MLMCの並列複雑性を大幅に低減する遅延MLMC勾配推定器を提案する。 提案する推定器は, シナリオ毎の収束率をやや下回るコストで, イテレーション毎の平均並列複雑性を低減できる。 数値実験では,SGD の標準 MLMC と比較して,本手法の並列複雑性が優れていることを示すために,ディープヘッジの例を用いる。

In the stochastic gradient descent (SGD) for sequential simulations such as the neural stochastic differential equations, the Multilevel Monte Carlo (MLMC) method is known to offer better theoretical computational complexity compared to the naive Monte Carlo approach. However, in practice, MLMC scales poorly on massively parallel computing platforms such as modern GPUs, because of its large parallel complexity which is equivalent to that of the naive Monte Carlo method. To cope with this issue, we propose the delayed MLMC gradient estimator that drastically reduces the parallel complexity of MLMC by recycling previously computed gradient components from earlier steps of SGD. The proposed estimator provably reduces the average parallel complexity per iteration at the cost of a slightly worse per-iteration convergence rate. In our numerical experiments, we use an example of deep hedging to demonstrate the superior parallel complexity of our method compared to the standard MLMC in SGD.
翻訳日:2023-10-13 01:59:40 公開日:2023-10-10
# PICProp:不確実性量子化のための物理インフォームド信頼伝播

PICProp: Physics-Informed Confidence Propagation for Uncertainty Quantification ( http://arxiv.org/abs/2310.06923v1 )

ライセンス: Link先を確認
Qianli Shen, Wai Hoh Tang, Zhun Deng, Apostolos Psaros, Kenji Kawaguchi(参考訳) 深層学習における不確実性定量化の標準的アプローチは、永続的な限界を持っている。 例えば、データ可能性に関する強い仮定が必要であり、パフォーマンスは事前の選択に大きく依存しており、後方はおよそサンプリング可能であるため、関連する計算コストのために近似が不十分である。 本稿では、新しい問題として、決定論的偏微分方程式に対する信頼区間(CI)推定を導入する。 つまり、データロケーションからドメイン全体への信頼性を、確率的な保証を持って、CI形式で広めるのです。 そこで本研究では,bi-level optimization(bi-level optimization, bi-level optimization, bi-level optimization, bi-level optimization)に基づく物理不定信頼伝播(picprop, physics-informed confidence propagation)という手法を提案する。 本稿では,本手法の有効性に関する定理と,物理学的学習に焦点をあてた計算実験を提案する。

Standard approaches for uncertainty quantification in deep learning and physics-informed learning have persistent limitations. Indicatively, strong assumptions regarding the data likelihood are required, the performance highly depends on the selection of priors, and the posterior can be sampled only approximately, which leads to poor approximations because of the associated computational cost. This paper introduces and studies confidence interval (CI) estimation for deterministic partial differential equations as a novel problem. That is, to propagate confidence, in the form of CIs, from data locations to the entire domain with probabilistic guarantees. We propose a method, termed Physics-Informed Confidence Propagation (PICProp), based on bi-level optimization to compute a valid CI without making heavy assumptions. We provide a theorem regarding the validity of our method, and computational experiments, where the focus is on physics-informed learning.
翻訳日:2023-10-13 01:48:18 公開日:2023-10-10
# データ効率アモルトベイズ推定における自己一貫性の活用

Leveraging Self-Consistency for Data-Efficient Amortized Bayesian Inference ( http://arxiv.org/abs/2310.04395v2 )

ライセンス: Link先を確認
Marvin Schmitt, Daniel Habermann, Paul-Christian B\"urkner, Ullrich K\"othe, Stefan T. Radev(参考訳) 確率的関節モデル$p(\theta, y)$ of parameters $\theta$ and data $y$における普遍対称性を活用することにより、償却ベイズ推論(ABI)の効率と精度を向上させる方法を提案する。 一言で言えば、我々はベイズの定理を反転させ、ジョイントモデルの近似表現に基づいて限界確率を推定する。 完全近似が成立すると、定義による全てのパラメータ値の限界確率は一定となる。 しかし、近似誤差は、異なるパラメータ値にまたがる辺縁度推定値に好ましくないばらつきをもたらす。 我々は、この対称性の違反を損失関数として定式化し、条件付きニューラル密度推定器の学習ダイナミクスを加速する。 提案手法は,2モーダル玩具問題に対して,明示的な可能性(様相ベース)と暗黙的な可能性(シミュレーションベース)を持つ現実的モデルに適用する。

We propose a method to improve the efficiency and accuracy of amortized Bayesian inference (ABI) by leveraging universal symmetries in the probabilistic joint model $p(\theta, y)$ of parameters $\theta$ and data $y$. In a nutshell, we invert Bayes' theorem and estimate the marginal likelihood based on approximate representations of the joint model. Upon perfect approximation, the marginal likelihood is constant across all parameter values by definition. However, approximation error leads to undesirable variance in the marginal likelihood estimates across different parameter values. We formulate violations of this symmetry as a loss function to accelerate the learning dynamics of conditional neural density estimators. We apply our method to a bimodal toy problem with an explicit likelihood (likelihood-based) and a realistic model with an implicit likelihood (simulation-based).
翻訳日:2023-10-13 01:47:33 公開日:2023-10-10
# GPT-MolBERTa:分子特性予測のためのGPT分子特徴言語モデル

GPT-MolBERTa: GPT Molecular Features Language Model for molecular property prediction ( http://arxiv.org/abs/2310.03030v2 )

ライセンス: Link先を確認
Suryanarayanan Balaji and Rishikesh Magar and Yayati Jadhav and Amir Barati Farimani(参考訳) トランスフォーマーアーキテクチャの出現と、テキストデータに対する強力な理解により、テキスト記述に基づく分子特性の予測のための新たな地平が開かれた。 SMILESは最も一般的な表現形式であるが、ロバスト性、豊富な情報、正準性を欠いており、一般化可能な表現になる際の有効性を制限している。 本稿では,分子の詳細なテキスト記述を用いた自己教師型大規模言語モデル(LLM)であるGPT-MolBERTaについて述べる。 326000分子のテキストに基づく記述はChatGPTを用いて収集され、LLMを訓練して分子の表現を学習した。 下流タスクの特性を予測するために、微細化段階でBERTモデルとRoBERTaモデルの両方が使用された。 実験により, GPT-MolBERTaは様々な分子特性のベンチマークで良好に動作し, 回帰タスクにおける技術性能の状況に近づいた。 さらに、注意機構のさらなる分析により、GPT-MolBERTaは入力されたテキストデータから重要な情報を取り込み、モデルの解釈可能性を示す。

With the emergence of Transformer architectures and their powerful understanding of textual data, a new horizon has opened up to predict the molecular properties based on text description. While SMILES are the most common form of representation, they are lacking robustness, rich information and canonicity, which limit their effectiveness in becoming generalizable representations. Here, we present GPT-MolBERTa, a self-supervised large language model (LLM) which uses detailed textual descriptions of molecules to predict their properties. A text based description of 326000 molecules were collected using ChatGPT and used to train LLM to learn the representation of molecules. To predict the properties for the downstream tasks, both BERT and RoBERTa models were used in the finetuning stage. Experiments show that GPT-MolBERTa performs well on various molecule property benchmarks, and approaching state of the art performance in regression tasks. Additionally, further analysis of the attention mechanisms show that GPT-MolBERTa is able to pick up important information from the input textual data, displaying the interpretability of the model.
翻訳日:2023-10-13 01:46:11 公開日:2023-10-10
# 未特定ユーザモデルによる帯域のオンラインクラスタリング

Online Clustering of Bandits with Misspecified User Models ( http://arxiv.org/abs/2310.02717v2 )

ライセンス: Link先を確認
Zhiyong Wang, Jize Xie, Xutong Liu, Shuai Li, John C.S. Lui(参考訳) 文脈線形帯域は、与えられた腕の特徴が与えられた場合、学習エージェントが各ラウンドの腕を選択して、長期の累積報酬を最大化する重要なオンライン学習問題である。 バンドイットのクラスタリング(cb)と呼ばれる一連の作品は、ユーザの好みに対する協調効果を利用し、古典的な線形バンドイットアルゴリズムよりも大幅に改善されている。 しかし、既存のCBアルゴリズムは明確に定義された線形ユーザモデルを必要としており、この臨界仮定が成立しない場合に失敗する可能性がある。 CBアルゴリズムが不特定ユーザモデルでより実用的なシナリオのために設計できるかどうかは未解決の問題である。 本稿では,不特定ユーザモデル (CBMUM) を用いたバンドのクラスタリングにおいて,ユーザモデルに期待される報酬を完全な線形モデルから遠ざけるという重要な問題を初めて提示する。 モデルの誤特定による不正確なユーザの選好推定と誤クラスタリングに対応する2つの頑健なCBアルゴリズムであるRCLUMBとRCLUMB(動的グラフと集合で学習されたクラスタリング構造を表現する)を考案する。 o(\epsilon_*t\sqrt{md\log t} + d\sqrt{mt}\log t)$ 従来の cb よりも穏やかな仮定の下でのアルゴリズムに対する後悔の限界(特に、腕の分布に関する制限的な技術的仮定を乗り越える)は、t$ から対数因子までの漸近的に下限に一致し、またいくつかの退化の場合における最先端の結果にも一致する。 ミスクラスタリングによる後悔を証明する技術は非常に一般的で、独立した関心事である可能性がある。 合成データと実世界のデータの両方の実験では、過去のアルゴリズムよりも性能が優れていた。

The contextual linear bandit is an important online learning problem where given arm features, a learning agent selects an arm at each round to maximize the cumulative rewards in the long run. A line of works, called the clustering of bandits (CB), utilize the collaborative effect over user preferences and have shown significant improvements over classic linear bandit algorithms. However, existing CB algorithms require well-specified linear user models and can fail when this critical assumption does not hold. Whether robust CB algorithms can be designed for more practical scenarios with misspecified user models remains an open problem. In this paper, we are the first to present the important problem of clustering of bandits with misspecified user models (CBMUM), where the expected rewards in user models can be perturbed away from perfect linear models. We devise two robust CB algorithms, RCLUMB and RSCLUMB (representing the learned clustering structure with dynamic graph and sets, respectively), that can accommodate the inaccurate user preference estimations and erroneous clustering caused by model misspecifications. We prove regret upper bounds of $O(\epsilon_*T\sqrt{md\log T} + d\sqrt{mT}\log T)$ for our algorithms under milder assumptions than previous CB works (notably, we move past a restrictive technical assumption on the distribution of the arms), which match the lower bound asymptotically in $T$ up to logarithmic factors, and also match the state-of-the-art results in several degenerate cases. The techniques in proving the regret caused by misclustering users are quite general and may be of independent interest. Experiments on both synthetic and real-world data show our outperformance over previous algorithms.
翻訳日:2023-10-13 01:45:30 公開日:2023-10-10
# ファウンデーション強化学習--ファウンデーション事前支援による具体化されたジェネラリストエージェントを目指して

Foundation Reinforcement Learning: towards Embodied Generalist Agents with Foundation Prior Assistance ( http://arxiv.org/abs/2310.02635v2 )

ライセンス: Link先を確認
Weirui Ye, Yunsheng Zhang, Mengchen Wang, Shengjie Wang, Xianfan Gu, Pieter Abbeel, Yang Gao(参考訳) 最近、nlpで見られるように、インターネット規模のデータからの大規模事前トレーニングがジェネラリストモデル構築の鍵であることが示された。 具体的ジェネラリストエージェントを構築するために、私たちや他の多くの研究者は、そのような基礎が必要不可欠な要素でもあると仮定した。 しかし、それらの具体化された基礎の優先順位を表す適切な具体的形式と、下流タスクでどのように使用するべきかは明らかでない。 本稿では,基本方針,価値,成功報酬から構成される,直感的で効果的な具体化前の組を提案する。 提案手法は, 目標条件付きMDPに基づく。 その効果を検証するために,前者が支援するアクタ-クリティック法をファウンデーション・アクタ-クリティック (fac) と呼ぶ。 私たちは私たちのフレームワークを Foundation Reinforcement Learning (FRL) と名付けています。 FRLの利点は3倍である。 1) 効率的なサンプル。 ファンデーションの先行で、FACは従来のRLよりもかなり速く学習する。 メタワールドの評価により、facは200k以下のフレームで7/8のタスクで100%の成功率を達成できることが証明された。 (2)うるさい事前処理に頑健である。 本手法は,組込み基礎モデルにおける避けられないノイズを許容する。 重騒音や量子化誤差下においてもFACは良好に動作することを示す。 (3) 最小限の人的介入: FACは、人為的な厳密な報酬や遠隔操作によるデモを必要とせず、基礎から完全に学習する。 これにより、FACを容易にスケールアップすることができる。 我々のFRLフレームワークは、未来のロボットが物理的世界への人間の介入なしに自律的に探索し、学習することができると信じています。 まとめると、提案するFRLは、具体的汎用エージェントの実現に向けて、新しく強力な学習パラダイムである。

Recently, people have shown that large-scale pre-training from internet-scale data is the key to building generalist models, as witnessed in NLP. To build embodied generalist agents, we and many other researchers hypothesize that such foundation prior is also an indispensable component. However, it is unclear what is the proper concrete form to represent those embodied foundation priors and how they should be used in the downstream task. In this paper, we propose an intuitive and effective set of embodied priors that consist of foundation policy, value, and success reward. The proposed priors are based on the goal-conditioned MDP. To verify their effectiveness, we instantiate an actor-critic method assisted by the priors, called Foundation Actor-Critic (FAC). We name our framework as Foundation Reinforcement Learning (FRL), since it completely relies on embodied foundation priors to explore, learn and reinforce. The benefits of FRL are threefold. (1) Sample efficient. With foundation priors, FAC learns significantly faster than traditional RL. Our evaluation on the Meta-World has proved that FAC can achieve 100% success rates for 7/8 tasks under less than 200k frames, which outperforms the baseline method with careful manual-designed rewards under 1M frames. (2) Robust to noisy priors. Our method tolerates the unavoidable noise in embodied foundation models. We show that FAC works well even under heavy noise or quantization errors. (3) Minimal human intervention: FAC completely learns from the foundation priors, without the need of human-specified dense reward, or providing teleoperated demos. Thus, FAC can be easily scaled up. We believe our FRL framework could enable the future robot to autonomously explore and learn without human intervention in the physical world. In summary, our proposed FRL is a novel and powerful learning paradigm, towards achieving embodied generalist agents.
翻訳日:2023-10-13 01:44:53 公開日:2023-10-10
# 大規模言語モデルの推論高速化のためのスパースファインタニング

Sparse Finetuning for Inference Acceleration of Large Language Models ( http://arxiv.org/abs/2310.06927v1 )

ライセンス: Link先を確認
Eldar Kurtic, Denis Kuznedelev, Elias Frantar, Michael Goin, Dan Alistarh(参考訳) 我々は,大型言語モデル(llm)の正確なスパース微調整の問題,すなわち,事前学習されたllmを特殊タスクで微調整し,重みのスパース性を誘発する問題を考える。 精度面では、標準的な損失に基づく微調整は、特に高頻度での精度回復に失敗する可能性がある。 そこで本研究では,L2をベースとした蒸留手法であるSquareHeadを,全モデルタイプにわたって,高頻度でも正確な回収が可能な蒸留タイプの損失を詳細に検討した。 実用的効率面では、CPUとGPUの両方のランタイムにおいて、スパースLSMをスパーシティを利用して高速に実行できることが示される。 一方,メモリバウンドLLMでは,メモリ帯域幅の削減にも利用することができる。 我々は,T5(言語翻訳),Whisper(音声翻訳),オープンGPT-type(テキスト生成用MPT)において,間隔による高速化を示すエンドツーエンドの結果を示した。 MPTテキスト生成では、スパースファインタニングが精度低下なしに75%の間隔に到達し、CPUとGPUの推論の両方で注目すべきエンドツーエンドのスピードアップを提供し、スパースファインタニングが量子化アプローチと互換性があることを初めて示す。 第6節で結果を再現するためのモデルとソフトウェアを提供する。

We consider the problem of accurate sparse finetuning of large language models (LLMs), that is, finetuning pretrained LLMs on specialized tasks, while inducing sparsity in their weights. On the accuracy side, we observe that standard loss-based finetuning may fail to recover accuracy, especially at high sparsities. To address this, we perform a detailed study of distillation-type losses, determining an L2-based distillation approach we term SquareHead which enables accurate recovery even at higher sparsities, across all model types. On the practical efficiency side, we show that sparse LLMs can be executed with speedups by taking advantage of sparsity, for both CPU and GPU runtimes. While the standard approach is to leverage sparsity for computational reduction, we observe that in the case of memory-bound LLMs sparsity can also be leveraged for reducing memory bandwidth. We exhibit end-to-end results showing speedups due to sparsity, while recovering accuracy, on T5 (language translation), Whisper (speech translation), and open GPT-type (MPT for text generation). For MPT text generation, we show for the first time that sparse finetuning can reach 75% sparsity without accuracy drops, provide notable end-to-end speedups for both CPU and GPU inference, and highlight that sparsity is also compatible with quantization approaches. Models and software for reproducing our results are provided in Section 6.
翻訳日:2023-10-13 01:38:30 公開日:2023-10-10
# フォカルインフォメーションを用いた文埋め込みのコントラスト学習の改善

Improving Contrastive Learning of Sentence Embeddings with Focal-InfoNCE ( http://arxiv.org/abs/2310.06918v1 )

ライセンス: Link先を確認
Pengyue Hou, Xingyu Li(参考訳) 最近のSimCSEの成功により、最先端の文表現が大幅に進歩した。 しかし、SimCSEの当初の定式化は、対照的な学習におけるハードネガティブサンプルの可能性を完全に活用していない。 本研究は,文埋め込みの品質向上を目的とした,simcseとハードネガティブマイニングを組み合わせた教師なしコントラスト学習フレームワークを提案する。 提案するfocal-infonce関数は、対照的な目的に自己ペース変調項を導入し、簡単な負の損失を軽減し、ハード負に焦点をあてたモデルを奨励する。 様々なSTSベンチマーク実験により,スピアマンの相関関係と表現のアライメント,一様性の観点から文埋め込みの改善が示された。

The recent success of SimCSE has greatly advanced state-of-the-art sentence representations. However, the original formulation of SimCSE does not fully exploit the potential of hard negative samples in contrastive learning. This study introduces an unsupervised contrastive learning framework that combines SimCSE with hard negative mining, aiming to enhance the quality of sentence embeddings. The proposed focal-InfoNCE function introduces self-paced modulation terms in the contrastive objective, downweighting the loss associated with easy negatives and encouraging the model focusing on hard negatives. Experimentation on various STS benchmarks shows that our method improves sentence embeddings in terms of Spearman's correlation and representation alignment and uniformity.
翻訳日:2023-10-13 01:38:02 公開日:2023-10-10
# 第4世代intel xeonプロセッサによる分散転送学習

Distributed Transfer Learning with 4th Gen Intel Xeon Processors ( http://arxiv.org/abs/2310.06916v1 )

ライセンス: Link先を確認
Lakshmi Arunachalam, Fahim Mohammad, Vrushabh H. Sanghavi(参考訳) 本稿では,intel xeon,特に第4世代intel xeonスケーラブルプロセッサと組み合わされたトランスファー・ラーニングが,トレーニングが主にgpuに依存したものだという従来の考え方とどのように矛盾するかを考察する。 本稿では,Intel Advanced Matrix Extensions(AMX)を用いたTensorFlowデータセットとHorovodを用いた分散トレーニングを用いて,画像分類の最先端の精度向上を実現したケーススタディを提案する。

In this paper, we explore how transfer learning, coupled with Intel Xeon, specifically 4th Gen Intel Xeon scalable processor, defies the conventional belief that training is primarily GPU-dependent. We present a case study where we achieved near state-of-the-art accuracy for image classification on a publicly available Image Classification TensorFlow dataset using Intel Advanced Matrix Extensions(AMX) and distributed training with Horovod.
翻訳日:2023-10-13 01:37:48 公開日:2023-10-10
# 安定化結合軌道混合量子古典アルゴリズムと省エネルギー性:CTMQC-EDI

Stabilised Coupled Trajectory Mixed Quantum Classical Algorithm with Improved Energy Conservation: CTMQC-EDI ( http://arxiv.org/abs/2310.06915v1 )

ライセンス: Link先を確認
Aaron Dines, Matthew Ellis and Jochen Blumberger(参考訳) 結合軌道混合量子古典(CTMQC)力学は、軌道に基づく非断熱力学への厳密なアプローチであり、最近CTMQC-Eアルゴリズムの導入によりエネルギー保存の改善が見られた。 これにもかかわらず、この方法がエレンフェスト力学、ボルン・オッペンハイマー運動量、量子運動量と区別する2つの重要な量では、特定の状況において正規化手順を必要とする。 後者の手順は、エネルギードリフトやスプリアス人口移動のような望ましくない影響をもたらす不安定性を引き起こす可能性がある。 本稿では, 量子運動量の再定義を含むCTMQC-EDI(Double Intercept, CTMQC-EDI)のさらなる修正を提案する。 次に, タリーモデルI-IVについて, 強い非断熱結合領域において, アルゴリズムは全エネルギー保存と無視可能な急激な人口移動を大幅に改善したことを示す。 そのためctmqc-ediは、第一原理からの非一貫性を考慮し、大きな分子系や材料にスケーラブルな数値的ロバストな非断熱力学技術としてpromiseを示す。

Coupled trajectory mixed quantum classical (CTMQC) dynamics is a rigorous approach to trajectory-based non-adiabatic dynamics, which has recently seen an improvement to energy conservation via the introduction of the CTMQC-E algorithm. Despite this, the method's two key quantities distinguishing it from Ehrenfest dynamics, the modified Born-Oppenheimer momentum and the quantum momentum, require regularisation procedures in certain circumstances. Such procedures in the latter can cause instabilities leading to undesirable effects such as energy drift and spurious population transfer, which is expected to become increasingly prevalent the larger the system as such events would happen more frequently. We propose a further modification to CTMQC-E which includes a redefinition of the quantum momentum, CTMQC-EDI (Double Intercept), such that it has no formal divergences. We then show for Tully models I-IV that the algorithm has greatly improved total energy conservation and negligible spurious population transfer at all times, in particular in regions of strong non-adiabatic coupling. CTMQC-EDI therefore shows promise as a numerically robust non-adiabatic dynamics technique that accounts for decoherence from first principles and that is scalable to large molecular systems and materials.
翻訳日:2023-10-13 01:37:39 公開日:2023-10-10
# ビデオのための自己教師付きオブジェクト中心学習

Self-supervised Object-Centric Learning for Videos ( http://arxiv.org/abs/2310.06907v1 )

ライセンス: Link先を確認
G\"orkay Aydemir, Weidi Xie, Fatma G\"uney(参考訳) 教師なしマルチオブジェクトセグメンテーションは、自己教師付き事前学習から学んだ強力なセマンティクスを活用することで、画像に印象的な結果を示している。 深度や動きなどの追加のモダリティは、ビデオシーケンスのセグメンテーションを容易にするためにしばしば用いられる。 しかし、追加の手がかりの強固さに依存する合成シーケンスで観察されるパフォーマンス改善は、より困難な現実世界のシナリオには変換されない。 本稿では,実世界列で複数のオブジェクトをセグメンテーションする最初の完全教師なし手法を提案する。 オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。 これらの時間的認識スロットから、トレーニングの目的は、中間フレームを高レベルな意味的特徴空間で再構築することである。 我々は,効率と正則化のために,特徴空間のトークンのかなりの部分を落としてマスキング戦略を提案する。 さらに、類似性に基づいてスロットをマージすることで、オーバークラスタリングに対処する。 提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。

Unsupervised multi-object segmentation has shown impressive results on images by utilizing powerful semantics learned from self-supervised pretraining. An additional modality such as depth or motion is often used to facilitate the segmentation in video sequences. However, the performance improvements observed in synthetic sequences, which rely on the robustness of an additional cue, do not translate to more challenging real-world scenarios. In this paper, we propose the first fully unsupervised method for segmenting multiple objects in real-world sequences. Our object-centric learning framework spatially binds objects to slots on each frame and then relates these slots across frames. From these temporally-aware slots, the training objective is to reconstruct the middle frame in a high-level semantic feature space. We propose a masking strategy by dropping a significant portion of tokens in the feature space for efficiency and regularization. Additionally, we address over-clustering by merging slots based on similarity. Our method can successfully segment multiple instances of complex and high-variety classes in YouTube videos.
翻訳日:2023-10-13 01:37:14 公開日:2023-10-10
# 蒸留による低品質クエリの視覚的位置認識の改善

Distillation Improves Visual Place Recognition for Low-Quality Queries ( http://arxiv.org/abs/2310.06906v1 )

ライセンス: Link先を確認
Anbang Yang, Yao Wang, John-Ross Rizzo, Chen Feng(参考訳) リアルタイムのビジュアルローカライズのためのオンラインコンピューティングへのシフトは、多くの場合、高速なビデオ伝送によって解像度が低下したり、量子化が増加するような、視覚的な場所認識(vpr)のためのサーバへのクエリ画像/ビデオのストリーミングを必要とする。 これにより、グローバルイメージディスクリプタの品質が損なわれ、VPR性能が低下する。 低品質なクエリ画像のリコール率を改善するため,NetVLADのような深層学習に基づくVPRのための特徴表現を抽出するために,訓練中のみ高品質なクエリを使用する,シンプルで効果的な手法を提案する。 具体的には、異なる品質のクエリのグローバル記述子間の平均二乗誤差(MSE)損失と、対応する中間特性に対するチャネル間相関知識蒸留(ICKD)損失を用いる。 ピッツバーグ250kデータセットと、さまざまな量子化レベルを持つ独自の屋内データセットを用いて、我々のアプローチを検証する。 蒸留損失を増大させ,NetVLADパラメータを微調整することにより,低品質クエリに対するVPRリコール率の改善を実現した。 この研究は、VPRの研究を推し進めるだけでなく、リソース制限条件下での信頼性の高い位置認識を必要とするアプリケーションに対して貴重な洞察を提供すると考えている。

The shift to online computing for real-time visual localization often requires streaming query images/videos to a server for visual place recognition (VPR), where fast video transmission may result in reduced resolution or increased quantization. This compromises the quality of global image descriptors, leading to decreased VPR performance. To improve the low recall rate for low-quality query images, we present a simple yet effective method that uses high-quality queries only during training to distill better feature representations for deep-learning-based VPR, such as NetVLAD. Specifically, we use mean squared error (MSE) loss between the global descriptors of queries with different qualities, and inter-channel correlation knowledge distillation (ICKD) loss over their corresponding intermediate features. We validate our approach using the both Pittsburgh 250k dataset and our own indoor dataset with varying quantization levels. By fine-tuning NetVLAD parameters with our distillation-augmented losses, we achieve notable VPR recall-rate improvements over low-quality queries, as demonstrated in our extensive experimental results. We believe this work not only pushes forward the VPR research but also provides valuable insights for applications needing dependable place recognition under resource-limited conditions.
翻訳日:2023-10-13 01:36:58 公開日:2023-10-10
# テキストから画像生成システムへのステレオタイプバイアスの緩和

Mitigating stereotypical biases in text to image generative systems ( http://arxiv.org/abs/2310.06904v1 )

ライセンス: Link先を確認
Piero Esposito, Parmida Atighehchian, Anastasis Germanidis and Deepti Ghadiyaram(参考訳) 最先端のテキストから画像への生成モデルは社会的バイアスを示し、より軽い肌の色や男性のような特定のグループを過度に表現することが知られている。 本研究では,これらのバイアスを緩和し,異なるグループ間で結果が公平であることを保証する手法を提案する。 私たちは、さまざまなテキストプロンプトから構築された、知覚された肌色や性別の異なる合成データに対して、テキストから画像へのモデルを微調整することでこれを行う。 これらのテキストプロンプトは、民族、性別、職業、年齢グループなどの多種多様な組み合わせから構築され、多様な合成データをもたらす。 当社のdiversity finetuned(dft)モデルは、知覚された肌のトーンで150%、知覚された性別で97.7%改善します。 ベースラインと比較すると、dftモデルは肌の色が暗く、女性が多い人を生み出す。 オープンな研究を促進するため、トレーニング画像を生成するために、すべてのテキストプロンプトとコードを公開します。

State-of-the-art generative text-to-image models are known to exhibit social biases and over-represent certain groups like people of perceived lighter skin tones and men in their outcomes. In this work, we propose a method to mitigate such biases and ensure that the outcomes are fair across different groups of people. We do this by finetuning text-to-image models on synthetic data that varies in perceived skin tones and genders constructed from diverse text prompts. These text prompts are constructed from multiplicative combinations of ethnicities, genders, professions, age groups, and so on, resulting in diverse synthetic data. Our diversity finetuned (DFT) model improves the group fairness metric by 150% for perceived skin tone and 97.7% for perceived gender. Compared to baselines, DFT models generate more people with perceived darker skin tone and more women. To foster open research, we will release all text prompts and code to generate training images.
翻訳日:2023-10-13 01:36:35 公開日:2023-10-10
# 軌道最適化による安全埋め込みmdpの強化学習

Reinforcement Learning in a Safety-Embedded MDP with Trajectory Optimization ( http://arxiv.org/abs/2310.06903v1 )

ライセンス: Link先を確認
Fan Yang, Wenxuan Zhou, Zuxin Liu, Ding Zhao, David Held(参考訳) safe reinforcement learning(rl)は,安全性クリティカルな実世界アプリケーションにrlアルゴリズムを適用する上で重要な役割を担っている。 この研究は、rlと軌道最適化を組み合わせた新しいアプローチを導入し、このトレードオフを効果的に管理する。 提案手法は,改良マルコフ決定プロセス(MDP)の動作空間に安全制約を組み込む。 rlエージェントは、軌道オプティマイザによって安全な軌道に変換される一連のアクションを生成し、安全を効果的に確保し、トレーニング安定性を向上させる。 この新しいアプローチは、安全性ジムの課題に挑戦する性能に優れており、推論の間、はるかに高い報酬とほぼゼロの安全違反を達成している。 この手法の現実の応用性は、障害物周辺を箱詰めする実際のロボットタスクにおいて安全かつ効果的に展開することで実証される。

Safe Reinforcement Learning (RL) plays an important role in applying RL algorithms to safety-critical real-world applications, addressing the trade-off between maximizing rewards and adhering to safety constraints. This work introduces a novel approach that combines RL with trajectory optimization to manage this trade-off effectively. Our approach embeds safety constraints within the action space of a modified Markov Decision Process (MDP). The RL agent produces a sequence of actions that are transformed into safe trajectories by a trajectory optimizer, thereby effectively ensuring safety and increasing training stability. This novel approach excels in its performance on challenging Safety Gym tasks, achieving significantly higher rewards and near-zero safety violations during inference. The method's real-world applicability is demonstrated through a safe and effective deployment in a real robot task of box-pushing around obstacles.
翻訳日:2023-10-13 01:36:17 公開日:2023-10-10
# MQT予測器:量子コンピューティングのためのデバイス特化回路コンパイルによる自動デバイス選択

MQT Predictor: Automatic Device Selection with Device-Specific Circuit Compilation for Quantum Computing ( http://arxiv.org/abs/2310.06889v1 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) 量子コンピューティングのハードウェアとソフトウェアにおける最近の成果により、この新技術の潜在的なユースケースとして、様々なアプリケーション領域の問題が調査されている。 古典的な計算と同様に、特定の量子デバイス上のアプリケーションを実現するには、対応する(量子)回路をデバイス上で実行できるようにコンパイルする必要がある。 利用可能なデバイスの数は着実に増え、さまざまなコンパイルツールがあるため、アプリケーションを実現しようとするときに考慮すべき選択肢の数は急速に増えている。 ツールのサポートや自動化が欠如しているため、特に量子コンピューティングの専門家ではないエンドユーザは簡単にサポートされ、圧倒されます。 本研究では,特定のアプリケーションに適した量子デバイスを自動的に選択し,選択したデバイスに最適化されたコンパイラを提供する手法を提案する。 MQT Predictorと呼ばれる結果のフレームワークは、選択肢の広大な風景をナビゲートするエンドユーザをサポートするだけでなく、さまざまなツールからミックス・アンド・マッチのコンパイラをパスして、個々のツールを横断する最適化されたコンパイラを作成することもできる。 500以上の量子回路と7つのデバイスに基づく、模範的なフレームワークのインスタンス化の評価によると、QiskitとTKETの両デバイスで最も最適化されたコンパイルフローと比較して、MQT Predictorは、14のベースラインのうちトップ3の回路を98%以上で生成し、期待される忠実さを最適化すると、テスト済みの組み合わせを最大53%上回っている。 MQT PredictorはGitHubでオープンソースとして公開されている(https://github.com/cda-tum/mqt-predictor)。

Fueled by recent accomplishments in quantum computing hardware and software, an increasing number of problems from various application domains are being explored as potential use cases for this new technology. Similarly to classical computing, realizing an application on a particular quantum device requires the corresponding (quantum) circuit to be compiled so that it can be executed on the device. With a steadily growing number of available devices and a wide variety of different compilation tools, the number of choices to consider when trying to realize an application is quickly exploding. Due to missing tool support and automation, especially end-users who are not quantum computing experts are easily left unsupported and overwhelmed. In this work, we propose a methodology that allows one to automatically select a suitable quantum device for a particular application and provides an optimized compiler for the selected device. The resulting framework -- called the MQT Predictor -- not only supports end-users in navigating the vast landscape of choices, it also allows to mix-and-match compiler passes from various tools to create optimized compilers that transcend the individual tools. Evaluations of an exemplary framework instantiation based on more than 500 quantum circuits and seven devices have shown that -- compared to both Qiskit's and TKET's most optimized compilation flows for all devices -- the MQT Predictor produces circuits within the top-3 out of 14 baselines in more than 98% of cases while frequently outperforming any tested combination by up to 53% when optimizing for expected fidelity. MQT Predictor is publicly available as open-source on GitHub (https://github.com/cda-tum/mqt-predictor) and as an easy-to-use Python package (https://pypi.org/p/mqt.predictor).
翻訳日:2023-10-13 01:36:01 公開日:2023-10-10
# なぜ幾何学に悩むのか? 変圧器埋め込みの線形分解の関連性について

Why bother with geometry? On the relevance of linear decompositions of Transformer embeddings ( http://arxiv.org/abs/2310.06977v1 )

ライセンス: Link先を確認
Timothee Mickus, Ra\'ul V\'azquez(参考訳) 最近の研究で、トランスフォーマー埋め込みは、明確に定義された要素の和に線形に分解され、それによって特定のネットワーク入力やコンポーネントに関連付けられることが示されている。 しかし、これらの数学的改革が経験的に有意義であるかどうかの研究は依然として行われている。 本研究では,2つの埋め込み分解法を用いて,機械翻訳デコーダの表現について検討する。 結果から,分解由来の指標はモデル性能と効果的に相関するが,異なる実行の変動は,この問題に対するよりニュアンス的な考察を示唆する。 以上の結果から, 幾何は文別計算よりもモデル固有特性を反映しており, 同様の訓練条件は類似ベクトル空間を保証しないことが示された。

A recent body of work has demonstrated that Transformer embeddings can be linearly decomposed into well-defined sums of factors, that can in turn be related to specific network inputs or components. There is however still a dearth of work studying whether these mathematical reformulations are empirically meaningful. In the present work, we study representations from machine-translation decoders using two of such embedding decomposition methods. Our results indicate that, while decomposition-derived indicators effectively correlate with model performance, variation across different runs suggests a more nuanced take on this question. The high variability of our measurements indicate that geometry reflects model-specific characteristics more than it does sentence-specific computations, and that similar training conditions do not guarantee similar vector spaces.
翻訳日:2023-10-13 01:26:19 公開日:2023-10-10
# 拡張ウィグナーの友人パラドックスは非局所相関を必要としない

Extended Wigner's friend paradoxes do not require nonlocal correlations ( http://arxiv.org/abs/2310.06976v1 )

ライセンス: Link先を確認
Laurens Walleghem and Rafael Wagner(参考訳) Daniela Frauchiger と Renato Renner (FR) は、量子力学の整合性に挑戦する思考実験を導入した。 frパラドックスは、異なる観測者が実験結果の一貫性のない記述を提供する方法を示し、観測者が比較的合理的な仮定の下で量子実験から矛盾する結果を得るような、多数のマルチエージェントの設定を調査する。 特に、最初のFR提案を含むこれらのパラドックスシナリオは、しばしば非局所相関の存在と関連している。 本研究では、ベル非局所性シナリオではない背景となる文脈性シナリオを用いて巡回パラドックスを構築することにより、FR様パラドックスを構築するのに非局所性は必要ないことを示す。 より具体的には、$n$サイクルの論理的文脈モデルを用いてFR様パラドックスを示す。

Daniela Frauchiger and Renato Renner (FR) introduced a thought experiment that challenged the consistency of quantum mechanics to describe the naive use of itself. The FR paradox demonstrates how different observers can provide inconsistent descriptions of experimental results, prompting the investigation of numerous multi-agent setups where observers obtain conflicting outcomes from quantum experiments under fairly reasonable assumptions. Notably, these paradoxical scenarios, including the original FR proposal, are often associated with the presence of nonlocal correlations. In this work, we show that nonlocality is not necessary for constructing FR-like paradoxes, by constructing cyclic paradoxes using an underlying contextuality scenario that is not a Bell nonlocality scenario. More specifically, we present FR-like paradoxes using $n$-cycle logically contextual models.
翻訳日:2023-10-13 01:26:05 公開日:2023-10-10
# 差分プライバシーを持つフェデレーション量子機械学習

Federated Quantum Machine Learning with Differential Privacy ( http://arxiv.org/abs/2310.06973v1 )

ライセンス: Link先を確認
Rod Rofougaran, Shinjae Yoo, Huan-Hsin Tseng and Samuel Yen-Chi Chen(参考訳) プライバシーの保護は、センシティブなトレーニングデータに対する人工知能の実装において重要な関心事である。 データプライバシを保存する技術はいくつか存在するが、量子計算は本質的に非閉包定理のためより安全であり、潜在的な量子的利点の上に最も望ましい計算プラットフォームとなる。 QFL(Quantum Federated Learning)とQDP(Quantum Differential Privacy)は独立して研究されている。 しかし、私たちの知る限りでは、QFLとQDPの双方に対処する以前の作業はまだありません。 本稿では,これらのプライバシ保存手法を組み合わせて量子プラットフォームに実装することで,データ漏洩(qfl)とモデル反転攻撃(qdp)に対する包括的保護を実現することを提案する。 この実装は、より効率的でセキュアな人工知能を約束する。 本稿では,猫対犬データセットのバイナリ分類を行い,これらのプライバシ保存手法の実装を成功させた。 量子古典機械学習モデルを用いて、1.3未満のエプシロン値を維持しながら、0.98以上のテスト精度を得た。 雑音中規模量子(nisq)デバイス上での量子機械学習において,フェデレーション微分プライベートトレーニングは有効なプライバシ保護手法であることを示す。

The preservation of privacy is a critical concern in the implementation of artificial intelligence on sensitive training data. There are several techniques to preserve data privacy but quantum computations are inherently more secure due to the no-cloning theorem, resulting in a most desirable computational platform on top of the potential quantum advantages. There have been prior works in protecting data privacy by Quantum Federated Learning (QFL) and Quantum Differential Privacy (QDP) studied independently. However, to the best of our knowledge, no prior work has addressed both QFL and QDP together yet. Here, we propose to combine these privacy-preserving methods and implement them on the quantum platform, so that we can achieve comprehensive protection against data leakage (QFL) and model inversion attacks (QDP). This implementation promises more efficient and secure artificial intelligence. In this paper, we present a successful implementation of these privacy-preservation methods by performing the binary classification of the Cats vs Dogs dataset. Using our quantum-classical machine learning model, we obtained a test accuracy of over 0.98, while maintaining epsilon values less than 1.3. We show that federated differentially private training is a viable privacy preservation method for quantum machine learning on Noisy Intermediate-Scale Quantum (NISQ) devices.
翻訳日:2023-10-13 01:25:49 公開日:2023-10-10
# Flood and Echo: 分散コンピューティングによるGNNのアルゴリズムアライメント

Flood and Echo: Algorithmic Alignment of GNNs with Distributed Computing ( http://arxiv.org/abs/2310.06970v1 )

ライセンス: Link先を確認
Jo\"el Mathys, Florian Gr\"otschl, Kalyan Varma Nadimpalli, Roger Wattenhofer(参考訳) グラフニューラルネットワークは、学習アルゴリズムに自然に適合する。 抽象的だが多彩なグラフ構造を通じてタスクを直接表現し、さまざまなサイズの入力を処理することができる。 これにより、大きなグラフへのスケーリングと外挿が可能となり、アルゴリズムの最も重要な利点の1つである。 しかし、これは2つの疑問を提起する。 i) たとえ遠くにいても,ノードが所定のグラフ(\textit{information exchange}$)で必要な情報を収集できるようにするには,どのようにすればよいか。 ii) より大きなグラフサイズへの外挿に関するこの情報交換を可能にする実行フレームワークをどのように設計すればよいか(\textit{algorithmic alignment for extrapolation}$)。 分散アルゴリズムの設計原理にインスパイアされた新しい実行フレームワークであるFloodとEcho Netを提案する。 アクティベーションパターンのようなウェーブで、グラフ全体を通してメッセージを伝搬し、自然により大きなインスタンスに一般化する。 スパースだが並列なアクティベーションにより、メッセージの複雑さの点で、明らかに効率が良い。 提案モデルについて検討し,その表現性,効率性,情報交換能力,外挿能力の両面から,実証的証拠と理論的知見を提供する。

Graph Neural Networks are a natural fit for learning algorithms. They can directly represent tasks through an abstract but versatile graph structure and handle inputs of different sizes. This opens up the possibility for scaling and extrapolation to larger graphs, one of the most important advantages of an algorithm. However, this raises two core questions i) How can we enable nodes to gather the required information in a given graph ($\textit{information exchange}$), even if is far away and ii) How can we design an execution framework which enables this information exchange for extrapolation to larger graph sizes ($\textit{algorithmic alignment for extrapolation}$). We propose a new execution framework that is inspired by the design principles of distributed algorithms: Flood and Echo Net. It propagates messages through the entire graph in a wave like activation pattern, which naturally generalizes to larger instances. Through its sparse but parallel activations it is provably more efficient in terms of message complexity. We study the proposed model and provide both empirical evidence and theoretical insights in terms of its expressiveness, efficiency, information exchange and ability to extrapolate.
翻訳日:2023-10-13 01:25:29 公開日:2023-10-10
# 観測データを用いたポジティビティフリー政策学習

Positivity-free Policy Learning with Observational Data ( http://arxiv.org/abs/2310.06969v1 )

ライセンス: Link先を確認
Pan Zhao, Antoine Chambaz, Julie Josse, Shu Yang(参考訳) 観察データを利用した政策学習は、公正性、予算、単純さといった特定の制約に固執しながら、最適な治療割当方針を学ぶことを目的として、様々な分野にまたがって重要である。 本研究では,現実のシナリオにおける肯定的仮定の不現実性から生じる課題に対処するために,新たな肯定的(確率的)政策学習フレームワークを提案する。 このフレームワークは、漸進的な確率スコアポリシーを利用して、治療に固定値を割り当てる代わりに、確率スコア値を調整する。 我々は,これらの漸進的適合度スコアポリシーを特徴付け,半パラメトリック効率理論を用いて,高度な機械学習アルゴリズムと統合しても,迅速な収束率を達成できる効率的な推定器を提案する。 本稿では,政策学習に関連する理論的保証を徹底的に検討し,包括的な数値実験を通じて提案フレームワークの有限サンプル性能を検証し,観測データから因果的影響の同定が堅牢かつ確実であることを保証する。

Policy learning utilizing observational data is pivotal across various domains, with the objective of learning the optimal treatment assignment policy while adhering to specific constraints such as fairness, budget, and simplicity. This study introduces a novel positivity-free (stochastic) policy learning framework designed to address the challenges posed by the impracticality of the positivity assumption in real-world scenarios. This framework leverages incremental propensity score policies to adjust propensity score values instead of assigning fixed values to treatments. We characterize these incremental propensity score policies and establish identification conditions, employing semiparametric efficiency theory to propose efficient estimators capable of achieving rapid convergence rates, even when integrated with advanced machine learning algorithms. This paper provides a thorough exploration of the theoretical guarantees associated with policy learning and validates the proposed framework's finite-sample performance through comprehensive numerical experiments, ensuring the identification of causal effects from observational data is both robust and reliable.
翻訳日:2023-10-13 01:25:08 公開日:2023-10-10
# ObjectComposer: 微調整のない複数オブジェクトの一貫性生成

ObjectComposer: Consistent Generation of Multiple Objects Without Fine-tuning ( http://arxiv.org/abs/2310.06968v1 )

ライセンス: Link先を確認
Alec Helbling, Evan Montoya, Duen Horng Chau(参考訳) 最近のテキストから画像への生成モデルは、テキストプロンプトから高忠実度画像を生成することができる。 しかし、これらのモデルは、同じ外観で異なるコンテキストで同じオブジェクトを一貫して生成するのに苦労する。 一貫性のあるオブジェクト生成は、一貫した文字と設定で漫画のイラストを生成するなど、多くの下流タスクにとって重要である。 拡散モデルの語彙を微調整によって拡張することで、多くのアプローチがこの問題を解決しようとする。 しかし、軽量な微調整アプローチでさえ、大規模かつリアルタイムに実行するには極めて高価である。 本稿では,ユーザが指定した画像に似た複数のオブジェクトの合成を生成するObjectComposerを提案する。 私たちのアプローチはトレーニングフリーで、既存のモデルの能力を活用しています。 我々は,参照画像によって指定された単一オブジェクトの画像を生成するBLIP拡散モデルを構築した。 objectcomposerは、基盤となるモデルの重みを変更せずに、複数の特定のオブジェクトを同時に含むコンポジションを一貫した生成を可能にする。

Recent text-to-image generative models can generate high-fidelity images from text prompts. However, these models struggle to consistently generate the same objects in different contexts with the same appearance. Consistent object generation is important to many downstream tasks like generating comic book illustrations with consistent characters and setting. Numerous approaches attempt to solve this problem by extending the vocabulary of diffusion models through fine-tuning. However, even lightweight fine-tuning approaches can be prohibitively expensive to run at scale and in real-time. We introduce a method called ObjectComposer for generating compositions of multiple objects that resemble user-specified images. Our approach is training-free, leveraging the abilities of preexisting models. We build upon the recent BLIP-Diffusion model, which can generate images of single objects specified by reference images. ObjectComposer enables the consistent generation of compositions containing multiple specific objects simultaneously, all without modifying the weights of the underlying models.
翻訳日:2023-10-13 01:24:51 公開日:2023-10-10
# 部分プロトタイプ型分類器の解釈可能性について:人文分析

On the Interpretability of Part-Prototype Based Classifiers: A Human Centric Analysis ( http://arxiv.org/abs/2310.06966v1 )

ライセンス: Link先を確認
Omid Davoodi, Shayan Mohammadizadehsamakosh, Majid Komeili(参考訳) 部分プロトタイプネットワークは近年,現在のブラックボックス画像分類器の多くに対する解釈可能な代替手段として注目されている。 しかし,これらの手法の人間ユーザの視点からの解釈可能性については十分に検討されていない。 本研究では,人間の視点から部分プロトタイプモデルの解釈可能性を評価する枠組みを考案した。 提案フレームワークは3つの実行可能なメトリクスと実験で構成されている。 本フレームワークの有用性を示すため,Amazon Mechanical Turkを用いた広範囲な実験を行った。 彼らは、様々なpart-prototypeベースのモデルの解釈可能性を評価するためのフレームワークの能力を示すだけでなく、我々の知る限りでは、統一されたフレームワークでこれらのメソッドを評価する最も包括的な作業でもある。

Part-prototype networks have recently become methods of interest as an interpretable alternative to many of the current black-box image classifiers. However, the interpretability of these methods from the perspective of human users has not been sufficiently explored. In this work, we have devised a framework for evaluating the interpretability of part-prototype-based models from a human perspective. The proposed framework consists of three actionable metrics and experiments. To demonstrate the usefulness of our framework, we performed an extensive set of experiments using Amazon Mechanical Turk. They not only show the capability of our framework in assessing the interpretability of various part-prototype-based models, but they also are, to the best of our knowledge, the most comprehensive work on evaluating such methods in a unified framework.
翻訳日:2023-10-13 01:24:37 公開日:2023-10-10
# 現代の非参照画像とビデオ品質メトリクスの堅牢性と敵攻撃の比較

Comparing the robustness of modern no-reference image- and video-quality metrics to adversarial attacks ( http://arxiv.org/abs/2310.06958v1 )

ライセンス: Link先を確認
Anastasia Antsiferova, Khaled Abud, Aleksandr Gushchin, Sergey Lavrushkin, Ekaterina Shumitskaya, Maksim Velikanov, Dmitriy Vatolin(参考訳) 現在、ニューラルネットワークベースの画像およびビデオ品質指標は、従来の方法よりも優れたパフォーマンスを示している。 しかし、視覚的品質を改善することなくメトリクスのスコアを上げる敵攻撃にもより脆弱になった。 既存の品質指標のベンチマークは、主観的品質と計算時間との相関の観点からパフォーマンスを比較する。 しかし、画像品質指標の敵対的ロバスト性も研究に値する分野である。 本稿では,異なる敵攻撃に対する現代のメトリクスの堅牢性を分析する。 コンピュータビジョンタスクからの敵意攻撃を適用し,15の非参照画像/ビデオ品質指標に対する攻撃の効率性を比較した。 いくつかのメトリクスは、脆弱なメトリクスよりも安全なベンチマークでの使用を可能にする敵攻撃に対する高い抵抗を示した。 このベンチマークは、攻撃に対してメトリクスをより堅牢にしたい研究者や、必要に応じてそのようなメトリクスを見つけたい研究者のために、新しいメトリクスの提出を受け入れる。 pip install robustness-benchmarkを使ってベンチマークを試してみよう。

Nowadays neural-network-based image- and video-quality metrics show better performance compared to traditional methods. However, they also became more vulnerable to adversarial attacks that increase metrics' scores without improving visual quality. The existing benchmarks of quality metrics compare their performance in terms of correlation with subjective quality and calculation time. However, the adversarial robustness of image-quality metrics is also an area worth researching. In this paper, we analyse modern metrics' robustness to different adversarial attacks. We adopted adversarial attacks from computer vision tasks and compared attacks' efficiency against 15 no-reference image/video-quality metrics. Some metrics showed high resistance to adversarial attacks which makes their usage in benchmarks safer than vulnerable metrics. The benchmark accepts new metrics submissions for researchers who want to make their metrics more robust to attacks or to find such metrics for their needs. Try our benchmark using pip install robustness-benchmark.
翻訳日:2023-10-13 01:24:25 公開日:2023-10-10
# きめ細かいラベルのない多視点感性分析のための文書レベルスーパービジョン

Document-Level Supervision for Multi-Aspect Sentiment Analysis Without Fine-grained Labels ( http://arxiv.org/abs/2310.06940v1 )

ライセンス: Link先を確認
Kasturi Bhattacharjee and Rashmi Gangadharaiah(参考訳) アスペクトベースの感情分析(ABSA、Aspect-based sentiment analysis)は、広く研究されているトピックであり、多くの場合、意見テキストの人間のアノテーションの監督を通じて訓練されている。 これらの細かいアノテーションには、ユーザが感情を表現する側面と、関連する極性(アスペクトベースの感情)を特定することが含まれる。 このような細かいアノテーションは高価であり、現実世界の設定では入手できないことが多い。 しかし、ユーザ生成テキストには、ユーザレビューの1-5のレーティングやユーザ生成フィードバックなど、全体的な感情を含むシナリオが多数存在し、このタスクに活用される可能性がある。 本稿では,文書レベルでの監視と,局面や感情の詳細なラベルを必要とせず,ABSAを実行するVAEベースのトピックモデリング手法を提案する。 我々のアプローチは、文書内の複数の側面を検知し、複数の側面を通して表現された感情がどのように集まって、観察可能な全体の文書レベルの感情を形成するかの推論を可能にする。 2つの異なるドメインから得られた2つのベンチマークデータセットの結果は、最先端のベースラインを大きく上回っている。

Aspect-based sentiment analysis (ABSA) is a widely studied topic, most often trained through supervision from human annotations of opinionated texts. These fine-grained annotations include identifying aspects towards which a user expresses their sentiment, and their associated polarities (aspect-based sentiments). Such fine-grained annotations can be expensive and often infeasible to obtain in real-world settings. There is, however, an abundance of scenarios where user-generated text contains an overall sentiment, such as a rating of 1-5 in user reviews or user-generated feedback, which may be leveraged for this task. In this paper, we propose a VAE-based topic modeling approach that performs ABSA using document-level supervision and without requiring fine-grained labels for either aspects or sentiments. Our approach allows for the detection of multiple aspects in a document, thereby allowing for the possibility of reasoning about how sentiment expressed through multiple aspects comes together to form an observable overall document-level sentiment. We demonstrate results on two benchmark datasets from two different domains, significantly outperforming a state-of-the-art baseline.
翻訳日:2023-10-13 01:24:14 公開日:2023-10-10
# 量子学習のための量子シャドウ勾配Descent

Quantum Shadow Gradient Descent for Quantum Learning ( http://arxiv.org/abs/2310.06935v1 )

ライセンス: Link先を確認
Mohsen Heidari, Mobasshir A Naved, Wenbo Xie, Arjun Jacob Grama, Wojciech Szpankowski(参考訳) 本稿では,これらの課題に対処する量子影勾配降下法(QSGD)を提案する。 本手法は, サンプル重複を必要とせず, 正確な勾配計算を用いた理想更新則に匹敵する収束率を持つ, ワンショット方式の利点がある。 そこで本研究では,従来の量子影とは対照的に量子影を生成する量子影サンプル(QSS)を新たに生成する手法を提案する。 古典的な影では、計算は通常古典的なコンピュータ上で行われ、したがって次元が指数関数的に大きくなるため禁止される。 我々の手法は量子影の測定によってこの問題を解決する。 第二の主な貢献として、より一般的な非生成物のアンサッツをモデル変分ハミルトニアンである$\exp\{i\sum_j \theta_j a_j\}$で研究する。 グラデーションは、容易に測定できる単パラメータアンサtzeのグラデーションを用いて記述できることを証明できる。 この証明は鈴木-トロッター近似に基づいているが、非積作用素を近似する以前の努力とは異なり、式は正確である。 その結果、既存の勾配測定技術はより一般的なVQAに適用でき、近似ペナルティを伴わない補正項が続く。 理論実証,収束解析を行い,数値実験により結果の検証を行う。

This paper proposes a new procedure called quantum shadow gradient descent (QSGD) that addresses these key challenges. Our method has the benefits of a one-shot approach, in not requiring any sample duplication while having a convergence rate comparable to the ideal update rule using exact gradient computation. We propose a new technique for generating quantum shadow samples (QSS), which generates quantum shadows as opposed to classical shadows used in existing works. With classical shadows, the computations are typically performed on classical computers and, hence, are prohibitive since the dimension grows exponentially. Our approach resolves this issue by measurements of quantum shadows. As the second main contribution, we study more general non-product ansatz of the form $\exp\{i\sum_j \theta_j A_j\}$ that model variational Hamiltonians. We prove that the gradient can be written in terms of the gradient of single-parameter ansatzes that can be easily measured. Our proof is based on the Suzuki-Trotter approximation; however, our expressions are exact, unlike prior efforts that approximate non-product operators. As a result, existing gradient measurement techniques can be applied to more general VQAs followed by correction terms without any approximation penalty. We provide theoretical proofs, convergence analysis and verify our results through numerical experiments.
翻訳日:2023-10-13 01:23:55 公開日:2023-10-10
# きめ細かい特徴を用いた顔の偽造に基づくディープフェイク検出

Facial Forgery-based Deepfake Detection using Fine-Grained Features ( http://arxiv.org/abs/2310.07028v1 )

ライセンス: Link先を確認
Aakash Varma Nadimpalli, Ajita Rattani(参考訳) ディープフェイクによる顔の偽造は、大きなセキュリティリスクを引き起こし、社会的な深刻な懸念を引き起こした。 対策として,多くのディープフェイク検出手法が提案されている。 その多くは、タスクのために事前トレーニングされたbackbone convolutional neural network(cnn)アーキテクチャを使用して、ディープフェイク検出をバイナリ分類問題としてモデル化する。 これらのCNN法は、AUC(Area under the Curve)による深度検出において、0.99ドルという高い効果を示した。 しかし,これらの手法の性能は,データセットやディープフェイク操作技術で評価すると著しく低下する。 これにより、ディープフェイク検出のためのより微妙で局所的で識別的な特徴を学ぶことに注意が向けられます。 本稿では,ディープフェイク検出をきめ細かい分類問題として定式化し,それに対する新しいきめ細かな解を提案する。 具体的には,背景雑音を効果的に抑制し,様々な規模で識別的特徴を学習することにより,微妙で一般化可能な特徴を学習する。 本研究では, 実験シナリオの大部分に対して, クロスデータセットおよびクロスマニピュレーションによるディープフェイク検出器の一般化について, 提案手法の優位性を示す。

Facial forgery by deepfakes has caused major security risks and raised severe societal concerns. As a countermeasure, a number of deepfake detection methods have been proposed. Most of them model deepfake detection as a binary classification problem using a backbone convolutional neural network (CNN) architecture pretrained for the task. These CNN-based methods have demonstrated very high efficacy in deepfake detection with the Area under the Curve (AUC) as high as $0.99$. However, the performance of these methods degrades significantly when evaluated across datasets and deepfake manipulation techniques. This draws our attention towards learning more subtle, local, and discriminative features for deepfake detection. In this paper, we formulate deepfake detection as a fine-grained classification problem and propose a new fine-grained solution to it. Specifically, our method is based on learning subtle and generalizable features by effectively suppressing background noise and learning discriminative features at various scales for deepfake detection. Through extensive experimental validation, we demonstrate the superiority of our method over the published research in cross-dataset and cross-manipulation generalization of deepfake detectors for the majority of the experimental scenarios.
翻訳日:2023-10-13 01:19:22 公開日:2023-10-10
# 医用視覚言語事前学習における合成データの利用 : 実画像の必要性を回避して

Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images ( http://arxiv.org/abs/2310.07027v1 )

ライセンス: Link先を確認
Che Liu, Anand Shah, Wenjia Bai, Rossella Arcucci(参考訳) 医用ビジョン・ランゲージ・プレトレーニング(VLP)は、医用画像とペアの放射線学レポートから共同で表現を学習する。 通常、画像エンコーダとテキストエンコーダの両方で効果的な事前トレーニングを実現するために、大規模なペアイメージテキストデータセットが必要である。 VLPは、本物の放射線学レポートから生成された合成画像のみに実装できるため、画像テキストデータセットを広範囲にペアリングし、キュレートする必要性を軽減できるだろうか? 本研究は,医療用VLPにおける合成画像の有用性と有効性を検討することで,この問題を精査するものである。 我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。 3つの最先端のVLPアルゴリズムを用いて、これらの合成サンプルを学習する。 画像分類,意味セグメンテーション,オブジェクト検出という3つのタスクにおける経験的評価結果から,合成データによる性能は実画像と同等かそれ以上であることが分かった。 この領域への先駆的な貢献として,匿名のリアルラジオロジーレポートと組み合わせた大規模合成医用画像データセットを提案する。 これにより、医療画像の共有の必要性が軽減されるが、実際はキュレートや共有は容易ではない。 コードとデータセットは、紙が受け入れられると公開される予定だ。

Medical Vision-Language Pre-training (VLP) learns representations jointly from medical images and paired radiology reports. It typically requires large-scale paired image-text datasets to achieve effective pre-training for both the image encoder and text encoder. The advent of text-guided generative models raises a compelling question: Can VLP be implemented solely with synthetic images generated from genuine radiology reports, thereby mitigating the need for extensively pairing and curating image-text datasets? In this work, we scrutinize this very question by examining the feasibility and effectiveness of employing synthetic images for medical VLP. We replace real medical images with their synthetic equivalents, generated from authentic medical reports. Utilizing three state-of-the-art VLP algorithms, we exclusively train on these synthetic samples. Our empirical evaluation across three subsequent tasks, namely image classification, semantic segmentation and object detection, reveals that the performance achieved through synthetic data is on par with or even exceeds that obtained with real images. As a pioneering contribution to this domain, we introduce a large-scale synthetic medical image dataset, paired with anonymized real radiology reports. This alleviates the need of sharing medical images, which are not easy to curate and share in practice. The code and the dataset will be made publicly available upon paper acceptance.
翻訳日:2023-10-13 01:19:04 公開日:2023-10-10
# 大規模相互作用トレースによるマクロマイニング

Automatic Macro Mining from Interaction Traces at Scale ( http://arxiv.org/abs/2310.07023v1 )

ライセンス: Link先を確認
Forrest Huang, Gang Li, Tao Li, Yang Li(参考訳) マクロは日々のスマートフォン活動(例えば"login"や"booking a flight"など)のブロックタスクを構築しています。 マクロを効果的に抽出することは、モバイルインタラクションの理解とタスク自動化を可能にする上で重要である。 これらのマクロは、アプリケーションのプログラムコンポーネントに隠されている複数のステップで構成されているため、大規模に抽出することは困難である。 本稿では,ランダムとユーザによる対話トレースから意味的に意味のあるマクロを自動的に抽出する,大規模言語モデル(llms)に基づく新しいアプローチを提案する。 我々のアプローチによって生成されたマクロは自然言語記述で自動的にタグ付けされ、完全に実行可能である。 抽出の質を検討するために,ユーザ評価,ヒューマンキュレーションタスクに対する比較分析,マクロの自動実行など,複数の研究を行った。 これらの実験と解析により, 下流における抽出マクロの有効性と有用性を示した。

Macros are building block tasks of our everyday smartphone activity (e.g., "login", or "booking a flight"). Effectively extracting macros is important for understanding mobile interaction and enabling task automation. These macros are however difficult to extract at scale as they can be comprised of multiple steps yet hidden within programmatic components of the app. In this paper, we introduce a novel approach based on Large Language Models (LLMs) to automatically extract semantically meaningful macros from both random and user-curated mobile interaction traces. The macros produced by our approach are automatically tagged with natural language descriptions and are fully executable. To examine the quality of extraction, we conduct multiple studies, including user evaluation, comparative analysis against human-curated tasks, and automatic execution of these macros. These experiments and analyses show the effectiveness of our approach and the usefulness of extracted macros in various downstream applications.
翻訳日:2023-10-13 01:18:43 公開日:2023-10-10
# NEWTON:大規模言語モデルは物理推論が可能か?

NEWTON: Are Large Language Models Capable of Physical Reasoning? ( http://arxiv.org/abs/2310.07018v1 )

ライセンス: Link先を確認
Yi Ru Wang, Jiafei Duan, Dieter Fox, Siddhartha Srinivasa(参考訳) 大言語モデル(LLM)は、文脈化された表現を通じて、構文、意味、単語感覚、常識知識をカプセル化することが実証的に証明されている。 しかし、その身体的推論能力、特に日常的な物体の理解において重要な属性についての調査は限られている。 このギャップに対処するために,LLMの物理推論スキルを評価するためのレポジトリとベンチマークであるNEWTONを紹介する。 さらに、このベンチマークのドメイン固有の適応を可能にするために、研究者がアプリケーションに関連するオブジェクトと属性にカスタマイズされたこのベンチマークのバリエーションを生成できるパイプラインを提案する。 NEWTONレポジトリは2800のオブジェクト属性対から構成され、無限スケールアセスメントテンプレートを生成する基盤を提供する。 NEWTONベンチマークは160K QA質問で構成され、NEWTONリポジトリを使用して基礎的、明示的、暗黙的な推論タスクにわたるいくつかの主流言語モデルの物理的推論能力を調べる。 広範な経験的分析を通して,本研究は物理推論におけるllmの能力を強調した。 GPT-4のようなLCMはシナリオベースタスクでは強い推論能力を示すが、人間に比べてオブジェクト属性推論では一貫性が低い(50%対84%)。 さらに、NEWTONプラットフォームは言語モデルの評価と強化の可能性を実証し、ロボット操作のような物理的に接地された設定への統合の道を開いた。 プロジェクトサイト: https://newtonreasoning.github.io

Large Language Models (LLMs), through their contextualized representations, have been empirically proven to encapsulate syntactic, semantic, word sense, and common-sense knowledge. However, there has been limited exploration of their physical reasoning abilities, specifically concerning the crucial attributes for comprehending everyday objects. To address this gap, we introduce NEWTON, a repository and benchmark for evaluating the physics reasoning skills of LLMs. Further, to enable domain-specific adaptation of this benchmark, we present a pipeline to enable researchers to generate a variant of this benchmark that has been customized to the objects and attributes relevant for their application. The NEWTON repository comprises a collection of 2800 object-attribute pairs, providing the foundation for generating infinite-scale assessment templates. The NEWTON benchmark consists of 160K QA questions, curated using the NEWTON repository to investigate the physical reasoning capabilities of several mainstream language models across foundational, explicit, and implicit reasoning tasks. Through extensive empirical analysis, our results highlight the capabilities of LLMs for physical reasoning. We find that LLMs like GPT-4 demonstrate strong reasoning capabilities in scenario-based tasks but exhibit less consistency in object-attribute reasoning compared to humans (50% vs. 84%). Furthermore, the NEWTON platform demonstrates its potential for evaluating and enhancing language models, paving the way for their integration into physically grounded settings, such as robotic manipulation. Project site: https://newtonreasoning.github.io
翻訳日:2023-10-13 01:18:29 公開日:2023-10-10
# 高速モジュール型メタラーニングによるニューラルリレーショナル推論

Neural Relational Inference with Fast Modular Meta-learning ( http://arxiv.org/abs/2310.07015v1 )

ライセンス: Link先を確認
Ferran Alet, Erica Weng, Tom\'as Lozano P\'erez, Leslie Pack Kaelbling(参考訳) \textit{graph neural networks} (gnns) は、エンティティとリレーションからなる多くの動的システムにとって有効なモデルである。 ほとんどのGNNアプリケーションは単一タイプのエンティティとリレーションを前提としていますが、多くの状況では複数のタイプのインタラクションを伴います。 \textit{relational inference}は、これらの相互作用を推論し、観測データからダイナミクスを学ぶ問題である。 関係推論を \textit{modular meta-learning}問題として構成し、神経モジュールを様々な方法で構成して多くのタスクを解決するように訓練する。 このメタラーニングフレームワークは、時間不変性を暗黙的にエンコードし、相互関係を独立して推論することを可能にし、推論能力を高めます。 メタラーニングの内部ループ最適化としての推論は、データ効率が高く、直接観測しないエンティティの状態を予測することができるが、その存在が観測されたエンティティに与える影響から推測できるモデルベースアプローチへと繋がる。 グラフニューラルネットワークの大規模な探索空間に対処するため,モジュール型メタ学習アルゴリズムにおいて,内部ループをシミュレートしたアニーリング探索を高速化し,対処可能な問題の大きさを2桁に拡大する「textit{proposal function}」をメタラーニングする。

\textit{Graph neural networks} (GNNs) are effective models for many dynamical systems consisting of entities and relations. Although most GNN applications assume a single type of entity and relation, many situations involve multiple types of interactions. \textit{Relational inference} is the problem of inferring these interactions and learning the dynamics from observational data. We frame relational inference as a \textit{modular meta-learning} problem, where neural modules are trained to be composed in different ways to solve many tasks. This meta-learning framework allows us to implicitly encode time invariance and infer relations in context of one another rather than independently, which increases inference capacity. Framing inference as the inner-loop optimization of meta-learning leads to a model-based approach that is more data-efficient and capable of estimating the state of entities that we do not observe directly, but whose existence can be inferred from their effect on observed entities. To address the large search space of graph neural network compositions, we meta-learn a \textit{proposal function} that speeds up the inner-loop simulated annealing search within the modular meta-learning algorithm, providing two orders of magnitude increase in the size of problems that can be addressed.
翻訳日:2023-10-13 01:18:05 公開日:2023-10-10
# Answer Candidate Type Selection: クローズドブック質問応答のためのテキスト-テキスト言語モデルと知識グラフ

Answer Candidate Type Selection: Text-to-Text Language Model for Closed Book Question Answering Meets Knowledge Graphs ( http://arxiv.org/abs/2310.07008v1 )

ライセンス: Link先を確認
Mikhail Salnikov, Maria Lysyuk, Pavel Braslavski, Anton Razzhigaev, Valentin Malykh, Alexander Panchenko(参考訳) T5やBARTのような事前訓練されたテキスト言語モデル(LM)は、知識グラフ質問回答(KGQA)タスクにおいて有望な結果をもたらす。 しかし、モデルの能力は限られており、人気が低い問題に対して品質が低下する。 本稿では,この問題を解決するために,事前学習されたテキスト間QAシステム上での新たなアプローチを提案する。 提案手法はwikidata "instance_of" プロパティから派生した型に基づいて,生成候補のフィルタリングと再ランキングを行う。

Pre-trained Text-to-Text Language Models (LMs), such as T5 or BART yield promising results in the Knowledge Graph Question Answering (KGQA) task. However, the capacity of the models is limited and the quality decreases for questions with less popular entities. In this paper, we present a novel approach which works on top of the pre-trained Text-to-Text QA system to address this issue. Our simple yet effective method performs filtering and re-ranking of generated candidates based on their types derived from Wikidata "instance_of" property.
翻訳日:2023-10-13 01:17:41 公開日:2023-10-10
# 大型事前学習モデルを用いたゼロショットオープンボキャブラリートラッキング

Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models ( http://arxiv.org/abs/2310.06992v1 )

ライセンス: Link先を確認
Wen-Hsuan Chu, Adam W. Harley, Pavel Tokmakov, Achal Dave, Leonidas Guibas, Katerina Fragkiadaki(参考訳) 物体追跡はロボットの知覚とシーン理解の中心である。 トラッキングバイ検出は、特定のオブジェクトカテゴリのオブジェクトトラッキングにおいて、長い間支配的なパラダイムであった。 近年,大規模事前学習モデルでは,野生の2次元静止画像における物体や部品の検出・分割が有望な進歩を遂げている。 この大規模な事前訓練された静的画像モデルを、ボキャブラリなビデオトラッキングに再利用することは可能か? 本稿では,2dビデオ中の任意のカテゴリの物体を追跡・分割するモデルに,開語彙検出器,セグメンタ,高密度光フロー推定器を応用した。 Our method predicts object and part tracks with associated language descriptions in monocular videos, rebuilding the pipeline of Tractor with modern large pre-trained models for static image detection and segmentation: we detect open-vocabulary object instances and propagate their boxes from frame to frame using a flow-based motion model, refine the propagated boxes with the box regression module of the visual detector, and prompt an open-world segmenter with the refined box to segment the objects. 伝搬された箱の被写体性スコアと前後方向の光流の一貫性に基づいて対象トラックの終了を決定する。 深い特徴マッチングを用いて、オクルージョン間でオブジェクトを再識別する。 提案手法は,複数のビデオオブジェクトのセグメンテーションおよびトラッキングベンチマークにおいて高い性能を達成し,データ操作において妥当なトラックを生成可能であることを示す。 特に、我々のモデルは、オープンワールドのオブジェクト追跡とセグメンテーションのためのベンチマークであるUVOとBURSTのこれまでの最先端よりも優れています。 われわれのアプローチが、将来の研究のためのシンプルで拡張可能なフレームワークになり得ることを願っている。

Object tracking is central to robot perception and scene understanding. Tracking-by-detection has long been a dominant paradigm for object tracking of specific object categories. Recently, large-scale pre-trained models have shown promising advances in detecting and segmenting objects and parts in 2D static images in the wild. This begs the question: can we re-purpose these large-scale pre-trained static image models for open-vocabulary video tracking? In this paper, we re-purpose an open-vocabulary detector, segmenter, and dense optical flow estimator, into a model that tracks and segments objects of any category in 2D videos. Our method predicts object and part tracks with associated language descriptions in monocular videos, rebuilding the pipeline of Tractor with modern large pre-trained models for static image detection and segmentation: we detect open-vocabulary object instances and propagate their boxes from frame to frame using a flow-based motion model, refine the propagated boxes with the box regression module of the visual detector, and prompt an open-world segmenter with the refined box to segment the objects. We decide the termination of an object track based on the objectness score of the propagated boxes, as well as forward-backward optical flow consistency. We re-identify objects across occlusions using deep feature matching. We show that our model achieves strong performance on multiple established video object segmentation and tracking benchmarks, and can produce reasonable tracks in manipulation data. In particular, our model outperforms previous state-of-the-art in UVO and BURST, benchmarks for open-world object tracking and segmentation, despite never being explicitly trained for tracking. We hope that our approach can serve as a simple and extensible framework for future research.
翻訳日:2023-10-13 01:17:28 公開日:2023-10-10
# 爆発発生によるオープンソースLCMの破滅的脱獄

Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation ( http://arxiv.org/abs/2310.06987v1 )

ライセンス: Link先を確認
Yangsibo Huang, Samyak Gupta, Mengzhou Xia, Kai Li, Danqi Chen(参考訳) オープンソースの大規模言語モデル(LLM)の急速な進歩は、AI開発を著しく進歩させている。 モデルリリース前に、彼らの行動と人間の価値を一致させるために、広範囲にわたる努力がなされた。 しかし、慎重に整列したモデルでも悪意ある操作が可能であり、「ジェイルブレイク」として知られる意図しない行動につながる。 これらのジェイルブレイクは通常、特定のテキスト入力によって引き起こされ、しばしば逆プロンプトと呼ばれる。 本研究では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害する極めて単純な手法であるジェネレーションエクスプロイト攻撃を提案する。 LLaMA2, Vicuna, Falcon, MPTファミリーを含む11の言語モデルにおいて, 様々なデコードハイパーパラメータとサンプリング手法を含むさまざまな生成戦略を活用することにより, ミスアライメント率を0%から95%以上に向上させ, 計算コストを30ドル以上削減した。 最後に,攻撃時のミスアライメント率を合理的に低減できる多種多様な世代戦略を探索する効果的なアライメント手法を提案する。 今回の研究は、オープンソースllmの現在の安全性評価とアライメント手順に重大な失敗を伴い、より包括的なレッドチーム編成とより優れたアライメントを強く主張しています。 私たちのコードはhttps://github.com/Princeton-SysML/Jailbreak_LLM.comで利用可能です。

The rapid progress in open-source large language models (LLMs) is significantly advancing AI development. Extensive efforts have been made before model release to align their behavior with human values, with the primary goal of ensuring their helpfulness and harmlessness. However, even carefully aligned models can be manipulated maliciously, leading to unintended behaviors, known as "jailbreaks". These jailbreaks are typically triggered by specific text inputs, often referred to as adversarial prompts. In this work, we propose the generation exploitation attack, an extremely simple approach that disrupts model alignment by only manipulating variations of decoding methods. By exploiting different generation strategies, including varying decoding hyper-parameters and sampling methods, we increase the misalignment rate from 0% to more than 95% across 11 language models including LLaMA2, Vicuna, Falcon, and MPT families, outperforming state-of-the-art attacks with $30\times$ lower computational cost. Finally, we propose an effective alignment method that explores diverse generation strategies, which can reasonably reduce the misalignment rate under our attack. Altogether, our study underscores a major failure in current safety evaluation and alignment procedures for open-source LLMs, strongly advocating for more comprehensive red teaming and better alignment before releasing such models. Our code is available at https://github.com/Princeton-SysML/Jailbreak_LLM.
翻訳日:2023-10-13 01:16:43 公開日:2023-10-10
# メタ認知的プロンプトによる期待の違反は、大規模言語モデルにおけるマインド予測誤差の理論を減少させる

Violation of Expectation via Metacognitive Prompting Reduces Theory of Mind Prediction Error in Large Language Models ( http://arxiv.org/abs/2310.06983v1 )

ライセンス: Link先を確認
Courtland Leer, Vincent Trost, Vineeth Voruganti(参考訳) 近年の研究では、Large Language Models (LLM) が、心の理論(ToM)のタスクにおいて、魅力的な習熟度を示すことが示されている。 他者に観察不能な精神状態を誘発する能力は、人間の社会認識に不可欠であり、個人と人工知能(ais)の間の主従関係において等しく重要である。 本稿では,創発的なToMの余裕を生かして,ユーザに対するLLM予測の誤りを低減するために,VoE(Violation of expectation)として知られる発達心理学のメカニズムをいかに実装できるかを検討する。 また、AI教師の文脈にVoEを適用するために、textit{metacognitive prompting}フレームワークを導入する。 ユーザに対するLCMの期待が損なわれている場合に引き起こされた事実を保存し,検索することで,LLMは人間の学習理論に反する方法でユーザについて学習できることがわかった。 最後に,ユーザ心理学のモデル化に関連する潜在的な危険と拡張的機会について議論し,今後の調査の方向性とともにリスクを軽減する方法を提案する。

Recent research shows that Large Language Models (LLMs) exhibit a compelling level of proficiency in Theory of Mind (ToM) tasks. This ability to impute unobservable mental states to others is vital to human social cognition and may prove equally important in principal-agent relations between individual humans and Artificial Intelligences (AIs). In this paper, we explore how a mechanism studied in developmental psychology known as Violation of Expectation (VoE) can be implemented to reduce errors in LLM prediction about users by leveraging emergent ToM affordances. And we introduce a \textit{metacognitive prompting} framework to apply VoE in the context of an AI tutor. By storing and retrieving facts derived in cases where LLM expectation about the user was violated, we find that LLMs are able to learn about users in ways that echo theories of human learning. Finally, we discuss latent hazards and augmentative opportunities associated with modeling user psychology and propose ways to mitigate risk along with possible directions for future inquiry.
翻訳日:2023-10-13 01:15:31 公開日:2023-10-10
# データ蒸留はvodkaに似ている:より良い品質のためにより多くの時間を蒸留する

Data Distillation Can Be Like Vodka: Distilling More Times For Better Quality ( http://arxiv.org/abs/2310.06982v1 )

ライセンス: Link先を確認
Xuxi Chen, Yu Yang, Zhangyang Wang, Baharan Mirzasoleiman(参考訳) データセット蒸留(dataset distillation)は、大規模なデータセット上でディープネットワークをトレーニングするために必要な時間とメモリを最小化することを目的としている。 しかし、現在のデータセット蒸留技術は不足しており、元のデータのトレーニングと比較すると顕著な性能差を示している。 本研究では、蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られないと主張する。 これは、深層ネットワークのトレーニングダイナミクスがトレーニング中に大きく変化するためである。 したがって、トレーニングの異なるフェーズでトレーニングダイナミクスをキャプチャするために、複数の合成サブセットが必要である。 この問題に対処するため,プログレッシブデータセット蒸留(PDD)を提案する。 pddは、前のセットで条件付けされた複数の小さな合成イメージを合成し、追加のトレーニング時間なしでこれらのサブセットの累積結合上でモデルを訓練する。 広範な実験により,pddは既存のデータセット蒸留法の性能を最大4.3%向上できることを示した。 また,本手法は初めて,はるかに大きな合成データセットを生成することができる。

Dataset distillation aims to minimize the time and memory needed for training deep networks on large datasets, by creating a small set of synthetic images that has a similar generalization performance to that of the full dataset. However, current dataset distillation techniques fall short, showing a notable performance gap when compared to training on the original data. In this work, we are the first to argue that using just one synthetic subset for distillation will not yield optimal generalization performance. This is because the training dynamics of deep networks drastically change during the training. Hence, multiple synthetic subsets are required to capture the training dynamics at different phases of training. To address this issue, we propose Progressive Dataset Distillation (PDD). PDD synthesizes multiple small sets of synthetic images, each conditioned on the previous sets, and trains the model on the cumulative union of these subsets without requiring additional training time. Our extensive experiments show that PDD can effectively improve the performance of existing dataset distillation methods by up to 4.3%. In addition, our method for the first time enable generating considerably larger synthetic datasets.
翻訳日:2023-10-13 01:15:01 公開日:2023-10-10
# 確率フロー ODE を用いた密度推定の逆ロバスト性の検討

Investigating the Adversarial Robustness of Density Estimation Using the Probability Flow ODE ( http://arxiv.org/abs/2310.07084v1 )

ライセンス: Link先を確認
Marius Arvinte, Cory Cornelius, Jason Martin, Nageen Himayat(参考訳) 素晴らしいサンプリング機能に加えて、スコアベースの拡散モデルは、トレーニングデータ分布下でのクエリサンプルの非バイアス密度推定という形で強力な分析ツールを提供する。 本研究では,確率フロー(pf)ニューラル常微分方程式(ode)モデルを用いて,勾配に基づく最大化攻撃に対する密度推定のロバスト性や,試料の圧縮サイズをその複雑性の尺度として用いるサンプル複雑性との関係について検討する。 我々は,新しい逆積分攻撃を含む6つの勾配に基づくログ類似最大化攻撃を導入し,評価する。 実験結果から,pf odeを用いた密度推定は,高複雑度,高類似性攻撃に対して頑健であり,場合によっては,ロバストな推定者から期待されるように,逆のサンプルが意味的に有意であることが分かった。

Beyond their impressive sampling capabilities, score-based diffusion models offer a powerful analysis tool in the form of unbiased density estimation of a query sample under the training data distribution. In this work, we investigate the robustness of density estimation using the probability flow (PF) neural ordinary differential equation (ODE) model against gradient-based likelihood maximization attacks and the relation to sample complexity, where the compressed size of a sample is used as a measure of its complexity. We introduce and evaluate six gradient-based log-likelihood maximization attacks, including a novel reverse integration attack. Our experimental evaluations on CIFAR-10 show that density estimation using the PF ODE is robust against high-complexity, high-likelihood attacks, and that in some cases adversarial samples are semantically meaningful, as expected from a robust estimator.
翻訳日:2023-10-13 01:06:55 公開日:2023-10-10
# しきい値の交差:検索強化と損失重み付けによる慣用機械翻訳

Crossing the Threshold: Idiomatic Machine Translation through Retrieval Augmentation and Loss Weighting ( http://arxiv.org/abs/2310.07081v1 )

ライセンス: Link先を確認
Emmy Liu, Aditi Chaudhary, Graham Neubig(参考訳) イディオムは日常の言語では一般的であるが、その意味は部分の意味に従わないため、翻訳者にとってしばしば挑戦となる。 大幅な進歩にもかかわらず、機械翻訳システムはまだ慣用的な表現の翻訳に苦戦している。 我々は、慣用翻訳とその関連問題を簡易に解析する。 これにより、トランスフォーマーベースの機械翻訳モデルが、慣用的な翻訳をデフォルトとするティッピングポイントを明らかにする合成実験を行うことができる。 多言語リソースを拡張するために,フランス語,フィンランド語,日本語の慣用表現を含む4kの自然文のデータセットをコンパイルする。 自然慣用句の翻訳を改善するために,潜在的慣用文に対する訓練損失の戦略的増大と,検索強化モデルを用いた2つの手法を導入する。 これは、慣用文に対する強い事前訓練されたMTモデルの精度を、絶対精度で最大13%向上させるだけでなく、非慣用文に対する潜在的な利益をもたらす。

Idioms are common in everyday language, but often pose a challenge to translators because their meanings do not follow from the meanings of their parts. Despite significant advances, machine translation systems still struggle to translate idiomatic expressions. We provide a simple characterization of idiomatic translation and related issues. This allows us to conduct a synthetic experiment revealing a tipping point at which transformer-based machine translation models correctly default to idiomatic translations. To expand multilingual resources, we compile a dataset of ~4k natural sentences containing idiomatic expressions in French, Finnish, and Japanese. To improve translation of natural idioms, we introduce two straightforward yet effective techniques: the strategic upweighting of training loss on potentially idiomatic sentences, and using retrieval-augmented models. This not only improves the accuracy of a strong pretrained MT model on idiomatic sentences by up to 13% in absolute accuracy, but also holds potential benefits for non-idiomatic sentences.
翻訳日:2023-10-13 01:06:37 公開日:2023-10-10
# 有限状態復号によるllms用構文エラーフリー・一般化ツール

Syntax Error-Free and Generalizable Tool Use for LLMs via Finite-State Decoding ( http://arxiv.org/abs/2310.07075v1 )

ライセンス: Link先を確認
Kexun Zhang, Hongqiao Chen, Lei Li, William Wang(参考訳) 大規模言語モデル(llm)は、複雑な問題を解決するために外部ツールを使用する有望な能力を示している。 しかし、既存のアプローチには、追加のトレーニングなしで新しいツールに一般化しないツールデモの微調整や、ツールの数を制限するコンテキストでのツールドキュメントの提供が含まれる。 どちらのアプローチもしばしば構文上無効なツールコールを生成する。 本稿では,ツール拡張LDMのための有限状態機械誘導復号アルゴリズムであるToolDecを提案する。 ToolDecは、有効なツール名と型変換引数を保証することで、ツール拡張LDMのツール関連エラーを取り除く。 さらにToolDecでは、微調整やコンテキスト内ドキュメントを必要とせずに、名前に含まれる情報のみを使用して、効果的にツールを選択できる。 我々は、数学関数、知識グラフの関係、複雑な現実世界のRESTful APIといったツールを含む様々なタスクにおいて、複数の先行メソッドとそのツールデックを拡張したバージョンを評価した。 実験の結果,ToolDecは構文誤差をゼロに減らし,性能が大幅に向上し,性能も2倍に向上した。 また,unseenツールの一般化性能は,ベースラインよりも最大8倍優れていることを示した。

Large language models (LLMs) have shown promising capabilities in using external tools to solve complex problems. However, existing approaches either involve fine-tuning on tool demonstrations, which do not generalize to new tools without additional training, or providing tool documentation in context, limiting the number of tools. Both approaches often generate syntactically invalid tool calls. In this paper, we propose ToolDec, a finite-state machine-guided decoding algorithm for tool-augmented LLMs. ToolDec eliminates tool-related errors for any tool-augmented LLMs by ensuring valid tool names and type-conforming arguments. Furthermore, ToolDec enables LLM to effectively select tools using only the information contained in their names, with no need for fine-tuning or in-context documentation. We evaluated multiple prior methods and their ToolDec-enhanced versions on a variety of tasks involving tools like math functions, knowledge graph relations, and complex real-world RESTful APIs. Our experiments show that ToolDec reduces syntactic errors to zero, consequently achieving significantly better performance and as much as a 2x speedup. We also show that ToolDec achieves superior generalization performance on unseen tools, performing up to 8x better than the baselines.
翻訳日:2023-10-13 01:06:18 公開日:2023-10-10
# 大きな言語モデルはルールを学習できます

Large Language Models can Learn Rules ( http://arxiv.org/abs/2310.07064v1 )

ライセンス: Link先を確認
Zhaocheng Zhu, Yuan Xue, Xinyun Chen, Denny Zhou, Jian Tang, Dale Schuurmans, Hanjun Dai(参考訳) いくつかの例と中間ステップで促されると、大きな言語モデル(LLM)は様々な推論タスクにおいて印象的なパフォーマンスを示した。 しかし、LLMにおける暗黙の知識に依存する手法の推進は、暗黙の知識が誤りであったり、そのタスクと矛盾している場合、しばしば誤った答えを幻滅させる。 この問題に対処するために,LLMによる推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。 HtTは誘導段階と推論段階の2つの段階を含む。 誘導段階では、LLMはまず一連のトレーニング例に基づいてルールを生成し検証するように要求される。 規則ライブラリを形成するために、頻繁に出現し、十分な正解につながるルールが収集される。 推論段階では、LLMは学習ルールライブラリを使用して、テスト問題に答えるための推論を行うように促される。 数値推論問題と関係推論問題の両方の実験により、HtTは既存のプロンプト法を改良し、絶対精度は11~27%向上した。 学習したルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。

When prompted with a few examples and intermediate steps, large language models (LLMs) have demonstrated impressive performance in various reasoning tasks. However, prompting methods that rely on implicit knowledge in an LLM often hallucinate incorrect answers when the implicit knowledge is wrong or inconsistent with the task. To tackle this problem, we present Hypotheses-to-Theories (HtT), a framework that learns a rule library for reasoning with LLMs. HtT contains two stages, an induction stage and a deduction stage. In the induction stage, an LLM is first asked to generate and verify rules over a set of training examples. Rules that appear and lead to correct answers sufficiently often are collected to form a rule library. In the deduction stage, the LLM is then prompted to employ the learned rule library to perform reasoning to answer test questions. Experiments on both numerical reasoning and relational reasoning problems show that HtT improves existing prompting methods, with an absolute gain of 11-27% in accuracy. The learned rules are also transferable to different models and to different forms of the same problem.
翻訳日:2023-10-13 01:05:56 公開日:2023-10-10
# DKEC:電子健康記録のためのドメイン知識強化マルチラベル分類

DKEC: Domain Knowledge Enhanced Multi-Label Classification for Electronic Health Records ( http://arxiv.org/abs/2310.07059v1 )

ライセンス: Link先を確認
Xueren Ge, Ronald Dean Williams, John A. Stankovic, Homa Alemzadeh(参考訳) 医療領域におけるマルチラベルテキスト分類(MLTC)タスクは、稀なクラスが頻繁なクラスよりもトレーニングサンプルが少ない長いテールラベル分布に直面していることが多い。 以前の作品は重要な特徴を見つけるために異なるモデルアーキテクチャと階層的なラベル構造を探求してきたが、その多くは医療ガイドラインからドメイン知識を取り入れることを怠っている。 本稿では,(1)医療機関間の意味関係を捉えるために,異種グラフとドメインオントロジーを組み込んだラベル間注意機構,(2)ラベルの類似性に基づく単純かつ効果的なグループ間トレーニング手法,の2つの革新を伴い,医療診断予測のためのドメイン知識強化分類器dkecを提案する。 RAAデータセット,救急医療サービス(EMS)インシデントからの4,417件の患者ケアレポート,MIMIC-IIIデータセットからの53,898件の報告を実世界の医療データセットで評価した。 実験の結果,本手法は最先端のクラス,特にマイトショット(テール)クラスよりも優れていた。 さらに、異なる言語モデルに対するDKECの適用性について検討し、より小さな言語モデルが大規模言語モデルに匹敵する性能を達成するのに役立つことを示す。

Multi-label text classification (MLTC) tasks in the medical domain often face long-tail label distribution, where rare classes have fewer training samples than frequent classes. Although previous works have explored different model architectures and hierarchical label structures to find important features, most of them neglect to incorporate the domain knowledge from medical guidelines. In this paper, we present DKEC, Domain Knowledge Enhanced Classifier for medical diagnosis prediction with two innovations: (1) a label-wise attention mechanism that incorporates a heterogeneous graph and domain ontologies to capture the semantic relationships between medical entities, (2) a simple yet effective group-wise training method based on similarity of labels to increase samples of rare classes. We evaluate DKEC on two real-world medical datasets: the RAA dataset, a collection of 4,417 patient care reports from emergency medical services (EMS) incidents, and a subset of 53,898 reports from the MIMIC-III dataset. Experimental results show that our method outperforms the state-of-the-art, particularly for the few-shot (tail) classes. More importantly, we study the applicability of DKEC to different language models and show that DKEC can help the smaller language models achieve comparable performance to large language models.
翻訳日:2023-10-13 01:05:38 公開日:2023-10-10
# textpsg:テキスト記述からのpanoptic scene graph生成

TextPSG: Panoptic Scene Graph Generation from Textual Descriptions ( http://arxiv.org/abs/2310.07056v1 )

ライセンス: Link先を確認
Chengyang Zhao, Yikang Shen, Zhenfang Chen, Mingyu Ding, Chuang Gan(参考訳) panoptic scene graphは最近、総合的なシーン理解のために提案されている。 しかし、従来の研究は完全な教師付き学習方式を採用しており、大量のピクセル単位で高密度に注釈付けされたデータを必要とする。 この制限に対処するため,純粋テキスト記述(Caption-to-PSG)によるパノプティック・シーングラフ生成の新たな課題について検討する。 鍵となるアイデアは、Web上の大量の無料画像キャプチャーデータを活用して、パノラマシーングラフを生成することである。 問題は3つの制約で非常に難しい。 1) 前置詞はない。 2) 視覚領域とテキスト実体との明示的なリンクがなく, 3) 事前定義された概念セットはない。 そこで本研究では,4つのモジュール,すなわち領域グルーパー,エンティティグルーパー,セグメントマージ,ラベルジェネレータからなる新しいフレームワークであるTextPSGを提案する。 領域グルーパーは、まず画像画素を異なるセグメントにグループ化し、エンティティグルーパーは参照されるセグメントのテキスト記述に基づいて、視覚セグメントを言語エンティティと整列する。 これにより、セグメントマージがセグメント類似性を学習できる擬似ラベルとして機能し、ラベル生成者にオブジェクトの意味論や関係述語を学習させることで、きめ細かな構造化されたシーン理解を実現することができる。 私たちのフレームワークは有効であり、ベースラインを著しく上回り、配布外ロバスト性を強く達成しています。 我々は,設計選択の有効性を裏付ける包括的なアブレーション研究を行い,今後の方向性を強調する詳細な分析を行う。 私たちのコード、データ、結果は、プロジェクトのページで利用可能です。

Panoptic Scene Graph has recently been proposed for comprehensive scene understanding. However, previous works adopt a fully-supervised learning manner, requiring large amounts of pixel-wise densely-annotated data, which is always tedious and expensive to obtain. To address this limitation, we study a new problem of Panoptic Scene Graph Generation from Purely Textual Descriptions (Caption-to-PSG). The key idea is to leverage the large collection of free image-caption data on the Web alone to generate panoptic scene graphs. The problem is very challenging for three constraints: 1) no location priors; 2) no explicit links between visual regions and textual entities; and 3) no pre-defined concept sets. To tackle this problem, we propose a new framework TextPSG consisting of four modules, i.e., a region grouper, an entity grounder, a segment merger, and a label generator, with several novel techniques. The region grouper first groups image pixels into different segments and the entity grounder then aligns visual segments with language entities based on the textual description of the segment being referred to. The grounding results can thus serve as pseudo labels enabling the segment merger to learn the segment similarity as well as guiding the label generator to learn object semantics and relation predicates, resulting in a fine-grained structured scene understanding. Our framework is effective, significantly outperforming the baselines and achieving strong out-of-distribution robustness. We perform comprehensive ablation studies to corroborate the effectiveness of our design choices and provide an in-depth analysis to highlight future directions. Our code, data, and results are available on our project page: https://vis-www.cs.umass.edu/TextPSG.
翻訳日:2023-10-13 01:05:10 公開日:2023-10-10
# 局所ハミルトン力学のシミュレーションの単純化

Simplifying the simulation of local Hamiltonian dynamics ( http://arxiv.org/abs/2310.07054v1 )

ライセンス: Link先を確認
Ayaka Usui and Anna Sanpera and Mar\'ia Garc\'ia D\'iaz(参考訳) 局所ハミルトン系 $h_k$ は量子多体系における非自明な $k$-体相互作用を記述する。 ここでは、2つのハミルトン空間が同じヒルベルト空間上で作用する現実的制約の下で、$k$-局所ハミルトニアン(英語版)($H_{k'}$, with $k'<k$)の動的シミュラビリティに対処する。 正確なシミュレーションに関しては、同じ物理をシミュレートする$h_k$と$h_{k'}$の例を導出するための既知の方法を構築します。 また,近似シミュレーションの最も現実的な場合についても述べる。 そこで、ハミルトニアンがその内部構造に関係なく他のハミルトニアンをシミュレートできる誤差を上限にし、例えば、$(k'=2)$-局所ハミルトニアンが$H_{k}$をシミュレートするために$k>2$が$k$で増加することを証明する。 最後に、与えられた$H_k$ハミルトニアンを最大精度で、与えられた$H_k$ハミルトニアンの短時間ダイナミクスをシミュレートする$k'$局所ハミルトニアンを探索する方法を提案する。

Local Hamiltonians, $H_k$, describe non-trivial $k$-body interactions in quantum many-body systems. Here, we address the dynamical simulatability of a $k$-local Hamiltonian by a simpler one, $H_{k'}$, with $k'<k$, under the realistic constraint that both Hamiltonians act on the same Hilbert space. When it comes to exact simulation, we build upon known methods to derive examples of $H_k$ and $H_{k'}$ that simulate the same physics. We also address the most realistic case of approximate simulation. There, we upper-bound the error up to which a Hamiltonian can simulate another one, regardless of their internal structure, and prove, by means of an example, that the accuracy of a $(k'=2)$-local Hamiltonian to simulate $H_{k}$ with $k>2$ increases with $k$. Finally, we propose a method to search for the $k'$-local Hamiltonian that simulates, with the highest possible precision, the short time dynamics of a given $H_k$ Hamiltonian.
翻訳日:2023-10-13 01:04:40 公開日:2023-10-10
# 利益主導型チャーン防止への予測・最適化アプローチ

A predict-and-optimize approach to profit-driven churn prevention ( http://arxiv.org/abs/2310.07047v1 )

ライセンス: Link先を確認
Nuria G\'omez-Vargas, Sebasti\'an Maldonado, Carla Vairetti(参考訳) 本稿では,利益主導型チャーン防止のための新しい予測最適化手法を提案する。 我々は,顧客をターゲットとした保留キャンペーンの課題を,後悔の最小化問題として捉えた。 主な目的は、個々の顧客寿命値(CLV)を活用して、最も価値のある顧客だけがターゲットであることを保証することである。 対照的に、多くの利益主導戦略は平均的なclvを考慮しながらチャーン確率に焦点を当てている。 これはしばしば、データ集約による重要な情報損失をもたらす。 提案モデルは予測最適化(pno)フレームワークのガイドラインに適合し,確率勾配降下法を用いて効率的に解くことができる。 12のチャーン予測データセットの結果は、平均利益の点で他の確立した戦略と比較して最高の平均パフォーマンスを達成する、我々のアプローチの有効性を強調するものです。

In this paper, we introduce a novel predict-and-optimize method for profit-driven churn prevention. We frame the task of targeting customers for a retention campaign as a regret minimization problem. The main objective is to leverage individual customer lifetime values (CLVs) to ensure that only the most valuable customers are targeted. In contrast, many profit-driven strategies focus on churn probabilities while considering average CLVs. This often results in significant information loss due to data aggregation. Our proposed model aligns with the guidelines of Predict-and-Optimize (PnO) frameworks and can be efficiently solved using stochastic gradient descent methods. Results from 12 churn prediction datasets underscore the effectiveness of our approach, which achieves the best average performance compared to other well-established strategies in terms of average profit.
翻訳日:2023-10-13 01:04:14 公開日:2023-10-10
# 健康システムスケールにおける計算病理 --30億画像からの自己教師付き基礎モデル-

Computational Pathology at Health System Scale -- Self-Supervised Foundation Models from Three Billion Images ( http://arxiv.org/abs/2310.07033v1 )

ライセンス: Link先を確認
Gabriele Campanella, Ricky Kwan, Eugene Fluder, Jennifer Zeng, Aryeh Stock, Brandon Veremis, Alexandros D. Polydorides, Cyrus Hedvat, Adam Schoenfeld, Chad Vanderbilt, Patricia Kovatch, Carlos Cordon-Cardo, Thomas J. Fuchs(参考訳) 近年の自己教師付き学習のブレークスルーにより、多くのダウンストリームタスクに一般化可能な視覚的基礎モデルのトレーニングに、大きなラベルのないデータセットが利用可能になった。 この訓練パラダイムはアノテーションが不足している医学領域に適しているが、医学領域、特に病理学における大規模事前訓練は、広く研究されていない。 病理学における自己教師型学習におけるこれまでの研究は、より小さなデータセットを事前トレーニングと下流のパフォーマンス評価の両方に活用してきた。 本研究の目的は,大規模臨床病理データセットの下流性能を事前学習し,評価することにより,最大規模の学術基礎モデルをトレーニングし,最も顕著な自己教師付き学習アルゴリズムをベンチマークすることである。 423万枚以上の顕微鏡スライドから30億枚以上の画像からなる、これまでで最大の病理データセットを収集しました。 マスク付きオートエンコーダ(MAE)とDINOアルゴリズムを用いて,視覚変換器モデルの事前学習を行った。 乳がん検出,炎症性腸疾患検出,乳がんエストロゲン受容体予測,肺腺癌EGFR変異予測,肺癌免疫療法反応予測の3施設および2施設で実施した6つの臨床関連課題について評価を行った。 以上の結果から,病理データの事前トレーニングは,自然画像での事前トレーニングに比べて下流性能に有益であることが示された。 さらに、DINOアルゴリズムはテストされた全てのタスクに対してより良い一般化性能を達成した。 提案する結果は,計算病理学研究における位相変化を示し,10億画像規模での大規模並列事前学習に基づく,より高性能なモデルの新たな時代への道を開くものである。

Recent breakthroughs in self-supervised learning have enabled the use of large unlabeled datasets to train visual foundation models that can generalize to a variety of downstream tasks. While this training paradigm is well suited for the medical domain where annotations are scarce, large-scale pre-training in the medical domain, and in particular pathology, has not been extensively studied. Previous work in self-supervised learning in pathology has leveraged smaller datasets for both pre-training and evaluating downstream performance. The aim of this project is to train the largest academic foundation model and benchmark the most prominent self-supervised learning algorithms by pre-training and evaluating downstream performance on large clinical pathology datasets. We collected the largest pathology dataset to date, consisting of over 3 billion images from over 423 thousand microscopy slides. We compared pre-training of visual transformer models using the masked autoencoder (MAE) and DINO algorithms. We evaluated performance on six clinically relevant tasks from three anatomic sites and two institutions: breast cancer detection, inflammatory bowel disease detection, breast cancer estrogen receptor prediction, lung adenocarcinoma EGFR mutation prediction, and lung cancer immunotherapy response prediction. Our results demonstrate that pre-training on pathology data is beneficial for downstream performance compared to pre-training on natural images. Additionally, the DINO algorithm achieved better generalization performance across all tasks tested. The presented results signify a phase change in computational pathology research, paving the way into a new era of more performant models based on large-scale, parallel pre-training at the billion-image scale.
翻訳日:2023-10-13 01:04:01 公開日:2023-10-10
# パーソナライズドストーリー評価の学習

Learning Personalized Story Evaluation ( http://arxiv.org/abs/2310.03304v3 )

ライセンス: Link先を確認
Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei Li, Yuandong Tian(参考訳) 大規模言語モデル(LLM)は,(1)データ汚染,(2)多次元評価基準,(3)レビュアーの個人的嗜好から生じる主観性などの理由から,オープンエンドテキスト生成の性能を評価することは容易ではない。 このような問題に対処するため,我々は汚染のないオープンエンド世代アセスメントにおいてパーソナライズをモデル化することを提案する。 既存のデータセットを適切な匿名化と新しいパーソナライズラベルで再提案することにより,mpst と per-doc の2つの新しいデータセットをパーソナライズストーリー評価用に作成する。 さらに,レビュー者の好みを推測するパーソナライズドストーリー評価モデルを開発し,パーソナライズドストーリー評価を提供する。 特に、あるレビュアーの模範的なレビューがいくつかあることを踏まえると、PERSEは、新しいテキスト入力に対するレビュアーの詳細なレビューまたはいくつかの側面(興味や驚きなど)の詳細な比較を予測している。 実験結果から, PERSEはGPT-4よりも15.8%, ストーリーレーティングのKendall相関は13.7%, ペア選択予測精度は13.7%向上した。 データセットとコードの両方がリリースされる。

While large language models (LLMs) have shown impressive results for more objective tasks such as QA and retrieval, it remains nontrivial to evaluate their performance on open-ended text generation for reasons including (1) data contamination; (2) multi-dimensional evaluation criteria; and (3) subjectiveness stemming from reviewers' personal preferences. To address such issues, we propose to model personalization in an uncontaminated open-ended generation assessment. We create two new datasets Per-MPST and Per-DOC for personalized story evaluation, by re-purposing existing datasets with proper anonymization and new personalized labels. We further develop a personalized story evaluation model PERSE to infer reviewer preferences and provide a personalized evaluation. Specifically, given a few exemplary reviews from a particular reviewer, PERSE predicts either a detailed review or fine-grained comparison in several aspects (such as interestingness and surprise) for that reviewer on a new text input. Experimental results show that PERSE outperforms GPT-4 by 15.8% on Kendall correlation of story ratings, and by 13.7% on pairwise preference prediction accuracy. Both datasets and code will be released.
翻訳日:2023-10-12 19:32:07 公開日:2023-10-10
# エンドツーエンドチェス認識

End-to-End Chess Recognition ( http://arxiv.org/abs/2310.04086v2 )

ライセンス: Link先を確認
Athanasios Masouris, Jan van Gemert(参考訳) チェス認識とは、チェス盤の画像からチェスの駒を識別するタスクである。 チェスボード検出,正方偏位,ピース分類のパイプラインによるこの問題の解決を目的とした主要なアプローチとは対照的に,我々はディープラーニングモデルのパワーに依存し,このパイプラインを回避し,画像全体からチェスボードの構成を直接予測する2つの新しい手法を導入する。 これにより、逐次的アプローチの固有のエラー蓄積や中間アノテーションの必要性を回避することができる。 さらに,チェス認識用に設計されたチェス認識データセットであるチェス認識データセット(chessred)についても紹介する。 このデータセットは、角度が限られている既存の合成データセットとは対照的に、スマートフォンカメラを使って様々な角度から捉えたチェスの生画像の多様なコレクションで構成されている。 このデータセットを使用して、モデルをトレーニングし、そのパフォーマンスを現在の最先端のモデルと比較します。 この新しいベンチマークデータセットにおけるチェス認識のアプローチは、関連するアプローチよりも優れており、ボード認識精度は15.26%(現在の技術より約7倍優れている)です。

Chess recognition refers to the task of identifying the chess pieces configuration from a chessboard image. Contrary to the predominant approach that aims to solve this task through the pipeline of chessboard detection, square localization, and piece classification, we rely on the power of deep learning models and introduce two novel methodologies to circumvent this pipeline and directly predict the chessboard configuration from the entire image. In doing so, we avoid the inherent error accumulation of the sequential approaches and the need for intermediate annotations. Furthermore, we introduce a new dataset, Chess Recognition Dataset (ChessReD), specifically designed for chess recognition that consists of 10,800 images and their corresponding annotations. In contrast to existing synthetic datasets with limited angles, this dataset comprises a diverse collection of real images of chess formations captured from various angles using smartphone cameras; a sensor choice made to ensure real-world applicability. We use this dataset to both train our model and evaluate and compare its performance to that of the current state-of-the-art. Our approach in chess recognition on this new benchmark dataset outperforms related approaches, achieving a board recognition accuracy of 15.26% ($\approx$7x better than the current state-of-the-art).
翻訳日:2023-10-12 18:53:34 公開日:2023-10-10
# 2次元畳み込みによる時系列データのマルチタスク学習

Multitask Learning for Time Series Data with 2D Convolution ( http://arxiv.org/abs/2310.03925v2 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Xin Dai, Yan Zheng, Junpeng Wang, Huiyuan Chen, Yujie Fan, Audrey Der, Zhongfang Zhuang, Liang Wang, Wei Zhang(参考訳) マルチタスク学習(mtl)は、関連する一連のタスクを同時に処理できる統一モデルの開発を目的としている。 複数のタスクにまたがるモデルを最適化することで、MTLは一般に、一般化可能性の点で非MTLモデルを上回る。 mtlはコンピュータビジョン、自然言語処理、レコメンデーションシステムなどの様々な領域で広く研究されてきたが、時系列データへの応用は注目されていない。 本稿では,MTLの時系列分類(TSC)問題への適用について検討する。 しかし,最先端の1次元畳み込み型tscモデルとmtlを統合すると,tscモデルの性能が低下する。 1次元畳み込みに基づくモデルと動的時間ゆがみ(dtw)距離関数を比較した結果, 1次元畳み込み層の表現力の制限による影響がみられた。 この課題を克服するために,モデルの表現性を向上する2次元畳み込みモデルの設計を提案する。 この利点を生かして,提案手法は,ucrアーカイブと産業トランザクションtscデータセットの競合手法よりも優れている。

Multitask learning (MTL) aims to develop a unified model that can handle a set of closely related tasks simultaneously. By optimizing the model across multiple tasks, MTL generally surpasses its non-MTL counterparts in terms of generalizability. Although MTL has been extensively researched in various domains such as computer vision, natural language processing, and recommendation systems, its application to time series data has received limited attention. In this paper, we investigate the application of MTL to the time series classification (TSC) problem. However, when we integrate the state-of-the-art 1D convolution-based TSC model with MTL, the performance of the TSC model actually deteriorates. By comparing the 1D convolution-based models with the Dynamic Time Warping (DTW) distance function, it appears that the underwhelming results stem from the limited expressive power of the 1D convolutional layers. To overcome this challenge, we propose a novel design for a 2D convolution-based model that enhances the model's expressiveness. Leveraging this advantage, our proposed method outperforms competing approaches on both the UCR Archive and an industrial transaction TSC dataset.
翻訳日:2023-10-12 18:51:39 公開日:2023-10-10
# 魔法の言葉って何? LLMプロンプティングの制御理論

What's the Magic Word? A Control Theory of LLM Prompting ( http://arxiv.org/abs/2310.04444v2 )

ライセンス: Link先を確認
Aman Bhargava, Cameron Witkowski, Manav Shah, Matt Thomson(参考訳) プロンプト工学はLLMの展開において効果的で重要であるが、数学的には理解されていない。 そこで我々は, LLMの出力分布を制御変数として, LLMの最適制御問題としてプロンプト工学を定式化する。 このフレームワークの中で、簡単な質問をする: トークンのシーケンスが与えられたら、常に、最終トークンを正確に予測するために LLM を制御できるプロンプトが存在するだろうか? LLMが正しい答えを出力する原因となるプロンプトを事前に予測するため、このような最適なプロンプトをマジックワードと呼ぶ。 魔法の言葉があれば、見つけられるだろうか? もしそうなら、それらの特性は何でしょう? 重み行列の特異値の関数としての可制御性に対する有界性を証明する自己アテンションヘッドの可制御性の解析的解析を行う。 我々は制御理論からインスピレーションを得て、LLMステアビリティを特徴づけるための$k-\epsilon$ controllabilityという計量を提案する。 5000 wikitextの因果的言語モデリングタスクで、falcon-7b、llama-7b、falcon-40bを含む多数の大きな言語モデルのパネルで、$k-\epsilon$の制御可能性を計算する。 注目すべきは、各モデルで調査されたWikiTextインスタンスの97%以上に対して、10トークン以下のマジックワードが存在することだ。

Prompt engineering is effective and important in the deployment of LLMs but is poorly understood mathematically. Here, we formalize prompt engineering as an optimal control problem on LLMs -- where the prompt is considered a control variable for modulating the output distribution of the LLM. Within this framework, we ask a simple question: given a sequence of tokens, does there always exist a prompt we can prepend that will steer the LLM toward accurately predicting the final token? We call such an optimal prompt the magic word since prepending the prompt causes the LLM to output the correct answer. If magic words exist, can we find them? If so, what are their properties? We offer analytic analysis on the controllability of the self-attention head where we prove a bound on controllability as a function of the singular values of its weight matrices. We take inspiration from control theory to propose a metric called $k-\epsilon$ controllability to characterize LLM steerability. We compute the $k-\epsilon$ controllability of a panel of large language models, including Falcon-7b, Llama-7b, and Falcon-40b on 5000 WikiText causal language modeling tasks. Remarkably, we find that magic words of 10 tokens or less exist for over 97% of WikiText instances surveyed for each model.
翻訳日:2023-10-12 18:41:00 公開日:2023-10-10
# 制約付きRLHFによる逆モデル過最適化

Confronting Reward Model Overoptimization with Constrained RLHF ( http://arxiv.org/abs/2310.04373v2 )

ライセンス: Link先を確認
Ted Moskovitz, Aaditya K. Singh, DJ Strouse, Tuomas Sandholm, Ruslan Salakhutdinov, Anca D. Dragan, Stephen McAleer(参考訳) 大規模な言語モデルは、通常、人間のフィードバックに適合する$\textit{reward models}$ (rms)を最適化することで、人間の好みに合致する。 しかし、人間の好みは多面的であり、言語品質の異なる側面を捉えた、より単純な報酬モデルの構成から報酬を得るのが一般的である。 それらを組み合わせる際にこれらのコンポーネントRMを適切に重み付けすることは困難である。 この難しさを加味すると、任意のrmは人格評価のプロキシであるため、このプロセスは$\textit{overoptimization}$に対して脆弱である。 本稿では, 複合rmにおける過最適化に関する最初の研究を行い, 構成rm間の相関がこれらの点の位置に有意な影響を及ぼすことを示した。 次に,エージェントが各RMの有用性閾値を超えるのを防ぐ手段として,制約付き強化学習を用いてこの問題を解決する手法を提案する。 ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。 その結果、各rmは効果的なプロキシである範囲内にとどまり、評価性能が向上する。 最後に、勾配のない最適化を用いた適応手法を導入し、1回の実行中にこれらの点を同定し、最適化する。

Large language models are typically aligned with human preferences by optimizing $\textit{reward models}$ (RMs) fitted to human feedback. However, human preferences are multi-faceted, and it is increasingly common to derive reward from a composition of simpler reward models which each capture a different aspect of language quality. This itself presents a challenge, as it is difficult to appropriately weight these component RMs when combining them. Compounding this difficulty, because any RM is only a proxy for human evaluation, this process is vulnerable to $\textit{overoptimization}$, wherein past a certain point, accumulating higher reward is associated with worse human ratings. In this paper, we perform, to our knowledge, the first study on overoptimization in composite RMs, showing that correlation between component RMs has a significant effect on the locations of these points. We then introduce an approach to solve this issue using constrained reinforcement learning as a means of preventing the agent from exceeding each RM's threshold of usefulness. Our method addresses the problem of weighting component RMs by learning dynamic weights, naturally expressed by Lagrange multipliers. As a result, each RM stays within the range at which it is an effective proxy, improving evaluation performance. Finally, we introduce an adaptive method using gradient-free optimization to identify and optimize towards these points during a single run.
翻訳日:2023-10-12 18:40:35 公開日:2023-10-10
# ベンチマークバイオメディカルテキスト処理課題における大規模言語モデルの総合的評価

A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks ( http://arxiv.org/abs/2310.04270v2 )

ライセンス: Link先を確認
Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang(参考訳) 近年、大規模言語モデル(llm)は、幅広いタスクを解決する素晴らしい能力を示している。 しかし, 様々な課題にまたがって成功を収めたにもかかわらず, 生物医学分野での能力についてはまだ研究されていない。 本研究の目的は,バイオメディカル・タスクのベンチマーク上でのLCMの性能を評価することである。 そこで本研究では,26データセットにまたがる6種類の生物医学的タスクにおいて,4つのLLMを包括的に評価する。 我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。 興味深いことに、より少ないトレーニングセットを持つバイオメディカルデータセットでは、ゼロショットLLMは現在の最先端の微調整バイオメディカルモデルよりも優れています。 このことは、大きなテキストコーパスで事前学習を行うことによって、LLMは生物医学領域においてもかなり専門化されていることを示唆している。 また、1つのLLMが全てのタスクで他のLLMを上回り、異なるLLMのパフォーマンスがタスクによって異なる可能性があることもわかった。 大規模なトレーニングセットで微調整されたバイオメディカルモデルと比較すると,その性能はいまだに劣っているが,本研究の結果から,LLMは大量の注釈データを持たない様々なバイオメディカルタスクに有用なツールである可能性が示唆された。

Recently, Large Language Models (LLM) have demonstrated impressive capability to solve a wide range of tasks. However, despite their success across various tasks, no prior work has investigated their capability in the biomedical domain yet. To this end, this paper aims to evaluate the performance of LLMs on benchmark biomedical tasks. For this purpose, we conduct a comprehensive evaluation of 4 popular LLMs in 6 diverse biomedical tasks across 26 datasets. To the best of our knowledge, this is the first work that conducts an extensive evaluation and comparison of various LLMs in the biomedical domain. Interestingly, we find based on our evaluation that in biomedical datasets that have smaller training sets, zero-shot LLMs even outperform the current state-of-the-art fine-tuned biomedical models. This suggests that pretraining on large text corpora makes LLMs quite specialized even in the biomedical domain. We also find that not a single LLM can outperform other LLMs in all tasks, with the performance of different LLMs may vary depending on the task. While their performance is still quite poor in comparison to the biomedical models that were fine-tuned on large training sets, our findings demonstrate that LLMs have the potential to be a valuable tool for various biomedical tasks that lack large annotated data.
翻訳日:2023-10-12 18:39:11 公開日:2023-10-10
# オートサーベイチャレンジ

Auto-survey Challenge ( http://arxiv.org/abs/2310.04480v2 )

ライセンス: Link先を確認
Thanh Gia Hieu Khuong (TAU, LISN), Benedictus Kent Rachmat (TAU, LISN)(参考訳) 本稿では,科学,人文科学,教育,法学など幅広い分野にまたがる,大規模言語モデル(LLM)の自律的な構築と批判のための能力を評価するための新しいプラットフォームを提案する。 このフレームワークの中で、aiシステムは従来の学術雑誌に似たピアレビューのメカニズムをシミュレートし、人間のオーガナイザーが編集の監督能力を提供する。 このフレームワークの中で、automl conference 2023のコンペティションを開催しました。 入場者は、指定したプロンプトから記事の執筆に適したスタンドアローンモデルを提示し、その後評価する。 評価基準には、明確さ、参照適性、説明責任、コンテンツの実体的価値が含まれる。 本稿では,実装ベースラインの提出と評価方法を含むコンペティションの設計について述べる。

We present a novel platform for evaluating the capability of Large Language Models (LLMs) to autonomously compose and critique survey papers spanning a vast array of disciplines including sciences, humanities, education, and law. Within this framework, AI systems undertake a simulated peer-review mechanism akin to traditional scholarly journals, with human organizers serving in an editorial oversight capacity. Within this framework, we organized a competition for the AutoML conference 2023. Entrants are tasked with presenting stand-alone models adept at authoring articles from designated prompts and subsequently appraising them. Assessment criteria include clarity, reference appropriateness, accountability, and the substantive value of the content. This paper presents the design of the competition, including the implementation baseline submissions and methods of evaluation.
翻訳日:2023-10-12 18:20:19 公開日:2023-10-10
# オートサーベイチャレンジ

Auto-survey Challenge ( http://arxiv.org/abs/2310.04480v1 )

ライセンス: Link先を確認
Thanh Gia Hieu Khuong (TAU, LISN), Benedictus Kent Rachmat (TAU, LISN)(参考訳) 本稿では,科学,人文科学,教育,法学など幅広い分野にまたがる,大規模言語モデル(LLM)の自律的な構築と批判のための能力を評価するための新しいプラットフォームを提案する。 このフレームワークの中で、aiシステムは従来の学術雑誌に似たピアレビューのメカニズムをシミュレートし、人間のオーガナイザーが編集の監督能力を提供する。 このフレームワークの中で、automl conference 2023のコンペティションを開催しました。 入場者は、指定したプロンプトから記事の執筆に適したスタンドアローンモデルを提示し、その後評価する。 評価基準には、明確さ、参照適性、説明責任、コンテンツの実体的価値が含まれる。 本稿では,実装ベースラインの提出と評価方法を含むコンペティションの設計について述べる。

We present a novel platform for evaluating the capability of Large Language Models (LLMs) to autonomously compose and critique survey papers spanning a vast array of disciplines including sciences, humanities, education, and law. Within this framework, AI systems undertake a simulated peer-review mechanism akin to traditional scholarly journals, with human organizers serving in an editorial oversight capacity. Within this framework, we organized a competition for the AutoML conference 2023. Entrants are tasked with presenting stand-alone models adept at authoring articles from designated prompts and subsequently appraising them. Assessment criteria include clarity, reference appropriateness, accountability, and the substantive value of the content. This paper presents the design of the competition, including the implementation baseline submissions and methods of evaluation.
翻訳日:2023-10-12 18:20:06 公開日:2023-10-10
# reverse chain: llmsがマルチapiプランニングをマスタするジェネリックルール

Reverse Chain: A Generic-Rule for LLMs to Master Multi-API Planning ( http://arxiv.org/abs/2310.04474v2 )

ライセンス: Link先を確認
Yinger Zhang, Hui Cai, Yicheng Chen, Rui Sun, Jing Zheng(参考訳) 大きな言語モデルで関数呼び出し(apiとして知られる)を実装することで、llmのパフォーマンスが大幅に向上する一方で、関数呼び出しは、特に微調整のないコンテキスト学習設定において、異なるapi間の複雑な関係のため、依然として困難なタスクである。 本稿では,プロンプトのみを使用した外部api使用能力を持つllmに,リバースチェーン(reverse chain)という,シンプルかつ制御可能なターゲット駆動アプローチを提案する。 ほとんどのオープンソース LLM はツール使用やツールプランの機能に制限があるため、Reverse Chain の LLM は API の選択や引数の補完といった単純なタスクの実装にのみ使用される。 この一般的なルールでは、LLMを通して与えられたタスクを処理するための最終的なAPIを選択した後、まずLLMにユーザクエリとコンテキストから必要な引数を埋めるように要求する。 ユーザを尋ねる前に、API記述に基づいてLLMが別のAPIを選択することができる。 このプロセスは、あるタスクが完了するまで続く。 広範な数値実験は、複数の関数呼び出しを実装する際のリバースチェーンの素晴らしい能力を示している。 興味深いことに、実験では既存のLLM(例えばChatGPT)のツール使用能力がReverse Chainを通じて大幅に改善できることも明らかにした。

While enabling large language models to implement function calling (known as APIs) can greatly enhance the performance of LLMs, function calling is still a challenging task due to the complicated relations between different APIs, especially in a context-learning setting without fine-tuning. This paper proposes a simple yet controllable target-driven approach called Reverse Chain to empower LLMs with capabilities to use external APIs with only prompts. Given that most open-source LLMs have limited tool-use or tool-plan capabilities, LLMs in Reverse Chain are only employed to implement simple tasks, e.g., API selection and argument completion, and a generic rule is employed to implement a controllable multiple functions calling. In this generic rule, after selecting a final API to handle a given task via LLMs, we first ask LLMs to fill the required arguments from user query and context. Some missing arguments could be further completed by letting LLMs select another API based on API description before asking user. This process continues until a given task is completed. Extensive numerical experiments indicate an impressive capability of Reverse Chain on implementing multiple function calling. Interestingly enough, the experiments also reveal that tool-use capabilities of the existing LLMs, e.g., ChatGPT, can be greatly improved via Reverse Chain.
翻訳日:2023-10-12 18:18:54 公開日:2023-10-10
# reverse chain: llmsがマルチapiプランニングをマスタするジェネリックルール

Reverse Chain: A Generic-Rule for LLMs to Master Multi-API Planning ( http://arxiv.org/abs/2310.04474v1 )

ライセンス: Link先を確認
Yinger Zhang, Hui Cai, Yicheng Chen, Rui Sun, Jing Zheng(参考訳) 大きな言語モデルで関数呼び出し(apiとして知られる)を実装することで、llmのパフォーマンスが大幅に向上する一方で、関数呼び出しは、特に微調整のないコンテキスト学習設定において、異なるapi間の複雑な関係のため、依然として困難なタスクである。 本稿では,プロンプトのみを使用した外部api使用能力を持つllmに,リバースチェーン(reverse chain)という,シンプルかつ制御可能なターゲット駆動アプローチを提案する。 ほとんどのオープンソース LLM はツール使用やツールプランの機能に制限があるため、Reverse Chain の LLM は API の選択や引数の補完といった単純なタスクの実装にのみ使用される。 この一般的なルールでは、LLMを通して与えられたタスクを処理するための最終的なAPIを選択した後、まずLLMにユーザクエリとコンテキストから必要な引数を埋めるように要求する。 ユーザを尋ねる前に、API記述に基づいてLLMが別のAPIを選択することができる。 このプロセスは、あるタスクが完了するまで続く。 広範な数値実験は、複数の関数呼び出しを実装する際のリバースチェーンの素晴らしい能力を示している。 興味深いことに、実験では既存のLLM(例えばChatGPT)のツール使用能力がReverse Chainを通じて大幅に改善できることも明らかにした。

While enabling large language models to implement function calling (known as APIs) can greatly enhance the performance of LLMs, function calling is still a challenging task due to the complicated relations between different APIs, especially in a context-learning setting without fine-tuning. This paper proposes a simple yet controllable target-driven approach called Reverse Chain to empower LLMs with capabilities to use external APIs with only prompts. Given that most open-source LLMs have limited tool-use or tool-plan capabilities, LLMs in Reverse Chain are only employed to implement simple tasks, e.g., API selection and argument completion, and a generic rule is employed to implement a controllable multiple functions calling. In this generic rule, after selecting a final API to handle a given task via LLMs, we first ask LLMs to fill the required arguments from user query and context. Some missing arguments could be further completed by letting LLMs select another API based on API description before asking user. This process continues until a given task is completed. Extensive numerical experiments indicate an impressive capability of Reverse Chain on implementing multiple function calling. Interestingly enough, the experiments also reveal that tool-use capabilities of the existing LLMs, e.g., ChatGPT, can be greatly improved via Reverse Chain.
翻訳日:2023-10-12 18:18:33 公開日:2023-10-10
# Ada-Instruct:複雑な推論のためのインストラクションジェネレータの適応

Ada-Instruct: Adapting Instruction Generators for Complex Reasoning ( http://arxiv.org/abs/2310.04484v2 )

ライセンス: Link先を確認
Wanyun Cui, Qianle Wang(参考訳) 大規模言語モデル(LLM)による下流タスクのための多種多様な洗練された命令を生成することは、その効果を推し進める上で重要である。 現在のアプローチでは、命令生成にコンテキスト内プロンプトを用いることで、クローズドソースのLLMを活用している。 しかし,本稿では,コード補完のようなタスクに対して,コンテクスト内プロンプトが$\ge 100$の複雑な命令を生成できないことがわかった。 そこで本研究では,オープンソースのllmを微調整した適応型命令生成器ada-instructを提案する。 我々の中心的な発見は、単純な10個のサンプルで微調整されたオープンソース LLM が複雑な推論タスクの分散一貫性を維持するための長い命令を生成することを示している。 我々は ada-instruct の有効性をコード補完,数学的推論,コモンセンス推論など,さまざまなアプリケーションで実証的に検証した。 その結果、ada-instructの優位性を強調し、基本モデル、現在の自己破壊メソッド、その他の最先端モデルに対する改善を実証した。

Generating diverse and sophisticated instructions for downstream tasks by Large Language Models (LLMs) is pivotal for advancing the effect. Current approaches leverage closed-source LLMs, employing in-context prompting for instruction generation. However, in this paper, we found that in-context prompting cannot generate complex instructions with length $\ge 100$ for tasks like code completion. To solve this problem, we introduce Ada-Instruct, an adaptive instruction generator developed by fine-tuning open-source LLMs. Our pivotal finding illustrates that fine-tuning open-source LLMs with a mere ten samples generates long instructions that maintain distributional consistency for complex reasoning tasks. We empirically validated Ada-Instruct's efficacy across different applications, including code completion, mathematical reasoning, and commonsense reasoning. The results underscore Ada-Instruct's superiority, evidencing its improvements over its base models, current self-instruct methods, and other state-of-the-art models.
翻訳日:2023-10-12 18:10:18 公開日:2023-10-10
# Ada-Instruct:複雑な推論のためのインストラクションジェネレータの適応

Ada-Instruct: Adapting Instruction Generators for Complex Reasoning ( http://arxiv.org/abs/2310.04484v1 )

ライセンス: Link先を確認
Wanyun Cui, Qianle Wang(参考訳) 大規模言語モデル(LLM)による下流タスクのための多種多様な洗練された命令を生成することは、その効果を推し進める上で重要である。 現在のアプローチでは、命令生成にコンテキスト内プロンプトを用いることで、クローズドソースのLLMを活用している。 しかし,本稿では,コード補完のようなタスクに対して,コンテクスト内プロンプトが$\ge 100$の複雑な命令を生成できないことがわかった。 そこで本研究では,オープンソースのllmを微調整した適応型命令生成器ada-instructを提案する。 我々の中心的な発見は、単純な10個のサンプルで微調整されたオープンソース LLM が複雑な推論タスクの分散一貫性を維持するための長い命令を生成することを示している。 我々は ada-instruct の有効性をコード補完,数学的推論,コモンセンス推論など,さまざまなアプリケーションで実証的に検証した。 その結果、ada-instructの優位性を強調し、基本モデル、現在の自己破壊メソッド、その他の最先端モデルに対する改善を実証した。

Generating diverse and sophisticated instructions for downstream tasks by Large Language Models (LLMs) is pivotal for advancing the effect. Current approaches leverage closed-source LLMs, employing in-context prompting for instruction generation. However, in this paper, we found that in-context prompting cannot generate complex instructions with length $\ge 100$ for tasks like code completion. To solve this problem, we introduce Ada-Instruct, an adaptive instruction generator developed by fine-tuning open-source LLMs. Our pivotal finding illustrates that fine-tuning open-source LLMs with a mere ten samples generates long instructions that maintain distributional consistency for complex reasoning tasks. We empirically validated Ada-Instruct's efficacy across different applications, including code completion, mathematical reasoning, and commonsense reasoning. The results underscore Ada-Instruct's superiority, evidencing its improvements over its base models, current self-instruct methods, and other state-of-the-art models.
翻訳日:2023-10-12 18:10:02 公開日:2023-10-10
# 回路QED実験における測定パワーが状態の判別とダイナミクスに及ぼす影響

Effects of the measurement power on states discrimination and dynamics in a circuit-QED experiment ( http://arxiv.org/abs/2310.04556v2 )

ライセンス: Link先を確認
L. Tosi, I. Lobato, M. F. Goffman, C. Metzger, C. Urbina, and H. Pothier(参考訳) 超伝導弱リンクにおける<matter-like'部分のAndreevレベルに対応する回路QED実験において,キャビティを大きな光子数で駆動する効果について検討した。 弱リンクの3つの多体状態は、アンドレエフレベルを0、1、2の準粒子で占有するのに対応し、異なるキャビティ周波数シフトをもたらす。 空洞の結合から弱リンクへの非線形性が状態識別と光子数校正にどのように影響するかを示す。 どちらの効果も、分散限界を超えて駆動システムの進化を扱う必要がある。 さらに, 回路状態(量子とパリティジャンプ)間の遷移速度がマイクロ波パワーに与える影響を観察し, キャビティによるAndreev状態の'dressing'を考慮した理論との比較を行った。

We explore the effects of driving a cavity at a large photon number in a circuit-QED experiment where the ``matter-like'' part corresponds to an unique Andreev level in a superconducting weak link. The three many-body states of the weak link, corresponding to the occupation of the Andreev level by 0, 1 or 2 quasiparticles, lead to different cavity frequency shifts. We show how the non-linearity inherited by the cavity from its coupling to the weak link affects the state discrimination and the photon number calibration. Both effects require treating the evolution of the driven system beyond the dispersive limit. In addition, we observe how transition rates between the circuit states (quantum and parity jumps) are affected by the microwave power, and compare the measurements with a theory accounting for the ``dressing'' of the Andreev states by the cavity.
翻訳日:2023-10-12 17:52:07 公開日:2023-10-10
# 回路QED実験における測定パワーが状態の判別とダイナミクスに及ぼす影響

Effects of the measurement power on states discrimination and dynamics in a circuit-QED experiment ( http://arxiv.org/abs/2310.04556v1 )

ライセンス: Link先を確認
L. Tosi, I. Lobato, M. F. Goffman, C. Metzger, C. Urbina, and H. Pothier(参考訳) 超伝導弱リンクにおける<matter-like'部分のAndreevレベルに対応する回路QED実験において,キャビティを大きな光子数で駆動する効果について検討した。 弱リンクの3つの多体状態は、アンドレエフレベルを0、1、2の準粒子で占有するのに対応し、異なるキャビティ周波数シフトをもたらす。 空洞の結合から弱リンクへの非線形性が状態識別と光子数校正にどのように影響するかを示す。 どちらの効果も、分散限界を超えて駆動システムの進化を扱う必要がある。 さらに, 回路状態(量子とパリティジャンプ)間の遷移速度がマイクロ波パワーに与える影響を観察し, キャビティによるAndreev状態の'dressing'を考慮した理論との比較を行った。

We explore the effects of driving a cavity at a large photon number in a circuit-QED experiment where the ``matter-like'' part corresponds to an unique Andreev level in a superconducting weak link. The three many-body states of the weak link, corresponding to the occupation of the Andreev level by 0, 1 or 2 quasiparticles, lead to different cavity frequency shifts. We show how the non-linearity inherited by the cavity from its coupling to the weak link affects the state discrimination and the photon number calibration. Both effects require treating the evolution of the driven system beyond the dispersive limit. In addition, we observe how transition rates between the circuit states (quantum and parity jumps) are affected by the microwave power, and compare the measurements with a theory accounting for the ``dressing'' of the Andreev states by the cavity.
翻訳日:2023-10-12 17:51:53 公開日:2023-10-10
# 可変サイズマップからのリンクレベル損失予測のためのトランスフォーマーベースニューラルサロゲート

Transformer-Based Neural Surrogate for Link-Level Path Loss Prediction from Variable-Sized Maps ( http://arxiv.org/abs/2310.04570v1 )

ライセンス: Link先を確認
Thomas M. Hehn, Tribhuvanesh Orekondy, Ori Shental, Arash Behboodi, Juan Bucheli, Akash Doshi, June Namgoong, Taesang Yoo, Ashwin Sampath, Joseph B. Soriaga(参考訳) 送信者位置の経路損失の推定は、ネットワーク計画やハンドオーバを含む多くのユースケースにとって重要である。 機械学習は、地図データに基づいて無線チャネル特性を予測する一般的なツールとなっている。 本研究では,様々な次元の地図やスパース測定からリンクレベルの特性を予測できるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。 地図には建物や葉の情報が含まれています。 変圧器モデルは、経路損失予測に関連する領域に従属するので、異なる大きさの地図に対して効率的にスケールする。 さらに,本手法は離散化に頼ることなく連続送信機と受信機座標で動作する。 実験では,提案モデルがスパーストレーニングデータから支配的パスロスを効率的に学習し,新規マップ上でテストした場合によく一般化できることを示す。

Estimating path loss for a transmitter-receiver location is key to many use-cases including network planning and handover. Machine learning has become a popular tool to predict wireless channel properties based on map data. In this work, we present a transformer-based neural network architecture that enables predicting link-level properties from maps of various dimensions and from sparse measurements. The map contains information about buildings and foliage. The transformer model attends to the regions that are relevant for path loss prediction and, therefore, scales efficiently to maps of different size. Further, our approach works with continuous transmitter and receiver coordinates without relying on discretization. In experiments, we show that the proposed model is able to efficiently learn dominant path losses from sparse training data and generalizes well when tested on novel maps.
翻訳日:2023-10-12 17:39:54 公開日:2023-10-10
# 可変サイズマップからのリンクレベル損失予測のためのトランスフォーマーベースニューラルサロゲート

Transformer-Based Neural Surrogate for Link-Level Path Loss Prediction from Variable-Sized Maps ( http://arxiv.org/abs/2310.04570v2 )

ライセンス: Link先を確認
Thomas M. Hehn, Tribhuvanesh Orekondy, Ori Shental, Arash Behboodi, Juan Bucheli, Akash Doshi, June Namgoong, Taesang Yoo, Ashwin Sampath, Joseph B. Soriaga(参考訳) 送信者位置の経路損失の推定は、ネットワーク計画やハンドオーバを含む多くのユースケースにとって重要である。 機械学習は、地図データに基づいて無線チャネル特性を予測する一般的なツールとなっている。 本研究では,様々な次元の地図やスパース測定からリンクレベルの特性を予測できるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。 地図には建物や葉の情報が含まれています。 変圧器モデルは、経路損失予測に関連する領域に従属するので、異なる大きさの地図に対して効率的にスケールする。 さらに,本手法は離散化に頼ることなく連続送信機と受信機座標で動作する。 実験では,提案モデルがスパーストレーニングデータから支配的パスロスを効率的に学習し,新規マップ上でテストした場合によく一般化できることを示す。

Estimating path loss for a transmitter-receiver location is key to many use-cases including network planning and handover. Machine learning has become a popular tool to predict wireless channel properties based on map data. In this work, we present a transformer-based neural network architecture that enables predicting link-level properties from maps of various dimensions and from sparse measurements. The map contains information about buildings and foliage. The transformer model attends to the regions that are relevant for path loss prediction and, therefore, scales efficiently to maps of different size. Further, our approach works with continuous transmitter and receiver coordinates without relying on discretization. In experiments, we show that the proposed model is able to efficiently learn dominant path losses from sparse training data and generalizes well when tested on novel maps.
翻訳日:2023-10-12 17:28:30 公開日:2023-10-10
# Visual Abductive Reasoning: 運転障害予測:問題定式化とデータセット

Visual Abductive Reasoning Meets Driving Hazard Prediction: Problem Formulation and Dataset ( http://arxiv.org/abs/2310.04671v2 )

ライセンス: Link先を確認
Korawat Charoenpitaks, Van-Quang Nguyen, Masanori Suganuma, Masahiro Takahashi, Ryoma Niihara, Takayuki Okatani(参考訳) 本稿では,運転中に運転者が遭遇する危険を予知する問題に対処する。 車両ダッシュカムが捉えた単一入力画像を用いて,事故の予知作業として定式化する。 計算シミュレーションや映像からの異常検出に依存するハザード予測の既存手法とは異なり,本研究は静的画像からのハイレベルな推論に焦点を当てている。 この問題は、不確実な観測に基づいて将来の出来事を予測し、推論する必要がある。 この調査対象領域の研究を可能にするために、DHPR(Driving Hazard Prediction and Reasoning)データセットと呼ばれる新しいデータセットが作成されている。 データセットは、ストリートシーンの15Kダシュカム画像で構成され、各画像は、車速、仮説上の危険記述、シーンに存在する視覚的実体を含むタプルに関連付けられている。 これらのアノテーションは、危険シーンを特定し、数秒後に起こりうる潜在的な事故の説明を提供する人間のアノテーションによって注釈される。 我々は,いくつかのベースライン手法を提示し,データセット上での性能評価を行い,残る課題を特定し,今後の方向性について考察する。 本研究は,ハザード予測のためのマルチモーダルaiの可能性を探ることを可能にする,新しい問題定式化とデータセットを導入することで,この分野に寄与する。

This paper addresses the problem of predicting hazards that drivers may encounter while driving a car. We formulate it as a task of anticipating impending accidents using a single input image captured by car dashcams. Unlike existing approaches to driving hazard prediction that rely on computational simulations or anomaly detection from videos, this study focuses on high-level inference from static images. The problem needs predicting and reasoning about future events based on uncertain observations, which falls under visual abductive reasoning. To enable research in this understudied area, a new dataset named the DHPR (Driving Hazard Prediction and Reasoning) dataset is created. The dataset consists of 15K dashcam images of street scenes, and each image is associated with a tuple containing car speed, a hypothesized hazard description, and visual entities present in the scene. These are annotated by human annotators, who identify risky scenes and provide descriptions of potential accidents that could occur a few seconds later. We present several baseline methods and evaluate their performance on our dataset, identifying remaining issues and discussing future directions. This study contributes to the field by introducing a novel problem formulation and dataset, enabling researchers to explore the potential of multi-modal AI for driving hazard prediction.
翻訳日:2023-10-12 16:59:40 公開日:2023-10-10
# Visual Abductive Reasoning: 運転障害予測:問題定式化とデータセット

Visual Abductive Reasoning Meets Driving Hazard Prediction: Problem Formulation and Dataset ( http://arxiv.org/abs/2310.04671v1 )

ライセンス: Link先を確認
Korawat Charoenpitaks, Van-Quang Nguyen, Masanori Suganuma, Masahiro Takahashi, Ryoma Niihara, Takayuki Okatani(参考訳) 本稿では,運転中に運転者が遭遇する危険を予知する問題に対処する。 車両ダッシュカムが捉えた単一入力画像を用いて,事故の予知作業として定式化する。 計算シミュレーションや映像からの異常検出に依存するハザード予測の既存手法とは異なり,本研究は静的画像からのハイレベルな推論に焦点を当てている。 この問題は、不確実な観測に基づいて将来の出来事を予測し、推論する必要がある。 この調査対象領域の研究を可能にするために、DHPR(Driving Hazard Prediction and Reasoning)データセットと呼ばれる新しいデータセットが作成されている。 データセットは、ストリートシーンの15Kダシュカム画像で構成され、各画像は、車速、仮説上の危険記述、シーンに存在する視覚的実体を含むタプルに関連付けられている。 これらのアノテーションは、危険シーンを特定し、数秒後に起こりうる潜在的な事故の説明を提供する人間のアノテーションによって注釈される。 我々は,いくつかのベースライン手法を提示し,データセット上での性能評価を行い,残る課題を特定し,今後の方向性について考察する。 本研究は,ハザード予測のためのマルチモーダルaiの可能性を探ることを可能にする,新しい問題定式化とデータセットを導入することで,この分野に寄与する。

This paper addresses the problem of predicting hazards that drivers may encounter while driving a car. We formulate it as a task of anticipating impending accidents using a single input image captured by car dashcams. Unlike existing approaches to driving hazard prediction that rely on computational simulations or anomaly detection from videos, this study focuses on high-level inference from static images. The problem needs predicting and reasoning about future events based on uncertain observations, which falls under visual abductive reasoning. To enable research in this understudied area, a new dataset named the DHPR (Driving Hazard Prediction and Reasoning) dataset is created. The dataset consists of 15K dashcam images of street scenes, and each image is associated with a tuple containing car speed, a hypothesized hazard description, and visual entities present in the scene. These are annotated by human annotators, who identify risky scenes and provide descriptions of potential accidents that could occur a few seconds later. We present several baseline methods and evaluate their performance on our dataset, identifying remaining issues and discussing future directions. This study contributes to the field by introducing a novel problem formulation and dataset, enabling researchers to explore the potential of multi-modal AI for driving hazard prediction.
翻訳日:2023-10-12 16:59:18 公開日:2023-10-10
# DORIS-MAE:マルチレベルアスペクトベースのクエリを用いた科学的文書検索

DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based Queries ( http://arxiv.org/abs/2310.04678v2 )

ライセンス: Link先を確認
Jianyou Wang, Kaicheng Wang, Xiaoyue Wang, Prudhviraj Naidu, Leon Bergen, Ramamohan Paturi(参考訳) 科学的研究において、複雑な多面的クエリに基づいて関連文書を効果的に検索する能力は重要である。 既存の評価データセットは、主に複雑なクエリを効果的に表現するリソースのアノテートに必要な高コストと労力のために制限されている。 そこで本稿では,科学研究におけるユーザクエリの複雑な性質を扱うために,マルチレベルアスペクトベースのquEries (DORIS-MAE) を用いた科学文書検索手法を提案する。 我々は,コンピュータ科学の分野において,100件の人間による複雑なクエリケースからなるベンチマークデータセットを開発した。 複雑な問合せごとに100の関連文書を集め、それらのランキングに注釈付きの関連スコアを生成した。 anno-gptは、専門家レベルのデータセットアノテーションタスクにおける大規模言語モデル(llm)のパフォーマンスを検証するためのスケーラブルなフレームワークである。 DORIS-MAEデータセットのLCMアノテーションは、品質を損なうことなく500倍のコスト削減を実現した。 さらに、これらの複雑なクエリの多層構造のため、DORIS-MAEデータセットは追加のアノテーションを必要とせずに4,000以上のサブクエリテストケースに拡張できる。 DORIS-MAEの検索手法を17種類評価し,従来のデータセットと比較して顕著な性能低下を観測した。 これは科学研究において、複雑で多面的なクエリを扱うためのより良いアプローチの必要性を強調している。 データセットとコードベースはhttps://github.com/Real-Doris-Mae/Doris-Mae-Datasetで公開しています。

In scientific research, the ability to effectively retrieve relevant documents based on complex, multifaceted queries is critical. Existing evaluation datasets for this task are limited, primarily due to the high cost and effort required to annotate resources that effectively represent complex queries. To address this, we propose a novel task, Scientific DOcument Retrieval using Multi-level Aspect-based quEries (DORIS-MAE), which is designed to handle the complex nature of user queries in scientific research. We developed a benchmark dataset within the field of computer science, consisting of 100 human-authored complex query cases. For each complex query, we assembled a collection of 100 relevant documents and produced annotated relevance scores for ranking them. Recognizing the significant labor of expert annotation, we also introduce Anno-GPT, a scalable framework for validating the performance of Large Language Models (LLMs) on expert-level dataset annotation tasks. LLM annotation of the DORIS-MAE dataset resulted in a 500x reduction in cost, without compromising quality. Furthermore, due to the multi-tiered structure of these complex queries, the DORIS-MAE dataset can be extended to over 4,000 sub-query test cases without requiring additional annotation. We evaluated 17 recent retrieval methods on DORIS-MAE, observing notable performance drops compared to traditional datasets. This highlights the need for better approaches to handle complex, multifaceted queries in scientific research. Our dataset and codebase are available at https://github.com/Real-Doris-Mae/Doris-Mae-Dataset.
翻訳日:2023-10-12 16:50:57 公開日:2023-10-10
# DORIS-MAE:マルチレベルアスペクトベースのクエリを用いた科学的文書検索

DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based Queries ( http://arxiv.org/abs/2310.04678v1 )

ライセンス: Link先を確認
Jianyou Wang, Kaicheng Wang, Xiaoyue Wang, Prudhviraj Naidu, Leon Bergen, Ramamohan Paturi(参考訳) 科学的研究において、複雑な多面的クエリに基づいて関連文書を効果的に検索する能力は重要である。 既存の評価データセットは、主に複雑なクエリを効果的に表現するリソースのアノテートに必要な高コストと労力のために制限されている。 そこで本稿では,科学研究におけるユーザクエリの複雑な性質を扱うために,マルチレベルアスペクトベースのquEries (DORIS-MAE) を用いた科学文書検索手法を提案する。 我々は,コンピュータ科学の分野において,100件の人間による複雑なクエリケースからなるベンチマークデータセットを開発した。 複雑な問合せごとに100の関連文書を集め、それらのランキングに注釈付きの関連スコアを生成した。 anno-gptは、専門家レベルのデータセットアノテーションタスクにおける大規模言語モデル(llm)のパフォーマンスを検証するためのスケーラブルなフレームワークである。 DORIS-MAEデータセットのLCMアノテーションは、品質を損なうことなく500倍のコスト削減を実現した。 さらに、これらの複雑なクエリの多層構造のため、DORIS-MAEデータセットは追加のアノテーションを必要とせずに4,000以上のサブクエリテストケースに拡張できる。 DORIS-MAEの検索手法を17種類評価し,従来のデータセットと比較して顕著な性能低下を観測した。 これは科学研究において、複雑で多面的なクエリを扱うためのより良いアプローチの必要性を強調している。 データセットとコードベースはhttps://github.com/Real-Doris-Mae/Doris-Mae-Datasetで公開しています。

In scientific research, the ability to effectively retrieve relevant documents based on complex, multifaceted queries is critical. Existing evaluation datasets for this task are limited, primarily due to the high cost and effort required to annotate resources that effectively represent complex queries. To address this, we propose a novel task, Scientific DOcument Retrieval using Multi-level Aspect-based quEries (DORIS-MAE), which is designed to handle the complex nature of user queries in scientific research. We developed a benchmark dataset within the field of computer science, consisting of 100 human-authored complex query cases. For each complex query, we assembled a collection of 100 relevant documents and produced annotated relevance scores for ranking them. Recognizing the significant labor of expert annotation, we also introduce Anno-GPT, a scalable framework for validating the performance of Large Language Models (LLMs) on expert-level dataset annotation tasks. LLM annotation of the DORIS-MAE dataset resulted in a 500x reduction in cost, without compromising quality. Furthermore, due to the multi-tiered structure of these complex queries, the DORIS-MAE dataset can be extended to over 4,000 sub-query test cases without requiring additional annotation. We evaluated 17 recent retrieval methods on DORIS-MAE, observing notable performance drops compared to traditional datasets. This highlights the need for better approaches to handle complex, multifaceted queries in scientific research. Our dataset and codebase are available at https://github.com/Real-Doris-Mae/Doris-Mae-Dataset.
翻訳日:2023-10-12 16:50:31 公開日:2023-10-10
# 敵対的特徴脱感化によるロバスト性強化隆起モデル

Robustness-enhanced Uplift Modeling with Adversarial Feature Desensitization ( http://arxiv.org/abs/2310.04693v1 )

ライセンス: Link先を確認
Zexu Sun, Bowei He, Ming Ma, Jiakai Tang, Yuchen Wang, Chen Ma, Dugang Liu(参考訳) uplift modelingは、オンラインマーケティングにおいて非常に有望な結果を示している。 しかし、既存の作品の多くは、いくつかの実用的応用においてロバスト性に挑戦しがちである。 本稿では,この現象の考えられる説明を最初に提示する。 我々は,様々な実世界のデータセットを用いたオンラインマーケティングにおいて,いくつかの重要な特徴の摂動が上昇モデルの性能に重大な影響を与え,また逆の傾向を引き起こすような,特徴の感度問題が存在することを検証した。 上記の問題を解決するために, 対角的特徴脱感化(RUAD)を用いた新しい頑健性強化リフトモデリングフレームワークを提案する。 具体的には,入力特徴量からキー部分集合を識別するジョイント・マルチラベル・モデリングを備えた機能選択モジュールと,この選択された特徴のサブセットに対するモデルのロバスト性を高めるために,逆トレーニングとソフト補間操作を用いた敵機能デセンシタイズモジュールを含む,2つのカスタマイズモジュールにより,アップリフトモデルの特徴感度をより効果的に緩和する。 最後に、オンラインマーケティングにおけるRUADの有効性を検証するために、パブリックデータセットと実際の製品データセットに関する広範な実験を行う。 さらに、機能感度に対するruadの堅牢性や、さまざまなアップリフトモデルとの互換性も示しています。

Uplift modeling has shown very promising results in online marketing. However, most existing works are prone to the robustness challenge in some practical applications. In this paper, we first present a possible explanation for the above phenomenon. We verify that there is a feature sensitivity problem in online marketing using different real-world datasets, where the perturbation of some key features will seriously affect the performance of the uplift model and even cause the opposite trend. To solve the above problem, we propose a novel robustness-enhanced uplift modeling framework with adversarial feature desensitization (RUAD). Specifically, our RUAD can more effectively alleviate the feature sensitivity of the uplift model through two customized modules, including a feature selection module with joint multi-label modeling to identify a key subset from the input features and an adversarial feature desensitization module using adversarial training and soft interpolation operations to enhance the robustness of the model against this selected subset of features. Finally, we conduct extensive experiments on a public dataset and a real product dataset to verify the effectiveness of our RUAD in online marketing. In addition, we also demonstrate the robustness of our RUAD to the feature sensitivity, as well as the compatibility with different uplift models.
翻訳日:2023-10-12 16:39:02 公開日:2023-10-10
# 変分逆推論を用いたオフライン模倣学習

Offline Imitation Learning with Variational Counterfactual Reasoning ( http://arxiv.org/abs/2310.04706v2 )

ライセンス: Link先を確認
Bowei He, Zexu Sun, Jinxin Liu, Shuai Zhang, Xu Chen, Chen Ma(参考訳) オフライン模倣学習(il)では、エージェントは、追加のオンライン環境の相互作用なしに最適な専門家の行動方針を学ぶことを目指している。 しかし、ロボット操作のような現実世界の多くのシナリオでは、オフラインデータセットは報酬なしで最適な振る舞いから収集される。 専門家データが少ないため、エージェントは通常、単に形容詞の悪い記憶に苦しめられ、環境の変化に弱いため、新しい環境に一般化する能力が欠如している。 エージェントをバイアスし、一般化を妨げるようなスプリアス的特徴を効果的に除去するために、OILCA(Ounderline{O}ffline \underline{I}mitation \underline{L}earning with \underline{C}ounterfactual data \underline{A}ugmentation)というフレームワークを提案する。 特に、識別可能な変分オートエンコーダを利用して \textit{counterfactual} サンプルを生成する。 理論的にカウンターファクトの同定と一般化の改善を解析する。 さらに,本手法は,分布内ロバスト性のベンチマークと分布外一般化のベンチマークの両方において,さまざまなベースラインを著しく上回ることを示すため,広範囲な実験を行った。

In offline Imitation Learning (IL), an agent aims to learn an optimal expert behavior policy without additional online environment interactions. However, in many real-world scenarios, such as robotics manipulation, the offline dataset is collected from suboptimal behaviors without rewards. Due to the scarce expert data, the agents usually suffer from simply memorizing poor trajectories and are vulnerable to the variations in the environments, lacking the capability of generalizing to new environments. To effectively remove spurious features that would otherwise bias the agent and hinder generalization, we propose a framework named \underline{O}ffline \underline{I}mitation \underline{L}earning with \underline{C}ounterfactual data \underline{A}ugmentation (OILCA). In particular, we leverage the identifiable variational autoencoder to generate \textit{counterfactual} samples. We theoretically analyze the counterfactual identification and the improvement of generalization. Moreover, we conduct extensive experiments to demonstrate that our approach significantly outperforms various baselines on both \textsc{DeepMind Control Suite} benchmark for in-distribution robustness and \textsc{CausalWorld} benchmark for out-of-distribution generalization.
翻訳日:2023-10-12 16:30:17 公開日:2023-10-10
# 変分逆推論を用いたオフライン模倣学習

Offline Imitation Learning with Variational Counterfactual Reasoning ( http://arxiv.org/abs/2310.04706v1 )

ライセンス: Link先を確認
Bowei He, Zexu Sun, Jinxin Liu, Shuai Zhang, Xu Chen, Chen Ma(参考訳) オフライン模倣学習(il)では、エージェントは、追加のオンライン環境の相互作用なしに最適な専門家の行動方針を学ぶことを目指している。 しかし、ロボット操作のような現実世界の多くのシナリオでは、オフラインデータセットは報酬なしで最適な振る舞いから収集される。 専門家データが少ないため、エージェントは通常、単に形容詞の悪い記憶に苦しめられ、環境の変化に弱いため、新しい環境に一般化する能力が欠如している。 エージェントをバイアスし、一般化を妨げるようなスプリアス的特徴を効果的に除去するために、OILCA(Ounderline{O}ffline \underline{I}mitation \underline{L}earning with \underline{C}ounterfactual data \underline{A}ugmentation)というフレームワークを提案する。 特に、識別可能な変分オートエンコーダを利用して \textit{counterfactual} サンプルを生成する。 理論的にカウンターファクトの同定と一般化の改善を解析する。 さらに,本手法は,分布内ロバスト性のベンチマークと分布外一般化のベンチマークの両方において,さまざまなベースラインを著しく上回ることを示すため,広範囲な実験を行った。

In offline Imitation Learning (IL), an agent aims to learn an optimal expert behavior policy without additional online environment interactions. However, in many real-world scenarios, such as robotics manipulation, the offline dataset is collected from suboptimal behaviors without rewards. Due to the scarce expert data, the agents usually suffer from simply memorizing poor trajectories and are vulnerable to the variations in the environments, lacking the capability of generalizing to new environments. To effectively remove spurious features that would otherwise bias the agent and hinder generalization, we propose a framework named \underline{O}ffline \underline{I}mitation \underline{L}earning with \underline{C}ounterfactual data \underline{A}ugmentation (OILCA). In particular, we leverage the identifiable variational autoencoder to generate \textit{counterfactual} samples. We theoretically analyze the counterfactual identification and the improvement of generalization. Moreover, we conduct extensive experiments to demonstrate that our approach significantly outperforms various baselines on both \textsc{DeepMind Control Suite} benchmark for in-distribution robustness and \textsc{CausalWorld} benchmark for out-of-distribution generalization.
翻訳日:2023-10-12 16:29:47 公開日:2023-10-10
# リレーショナルデータベースにおけるディープラーニングモデルの実現

Serving Deep Learning Model in Relational Databases ( http://arxiv.org/abs/2310.04696v2 )

ライセンス: Link先を確認
Alexandre Eichenberger, Qi Lin, Saif Masood, Hong Min, Alexander Sim, Jie Wang, Yida Wang, Kesheng Wu, Binhang Yuan, Lixi Zhou, Jia Zou(参考訳) リレーショナルデータ上での深層学習(DL)モデルの実現は、さまざまな商業および科学分野において重要な要件となっている。 本論文では,要求に対応するため,代表的なアーキテクチャを包括的に探究する。 State-of-the-art-the-artDL-Centricarchitecture offloadsDL計算から専用DLフレームワークへのオフロード。 UDF-Centricアーキテクチャは、データベースシステム内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。 potentialRelation-Centricarchitectureは、関係演算子による大規模テンソル計算を表現することを目的としている。 これらのアーキテクチャはそれぞれ、特定のユースケースにおける約束を実証していますが、これらのアーキテクチャとこれらのアーキテクチャの中間部分のシームレスな統合に対する緊急要件を特定します。 統合を妨げるギャップを掘り下げ、それらを閉じるための革新的な戦略を探求します。 本稿では,データ集約型dl推論アプリケーションを実現するための新しいデータベースシステムを構築するための経路を提案する。

Serving deep learning (DL) models on relational data has become a critical requirement across diverse commercial and scientific domains, sparking growing interest recently. In this visionary paper, we embark on a comprehensive exploration of representative architectures to address the requirement. We highlight three pivotal paradigms: The state-of-the-artDL-Centricarchitecture offloadsDL computations to dedicated DL frameworks. The potential UDF-Centric architecture encapsulates one or more tensor computations into User Defined Functions (UDFs) within the database system. The potentialRelation-Centricarchitecture aims to represent a large-scale tensor computation through relational operators. While each of these architectures demonstrates promise in specific use scenarios, we identify urgent requirements for seamless integration of these architectures and the middle ground between these architectures. We delve into the gaps that impede the integration and explore innovative strategies to close them. We present a pathway to establish a novel database system for enabling a broad class of data-intensive DL inference applications.
翻訳日:2023-10-12 16:27:54 公開日:2023-10-10
# リレーショナルデータベースにおけるディープラーニングモデルの実現

Serving Deep Learning Model in Relational Databases ( http://arxiv.org/abs/2310.04696v1 )

ライセンス: Link先を確認
Alexandre Eichenberger, Qi Lin, Saif Masood, Hong Min, Alexander Sim, Jie Wang, Yida Wang, Kesheng Wu, Binhang Yuan, Lixi Zhou, Jia Zou(参考訳) リレーショナルデータ上での深層学習(DL)モデルの実現は、さまざまな商業および科学分野において重要な要件となっている。 本論文では,要求に対応するため,代表的なアーキテクチャを包括的に探究する。 State-of-the-art-the-artDL-Centricarchitecture offloadsDL計算から専用DLフレームワークへのオフロード。 UDF-Centricアーキテクチャは、データベースシステム内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。 potentialRelation-Centricarchitectureは、関係演算子による大規模テンソル計算を表現することを目的としている。 これらのアーキテクチャはそれぞれ、特定のユースケースにおける約束を実証していますが、これらのアーキテクチャとこれらのアーキテクチャの中間部分のシームレスな統合に対する緊急要件を特定します。 統合を妨げるギャップを掘り下げ、それらを閉じるための革新的な戦略を探求します。 本稿では,データ集約型dl推論アプリケーションを実現するための新しいデータベースシステムを構築するための経路を提案する。

Serving deep learning (DL) models on relational data has become a critical requirement across diverse commercial and scientific domains, sparking growing interest recently. In this visionary paper, we embark on a comprehensive exploration of representative architectures to address the requirement. We highlight three pivotal paradigms: The state-of-the-artDL-Centricarchitecture offloadsDL computations to dedicated DL frameworks. The potential UDF-Centric architecture encapsulates one or more tensor computations into User Defined Functions (UDFs) within the database system. The potentialRelation-Centricarchitecture aims to represent a large-scale tensor computation through relational operators. While each of these architectures demonstrates promise in specific use scenarios, we identify urgent requirements for seamless integration of these architectures and the middle ground between these architectures. We delve into the gaps that impede the integration and explore innovative strategies to close them. We present a pathway to establish a novel database system for enabling a broad class of data-intensive DL inference applications.
翻訳日:2023-10-12 16:27:40 公開日:2023-10-10
# 敵対的特徴脱感化によるロバスト性強化隆起モデル

Robustness-enhanced Uplift Modeling with Adversarial Feature Desensitization ( http://arxiv.org/abs/2310.04693v2 )

ライセンス: Link先を確認
Zexu Sun, Bowei He, Ming Ma, Jiakai Tang, Yuchen Wang, Chen Ma, Dugang Liu(参考訳) uplift modelingは、オンラインマーケティングにおいて非常に有望な結果を示している。 しかし、既存の作品の多くは、いくつかの実用的応用においてロバスト性に挑戦しがちである。 本稿では,この現象の考えられる説明を最初に提示する。 我々は,様々な実世界のデータセットを用いたオンラインマーケティングにおいて,いくつかの重要な特徴の摂動が上昇モデルの性能に重大な影響を与え,また逆の傾向を引き起こすような,特徴の感度問題が存在することを検証した。 上記の問題を解決するために, 対角的特徴脱感化(RUAD)を用いた新しい頑健性強化リフトモデリングフレームワークを提案する。 具体的には,入力特徴量からキー部分集合を識別するジョイント・マルチラベル・モデリングを備えた機能選択モジュールと,この選択された特徴のサブセットに対するモデルのロバスト性を高めるために,逆トレーニングとソフト補間操作を用いた敵機能デセンシタイズモジュールを含む,2つのカスタマイズモジュールにより,アップリフトモデルの特徴感度をより効果的に緩和する。 最後に、オンラインマーケティングにおけるRUADの有効性を検証するために、パブリックデータセットと実際の製品データセットに関する広範な実験を行う。 さらに、機能感度に対するruadの堅牢性や、さまざまなアップリフトモデルとの互換性も示しています。

Uplift modeling has shown very promising results in online marketing. However, most existing works are prone to the robustness challenge in some practical applications. In this paper, we first present a possible explanation for the above phenomenon. We verify that there is a feature sensitivity problem in online marketing using different real-world datasets, where the perturbation of some key features will seriously affect the performance of the uplift model and even cause the opposite trend. To solve the above problem, we propose a novel robustness-enhanced uplift modeling framework with adversarial feature desensitization (RUAD). Specifically, our RUAD can more effectively alleviate the feature sensitivity of the uplift model through two customized modules, including a feature selection module with joint multi-label modeling to identify a key subset from the input features and an adversarial feature desensitization module using adversarial training and soft interpolation operations to enhance the robustness of the model against this selected subset of features. Finally, we conduct extensive experiments on a public dataset and a real product dataset to verify the effectiveness of our RUAD in online marketing. In addition, we also demonstrate the robustness of our RUAD to the feature sensitivity, as well as the compatibility with different uplift models.
翻訳日:2023-10-12 16:27:26 公開日:2023-10-10
# 連続学習における安定性と可塑性のバランス--活性化変化の読み出し分解(RDAC)フレームワーク

Balancing stability and plasticity in continual learning: the readout-decomposition of activation change (RDAC) framework ( http://arxiv.org/abs/2310.04741v1 )

ライセンス: Link先を確認
Daniel Anthes and Sushrut Thorat and Peter K\"onig and Tim C. Kietzmann(参考訳) 継続学習(CL)アルゴリズムは、事前情報を保持しながら新しい知識を獲得しようとする。 しかし、この安定性と可塑性のトレードオフは依然として大きな課題である。 本稿では、このトレードオフを識別するフレームワークを紹介し、CLアルゴリズムに関する貴重な洞察を提供する。 Readout-Decomposition of Activation Change (RDAC) フレームワークは、まず安定性・塑性ジレンマと破滅的な忘れ物との関係に対処する。 学習によって引き起こされる事前読み出し範囲の活性化変化と、安定性の度合いとヌル空間の可塑性の度合いに関するものである。 スプリット-cifar-110タスクに取り組むディープ非線形ネットワークにおいて、このフレームワークは、人気のある正規化アルゴリズムシナプス知能(si)、弾性重み強化(ewc)、学習無忘れ(lwf)、リプレイベースのアルゴリズム勾配エピソディックメモリ(gem)、データリプレイの安定性と可塑性のトレードオフを明確にする。 GEMとデータ再生は安定性と可塑性を保ち、SI、EWC、LwFは安定性のために可塑性を交換した。 可塑性を維持するための正規化アルゴリズムの欠如は、事前の読み出しのヌル空間におけるアクティベーションの変化を制限するものである。 さらに,単層線形ニューラルネットワークでは,事前読み出し範囲のみの活性化変化を制限し,可塑性を犠牲にすることなく高い安定性を維持する勾配分解アルゴリズムを考案した。 その結果, 可塑性損失を伴わない安定性が得られた。 RDACフレームワークは、既存のCLアルゴリズムの振る舞いを知らせ、新しいCLアプローチの道を開く。 最後に、学習によって引き起こされる活性化/表現の変化と安定性と可塑性のジレンマの関係に光を当て、生体システムの表現ドリフトに関する洞察を提供する。

Continual learning (CL) algorithms strive to acquire new knowledge while preserving prior information. However, this stability-plasticity trade-off remains a central challenge. This paper introduces a framework that dissects this trade-off, offering valuable insights into CL algorithms. The Readout-Decomposition of Activation Change (RDAC) framework first addresses the stability-plasticity dilemma and its relation to catastrophic forgetting. It relates learning-induced activation changes in the range of prior readouts to the degree of stability and changes in the null space to the degree of plasticity. In deep non-linear networks tackling split-CIFAR-110 tasks, the framework clarifies the stability-plasticity trade-offs of the popular regularization algorithms Synaptic intelligence (SI), Elastic-weight consolidation (EWC), and learning without Forgetting (LwF), and replay-based algorithms Gradient episodic memory (GEM), and data replay. GEM and data replay preserved stability and plasticity, while SI, EWC, and LwF traded off plasticity for stability. The inability of the regularization algorithms to maintain plasticity was linked to them restricting the change of activations in the null space of the prior readout. Additionally, for one-hidden-layer linear neural networks, we derived a gradient decomposition algorithm to restrict activation change only in the range of the prior readouts, to maintain high stability while not further sacrificing plasticity. Results demonstrate that the algorithm maintained stability without significant plasticity loss. The RDAC framework informs the behavior of existing CL algorithms and paves the way for novel CL approaches. Finally, it sheds light on the connection between learning-induced activation/representation changes and the stability-plasticity dilemma, also offering insights into representational drift in biological systems.
翻訳日:2023-10-12 16:20:35 公開日:2023-10-10
# 量子エラー低減のための回路切断による仮想蒸留の促進

Enhancing Virtual Distillation with Circuit Cutting for Quantum Error Mitigation ( http://arxiv.org/abs/2310.04708v2 )

ライセンス: Link先を確認
Peiyi Li, Ji Liu, Hrushikesh Pramod Patil, Paul Hovland, Huiyang Zhou(参考訳) 仮想蒸留は、ノイズの多い量子コンピュータにおけるエラーを軽減する技術である。 ノイズの多い量子状態のコピーを複数用意し、回路を通してそれらをブリッジし、測定を行う。 コピー数が増加するにつれて、このプロセスは理想的な純粋状態に迅速に近づく状態に対する期待値の推定を可能にする。 しかし、仮想蒸留は現実的なシナリオでは課題に直面する: 量子状態のコピーを複数用意し、ノイズの多い量子コンピュータの回路をブリッジすることで、回路サイズが大幅に増加し、過度なノイズが発生し、仮想蒸留の性能が低下する。 この課題を克服するために,回路切断技術を用いて回路全体を断片化する誤り軽減戦略を提案する。 このアプローチでは、ノイズ量子状態を生成するための断片はノイズ量子デバイス上で実行でき、残りの断片はノイズのない古典的シミュレータ上で効率的にシミュレーションされる。 それぞれのフラグメント回路を量子デバイスと古典デバイスで個別に実行し、その結果を再結合することにより、ノイズの蓄積を減らし、仮想蒸留技術の有効性を高めることができる。 私たちの戦略は、ランタイムと計算リソースの両方の観点から優れたスケーラビリティを持っています。 実量子デバイス上でのノイズシミュレーションと実験により,我々の戦略の有効性を実証する。

Virtual distillation is a technique that aims to mitigate errors in noisy quantum computers. It works by preparing multiple copies of a noisy quantum state, bridging them through a circuit, and conducting measurements. As the number of copies increases, this process allows for the estimation of the expectation value with respect to a state that approaches the ideal pure state rapidly. However, virtual distillation faces a challenge in realistic scenarios: preparing multiple copies of a quantum state and bridging them through a circuit in a noisy quantum computer will significantly increase the circuit size and introduce excessive noise, which will degrade the performance of virtual distillation. To overcome this challenge, we propose an error mitigation strategy that uses circuit-cutting technology to cut the entire circuit into fragments. With this approach, the fragments responsible for generating the noisy quantum state can be executed on a noisy quantum device, while the remaining fragments are efficiently simulated on a noiseless classical simulator. By running each fragment circuit separately on quantum and classical devices and recombining their results, we can reduce the noise accumulation and enhance the effectiveness of the virtual distillation technique. Our strategy has good scalability in terms of both runtime and computational resources. We demonstrate our strategy's effectiveness through noisy simulation and experiments on a real quantum device.
翻訳日:2023-10-12 16:16:21 公開日:2023-10-10
# 量子エラー低減のための回路切断による仮想蒸留の促進

Enhancing Virtual Distillation with Circuit Cutting for Quantum Error Mitigation ( http://arxiv.org/abs/2310.04708v1 )

ライセンス: Link先を確認
Peiyi Li, Ji Liu, Hrushikesh Pramod Patil, Paul Hovland, Huiyang Zhou(参考訳) 仮想蒸留は、ノイズの多い量子コンピュータにおけるエラーを軽減する技術である。 ノイズの多い量子状態のコピーを複数用意し、回路を通してそれらをブリッジし、測定を行う。 コピー数が増加するにつれて、このプロセスは理想的な純粋状態に迅速に近づく状態に対する期待値の推定を可能にする。 しかし、仮想蒸留は現実的なシナリオでは課題に直面する: 量子状態のコピーを複数用意し、ノイズの多い量子コンピュータの回路をブリッジすることで、回路サイズが大幅に増加し、過度なノイズが発生し、仮想蒸留の性能が低下する。 この課題を克服するために,回路切断技術を用いて回路全体を断片化する誤り軽減戦略を提案する。 このアプローチでは、ノイズ量子状態を生成するための断片はノイズ量子デバイス上で実行でき、残りの断片はノイズのない古典的シミュレータ上で効率的にシミュレーションされる。 それぞれのフラグメント回路を量子デバイスと古典デバイスで個別に実行し、その結果を再結合することにより、ノイズの蓄積を減らし、仮想蒸留技術の有効性を高めることができる。 私たちの戦略は、ランタイムと計算リソースの両方の観点から優れたスケーラビリティを持っています。 実量子デバイス上でのノイズシミュレーションと実験により,我々の戦略の有効性を実証する。

Virtual distillation is a technique that aims to mitigate errors in noisy quantum computers. It works by preparing multiple copies of a noisy quantum state, bridging them through a circuit, and conducting measurements. As the number of copies increases, this process allows for the estimation of the expectation value with respect to a state that approaches the ideal pure state rapidly. However, virtual distillation faces a challenge in realistic scenarios: preparing multiple copies of a quantum state and bridging them through a circuit in a noisy quantum computer will significantly increase the circuit size and introduce excessive noise, which will degrade the performance of virtual distillation. To overcome this challenge, we propose an error mitigation strategy that uses circuit-cutting technology to cut the entire circuit into fragments. With this approach, the fragments responsible for generating the noisy quantum state can be executed on a noisy quantum device, while the remaining fragments are efficiently simulated on a noiseless classical simulator. By running each fragment circuit separately on quantum and classical devices and recombining their results, we can reduce the noise accumulation and enhance the effectiveness of the virtual distillation technique. Our strategy has good scalability in terms of both runtime and computational resources. We demonstrate our strategy's effectiveness through noisy simulation and experiments on a real quantum device.
翻訳日:2023-10-12 16:16:02 公開日:2023-10-10
# 部分線形化によるパラメータ効率的なマルチタスクモデル融合

Parameter Efficient Multi-task Model Fusion with Partial Linearization ( http://arxiv.org/abs/2310.04742v1 )

ライセンス: Link先を確認
Anke Tang, Li Shen, Yong Luo, Yibing Zhan, Han Hu, Bo Du, Yixin Chen, Dacheng Tao(参考訳) 大規模な事前訓練されたモデルは、機械学習の大幅な進歩を可能にし、基礎コンポーネントとして機能した。 タスク演算のようなモデル融合手法は、異なるタスクからの微調整された重みをマルチタスクモデルに組み込むための強力でスケーラブルであることが証明されている。 しかし、複数の下流タスクで事前学習された大規模モデルを効率的に微調整することは依然として困難であり、非効率なマルチタスクモデル融合に繋がる。 本研究では,LoRAファインチューニングのようなパラメータ効率の高いファインチューニング技術において,マルチタスク融合を改善する新しい手法を提案する。 具体的には,アダプタモジュールのみを部分的に線形化し,タスク演算を線形化アダプタに適用する。 これにより、線形化ファインチューニングよりもモデル融合の利点を有効活用できると同時に、ファインチューニングと推論を効率的に行うことができる。 我々の部分線形化手法は、複数のタスクをより効果的に単一のモデルに融合させ、標準のアダプタチューニングとタスク演算のみを性能良くすることを示した。 実験により,細調整タスクベクトルの融合による統合マルチタスクモデルを効果的に構築できる部分線形化手法の有効性が示された。 タスク数の増加に対して性能を評価し,本手法が標準パラメータ効率の微調整技術より優れていることを示す。 この結果は、スケーラブルで効率的なマルチタスクモデル融合に対する部分線形化の利点を強調している。

Large pre-trained models have enabled significant advances in machine learning and served as foundation components. Model fusion methods, such as task arithmetic, have been proven to be powerful and scalable to incorporate fine-tuned weights from different tasks into a multi-task model. However, efficiently fine-tuning large pre-trained models on multiple downstream tasks remains challenging, leading to inefficient multi-task model fusion. In this work, we propose a novel method to improve multi-task fusion for parameter-efficient fine-tuning techniques like LoRA fine-tuning. Specifically, our approach partially linearizes only the adapter modules and applies task arithmetic over the linearized adapters. This allows us to leverage the the advantages of model fusion over linearized fine-tuning, while still performing fine-tuning and inference efficiently. We demonstrate that our partial linearization technique enables a more effective fusion of multiple tasks into a single model, outperforming standard adapter tuning and task arithmetic alone. Experimental results demonstrate the capabilities of our proposed partial linearization technique to effectively construct unified multi-task models via the fusion of fine-tuned task vectors. We evaluate performance over an increasing number of tasks and find that our approach outperforms standard parameter-efficient fine-tuning techniques. The results highlight the benefits of partial linearization for scalable and efficient multi-task model fusion.
翻訳日:2023-10-12 16:10:14 公開日:2023-10-10
# 連続学習における安定性と可塑性のバランス--活性化変化の読み出し分解(RDAC)フレームワーク

Balancing stability and plasticity in continual learning: the readout-decomposition of activation change (RDAC) framework ( http://arxiv.org/abs/2310.04741v2 )

ライセンス: Link先を確認
Daniel Anthes and Sushrut Thorat and Peter K\"onig and Tim C. Kietzmann(参考訳) 継続学習(CL)アルゴリズムは、事前情報を保持しながら新しい知識を獲得しようとする。 しかし、この安定性と可塑性のトレードオフは依然として大きな課題である。 本稿では、このトレードオフを識別するフレームワークを紹介し、CLアルゴリズムに関する貴重な洞察を提供する。 Readout-Decomposition of Activation Change (RDAC) フレームワークは、まず安定性・塑性ジレンマと破滅的な忘れ物との関係に対処する。 学習によって引き起こされる事前読み出し範囲の活性化変化と、安定性の度合いとヌル空間の可塑性の度合いに関するものである。 スプリット-cifar-110タスクに取り組むディープ非線形ネットワークにおいて、このフレームワークは、人気のある正規化アルゴリズムシナプス知能(si)、弾性重み強化(ewc)、学習無忘れ(lwf)、リプレイベースのアルゴリズム勾配エピソディックメモリ(gem)、データリプレイの安定性と可塑性のトレードオフを明確にする。 GEMとデータ再生は安定性と可塑性を保ち、SI、EWC、LwFは安定性のために可塑性を交換した。 可塑性を維持するための正規化アルゴリズムの欠如は、事前の読み出しのヌル空間におけるアクティベーションの変化を制限するものである。 さらに,単層線形ニューラルネットワークでは,事前読み出し範囲のみの活性化変化を制限し,可塑性を犠牲にすることなく高い安定性を維持する勾配分解アルゴリズムを考案した。 その結果, 可塑性損失を伴わない安定性が得られた。 RDACフレームワークは、既存のCLアルゴリズムの振る舞いを知らせ、新しいCLアプローチの道を開く。 最後に、学習によって引き起こされる活性化/表現の変化と安定性と可塑性のジレンマの関係に光を当て、生体システムの表現ドリフトに関する洞察を提供する。

Continual learning (CL) algorithms strive to acquire new knowledge while preserving prior information. However, this stability-plasticity trade-off remains a central challenge. This paper introduces a framework that dissects this trade-off, offering valuable insights into CL algorithms. The Readout-Decomposition of Activation Change (RDAC) framework first addresses the stability-plasticity dilemma and its relation to catastrophic forgetting. It relates learning-induced activation changes in the range of prior readouts to the degree of stability and changes in the null space to the degree of plasticity. In deep non-linear networks tackling split-CIFAR-110 tasks, the framework clarifies the stability-plasticity trade-offs of the popular regularization algorithms Synaptic intelligence (SI), Elastic-weight consolidation (EWC), and learning without Forgetting (LwF), and replay-based algorithms Gradient episodic memory (GEM), and data replay. GEM and data replay preserved stability and plasticity, while SI, EWC, and LwF traded off plasticity for stability. The inability of the regularization algorithms to maintain plasticity was linked to them restricting the change of activations in the null space of the prior readout. Additionally, for one-hidden-layer linear neural networks, we derived a gradient decomposition algorithm to restrict activation change only in the range of the prior readouts, to maintain high stability while not further sacrificing plasticity. Results demonstrate that the algorithm maintained stability without significant plasticity loss. The RDAC framework informs the behavior of existing CL algorithms and paves the way for novel CL approaches. Finally, it sheds light on the connection between learning-induced activation/representation changes and the stability-plasticity dilemma, also offering insights into representational drift in biological systems.
翻訳日:2023-10-12 16:09:52 公開日:2023-10-10
# egocentric 3d hand pose estimation challenge 2023テクニカルレポート:egocentric hand pose reconstructionの簡潔なパイプライン

1st Place Solution of Egocentric 3D Hand Pose Estimation Challenge 2023 Technical Report:A Concise Pipeline for Egocentric Hand Pose Reconstruction ( http://arxiv.org/abs/2310.04769v1 )

ライセンス: Link先を確認
Zhishan Zhou, Zhi Lv, Shihao Zhou, Minqiang Zou, Tong Wu, Mochen Yu, Yao Tang, Jiajun Liang(参考訳) 本稿では, egocentric 3d hand pose estimation workshop について紹介する。 AssemblyHandsを使って、この課題は、単視点画像からエゴセントリックな3D手ポーズの推定に焦点を当てる。 コンペでは、ViTベースのバックボーンと、強力なモデルベースラインを提供する3Dキーポイント予測のためのシンプルな回帰器を採用しています。 そこで我々は,ハンドオブジェクトのオクルージョンと自己オクルージョンが性能劣化を引き起こすことに気付き,プロセス後のマルチビュー結果をマージする非モデル手法を提案した。 さらに,テスト時間増強とモデルアンサンブルを利用してさらなる改善を行った。 また、パブリックデータセットとrational preprocessが有益であることも分かりました。 提案手法は,テストデータセット上で12.21mmMPJPEを達成し,Egocentric 3D Hand Pose Estimation において第1位を獲得した。

This report introduce our work on Egocentric 3D Hand Pose Estimation workshop. Using AssemblyHands, this challenge focuses on egocentric 3D hand pose estimation from a single-view image. In the competition, we adopt ViT based backbones and a simple regressor for 3D keypoints prediction, which provides strong model baselines. We noticed that Hand-objects occlusions and self-occlusions lead to performance degradation, thus proposed a non-model method to merge multi-view results in the post-process stage. Moreover, We utilized test time augmentation and model ensemble to make further improvement. We also found that public dataset and rational preprocess are beneficial. Our method achieved 12.21mm MPJPE on test dataset, achieve the first place in Egocentric 3D Hand Pose Estimation challenge.
翻訳日:2023-10-12 15:58:13 公開日:2023-10-10
# DiffNAS: より良いアーキテクチャのためのプロンプトによる拡散モデルのブートストラップ

DiffNAS: Bootstrapping Diffusion Models by Prompting for Better Architectures ( http://arxiv.org/abs/2310.04750v2 )

ライセンス: Link先を確認
Wenhao Li, Xiu Su, Shan You, Fei Wang, Chen Qian, Chang Xu(参考訳) 拡散モデルは最近、合成データに顕著な性能を示した。 拡散経路が選択された後、unetのようなベースモデルがデノージングオートエンコーダとして動作し、主にステップバイステップで除去する必要があるノイズを予測する。 したがって, より優れた合成性能を実現するため, 期待される予算に整合したモデルを採用することが重要である。 本稿では,拡散モデルを慎重に解析し,ベースモデル探索手法「DiffNAS」を設計する。 具体的には、GPT-4をスーパーネットとして利用して検索を高速化し、検索メモリを補足して結果を向上する。 さらに, RFID をプロキシとして, GPT-4 による実験結果のランク付けを行う。 また,検索効率を高めるために,高速コンバージェンス学習戦略も採用している。 厳密な実験により,本アルゴリズムはgptに基づくシナリオで検索効率を2倍向上させると同時に,ベンチマークiddpmアルゴリズムと比較して,cifar10のfidが0.37改善した2.82倍の性能を得ることができた。

Diffusion models have recently exhibited remarkable performance on synthetic data. After a diffusion path is selected, a base model, such as UNet, operates as a denoising autoencoder, primarily predicting noises that need to be eliminated step by step. Consequently, it is crucial to employ a model that aligns with the expected budgets to facilitate superior synthetic performance. In this paper, we meticulously analyze the diffusion model and engineer a base model search approach, denoted "DiffNAS". Specifically, we leverage GPT-4 as a supernet to expedite the search, supplemented with a search memory to enhance the results. Moreover, we employ RFID as a proxy to promptly rank the experimental outcomes produced by GPT-4. We also adopt a rapid-convergence training strategy to boost search efficiency. Rigorous experimentation corroborates that our algorithm can augment the search efficiency by 2 times under GPT-based scenarios, while also attaining a performance of 2.82 with 0.37 improvement in FID on CIFAR10 relative to the benchmark IDDPM algorithm.
翻訳日:2023-10-12 15:57:36 公開日:2023-10-10
# DiffNAS: より良いアーキテクチャのためのプロンプトによる拡散モデルのブートストラップ

DiffNAS: Bootstrapping Diffusion Models by Prompting for Better Architectures ( http://arxiv.org/abs/2310.04750v1 )

ライセンス: Link先を確認
Wenhao Li, Xiu Su, Shan You, Fei Wang, Chen Qian, Chang Xu(参考訳) 拡散モデルは最近、合成データに顕著な性能を示した。 拡散経路が選択された後、unetのようなベースモデルがデノージングオートエンコーダとして動作し、主にステップバイステップで除去する必要があるノイズを予測する。 したがって, より優れた合成性能を実現するため, 期待される予算に整合したモデルを採用することが重要である。 本稿では,拡散モデルを慎重に解析し,ベースモデル探索手法「DiffNAS」を設計する。 具体的には、GPT-4をスーパーネットとして利用して検索を高速化し、検索メモリを補足して結果を向上する。 さらに, RFID をプロキシとして, GPT-4 による実験結果のランク付けを行う。 また,検索効率を高めるために,高速コンバージェンス学習戦略も採用している。 厳密な実験により,本アルゴリズムはgptに基づくシナリオで検索効率を2倍向上させると同時に,ベンチマークiddpmアルゴリズムと比較して,cifar10のfidが0.37改善した2.82倍の性能を得ることができた。

Diffusion models have recently exhibited remarkable performance on synthetic data. After a diffusion path is selected, a base model, such as UNet, operates as a denoising autoencoder, primarily predicting noises that need to be eliminated step by step. Consequently, it is crucial to employ a model that aligns with the expected budgets to facilitate superior synthetic performance. In this paper, we meticulously analyze the diffusion model and engineer a base model search approach, denoted "DiffNAS". Specifically, we leverage GPT-4 as a supernet to expedite the search, supplemented with a search memory to enhance the results. Moreover, we employ RFID as a proxy to promptly rank the experimental outcomes produced by GPT-4. We also adopt a rapid-convergence training strategy to boost search efficiency. Rigorous experimentation corroborates that our algorithm can augment the search efficiency by 2 times under GPT-based scenarios, while also attaining a performance of 2.82 with 0.37 improvement in FID on CIFAR10 relative to the benchmark IDDPM algorithm.
翻訳日:2023-10-12 15:57:16 公開日:2023-10-10
# 部分線形化によるパラメータ効率的なマルチタスクモデル融合

Parameter Efficient Multi-task Model Fusion with Partial Linearization ( http://arxiv.org/abs/2310.04742v2 )

ライセンス: Link先を確認
Anke Tang, Li Shen, Yong Luo, Yibing Zhan, Han Hu, Bo Du, Yixin Chen, Dacheng Tao(参考訳) 大規模な事前訓練されたモデルは、機械学習の大幅な進歩を可能にし、基礎コンポーネントとして機能した。 タスク演算のようなモデル融合手法は、異なるタスクからの微調整された重みをマルチタスクモデルに組み込むための強力でスケーラブルであることが証明されている。 しかし、複数の下流タスクで事前学習された大規模モデルを効率的に微調整することは依然として困難であり、非効率なマルチタスクモデル融合に繋がる。 本研究では,LoRAファインチューニングのようなパラメータ効率の高いファインチューニング技術において,マルチタスク融合を改善する新しい手法を提案する。 具体的には,アダプタモジュールのみを部分的に線形化し,タスク演算を線形化アダプタに適用する。 これにより、線形化ファインチューニングよりもモデル融合の利点を有効活用できると同時に、ファインチューニングと推論を効率的に行うことができる。 我々の部分線形化手法は、複数のタスクをより効果的に単一のモデルに融合させ、標準のアダプタチューニングとタスク演算のみを性能良くすることを示した。 実験により,細調整タスクベクトルの融合による統合マルチタスクモデルを効果的に構築できる部分線形化手法の有効性が示された。 タスク数の増加に対して性能を評価し,本手法が標準パラメータ効率の微調整技術より優れていることを示す。 この結果は、スケーラブルで効率的なマルチタスクモデル融合に対する部分線形化の利点を強調している。

Large pre-trained models have enabled significant advances in machine learning and served as foundation components. Model fusion methods, such as task arithmetic, have been proven to be powerful and scalable to incorporate fine-tuned weights from different tasks into a multi-task model. However, efficiently fine-tuning large pre-trained models on multiple downstream tasks remains challenging, leading to inefficient multi-task model fusion. In this work, we propose a novel method to improve multi-task fusion for parameter-efficient fine-tuning techniques like LoRA fine-tuning. Specifically, our approach partially linearizes only the adapter modules and applies task arithmetic over the linearized adapters. This allows us to leverage the the advantages of model fusion over linearized fine-tuning, while still performing fine-tuning and inference efficiently. We demonstrate that our partial linearization technique enables a more effective fusion of multiple tasks into a single model, outperforming standard adapter tuning and task arithmetic alone. Experimental results demonstrate the capabilities of our proposed partial linearization technique to effectively construct unified multi-task models via the fusion of fine-tuned task vectors. We evaluate performance over an increasing number of tasks and find that our approach outperforms standard parameter-efficient fine-tuning techniques. The results highlight the benefits of partial linearization for scalable and efficient multi-task model fusion.
翻訳日:2023-10-12 15:55:17 公開日:2023-10-10
# egocentric 3d hand pose estimation challenge 2023テクニカルレポート:egocentric hand pose reconstructionの簡潔なパイプライン

1st Place Solution of Egocentric 3D Hand Pose Estimation Challenge 2023 Technical Report:A Concise Pipeline for Egocentric Hand Pose Reconstruction ( http://arxiv.org/abs/2310.04769v2 )

ライセンス: Link先を確認
Zhishan Zhou, Zhi Lv, Shihao Zhou, Minqiang Zou, Tong Wu, Mochen Yu, Yao Tang, Jiajun Liang(参考訳) 本稿では, egocentric 3d hand pose estimation workshop について紹介する。 AssemblyHandsを使って、この課題は、単視点画像からエゴセントリックな3D手ポーズの推定に焦点を当てる。 コンペでは、ViTベースのバックボーンと、強力なモデルベースラインを提供する3Dキーポイント予測のためのシンプルな回帰器を採用しています。 そこで我々は,ハンドオブジェクトのオクルージョンと自己オクルージョンが性能劣化を引き起こすことに気付き,プロセス後のマルチビュー結果をマージする非モデル手法を提案した。 さらに,テスト時間増強とモデルアンサンブルを利用してさらなる改善を行った。 また、パブリックデータセットとrational preprocessが有益であることも分かりました。 提案手法は,テストデータセット上で12.21mmMPJPEを達成し,Egocentric 3D Hand Pose Estimation において第1位を獲得した。

This report introduce our work on Egocentric 3D Hand Pose Estimation workshop. Using AssemblyHands, this challenge focuses on egocentric 3D hand pose estimation from a single-view image. In the competition, we adopt ViT based backbones and a simple regressor for 3D keypoints prediction, which provides strong model baselines. We noticed that Hand-objects occlusions and self-occlusions lead to performance degradation, thus proposed a non-model method to merge multi-view results in the post-process stage. Moreover, We utilized test time augmentation and model ensemble to make further improvement. We also found that public dataset and rational preprocess are beneficial. Our method achieved 12.21mm MPJPE on test dataset, achieve the first place in Egocentric 3D Hand Pose Estimation challenge.
翻訳日:2023-10-12 15:48:18 公開日:2023-10-10
# オンライン破損によるユーザ検出とレグレット最小化

Online Corrupted User Detection and Regret Minimization ( http://arxiv.org/abs/2310.04768v2 )

ライセンス: Link先を確認
Zhiyong Wang, Jize Xie, Tong Yu, Shuai Li, John C.S. Lui(参考訳) 現実世界のオンラインウェブシステムでは、複数のユーザがシステムに順次到着する。 クリック詐欺や偽レビューのようなアプリケーションでは、悪意のある(破損した)動作を実行してシステムを騙すことができる。 したがって、潜在的に破損したユーザ行動から堅牢に学習し、腐敗したユーザをオンラインで正確に識別する効率的なオンライン学習アルゴリズムを設計することが重要である。 既存の研究は、敵対的腐敗に頑健なバンディットアルゴリズムを提案する。 しかし、これらのアルゴリズムは単一のユーザ向けに設計されており、より効率的な学習のために複数のユーザ間の暗黙的な社会的関係を活用できない。 さらに、複数のユーザシナリオでオンラインの腐敗したユーザを検出する方法も検討されていない。 本稿では,乱れた行動から未知のユーザ関係を学習し活用し,学習を高速化し,オンライン環境での崩壊したユーザを特定するために,locudという重要なオンライン学習問題を提案する。 潜在的なユーザ間の未知の関係を頑健に学習し,活用するために,新しい帯域幅アルゴリズム RCLUB-WCU を提案する。 不正ユーザを検出するために,rclub-wcuが推定したユーザ関係に基づく新しいオンライン検出アルゴリズムoccudを開発した。 RCLUB-WCUは, 対数的因子に対して$T$と漸近的に一致し, 縮退した場合の最先端結果と一致している。 また,OCCUDの検出精度を理論的に保証する。 大規模な実験により,従来の帯域幅アルゴリズムよりも優れた性能と高精度なユーザ検出を実現する。

In real-world online web systems, multiple users usually arrive sequentially into the system. For applications like click fraud and fake reviews, some users can maliciously perform corrupted (disrupted) behaviors to trick the system. Therefore, it is crucial to design efficient online learning algorithms to robustly learn from potentially corrupted user behaviors and accurately identify the corrupted users in an online manner. Existing works propose bandit algorithms robust to adversarial corruption. However, these algorithms are designed for a single user, and cannot leverage the implicit social relations among multiple users for more efficient learning. Moreover, none of them consider how to detect corrupted users online in the multiple-user scenario. In this paper, we present an important online learning problem named LOCUD to learn and utilize unknown user relations from disrupted behaviors to speed up learning, and identify the corrupted users in an online setting. To robustly learn and utilize the unknown relations among potentially corrupted users, we propose a novel bandit algorithm RCLUB-WCU. To detect the corrupted users, we devise a novel online detection algorithm OCCUD based on RCLUB-WCU's inferred user relations. We prove a regret upper bound for RCLUB-WCU, which asymptotically matches the lower bound with respect to $T$ up to logarithmic factors, and matches the state-of-the-art results in degenerate cases. We also give a theoretical guarantee for the detection accuracy of OCCUD. With extensive experiments, our methods achieve superior performance over previous bandit algorithms and high corrupted user detection accuracy.
翻訳日:2023-10-12 15:48:03 公開日:2023-10-10
# オンライン破損によるユーザ検出とレグレット最小化

Online Corrupted User Detection and Regret Minimization ( http://arxiv.org/abs/2310.04768v1 )

ライセンス: Link先を確認
Zhiyong Wang, Jize Xie, Tong Yu, Shuai Li, John C.S. Lui(参考訳) 現実世界のオンラインウェブシステムでは、複数のユーザがシステムに順次到着する。 クリック詐欺や偽レビューのようなアプリケーションでは、悪意のある(破損した)動作を実行してシステムを騙すことができる。 したがって、潜在的に破損したユーザ行動から堅牢に学習し、腐敗したユーザをオンラインで正確に識別する効率的なオンライン学習アルゴリズムを設計することが重要である。 既存の研究は、敵対的腐敗に頑健なバンディットアルゴリズムを提案する。 しかし、これらのアルゴリズムは単一のユーザ向けに設計されており、より効率的な学習のために複数のユーザ間の暗黙的な社会的関係を活用できない。 さらに、複数のユーザシナリオでオンラインの腐敗したユーザを検出する方法も検討されていない。 本稿では,乱れた行動から未知のユーザ関係を学習し活用し,学習を高速化し,オンライン環境での崩壊したユーザを特定するために,locudという重要なオンライン学習問題を提案する。 潜在的なユーザ間の未知の関係を頑健に学習し,活用するために,新しい帯域幅アルゴリズム RCLUB-WCU を提案する。 不正ユーザを検出するために,rclub-wcuが推定したユーザ関係に基づく新しいオンライン検出アルゴリズムoccudを開発した。 RCLUB-WCUは, 対数的因子に対して$T$と漸近的に一致し, 縮退した場合の最先端結果と一致している。 また,OCCUDの検出精度を理論的に保証する。 大規模な実験により,従来の帯域幅アルゴリズムよりも優れた性能と高精度なユーザ検出を実現する。

In real-world online web systems, multiple users usually arrive sequentially into the system. For applications like click fraud and fake reviews, some users can maliciously perform corrupted (disrupted) behaviors to trick the system. Therefore, it is crucial to design efficient online learning algorithms to robustly learn from potentially corrupted user behaviors and accurately identify the corrupted users in an online manner. Existing works propose bandit algorithms robust to adversarial corruption. However, these algorithms are designed for a single user, and cannot leverage the implicit social relations among multiple users for more efficient learning. Moreover, none of them consider how to detect corrupted users online in the multiple-user scenario. In this paper, we present an important online learning problem named LOCUD to learn and utilize unknown user relations from disrupted behaviors to speed up learning, and identify the corrupted users in an online setting. To robustly learn and utilize the unknown relations among potentially corrupted users, we propose a novel bandit algorithm RCLUB-WCU. To detect the corrupted users, we devise a novel online detection algorithm OCCUD based on RCLUB-WCU's inferred user relations. We prove a regret upper bound for RCLUB-WCU, which asymptotically matches the lower bound with respect to $T$ up to logarithmic factors, and matches the state-of-the-art results in degenerate cases. We also give a theoretical guarantee for the detection accuracy of OCCUD. With extensive experiments, our methods achieve superior performance over previous bandit algorithms and high corrupted user detection accuracy.
翻訳日:2023-10-12 15:47:37 公開日:2023-10-10
# 知識グラフの進化に関する調査と展望

On the Evolution of Knowledge Graphs: A Survey and Perspective ( http://arxiv.org/abs/2310.04835v2 )

ライセンス: Link先を確認
Xuhui Jiang, Chengjin Xu, Yinghan Shen, Xun Sun, Lumingyuan Tang, Saizhuo Wang, Zhongwu Chen, Yuanzhuo Wang, Jian Guo(参考訳) 知識グラフ (kgs) は多様な知識の構造化表現である。 様々なインテリジェントなアプリケーションで広く使われている。 本稿では,様々な種類の知識グラフ(静的KG,動的KG,時間的KG,事象KG)の進化に関する総合的な調査と,知識抽出と推論のための技術について述べる。 さらに、金融分析におけるケーススタディを含む、さまざまなタイプのKGの実践的応用についても紹介する。 最後に、知識グラフと大規模言語モデル(LLM)のパワーと、知識抽出、推論、表現の進化を融合させる可能性を含む、知識工学の今後の方向性に関する視点を提案する。

Knowledge graphs (KGs) are structured representations of diversified knowledge. They are widely used in various intelligent applications. In this article, we provide a comprehensive survey on the evolution of various types of knowledge graphs (i.e., static KGs, dynamic KGs, temporal KGs, and event KGs) and techniques for knowledge extraction and reasoning. Furthermore, we introduce the practical applications of different types of KGs, including a case study in financial analysis. Finally, we propose our perspective on the future directions of knowledge engineering, including the potential of combining the power of knowledge graphs and large language models (LLMs), and the evolution of knowledge extraction, reasoning, and representation.
翻訳日:2023-10-12 15:17:50 公開日:2023-10-10
# 知識グラフの進化に関する調査と展望

On the Evolution of Knowledge Graphs: A Survey and Perspective ( http://arxiv.org/abs/2310.04835v1 )

ライセンス: Link先を確認
Xuhui Jiang, Chengjin Xu, Yinghan Shen, Xun Sun, Lumingyuan Tang, Saizhuo Wang, Zhongwu Chen, Yuanzhuo Wang, Jian Guo(参考訳) 知識グラフ (kgs) は多様な知識の構造化表現である。 様々なインテリジェントなアプリケーションで広く使われている。 本稿では,様々な種類の知識グラフ(静的KG,動的KG,時間的KG,事象KG)の進化に関する総合的な調査と,知識抽出と推論のための技術について述べる。 さらに、金融分析におけるケーススタディを含む、さまざまなタイプのKGの実践的応用についても紹介する。 最後に、知識グラフと大規模言語モデル(LLM)のパワーと、知識抽出、推論、表現の進化を融合させる可能性を含む、知識工学の今後の方向性に関する視点を提案する。

Knowledge graphs (KGs) are structured representations of diversified knowledge. They are widely used in various intelligent applications. In this article, we provide a comprehensive survey on the evolution of various types of knowledge graphs (i.e., static KGs, dynamic KGs, temporal KGs, and event KGs) and techniques for knowledge extraction and reasoning. Furthermore, we introduce the practical applications of different types of KGs, including a case study in financial analysis. Finally, we propose our perspective on the future directions of knowledge engineering, including the potential of combining the power of knowledge graphs and large language models (LLMs), and the evolution of knowledge extraction, reasoning, and representation.
翻訳日:2023-10-12 15:17:37 公開日:2023-10-10
# 共有価値の観点からの統合的勾配のベースラインを再考する

Rethink Baseline of Integrated Gradients from the Perspective of Shapley Value ( http://arxiv.org/abs/2310.04821v2 )

ライセンス: Link先を確認
Shuyang Liu, Zixuan Chen, Ge Shi, Ji Wang, Changjie Fan, Yu Xiong, Runze Wu Yujing Hu, Ze Ji, Yang Gao(参考訳) ディープニューラルネットワーク(DNN)の解釈には、DNNの予測を入力特性に寄与させることで、多くのアプローチが試みられている。 よく研究されている属性手法の1つは統合勾配(IG)である。 特に、igのベースラインの選択は、異なるシナリオにおけるモデル予測に対して有意義で偏りのない説明を生成するための重要な考慮事項である。 しかし、単一のベースラインを利用する現在のプラクティスは、この野望を達成できず、複数のベースラインを要求する。 幸いなことに、IGとAumann-Shapley Valueの関係は、ベースラインの設計を再考するためのユニークな視点を形成している。 ある仮説の下で、理論上、一連のベースラインがシェープリー値の連立と一致することを解析する。 そこで本研究では,Shapley Integrated Gradients (SIG) と呼ばれる新しいベースライン構築手法を提案する。 GridWorldのシミュレーションは、SIGがシェープ値の比率を近似していることを示している。 さらに,他のベースライン手法を用いたIGと比較して,SIGは特徴の寄与度を向上し,多様なアプリケーション間でより一貫した説明を提供し,計算オーバーヘッドの少ないデータ型やインスタンスに汎用的であることを示す。

Numerous approaches have attempted to interpret deep neural networks (DNNs) by attributing the prediction of DNN to its input features. One of the well-studied attribution methods is Integrated Gradients (IG). Specifically, the choice of baselines for IG is a critical consideration for generating meaningful and unbiased explanations for model predictions in different scenarios. However, current practice of exploiting a single baseline fails to fulfill this ambition, thus demanding multiple baselines. Fortunately, the inherent connection between IG and Aumann-Shapley Value forms a unique perspective to rethink the design of baselines. Under certain hypothesis, we theoretically analyse that a set of baseline aligns with the coalitions in Shapley Value. Thus, we propose a novel baseline construction method called Shapley Integrated Gradients (SIG) that searches for a set of baselines by proportional sampling to partly simulate the computation path of Shapley Value. Simulations on GridWorld show that SIG approximates the proportion of Shapley Values. Furthermore, experiments conducted on various image tasks demonstrate that compared to IG using other baseline methods, SIG exhibits an improved estimation of feature's contribution, offers more consistent explanations across diverse applications, and is generic to distinct data types or instances with insignificant computational overhead.
翻訳日:2023-10-12 15:15:06 公開日:2023-10-10
# 共有価値の観点からの統合的勾配のベースラインを再考する

Rethink Baseline of Integrated Gradients from the Perspective of Shapley Value ( http://arxiv.org/abs/2310.04821v1 )

ライセンス: Link先を確認
Shuyang Liu, Zixuan Chen, Ge Shi, Ji Wang, Changjie Fan, Yu Xiong, Runze Wu Yujing Hu, Ze Ji, Yang Gao(参考訳) ディープニューラルネットワーク(DNN)の解釈には、DNNの予測を入力特性に寄与させることで、多くのアプローチが試みられている。 よく研究されている属性手法の1つは統合勾配(IG)である。 特に、igのベースラインの選択は、異なるシナリオにおけるモデル予測に対して有意義で偏りのない説明を生成するための重要な考慮事項である。 しかし、単一のベースラインを利用する現在のプラクティスは、この野望を達成できず、複数のベースラインを要求する。 幸いなことに、IGとAumann-Shapley Valueの関係は、ベースラインの設計を再考するためのユニークな視点を形成している。 ある仮説の下で、理論上、一連のベースラインがシェープリー値の連立と一致することを解析する。 そこで本研究では,Shapley Integrated Gradients (SIG) と呼ばれる新しいベースライン構築手法を提案する。 GridWorldのシミュレーションは、SIGがシェープ値の比率を近似していることを示している。 さらに,他のベースライン手法を用いたIGと比較して,SIGは特徴の寄与度を向上し,多様なアプリケーション間でより一貫した説明を提供し,計算オーバーヘッドの少ないデータ型やインスタンスに汎用的であることを示す。

Numerous approaches have attempted to interpret deep neural networks (DNNs) by attributing the prediction of DNN to its input features. One of the well-studied attribution methods is Integrated Gradients (IG). Specifically, the choice of baselines for IG is a critical consideration for generating meaningful and unbiased explanations for model predictions in different scenarios. However, current practice of exploiting a single baseline fails to fulfill this ambition, thus demanding multiple baselines. Fortunately, the inherent connection between IG and Aumann-Shapley Value forms a unique perspective to rethink the design of baselines. Under certain hypothesis, we theoretically analyse that a set of baseline aligns with the coalitions in Shapley Value. Thus, we propose a novel baseline construction method called Shapley Integrated Gradients (SIG) that searches for a set of baselines by proportional sampling to partly simulate the computation path of Shapley Value. Simulations on GridWorld show that SIG approximates the proportion of Shapley Values. Furthermore, experiments conducted on various image tasks demonstrate that compared to IG using other baseline methods, SIG exhibits an improved estimation of feature's contribution, offers more consistent explanations across diverse applications, and is generic to distinct data types or instances with insignificant computational overhead.
翻訳日:2023-10-12 15:14:43 公開日:2023-10-10
# Lemur: プログラムの自動検証に大規模言語モデルを統合する

Lemur: Integrating Large Language Models in Automated Program Verification ( http://arxiv.org/abs/2310.04870v2 )

ライセンス: Link先を確認
Haoze Wu, Clark Barrett, Nina Narodytska(参考訳) LLMの実証されたコード理解能力は、自動プログラム検証に使用できるかどうかという問題を提起する。 自動プログラム検証のためのLLMと自動推論器のパワーを組み合わせた一般的な手法を提案する。 我々はこの方法論を導出規則の集合として形式的に記述し,その健全性を証明する。 計算を音響自動検証の手順としてインスタンス化し、一連の合成および競合ベンチマークを実践的に改善した。

The demonstrated code-understanding capability of LLMs raises the question of whether they can be used for automated program verification, a task that often demands high-level abstract reasoning about program properties, which is challenging for verification tools. We propose a general methodology to combine the power of LLMs and automated reasoners for automated program verification. We formally describe this methodology as a set of derivation rules and prove its soundness. We instantiate the calculus as a sound automated verification procedure, which led to practical improvements on a set of synthetic and competition benchmarks.
翻訳日:2023-10-12 14:57:40 公開日:2023-10-10
# Lemur: プログラムの自動検証に大規模言語モデルを統合する

Lemur: Integrating Large Language Models in Automated Program Verification ( http://arxiv.org/abs/2310.04870v1 )

ライセンス: Link先を確認
Haoze Wu, Clark Barrett, Nina Narodytska(参考訳) LLMの実証されたコード理解能力は、自動プログラム検証に使用できるかどうかという問題を提起する。 自動プログラム検証のためのLLMと自動推論器のパワーを組み合わせた一般的な手法を提案する。 我々はこの方法論を導出規則の集合として形式的に記述し,その健全性を証明する。 計算を音響自動検証の手順としてインスタンス化し、一連の合成および競合ベンチマークを実践的に改善した。

The demonstrated code-understanding capability of LLMs raises the question of whether they can be used for automated program verification, a task that often demands high-level abstract reasoning about program properties, which is challenging for verification tools. We propose a general methodology to combine the power of LLMs and automated reasoners for automated program verification. We formally describe this methodology as a set of derivation rules and prove its soundness. We instantiate the calculus as a sound automated verification procedure, which led to practical improvements on a set of synthetic and competition benchmarks.
翻訳日:2023-10-12 14:57:31 公開日:2023-10-10
# ユニバーサルグラフランダム特徴

Universal Graph Random Features ( http://arxiv.org/abs/2310.04859v2 )

ライセンス: Link先を確認
Isaac Reid, Krzysztof Choromanski, Eli Berger, Adrian Weller(参考訳) 重み付き隣接行列の任意の関数を偏りなく推定するための新しいランダムウォークベースアルゴリズム,unbiased universal graph random features (u-grfs)を提案する。 これはグラフのノード上で定義された最も一般的なカーネルの例を含む。 このアルゴリズムはノード数に関してサブクアドラティックな時間複雑性を享受し、厳密なグラフカーネル評価の厳密な立方体スケーリングを克服する。 マシン間では自明に分散することも可能で、より大きなネットワークで学習することができる。 アルゴリズムの中心にある変調関数は、その長さに応じて異なるランダムウォークからの貢献をアップウェイトまたはダウンウェイトする。 ニューラルネットワークでパラメータ化することで、高品質なカーネル推定や、効率的でスケーラブルなカーネル学習を実現するu-GRFが得られることを示す。 我々は,固定グラフカーネルのポイントワイズ推定,非均質グラフ常微分方程式の解法,ノードクラスタリング,三角メッシュ上のカーネル回帰などの実験を行い,ロバストな理論解析を行い,その実験を支援する。

We propose a novel random walk-based algorithm for unbiased estimation of arbitrary functions of a weighted adjacency matrix, coined universal graph random features (u-GRFs). This includes many of the most popular examples of kernels defined on the nodes of a graph. Our algorithm enjoys subquadratic time complexity with respect to the number of nodes, overcoming the notoriously prohibitive cubic scaling of exact graph kernel evaluation. It can also be trivially distributed across machines, permitting learning on much larger networks. At the heart of the algorithm is a modulation function which upweights or downweights the contribution from different random walks depending on their lengths. We show that by parameterising it with a neural network we can obtain u-GRFs that give higher-quality kernel estimates or perform efficient, scalable kernel learning. We provide robust theoretical analysis and support our findings with experiments including pointwise estimation of fixed graph kernels, solving non-homogeneous graph ordinary differential equations, node clustering and kernel regression on triangular meshes.
翻訳日:2023-10-12 14:55:44 公開日:2023-10-10
# ユニバーサルグラフランダム特徴

Universal Graph Random Features ( http://arxiv.org/abs/2310.04859v1 )

ライセンス: Link先を確認
Isaac Reid, Krzysztof Choromanski, Eli Berger, Adrian Weller(参考訳) 重み付き隣接行列の任意の関数を偏りなく推定するための新しいランダムウォークベースアルゴリズム,unbiased universal graph random features (u-grfs)を提案する。 これはグラフのノード上で定義された最も一般的なカーネルの例を含む。 このアルゴリズムはノード数に関してサブクアドラティックな時間複雑性を享受し、厳密なグラフカーネル評価の厳密な立方体スケーリングを克服する。 マシン間では自明に分散することも可能で、より大きなネットワークで学習することができる。 アルゴリズムの中心にある変調関数は、その長さに応じて異なるランダムウォークからの貢献をアップウェイトまたはダウンウェイトする。 ニューラルネットワークでパラメータ化することで、高品質なカーネル推定や、効率的でスケーラブルなカーネル学習を実現するu-GRFが得られることを示す。 我々は,固定グラフカーネルのポイントワイズ推定,非均質グラフ常微分方程式の解法,ノードクラスタリング,三角メッシュ上のカーネル回帰などの実験を行い,ロバストな理論解析を行い,その実験を支援する。

We propose a novel random walk-based algorithm for unbiased estimation of arbitrary functions of a weighted adjacency matrix, coined universal graph random features (u-GRFs). This includes many of the most popular examples of kernels defined on the nodes of a graph. Our algorithm enjoys subquadratic time complexity with respect to the number of nodes, overcoming the notoriously prohibitive cubic scaling of exact graph kernel evaluation. It can also be trivially distributed across machines, permitting learning on much larger networks. At the heart of the algorithm is a modulation function which upweights or downweights the contribution from different random walks depending on their lengths. We show that by parameterising it with a neural network we can obtain u-GRFs that give higher-quality kernel estimates or perform efficient, scalable kernel learning. We provide robust theoretical analysis and support our findings with experiments including pointwise estimation of fixed graph kernels, solving non-homogeneous graph ordinary differential equations, node clustering and kernel regression on triangular meshes.
翻訳日:2023-10-12 14:55:25 公開日:2023-10-10
# 繰り返しdelegated Choiceのレグレト解析

Regret Analysis of Repeated Delegated Choice ( http://arxiv.org/abs/2310.04884v2 )

ライセンス: Link先を確認
MohammadTaghi Hajiaghayi, Mohammad Mahdavi, Keivan Rezaei, Suho Shin(参考訳) 本稿では,クラインバーグとクラインバーグのオンライン学習型であるec'18を最初に検討した,反復委譲選択問題について述べる。 このモデルでは、プリンシパルは効率の良いものを探すために外因性の解の集合を持つエージェントと繰り返し相互作用する。 それぞれの解はプリンシパルとエージェントの両方に様々な効用を与えることができ、エージェントは利己的な方法で自身の効用を最大化するための解を提案できる。 この動作を緩和するために、プリンシパルは、特定のソリューションセットをスクリーンアウトする適格なセットを発表する。 しかし、プリンシパルは、あらかじめ解の分布に関する情報を持っていない。 したがって、プリンシパルは、分布を効率的に学習する様々な許容集合を動的に発表する。 プリンシパルの目的は、後ろ向きの最適許容集合と比較して累積後悔を最小限にすることである。 問題設定の2つの次元について検討し、エージェントがミオプティカルに振る舞うか、ラウンドをまたいで戦略化するか、解が決定論的あるいは確率的効用をもたらすかを検討する。 本分析では,主に,主教がサブリニア的後悔を回復できる体制を特徴付け,各体制における反復委任手続の興亡に光を当てる。

We present a study on a repeated delegated choice problem, which is the first to consider an online learning variant of Kleinberg and Kleinberg, EC'18. In this model, a principal interacts repeatedly with an agent who possesses an exogenous set of solutions to search for efficient ones. Each solution can yield varying utility for both the principal and the agent, and the agent may propose a solution to maximize its own utility in a selfish manner. To mitigate this behavior, the principal announces an eligible set which screens out a certain set of solutions. The principal, however, does not have any information on the distribution of solutions in advance. Therefore, the principal dynamically announces various eligible sets to efficiently learn the distribution. The principal's objective is to minimize cumulative regret compared to the optimal eligible set in hindsight. We explore two dimensions of the problem setup, whether the agent behaves myopically or strategizes across the rounds, and whether the solutions yield deterministic or stochastic utility. Our analysis mainly characterizes some regimes under which the principal can recover the sublinear regret, thereby shedding light on the rise and fall of the repeated delegation procedure in various regimes.
翻訳日:2023-10-12 14:48:28 公開日:2023-10-10
# 繰り返しdelegated Choiceのレグレト解析

Regret Analysis of Repeated Delegated Choice ( http://arxiv.org/abs/2310.04884v1 )

ライセンス: Link先を確認
MohammadTaghi Hajiaghayi, Mohammad Mahdavi, Keivan Rezaei, Suho Shin(参考訳) 本稿では,クラインバーグとクラインバーグのオンライン学習型であるec'18を最初に検討した,反復委譲選択問題について述べる。 このモデルでは、プリンシパルは効率の良いものを探すために外因性の解の集合を持つエージェントと繰り返し相互作用する。 それぞれの解はプリンシパルとエージェントの両方に様々な効用を与えることができ、エージェントは利己的な方法で自身の効用を最大化するための解を提案できる。 この動作を緩和するために、プリンシパルは、特定のソリューションセットをスクリーンアウトする適格なセットを発表する。 しかし、プリンシパルは、あらかじめ解の分布に関する情報を持っていない。 したがって、プリンシパルは、分布を効率的に学習する様々な許容集合を動的に発表する。 プリンシパルの目的は、後ろ向きの最適許容集合と比較して累積後悔を最小限にすることである。 問題設定の2つの次元について検討し、エージェントがミオプティカルに振る舞うか、ラウンドをまたいで戦略化するか、解が決定論的あるいは確率的効用をもたらすかを検討する。 本分析では,主に,主教がサブリニア的後悔を回復できる体制を特徴付け,各体制における反復委任手続の興亡に光を当てる。

We present a study on a repeated delegated choice problem, which is the first to consider an online learning variant of Kleinberg and Kleinberg, EC'18. In this model, a principal interacts repeatedly with an agent who possesses an exogenous set of solutions to search for efficient ones. Each solution can yield varying utility for both the principal and the agent, and the agent may propose a solution to maximize its own utility in a selfish manner. To mitigate this behavior, the principal announces an eligible set which screens out a certain set of solutions. The principal, however, does not have any information on the distribution of solutions in advance. Therefore, the principal dynamically announces various eligible sets to efficiently learn the distribution. The principal's objective is to minimize cumulative regret compared to the optimal eligible set in hindsight. We explore two dimensions of the problem setup, whether the agent behaves myopically or strategizes across the rounds, and whether the solutions yield deterministic or stochastic utility. Our analysis mainly characterizes some regimes under which the principal can recover the sublinear regret, thereby shedding light on the rise and fall of the repeated delegation procedure in various regimes.
翻訳日:2023-10-12 14:48:05 公開日:2023-10-10
# AirIMU:慣性オドメトリーにおける不確実性伝播の学習

AirIMU: Learning Uncertainty Propagation for Inertial Odometry ( http://arxiv.org/abs/2310.04874v2 )

ライセンス: Link先を確認
Yuheng Qiu, Chen Wang, Xunfei Zhou, Youjie Xia, Sebastian Scherer(参考訳) 慣性オドメトリーの正確な不確実性評価は、視覚・LiDAR慣性オドメトリーのようなマルチセンサーシステムにおいて最適な融合を実現する基盤となる。 先行研究はしばしば慣性測定の不確実性に関する仮定を単純化し、固定共分散パラメータと経験的imuセンサモデルを仮定する。 しかし,センサの物理的制約や非線形特性は捕捉が困難である。 さらに、不確かさはセンサーの速度と動きのモダリティに基づいて変動し、様々なimusに変化する。 これらの課題に対処するために, imus固有の非線形性をカプセル化するだけでなく, データ駆動方式で共分散の正確な伝播を保証する学習ベースの手法を考案する。 我々は,PyPoseライブラリを拡張して,多様体上の共分散伝搬と異なるバッチIMU統合を可能にする。 本手法の適応性を示すために,いくつかのベンチマークおよび262kmを超える大規模ヘリコプターデータセットを用いて評価を行った。 これらのデータセット上の慣性オドメトリのドリフトレートは、2.2倍から4倍に減少する。 本手法は慣性オードメトリーの先進的発展の基礎となる。

Accurate uncertainty estimation for inertial odometry is the foundation to achieve optimal fusion in multi-sensor systems, such as visual or LiDAR inertial odometry. Prior studies often simplify the assumptions regarding the uncertainty of inertial measurements, presuming fixed covariance parameters and empirical IMU sensor models. However, the inherent physical limitations and non-linear characteristics of sensors are difficult to capture. Moreover, uncertainty may fluctuate based on sensor rates and motion modalities, leading to variations across different IMUs. To address these challenges, we formulate a learning-based method that not only encapsulate the non-linearities inherent to IMUs but also ensure the accurate propagation of covariance in a data-driven manner. We extend the PyPose library to enable differentiable batched IMU integration with covariance propagation on manifolds, leading to significant runtime speedup. To demonstrate our method's adaptability, we evaluate it on several benchmarks as well as a large-scale helicopter dataset spanning over 262 kilometers. The drift rate of the inertial odometry on these datasets is reduced by a factor of between 2.2 and 4 times. Our method lays the groundwork for advanced developments in inertial odometry.
翻訳日:2023-10-12 14:46:41 公開日:2023-10-10
# AirIMU:慣性オドメトリーにおける不確実性伝播の学習

AirIMU: Learning Uncertainty Propagation for Inertial Odometry ( http://arxiv.org/abs/2310.04874v1 )

ライセンス: Link先を確認
Yuheng Qiu, Chen Wang, Xunfei Zhou, Youjie Xia, Sebastian Scherer(参考訳) 慣性オドメトリーの正確な不確実性評価は、視覚・LiDAR慣性オドメトリーのようなマルチセンサーシステムにおいて最適な融合を実現する基盤となる。 先行研究はしばしば慣性測定の不確実性に関する仮定を単純化し、固定共分散パラメータと経験的imuセンサモデルを仮定する。 しかし,センサの物理的制約や非線形特性は捕捉が困難である。 さらに、不確かさはセンサーの速度と動きのモダリティに基づいて変動し、様々なimusに変化する。 これらの課題に対処するために, imus固有の非線形性をカプセル化するだけでなく, データ駆動方式で共分散の正確な伝播を保証する学習ベースの手法を考案する。 我々は,PyPoseライブラリを拡張して,多様体上の共分散伝搬と異なるバッチIMU統合を可能にする。 本手法の適応性を示すために,いくつかのベンチマークおよび262kmを超える大規模ヘリコプターデータセットを用いて評価を行った。 これらのデータセット上の慣性オドメトリのドリフトレートは、2.2倍から4倍に減少する。 本手法は慣性オードメトリーの先進的発展の基礎となる。

Accurate uncertainty estimation for inertial odometry is the foundation to achieve optimal fusion in multi-sensor systems, such as visual or LiDAR inertial odometry. Prior studies often simplify the assumptions regarding the uncertainty of inertial measurements, presuming fixed covariance parameters and empirical IMU sensor models. However, the inherent physical limitations and non-linear characteristics of sensors are difficult to capture. Moreover, uncertainty may fluctuate based on sensor rates and motion modalities, leading to variations across different IMUs. To address these challenges, we formulate a learning-based method that not only encapsulate the non-linearities inherent to IMUs but also ensure the accurate propagation of covariance in a data-driven manner. We extend the PyPose library to enable differentiable batched IMU integration with covariance propagation on manifolds, leading to significant runtime speedup. To demonstrate our method's adaptability, we evaluate it on several benchmarks as well as a large-scale helicopter dataset spanning over 262 kilometers. The drift rate of the inertial odometry on these datasets is reduced by a factor of between 2.2 and 4 times. Our method lays the groundwork for advanced developments in inertial odometry.
翻訳日:2023-10-12 14:46:21 公開日:2023-10-10
# Diff-Transfer:微分物理シミュレーションによるモデルに基づくロボットマニピュレーションスキルの伝達

Diff-Transfer: Model-based Robotic Manipulation Skill Transfer via Differentiable Physics Simulation ( http://arxiv.org/abs/2310.04930v1 )

ライセンス: Link先を確認
Yuqi Xiang, Feitong Chen, Qinsi Wang, Yang Gang, Xiang Zhang, Xinghao Zhu, Xingyu Liu, Lin Shao(参考訳) 類似するが、新しいタスクをこなすためにマスタードスキルを伝達する能力は、インテリジェントなロボットにとって不可欠である。 本研究は,ロボットのスキルを効率的に伝達するために,微分可能な物理シミュレーションを活用する新しいフレームワークである$\textit{Diff-Transfer}$を紹介する。 具体的には、$\textit{Diff-Transfer}$は、ターゲットタスクにソースタスクをもたらすタスク空間内で実行可能なパスを発見する。 2つのサブタスクであるタスクパスに沿って隣接する各2つのポイントで、$\textit{diff-transfer}$は、あるサブタスクから既知のアクションを適応させ、他のサブタスクにうまく取り組む。 適応は微分可能な物理シミュレーションの勾配情報によって導かれる。 タスクレベルの状態と報酬を持つ$q$-learningを活用した,サブタスク生成のための新しいパスプランニング手法を提案する。 シミュレーション実験の枠組みを実装し,ロボット操作における4つの困難な伝達タスクを実行し,包括的な実験を通じて$\textit{diff-transfer}$の有効性を示す。 補足とビデオはhttps://sites.google.com/view/difftransferにある。

The capability to transfer mastered skills to accomplish a range of similar yet novel tasks is crucial for intelligent robots. In this work, we introduce $\textit{Diff-Transfer}$, a novel framework leveraging differentiable physics simulation to efficiently transfer robotic skills. Specifically, $\textit{Diff-Transfer}$ discovers a feasible path within the task space that brings the source task to the target task. At each pair of adjacent points along this task path, which is two sub-tasks, $\textit{Diff-Transfer}$ adapts known actions from one sub-task to tackle the other sub-task successfully. The adaptation is guided by the gradient information from differentiable physics simulations. We propose a novel path-planning method to generate sub-tasks, leveraging $Q$-learning with a task-level state and reward. We implement our framework in simulation experiments and execute four challenging transfer tasks on robotic manipulation, demonstrating the efficacy of $\textit{Diff-Transfer}$ through comprehensive experiments. Supplementary and Videos are on the website https://sites.google.com/view/difftransfer
翻訳日:2023-10-12 14:29:03 公開日:2023-10-10
# Diff-Transfer:微分物理シミュレーションによるモデルに基づくロボットマニピュレーションスキルの伝達

Diff-Transfer: Model-based Robotic Manipulation Skill Transfer via Differentiable Physics Simulation ( http://arxiv.org/abs/2310.04930v2 )

ライセンス: Link先を確認
Yuqi Xiang, Feitong Chen, Qinsi Wang, Yang Gang, Xiang Zhang, Xinghao Zhu, Xingyu Liu, Lin Shao(参考訳) 類似するが、新しいタスクをこなすためにマスタードスキルを伝達する能力は、インテリジェントなロボットにとって不可欠である。 本研究は,ロボットのスキルを効率的に伝達するために,微分可能な物理シミュレーションを活用する新しいフレームワークである$\textit{Diff-Transfer}$を紹介する。 具体的には、$\textit{Diff-Transfer}$は、ターゲットタスクにソースタスクをもたらすタスク空間内で実行可能なパスを発見する。 2つのサブタスクであるタスクパスに沿って隣接する各2つのポイントで、$\textit{diff-transfer}$は、あるサブタスクから既知のアクションを適応させ、他のサブタスクにうまく取り組む。 適応は微分可能な物理シミュレーションの勾配情報によって導かれる。 タスクレベルの状態と報酬を持つ$q$-learningを活用した,サブタスク生成のための新しいパスプランニング手法を提案する。 シミュレーション実験の枠組みを実装し,ロボット操作における4つの困難な伝達タスクを実行し,包括的な実験を通じて$\textit{diff-transfer}$の有効性を示す。 補足とビデオはhttps://sites.google.com/view/difftransferにある。

The capability to transfer mastered skills to accomplish a range of similar yet novel tasks is crucial for intelligent robots. In this work, we introduce $\textit{Diff-Transfer}$, a novel framework leveraging differentiable physics simulation to efficiently transfer robotic skills. Specifically, $\textit{Diff-Transfer}$ discovers a feasible path within the task space that brings the source task to the target task. At each pair of adjacent points along this task path, which is two sub-tasks, $\textit{Diff-Transfer}$ adapts known actions from one sub-task to tackle the other sub-task successfully. The adaptation is guided by the gradient information from differentiable physics simulations. We propose a novel path-planning method to generate sub-tasks, leveraging $Q$-learning with a task-level state and reward. We implement our framework in simulation experiments and execute four challenging transfer tasks on robotic manipulation, demonstrating the efficacy of $\textit{Diff-Transfer}$ through comprehensive experiments. Supplementary and Videos are on the website https://sites.google.com/view/difftransfer
翻訳日:2023-10-12 14:14:46 公開日:2023-10-10
# シーンテキスト認識のためのクリップを用いた対称的言語特徴蒸留

Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition ( http://arxiv.org/abs/2310.04999v1 )

ライセンス: Link先を確認
Zixiao Wang, Hongtao Xie, Yuxin Wang, Jianjun Xu, Boqiang Zhang, Yongdong Zhang(参考訳) 本稿では、シーンテキスト認識(STR)におけるコントラスト言語-画像事前学習(CLIP)モデルの可能性を探り、CLIPにおける視覚的知識と言語的知識の両面を活用するために、新しい対称性言語特徴蒸留フレームワーク(CLIP-OCR)を構築した。 視覚符号化における特徴一般化を主眼とする従来のCLIP法とは異なり,CLIPテキストエンコーダの言語知識をさらに捉える対称蒸留戦略(SDS)を提案する。 By cascading the CLIP image encoder with the reversed CLIP text encoder, a symmetrical structure is built with an image-to-text feature flow that covers not only visual but also linguistic information for distillation.Benefiting from the natural alignment in CLIP, such guidance flow provides a progressive optimization objective from vision to language, which can supervise the STR feature forwarding process layer-by-layer.Besides, a new Linguistic Consistency Loss (LCL) is proposed to enhance the linguistic capability by considering second-order statistics during the optimization. CLIP-OCRは、STRタスクのイメージとテキスト間のスムーズな遷移を最初に設計した。CLIP-OCRの6つの人気のあるSTRベンチマークの平均精度が93.8%であることを示す実験は、https://github.com/wzx99/CLIPOCRで提供される。

In this paper, we explore the potential of the Contrastive Language-Image Pretraining (CLIP) model in scene text recognition (STR), and establish a novel Symmetrical Linguistic Feature Distillation framework (named CLIP-OCR) to leverage both visual and linguistic knowledge in CLIP. Different from previous CLIP-based methods mainly considering feature generalization on visual encoding, we propose a symmetrical distillation strategy (SDS) that further captures the linguistic knowledge in the CLIP text encoder. By cascading the CLIP image encoder with the reversed CLIP text encoder, a symmetrical structure is built with an image-to-text feature flow that covers not only visual but also linguistic information for distillation.Benefiting from the natural alignment in CLIP, such guidance flow provides a progressive optimization objective from vision to language, which can supervise the STR feature forwarding process layer-by-layer.Besides, a new Linguistic Consistency Loss (LCL) is proposed to enhance the linguistic capability by considering second-order statistics during the optimization. Overall, CLIP-OCR is the first to design a smooth transition between image and text for the STR task.Extensive experiments demonstrate the effectiveness of CLIP-OCR with 93.8% average accuracy on six popular STR benchmarks.Code will be available at https://github.com/wzx99/CLIPOCR.
翻訳日:2023-10-12 13:49:55 公開日:2023-10-10
# シーンテキスト認識のためのクリップを用いた対称的言語特徴蒸留

Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition ( http://arxiv.org/abs/2310.04999v2 )

ライセンス: Link先を確認
Zixiao Wang, Hongtao Xie, Yuxin Wang, Jianjun Xu, Boqiang Zhang, Yongdong Zhang(参考訳) 本稿では、シーンテキスト認識(STR)におけるコントラスト言語-画像事前学習(CLIP)モデルの可能性を探り、CLIPにおける視覚的知識と言語的知識の両面を活用するために、新しい対称性言語特徴蒸留フレームワーク(CLIP-OCR)を構築した。 視覚符号化における特徴一般化を主眼とする従来のCLIP法とは異なり,CLIPテキストエンコーダの言語知識をさらに捉える対称蒸留戦略(SDS)を提案する。 By cascading the CLIP image encoder with the reversed CLIP text encoder, a symmetrical structure is built with an image-to-text feature flow that covers not only visual but also linguistic information for distillation.Benefiting from the natural alignment in CLIP, such guidance flow provides a progressive optimization objective from vision to language, which can supervise the STR feature forwarding process layer-by-layer.Besides, a new Linguistic Consistency Loss (LCL) is proposed to enhance the linguistic capability by considering second-order statistics during the optimization. CLIP-OCRは、STRタスクのイメージとテキスト間のスムーズな遷移を最初に設計した。CLIP-OCRの6つの人気のあるSTRベンチマークの平均精度が93.8%であることを示す実験は、https://github.com/wzx99/CLIPOCRで提供される。

In this paper, we explore the potential of the Contrastive Language-Image Pretraining (CLIP) model in scene text recognition (STR), and establish a novel Symmetrical Linguistic Feature Distillation framework (named CLIP-OCR) to leverage both visual and linguistic knowledge in CLIP. Different from previous CLIP-based methods mainly considering feature generalization on visual encoding, we propose a symmetrical distillation strategy (SDS) that further captures the linguistic knowledge in the CLIP text encoder. By cascading the CLIP image encoder with the reversed CLIP text encoder, a symmetrical structure is built with an image-to-text feature flow that covers not only visual but also linguistic information for distillation.Benefiting from the natural alignment in CLIP, such guidance flow provides a progressive optimization objective from vision to language, which can supervise the STR feature forwarding process layer-by-layer.Besides, a new Linguistic Consistency Loss (LCL) is proposed to enhance the linguistic capability by considering second-order statistics during the optimization. Overall, CLIP-OCR is the first to design a smooth transition between image and text for the STR task.Extensive experiments demonstrate the effectiveness of CLIP-OCR with 93.8% average accuracy on six popular STR benchmarks.Code will be available at https://github.com/wzx99/CLIPOCR.
翻訳日:2023-10-12 13:33:55 公開日:2023-10-10
# テキストから戦術へ:アバロンのゲームをプレイするllmの評価

From Text to Tactic: Evaluating LLMs Playing the Game of Avalon ( http://arxiv.org/abs/2310.05036v2 )

ライセンス: Link先を確認
Jonathan Light and Min Cai and Sheng Shen and Ziniu Hu(参考訳) 本稿では,Large Language Models (LLMs) Agentsが戦略的社会的推論ゲームであるResistence Avalonをプレイする可能性について検討する。 アバロンのプレイヤーは、動的に進化するゲームフェーズに基づいて情報的な決定を行うだけでなく、他のプレイヤーと騙し、推論し、交渉しなければならない議論を行う。 これらの特徴により、アバロンはLLMエージェントの意思決定能力と言語処理能力を研究するための魅力的なテストベッドとなる。 本稿では,マルチエージェントLLMエージェントの評価に適した総合ゲーム環境であるAvalonBenchを紹介する。 本ベンチマークでは,(1)アバロンのゲーム環境,(2)ルールベースのボットをベースラインとして,(3)各ロールに適したプロンプトを持つReActスタイルのLLMエージェントを組み込んだ。 特に、AvalonBenchに基づく評価では、明確な機能ギャップが強調されています。 例えば、chatgpt playing good-roleのようなモデルはルールベースのボットに対して22.2%の勝利率を獲得し、good-role botは同じ設定で38.2%の勝利率を達成している。 AvalonBenchは、より高度なLLM(セルフプレイング)やエージェントフレームワークを開発する上で、このようなゲーム環境の階層化複雑さを効果的にモデル化するための良いテストベッドになり得ると考えています。

In this paper, we explore the potential of Large Language Models (LLMs) Agents in playing the strategic social deduction game, Resistance Avalon. Players in Avalon are challenged not only to make informed decisions based on dynamically evolving game phases, but also to engage in discussions where they must deceive, deduce, and negotiate with other players. These characteristics make Avalon a compelling test-bed to study the decision-making and language-processing capabilities of LLM Agents. To facilitate research in this line, we introduce AvalonBench - a comprehensive game environment tailored for evaluating multi-agent LLM Agents. This benchmark incorporates: (1) a game environment for Avalon, (2) rule-based bots as baseline opponents, and (3) ReAct-style LLM agents with tailored prompts for each role. Notably, our evaluations based on AvalonBench highlight a clear capability gap. For instance, models like ChatGPT playing good-role got a win rate of 22.2% against rule-based bots playing evil, while good-role bot achieves 38.2% win rate in the same setting. We envision AvalonBench could be a good test-bed for developing more advanced LLMs (with self-playing) and agent frameworks that can effectively model the layered complexities of such game environments.
翻訳日:2023-10-12 13:17:26 公開日:2023-10-10
# テキストから戦術へ:アバロンのゲームをプレイするllmの評価

From Text to Tactic: Evaluating LLMs Playing the Game of Avalon ( http://arxiv.org/abs/2310.05036v1 )

ライセンス: Link先を確認
Jonathan Light and Min Cai and Sheng Shen and Ziniu Hu(参考訳) 本稿では,Large Language Models (LLMs) Agentsが戦略的社会的推論ゲームであるResistence Avalonをプレイする可能性について検討する。 アバロンのプレイヤーは、動的に進化するゲームフェーズに基づいて情報的な決定を行うだけでなく、他のプレイヤーと騙し、推論し、交渉しなければならない議論を行う。 これらの特徴により、アバロンはLLMエージェントの意思決定能力と言語処理能力を研究するための魅力的なテストベッドとなる。 本稿では,マルチエージェントLLMエージェントの評価に適した総合ゲーム環境であるAvalonBenchを紹介する。 本ベンチマークでは,(1)アバロンのゲーム環境,(2)ルールベースのボットをベースラインとして,(3)各ロールに適したプロンプトを持つReActスタイルのLLMエージェントを組み込んだ。 特に、AvalonBenchに基づく評価では、明確な機能ギャップが強調されています。 例えば、chatgpt playing good-roleのようなモデルはルールベースのボットに対して22.2%の勝利率を獲得し、good-role botは同じ設定で38.2%の勝利率を達成している。 AvalonBenchは、より高度なLLM(セルフプレイング)やエージェントフレームワークを開発する上で、このようなゲーム環境の階層化複雑さを効果的にモデル化するための良いテストベッドになり得ると考えています。

In this paper, we explore the potential of Large Language Models (LLMs) Agents in playing the strategic social deduction game, Resistance Avalon. Players in Avalon are challenged not only to make informed decisions based on dynamically evolving game phases, but also to engage in discussions where they must deceive, deduce, and negotiate with other players. These characteristics make Avalon a compelling test-bed to study the decision-making and language-processing capabilities of LLM Agents. To facilitate research in this line, we introduce AvalonBench - a comprehensive game environment tailored for evaluating multi-agent LLM Agents. This benchmark incorporates: (1) a game environment for Avalon, (2) rule-based bots as baseline opponents, and (3) ReAct-style LLM agents with tailored prompts for each role. Notably, our evaluations based on AvalonBench highlight a clear capability gap. For instance, models like ChatGPT playing good-role got a win rate of 22.2% against rule-based bots playing evil, while good-role bot achieves 38.2% win rate in the same setting. We envision AvalonBench could be a good test-bed for developing more advanced LLMs (with self-playing) and agent frameworks that can effectively model the layered complexities of such game environments.
翻訳日:2023-10-12 13:17:00 公開日:2023-10-10
# 自給自足プロンプト:反復イントロスペクションによる簡単な質問応答

Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection ( http://arxiv.org/abs/2310.05035v2 )

ライセンス: Link先を確認
Haodi Zhang and Min Cai and Xinhe Zhang and Chen Jason Zhang and Rui Mao and Kaishun Wu(参考訳) ChatGPTやPaLMのような大規模言語モデル(LLM)は、様々な言語理解や生成タスクにおいて顕著な性能を示してきたが、複雑な推論や複雑な知識利用能力は人間レベルの能力に欠けていた。 近年の研究では, LLMの所望の出力生成に向けてのプロンプトの有効性が確立されている。 これらの知見に基づいて,大規模事前学習言語モデルの可能性を活用し,llmの性能を反復的に向上させる新しい枠組みを提案する。 フレームワークには、 \textit{Normal CoT}, a \textit{Convincer}, a \textit{Answerer}の3つのコンポーネントが組み込まれています。 典型的なマイナショット・チェーン・オブ・思考プロンプトの出力を処理し、応答の正確性を評価し、回答を精査し、推論を洗練し、最終的に新しいソリューションを生み出す。 各種諸問題データセットによる実験結果から, 自給自足フレームワークの有効性を検証し, ベースラインよりも大幅に改善した。 本研究は,事前学習された言語モデルと調整されたプロンプトと反復的改良プロセスを統合することで,複雑なタスクにおける性能向上に寄与する。

While large language models (LLMs) such as ChatGPT and PaLM have demonstrated remarkable performance in various language understanding and generation tasks, their capabilities in complex reasoning and intricate knowledge utilization still fall short of human-level proficiency. Recent studies have established the effectiveness of prompts in steering LLMs towards generating desired outputs. Building on these insights, we introduce a novel framework that harnesses the potential of large-scale pre-trained language models, to iteratively enhance performance of the LLMs. Our framework incorporates three components: \textit{Normal CoT}, a \textit{Convincer}, and an \textit{Answerer}. It processes the output of a typical few-shot chain-of-thought prompt, assesses the correctness of the response, scrutinizes the answer, refines the reasoning, and ultimately produces a new solution. Experimental results on the 7 datasets of miscellaneous problems validate the efficacy of the Self-Convince framework, achieving substantial improvements compared to the baselines. This study contributes to the burgeoning body of research focused on integrating pre-trained language models with tailored prompts and iterative refinement processes to augment their performance in complex tasks.
翻訳日:2023-10-12 13:16:35 公開日:2023-10-10
# 自給自足プロンプト:反復イントロスペクションによる簡単な質問応答

Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection ( http://arxiv.org/abs/2310.05035v1 )

ライセンス: Link先を確認
Haodi Zhang and Min Cai and Xinhe Zhang and Chen Jason Zhang and Rui Mao and Kaishun Wu(参考訳) ChatGPTやPaLMのような大規模言語モデル(LLM)は、様々な言語理解や生成タスクにおいて顕著な性能を示してきたが、複雑な推論や複雑な知識利用能力は人間レベルの能力に欠けていた。 近年の研究では, LLMの所望の出力生成に向けてのプロンプトの有効性が確立されている。 これらの知見に基づいて,大規模事前学習言語モデルの可能性を活用し,llmの性能を反復的に向上させる新しい枠組みを提案する。 フレームワークには、 \textit{Normal CoT}, a \textit{Convincer}, a \textit{Answerer}の3つのコンポーネントが組み込まれています。 典型的なマイナショット・チェーン・オブ・思考プロンプトの出力を処理し、応答の正確性を評価し、回答を精査し、推論を洗練し、最終的に新しいソリューションを生み出す。 各種諸問題データセットによる実験結果から, 自給自足フレームワークの有効性を検証し, ベースラインよりも大幅に改善した。 本研究は,事前学習された言語モデルと調整されたプロンプトと反復的改良プロセスを統合することで,複雑なタスクにおける性能向上に寄与する。

While large language models (LLMs) such as ChatGPT and PaLM have demonstrated remarkable performance in various language understanding and generation tasks, their capabilities in complex reasoning and intricate knowledge utilization still fall short of human-level proficiency. Recent studies have established the effectiveness of prompts in steering LLMs towards generating desired outputs. Building on these insights, we introduce a novel framework that harnesses the potential of large-scale pre-trained language models, to iteratively enhance performance of the LLMs. Our framework incorporates three components: \textit{Normal CoT}, a \textit{Convincer}, and an \textit{Answerer}. It processes the output of a typical few-shot chain-of-thought prompt, assesses the correctness of the response, scrutinizes the answer, refines the reasoning, and ultimately produces a new solution. Experimental results on the 7 datasets of miscellaneous problems validate the efficacy of the Self-Convince framework, achieving substantial improvements compared to the baselines. This study contributes to the burgeoning body of research focused on integrating pre-trained language models with tailored prompts and iterative refinement processes to augment their performance in complex tasks.
翻訳日:2023-10-12 13:16:13 公開日:2023-10-10
# brainteaser: 大きな言語モデルのための横思考パズル

BRAINTEASER: Lateral Thinking Puzzles for Large Language Models ( http://arxiv.org/abs/2310.05057v1 )

ライセンス: Link先を確認
Yifan Jiang, Filip Ilievski, Kaixin Ma, Zhivar Sourati(参考訳) 言語モデルの成功は、NLPコミュニティに暗黙的かつ複雑な推論を必要とするタスクへの参加を刺激し、人間のようなコモンセンス機構に依存している。 このような垂直思考タスクは比較的人気があるが、横思考パズルはほとんど注目されていない。 このギャップを埋めるために、モデルが横方向の思考を示し、デフォルトのコモンセンスアソシエーションをデファクトする能力をテストするために設計された多重選択質問回答タスクであるBRAINTEASERを考案した。 我々は,データ収集,気晴らし生成,対向例生成からなる最初の横思考ベンチマークを作成するための3段階の手順をデザインし,高品質なアノテーションを備えた1,100のパズルを導出する。 モデルによる側方推論の整合性を評価するために,質問の意味的・文脈的再構成に基づいてBRAINTEASERを豊かにする。 最先端の命令モデルと常識言語モデルを用いた実験により,人間とモデルのパフォーマンスの間に大きなギャップが見られ,対向形式間の整合性を考慮した場合,さらなる拡張が期待できる。 側方思考モデルの開発と評価作業を促進するために、すべてのコードとデータを利用可能にしています。

The success of language models has inspired the NLP community to attend to tasks that require implicit and complex reasoning, relying on human-like commonsense mechanisms. While such vertical thinking tasks have been relatively popular, lateral thinking puzzles have received little attention. To bridge this gap, we devise BRAINTEASER: a multiple-choice Question Answering task designed to test the model's ability to exhibit lateral thinking and defy default commonsense associations. We design a three-step procedure for creating the first lateral thinking benchmark, consisting of data collection, distractor generation, and generation of adversarial examples, leading to 1,100 puzzles with high-quality annotations. To assess the consistency of lateral reasoning by models, we enrich BRAINTEASER based on a semantic and contextual reconstruction of its questions. Our experiments with state-of-the-art instruction- and commonsense language models reveal a significant gap between human and model performance, which is further widened when consistency across adversarial formats is considered. We make all of our code and data available to stimulate work on developing and evaluating lateral thinking models.
翻訳日:2023-10-12 13:08:02 公開日:2023-10-10
# 言語駆動型オープンボカブラリーキーポイントによる動物の体と顔の検出

Language-driven Open-Vocabulary Keypoint Detection for Animal Body and Face ( http://arxiv.org/abs/2310.05056v2 )

ライセンス: Link先を確認
Hao Zhang, Kaipeng Zhang, Lumin Xu, Shenqi Lai, Wenqi Shao, Nanning Zheng, Ping Luo, Yu Qiao(参考訳) 動物(ヒトを含む)の体と顔における画像に基づくキーポイント検出への現在のアプローチは、特定のキーポイントや種に限られている。 我々は,オープン語彙キーポイント検出(OVKD)タスクを提案することで,制限に対処する。 テキストプロンプトを使用して任意のキーポイントをローカライズすることを目的としている。 この目的を達成するために、視覚モデルと言語モデルの両方を用いて、テキストと視覚の関係を利用して、関連するキーポイント特徴とテキストプロンプトを関連付けることでキーポイント検出を実現するOpen-Vocabulary Keypoint Detection with Semantic-Feature Matching (KDSM)を提案する。 さらに、KDSMはドメイン分布行列マッチングといくつかの特別な設計を統合し、言語と視覚の関係を強化し、モデルの一般化性と性能を向上させる。 大規模な実験の結果,提案手法はOVKDにおいて顕著な性能向上をもたらすことが明らかとなった。 驚くべきことに、この方法はゼロショット方式で最先端のマイ・ショット・キーポイント検出手法を上回っている。 ソースコードを公開して公開します。

Current approaches for image-based keypoint detection on animal (including human) body and face are limited to specific keypoints and species. We address the limitation by proposing the Open-Vocabulary Keypoint Detection (OVKD) task. It aims to use text prompts to localize arbitrary keypoints of any species. To accomplish this objective, we propose Open-Vocabulary Keypoint Detection with Semantic-feature Matching (KDSM), which utilizes both vision and language models to harness the relationship between text and vision and thus achieve keypoint detection through associating text prompt with relevant keypoint features. Additionally, KDSM integrates domain distribution matrix matching and some special designs to reinforce the relationship between language and vision, thereby improving the model's generalizability and performance. Extensive experiments show that our proposed components bring significant performance improvements, and our overall method achieves impressive results in OVKD. Remarkably, our method outperforms the state-of-the-art few-shot keypoint detection methods using a zero-shot fashion. We will make the source code publicly accessible.
翻訳日:2023-10-12 13:07:42 公開日:2023-10-10
# 言語駆動型オープンボカブラリーキーポイントによる動物の体と顔の検出

Language-driven Open-Vocabulary Keypoint Detection for Animal Body and Face ( http://arxiv.org/abs/2310.05056v1 )

ライセンス: Link先を確認
Hao Zhang, Kaipeng Zhang, Lumin Xu, Shenqi Lai, Wenqi Shao, Nanning Zheng, Ping Luo, Yu Qiao(参考訳) 動物(ヒトを含む)の体と顔における画像に基づくキーポイント検出への現在のアプローチは、特定のキーポイントや種に限られている。 我々は,オープン語彙キーポイント検出(OVKD)タスクを提案することで,制限に対処する。 テキストプロンプトを使用して任意のキーポイントをローカライズすることを目的としている。 この目的を達成するために、視覚モデルと言語モデルの両方を用いて、テキストと視覚の関係を利用して、関連するキーポイント特徴とテキストプロンプトを関連付けることでキーポイント検出を実現するOpen-Vocabulary Keypoint Detection with Semantic-Feature Matching (KDSM)を提案する。 さらに、KDSMはドメイン分布行列マッチングといくつかの特別な設計を統合し、言語と視覚の関係を強化し、モデルの一般化性と性能を向上させる。 大規模な実験の結果,提案手法はOVKDにおいて顕著な性能向上をもたらすことが明らかとなった。 驚くべきことに、この方法はゼロショット方式で最先端のマイ・ショット・キーポイント検出手法を上回っている。 ソースコードを公開して公開します。

Current approaches for image-based keypoint detection on animal (including human) body and face are limited to specific keypoints and species. We address the limitation by proposing the Open-Vocabulary Keypoint Detection (OVKD) task. It aims to use text prompts to localize arbitrary keypoints of any species. To accomplish this objective, we propose Open-Vocabulary Keypoint Detection with Semantic-feature Matching (KDSM), which utilizes both vision and language models to harness the relationship between text and vision and thus achieve keypoint detection through associating text prompt with relevant keypoint features. Additionally, KDSM integrates domain distribution matrix matching and some special designs to reinforce the relationship between language and vision, thereby improving the model's generalizability and performance. Extensive experiments show that our proposed components bring significant performance improvements, and our overall method achieves impressive results in OVKD. Remarkably, our method outperforms the state-of-the-art few-shot keypoint detection methods using a zero-shot fashion. We will make the source code publicly accessible.
翻訳日:2023-10-12 13:07:25 公開日:2023-10-10
# CloudOpsドメインにおける時系列予測のための事前トレーニングの限界を押し上げる

Pushing the Limits of Pre-training for Time Series Forecasting in the CloudOps Domain ( http://arxiv.org/abs/2310.05063v2 )

ライセンス: Link先を確認
Gerald Woo, Chenghao Liu, Akshat Kumar, Doyen Sahoo(参考訳) 事前トレーニングと転校学習の時代には、時系列は残されている。 自然言語処理とコンピュータビジョンの分野の研究は、大規模モデルをトレーニングするために徐々に拡大したデータセットを享受していますが、最も人気のある時系列データセットは数万の時間ステップで構成されており、事前トレーニングとスケーリングの有効性を研究できる能力は限られています。 近年の研究では、表現力のあるモデルやスケールの必要性も疑問視されている。 これらの問題を緩和するために、cloud operations(cloudops)ドメインからの3つの大規模時系列予測データセットを導入する。 本研究では,時系列モデルの事前学習とスケーリングに関する実証的な基盤を構築し,将来的な候補アーキテクチャの特定による今後の研究の道を開く。 これは強力なゼロショットベースラインであり、モデルサイズとデータセットサイズの両方において、さらなるスケーリングによるメリットがあります。 これらのデータセットと結果を取得することは、古典的およびディープラーニングのベースラインをトレーニング済みの方法と比較する包括的なベンチマーク結果のスイートです。 コードとデータセットがリリースされる。

Time series has been left behind in the era of pre-training and transfer learning. While research in the fields of natural language processing and computer vision are enjoying progressively larger datasets to train massive models, the most popular time series datasets consist of only tens of thousands of time steps, limiting our ability to study the effectiveness of pre-training and scaling. Recent studies have also cast doubt on the need for expressive models and scale. To alleviate these issues, we introduce three large-scale time series forecasting datasets from the cloud operations (CloudOps) domain, the largest having billions of observations, enabling further study into pre-training and scaling of time series models. We build the empirical groundwork for studying pre-training and scaling of time series models and pave the way for future research by identifying a promising candidate architecture. We show that it is a strong zero-shot baseline and benefits from further scaling, both in model and dataset size. Accompanying these datasets and results is a suite of comprehensive benchmark results comparing classical and deep learning baselines to our pre-trained method - achieving a 27% reduction in error on the largest dataset. Code and datasets will be released.
翻訳日:2023-10-12 12:56:26 公開日:2023-10-10
# CloudOpsドメインにおける時系列予測のための事前トレーニングの限界を押し上げる

Pushing the Limits of Pre-training for Time Series Forecasting in the CloudOps Domain ( http://arxiv.org/abs/2310.05063v1 )

ライセンス: Link先を確認
Gerald Woo, Chenghao Liu, Akshat Kumar, Doyen Sahoo(参考訳) 事前トレーニングと転校学習の時代には、時系列は残されている。 自然言語処理とコンピュータビジョンの分野の研究は、大規模モデルをトレーニングするために徐々に拡大したデータセットを享受していますが、最も人気のある時系列データセットは数万の時間ステップで構成されており、事前トレーニングとスケーリングの有効性を研究できる能力は限られています。 近年の研究では、表現力のあるモデルやスケールの必要性も疑問視されている。 これらの問題を緩和するために、cloud operations(cloudops)ドメインからの3つの大規模時系列予測データセットを導入する。 本研究では,時系列モデルの事前学習とスケーリングに関する実証的な基盤を構築し,将来的な候補アーキテクチャの特定による今後の研究の道を開く。 これは強力なゼロショットベースラインであり、モデルサイズとデータセットサイズの両方において、さらなるスケーリングによるメリットがあります。 これらのデータセットと結果を取得することは、古典的およびディープラーニングのベースラインをトレーニング済みの方法と比較する包括的なベンチマーク結果のスイートです。 コードとデータセットがリリースされる。

Time series has been left behind in the era of pre-training and transfer learning. While research in the fields of natural language processing and computer vision are enjoying progressively larger datasets to train massive models, the most popular time series datasets consist of only tens of thousands of time steps, limiting our ability to study the effectiveness of pre-training and scaling. Recent studies have also cast doubt on the need for expressive models and scale. To alleviate these issues, we introduce three large-scale time series forecasting datasets from the cloud operations (CloudOps) domain, the largest having billions of observations, enabling further study into pre-training and scaling of time series models. We build the empirical groundwork for studying pre-training and scaling of time series models and pave the way for future research by identifying a promising candidate architecture. We show that it is a strong zero-shot baseline and benefits from further scaling, both in model and dataset size. Accompanying these datasets and results is a suite of comprehensive benchmark results comparing classical and deep learning baselines to our pre-trained method - achieving a 27% reduction in error on the largest dataset. Code and datasets will be released.
翻訳日:2023-10-12 12:56:06 公開日:2023-10-10
# local to global:pseudo-boolean optimization problemのための分散量子近似最適化アルゴリズム

Local to Global: A Distributed Quantum Approximate Optimization Algorithm for Pseudo-Boolean Optimization Problems ( http://arxiv.org/abs/2310.05062v2 )

ライセンス: Link先を確認
Bo Yue, Shibei Xue, Yu Pan, Min Jiang, Daoyi Dong(参考訳) 量子コンピューティングの急速な進歩により、量子近似最適化アルゴリズム(qaoa)は量子超越性を示す有望な候補と見なされ、量子超越性(quantum supremacy)は二次的非拘束型二分最適化(quantum unconstrained binary optimization、qubo)問題のクラスを指数関数的に解く。 しかし、量子ビットの可用性が制限され、コヒーレンスタイムが制限されたQAOAは、現在利用可能なNear-term Intermediate Scale Quantum (NISQ)デバイスで大規模な擬ブール問題を解く。 本稿では,これを単純化したIsingモデルに変換することで,一般の擬似ブール問題を解く分散QAOAを提案する。 従来の分散QAOAsとは違い、局所解がグローバルな問題の一部であることを前提として、ルービアンアルゴリズムを用いてグラフを分割するコミュニティ検出を導入し、そこでグラフをコミュニティ表現によりさらに圧縮し、より高いレベルのサブグラフにマージする。 低レベル部分グラフの局所解は、再帰的かつ後向きに、高レベル部分グラフの解からのヒューリスティックによって更新される。 従来の手法と比較して,本アルゴリズムは局所解に大域的ヒューリスティックスを組み込んで,より高い近似比と異なるグラフ構成における性能を達成することを証明している。 また,本手法における各成分の有効性についても検討した。

With the rapid advancement of quantum computing, Quantum Approximate Optimization Algorithm (QAOA) is considered as a promising candidate to demonstrate quantum supremacy, which exponentially solves a class of Quadratic Unconstrained Binary Optimization (QUBO) problems. However, limited qubit availability and restricted coherence time challenge QAOA to solve large-scale pseudo-Boolean problems on currently available Near-term Intermediate Scale Quantum (NISQ) devices. In this paper, we propose a distributed QAOA which can solve a general pseudo-Boolean problem by converting it to a simplified Ising model. Different from existing distributed QAOAs' assuming that local solutions are part of a global one, which is not often the case, we introduce community detection using Louvian algorithm to partition the graph where subgraphs are further compressed by community representation and merged into a higher level subgraph. Recursively and backwards, local solutions of lower level subgraphs are updated by heuristics from solutions of higher level subgraphs. Compared with existing methods, our algorithm incorporates global heuristics into local solutions such that our algorithm is proven to achieve a higher approximation ratio and outperforms across different graph configurations. Also, ablation studies validate the effectiveness of each component in our method.
翻訳日:2023-10-12 12:55:47 公開日:2023-10-10
# local to global:pseudo-boolean optimization problemのための分散量子近似最適化アルゴリズム

Local to Global: A Distributed Quantum Approximate Optimization Algorithm for Pseudo-Boolean Optimization Problems ( http://arxiv.org/abs/2310.05062v1 )

ライセンス: Link先を確認
Bo Yue, Shibei Xue, Yu Pan, Min Jiang, Daoyi Dong(参考訳) 量子コンピューティングの急速な進歩により、量子近似最適化アルゴリズム(qaoa)は量子超越性を示す有望な候補と見なされ、量子超越性(quantum supremacy)は二次的非拘束型二分最適化(quantum unconstrained binary optimization、qubo)問題のクラスを指数関数的に解く。 しかし、量子ビットの可用性が制限され、コヒーレンスタイムが制限されたQAOAは、現在利用可能なNear-term Intermediate Scale Quantum (NISQ)デバイスで大規模な擬ブール問題を解く。 本稿では,これを単純化したIsingモデルに変換することで,一般の擬似ブール問題を解く分散QAOAを提案する。 従来の分散QAOAsとは違い、局所解がグローバルな問題の一部であることを前提として、ルービアンアルゴリズムを用いてグラフを分割するコミュニティ検出を導入し、そこでグラフをコミュニティ表現によりさらに圧縮し、より高いレベルのサブグラフにマージする。 低レベル部分グラフの局所解は、再帰的かつ後向きに、高レベル部分グラフの解からのヒューリスティックによって更新される。 従来の手法と比較して,本アルゴリズムは局所解に大域的ヒューリスティックスを組み込んで,より高い近似比と異なるグラフ構成における性能を達成することを証明している。 また,本手法における各成分の有効性についても検討した。

With the rapid advancement of quantum computing, Quantum Approximate Optimization Algorithm (QAOA) is considered as a promising candidate to demonstrate quantum supremacy, which exponentially solves a class of Quadratic Unconstrained Binary Optimization (QUBO) problems. However, limited qubit availability and restricted coherence time challenge QAOA to solve large-scale pseudo-Boolean problems on currently available Near-term Intermediate Scale Quantum (NISQ) devices. In this paper, we propose a distributed QAOA which can solve a general pseudo-Boolean problem by converting it to a simplified Ising model. Different from existing distributed QAOAs' assuming that local solutions are part of a global one, which is not often the case, we introduce community detection using Louvian algorithm to partition the graph where subgraphs are further compressed by community representation and merged into a higher level subgraph. Recursively and backwards, local solutions of lower level subgraphs are updated by heuristics from solutions of higher level subgraphs. Compared with existing methods, our algorithm incorporates global heuristics into local solutions such that our algorithm is proven to achieve a higher approximation ratio and outperforms across different graph configurations. Also, ablation studies validate the effectiveness of each component in our method.
翻訳日:2023-10-12 12:55:24 公開日:2023-10-10
# brainteaser: 大きな言語モデルのための横思考パズル

BRAINTEASER: Lateral Thinking Puzzles for Large Language Models ( http://arxiv.org/abs/2310.05057v2 )

ライセンス: Link先を確認
Yifan Jiang, Filip Ilievski, Kaixin Ma, Zhivar Sourati(参考訳) 言語モデルの成功は、NLPコミュニティに暗黙的かつ複雑な推論を必要とするタスクへの参加を刺激し、人間のようなコモンセンス機構に依存している。 このような垂直思考タスクは比較的人気があるが、横思考パズルはほとんど注目されていない。 このギャップを埋めるために、モデルが横方向の思考を示し、デフォルトのコモンセンスアソシエーションをデファクトする能力をテストするために設計された多重選択質問回答タスクであるBRAINTEASERを考案した。 我々は,データ収集,気晴らし生成,対向例生成からなる最初の横思考ベンチマークを作成するための3段階の手順をデザインし,高品質なアノテーションを備えた1,100のパズルを導出する。 モデルによる側方推論の整合性を評価するために,質問の意味的・文脈的再構成に基づいてBRAINTEASERを豊かにする。 最先端の命令モデルと常識言語モデルを用いた実験により,人間とモデルのパフォーマンスの間に大きなギャップが見られ,対向形式間の整合性を考慮した場合,さらなる拡張が期待できる。 側方思考モデルの開発と評価作業を促進するために、すべてのコードとデータを利用可能にしています。

The success of language models has inspired the NLP community to attend to tasks that require implicit and complex reasoning, relying on human-like commonsense mechanisms. While such vertical thinking tasks have been relatively popular, lateral thinking puzzles have received little attention. To bridge this gap, we devise BRAINTEASER: a multiple-choice Question Answering task designed to test the model's ability to exhibit lateral thinking and defy default commonsense associations. We design a three-step procedure for creating the first lateral thinking benchmark, consisting of data collection, distractor generation, and generation of adversarial examples, leading to 1,100 puzzles with high-quality annotations. To assess the consistency of lateral reasoning by models, we enrich BRAINTEASER based on a semantic and contextual reconstruction of its questions. Our experiments with state-of-the-art instruction- and commonsense language models reveal a significant gap between human and model performance, which is further widened when consistency across adversarial formats is considered. We make all of our code and data available to stimulate work on developing and evaluating lateral thinking models.
翻訳日:2023-10-12 12:53:22 公開日:2023-10-10
# DialCoTがPPOに - より小さな言語モデルにおける推論パスの分解と探索

DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller Language Models ( http://arxiv.org/abs/2310.05074v2 )

ライセンス: Link先を確認
Chengcheng Han, Xiaowei Du, Che Zhang, Yixin Lian, Xiang Li, Ming Gao, Baoyuan Wang(参考訳) CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。 しかし、100億未満のパラメータを持つ小型言語モデル(slms)の推論タスクに適用されると、効果や有害性は失われる。 この制限に対処するために,対話形式を用いて中間的推論ステップを生成し,モデルを最終回答へと導く対話ガイド付き連鎖思考 (dialcot) を導入する。 さらに,ppo(proximal policy optimization)アルゴリズムを用いてモデルの推論パス選択を最適化し,推論能力をさらに向上させる。 提案手法は従来の手法に比べていくつかの利点がある。 まず、より単純なサブクエストに分解することで複雑な推論問題の解法を変換し、タスクの難易度を大幅に低減し、SLMに適したものにする。 次に、PPOアルゴリズムを用いてモデルの推論経路の選択を最適化する。 4つの算術推論データセットについて包括的実験を行い,本手法が最先端の競争相手に比べて大幅な性能向上を実現することを実証した。

Chain-of-Thought (CoT) prompting has proven to be effective in enhancing the reasoning capabilities of Large Language Models (LLMs) with at least 100 billion parameters. However, it is ineffective or even detrimental when applied to reasoning tasks in Smaller Language Models (SLMs) with less than 10 billion parameters. To address this limitation, we introduce Dialogue-guided Chain-of-Thought (DialCoT) which employs a dialogue format to generate intermediate reasoning steps, guiding the model toward the final answer. Additionally, we optimize the model's reasoning path selection using the Proximal Policy Optimization (PPO) algorithm, further enhancing its reasoning capabilities. Our method offers several advantages compared to previous approaches. Firstly, we transform the process of solving complex reasoning questions by breaking them down into a series of simpler sub-questions, significantly reducing the task difficulty and making it more suitable for SLMs. Secondly, we optimize the model's reasoning path selection through the PPO algorithm. We conduct comprehensive experiments on four arithmetic reasoning datasets, demonstrating that our method achieves significant performance improvements compared to state-of-the-art competitors.
翻訳日:2023-10-12 12:45:34 公開日:2023-10-10
# DialCoTがPPOに - より小さな言語モデルにおける推論パスの分解と探索

DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller Language Models ( http://arxiv.org/abs/2310.05074v1 )

ライセンス: Link先を確認
Chengcheng Han, Xiaowei Du, Che Zhang, Yixin Lian, Xiang Li, Ming Gao, Baoyuan Wang(参考訳) CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。 しかし、100億未満のパラメータを持つ小型言語モデル(slms)の推論タスクに適用されると、効果や有害性は失われる。 この制限に対処するために,対話形式を用いて中間的推論ステップを生成し,モデルを最終回答へと導く対話ガイド付き連鎖思考 (dialcot) を導入する。 さらに,ppo(proximal policy optimization)アルゴリズムを用いてモデルの推論パス選択を最適化し,推論能力をさらに向上させる。 提案手法は従来の手法に比べていくつかの利点がある。 まず、より単純なサブクエストに分解することで複雑な推論問題の解法を変換し、タスクの難易度を大幅に低減し、SLMに適したものにする。 次に、PPOアルゴリズムを用いてモデルの推論経路の選択を最適化する。 4つの算術推論データセットについて包括的実験を行い,本手法が最先端の競争相手に比べて大幅な性能向上を実現することを実証した。

Chain-of-Thought (CoT) prompting has proven to be effective in enhancing the reasoning capabilities of Large Language Models (LLMs) with at least 100 billion parameters. However, it is ineffective or even detrimental when applied to reasoning tasks in Smaller Language Models (SLMs) with less than 10 billion parameters. To address this limitation, we introduce Dialogue-guided Chain-of-Thought (DialCoT) which employs a dialogue format to generate intermediate reasoning steps, guiding the model toward the final answer. Additionally, we optimize the model's reasoning path selection using the Proximal Policy Optimization (PPO) algorithm, further enhancing its reasoning capabilities. Our method offers several advantages compared to previous approaches. Firstly, we transform the process of solving complex reasoning questions by breaking them down into a series of simpler sub-questions, significantly reducing the task difficulty and making it more suitable for SLMs. Secondly, we optimize the model's reasoning path selection through the PPO algorithm. We conduct comprehensive experiments on four arithmetic reasoning datasets, demonstrating that our method achieves significant performance improvements compared to state-of-the-art competitors.
翻訳日:2023-10-12 12:45:12 公開日:2023-10-10
# Hieros: 構造化状態空間シーケンスワールドモデルに関する階層的イマジネーション

Hieros: Hierarchical Imagination on Structured State Space Sequence World Models ( http://arxiv.org/abs/2310.05167v2 )

ライセンス: Link先を確認
Paul Mattes, Rainer Schlosser, Ralf Herbrich(参考訳) 現代的深層強化学習(drl)アルゴリズムの最大の課題の1つはサンプル効率である。 多くのアプローチは、エージェントを完全に想像力で訓練するために世界モデルを学び、トレーニング中に直接環境相互作用の必要性をなくす。 しかし、これらの方法はしばしば想像力の正確さ、探索能力、実行時の効率の欠如に苦しむ。 本研究では,時間的抽象世界表現を学習し,複数の時間的空間における軌跡を推定する階層的ポリシーであるHierosを提案する。 hierosはs5レイヤベースの世界モデルを使用して、トレーニング中と環境相互作用中の反復的に次の世界状態を並列に予測する。 s5層の特殊性により,並列に学習し,イマジネーション中に次世界の状態を反復的に予測できる。 これにより、rnnベースのワールドモデルよりも効率的なトレーニングと、トランスフォーマーベースのワールドモデルよりも効率的なイマジネーションが可能になる。 このアプローチはatari 100kベンチマークで平均値と平均値の正規化人間のスコアの点でアートの状態を上回っており、提案する世界モデルは複雑なダイナミクスを非常に正確に予測できることを示した。 また、hierosは既存のアプローチよりも優れた探索能力を示している。

One of the biggest challenges to modern deep reinforcement learning (DRL) algorithms is sample efficiency. Many approaches learn a world model in order to train an agent entirely in imagination, eliminating the need for direct environment interaction during training. However, these methods often suffer from either a lack of imagination accuracy, exploration capabilities, or runtime efficiency. We propose Hieros, a hierarchical policy that learns time abstracted world representations and imagines trajectories at multiple time scales in latent space. Hieros uses an S5 layer-based world model, which predicts next world states in parallel during training and iteratively during environment interaction. Due to the special properties of S5 layers, our method can train in parallel and predict next world states iteratively during imagination. This allows for more efficient training than RNN-based world models and more efficient imagination than Transformer-based world models. We show that our approach outperforms the state of the art in terms of mean and median normalized human score on the Atari 100k benchmark, and that our proposed world model is able to predict complex dynamics very accurately. We also show that Hieros displays superior exploration capabilities compared to existing approaches.
翻訳日:2023-10-12 11:53:35 公開日:2023-10-10
# Hieros: 構造化状態空間シーケンスワールドモデルに関する階層的イマジネーション

Hieros: Hierarchical Imagination on Structured State Space Sequence World Models ( http://arxiv.org/abs/2310.05167v1 )

ライセンス: Link先を確認
Paul Mattes, Rainer Schlosser, Ralf Herbrich(参考訳) 現代的深層強化学習(drl)アルゴリズムの最大の課題の1つはサンプル効率である。 多くのアプローチは、エージェントを完全に想像力で訓練するために世界モデルを学び、トレーニング中に直接環境相互作用の必要性をなくす。 しかし、これらの方法はしばしば想像力の正確さ、探索能力、実行時の効率の欠如に苦しむ。 本研究では,時間的抽象世界表現を学習し,複数の時間的空間における軌跡を推定する階層的ポリシーであるHierosを提案する。 hierosはs5レイヤベースの世界モデルを使用して、トレーニング中と環境相互作用中の反復的に次の世界状態を並列に予測する。 s5層の特殊性により,並列に学習し,イマジネーション中に次世界の状態を反復的に予測できる。 これにより、rnnベースのワールドモデルよりも効率的なトレーニングと、トランスフォーマーベースのワールドモデルよりも効率的なイマジネーションが可能になる。 このアプローチはatari 100kベンチマークで平均値と平均値の正規化人間のスコアの点でアートの状態を上回っており、提案する世界モデルは複雑なダイナミクスを非常に正確に予測できることを示した。 また、hierosは既存のアプローチよりも優れた探索能力を示している。

One of the biggest challenges to modern deep reinforcement learning (DRL) algorithms is sample efficiency. Many approaches learn a world model in order to train an agent entirely in imagination, eliminating the need for direct environment interaction during training. However, these methods often suffer from either a lack of imagination accuracy, exploration capabilities, or runtime efficiency. We propose Hieros, a hierarchical policy that learns time abstracted world representations and imagines trajectories at multiple time scales in latent space. Hieros uses an S5 layer-based world model, which predicts next world states in parallel during training and iteratively during environment interaction. Due to the special properties of S5 layers, our method can train in parallel and predict next world states iteratively during imagination. This allows for more efficient training than RNN-based world models and more efficient imagination than Transformer-based world models. We show that our approach outperforms the state of the art in terms of mean and median normalized human score on the Atari 100k benchmark, and that our proposed world model is able to predict complex dynamics very accurately. We also show that Hieros displays superior exploration capabilities compared to existing approaches.
翻訳日:2023-10-12 11:53:15 公開日:2023-10-10
# 大規模言語モデルの時代における事実性課題

Factuality Challenges in the Era of Large Language Models ( http://arxiv.org/abs/2310.05189v2 )

ライセンス: Link先を確認
Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha, Tanmoy Chakraborty, Giovanni Luca Ciampaglia, David Corney, Renee DiResta, Emilio Ferrara, Scott Hale, Alon Halevy, Eduard Hovy, Heng Ji, Filippo Menczer, Ruben Miguez, Preslav Nakov, Dietram Scheufele, Shivam Sharma, Giovanni Zagni(参考訳) OpenAIのChatGPT、MicrosoftのBing Chat、GoogleのBardといった、LLM(Large Language Models)に基づいたツールの出現は、大きな注目を集めている。 これらの信じられないほど有用で自然に聞こえるツールは、自然言語生成の大きな進歩を示しているが、偽、誤、あるいは誤解を招くコンテンツを生成するための正当性を示す。 さらに、LLMは、偽ながら信頼できるコンテンツやプロファイルを大規模に生成するなど、悪意あるアプリケーションに利用することができる。 これは、利用者の潜在的な騙しと不正確な情報の拡散の増加という観点で、社会にとって大きな課題となる。 これらのリスクを踏まえて、ファクトチェックやニュース組織、より広範な研究や政策コミュニティから必要とされる技術革新、規制改革、aiリテラシーイニシアティブの種類を調査します。 リスク、差し迫った脅威、そしていくつかの有効な解決策を特定することで、私たちは、生成aiの時代におけるveracityのさまざまな側面のナビゲートに光を当てようとしている。

The emergence of tools based on Large Language Models (LLMs), such as OpenAI's ChatGPT, Microsoft's Bing Chat, and Google's Bard, has garnered immense public attention. These incredibly useful, natural-sounding tools mark significant advances in natural language generation, yet they exhibit a propensity to generate false, erroneous, or misleading content -- commonly referred to as "hallucinations." Moreover, LLMs can be exploited for malicious applications, such as generating false but credible-sounding content and profiles at scale. This poses a significant challenge to society in terms of the potential deception of users and the increasing dissemination of inaccurate information. In light of these risks, we explore the kinds of technological innovations, regulatory reforms, and AI literacy initiatives needed from fact-checkers, news organizations, and the broader research and policy communities. By identifying the risks, the imminent threats, and some viable solutions, we seek to shed light on navigating various aspects of veracity in the era of generative AI.
翻訳日:2023-10-12 11:46:45 公開日:2023-10-10
# 大規模言語モデルの時代における事実性課題

Factuality Challenges in the Era of Large Language Models ( http://arxiv.org/abs/2310.05189v1 )

ライセンス: Link先を確認
Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha, Tanmoy Chakraborty, Giovanni Luca Ciampaglia, David Corney, Renee DiResta, Emilio Ferrara, Scott Hale, Alon Halevy, Eduard Hovy, Heng Ji, Filippo Menczer, Ruben Miguez, Preslav Nakov, Dietram Scheufele, Shivam Sharma, Giovanni Zagni(参考訳) OpenAIのChatGPT、MicrosoftのBing Chat、GoogleのBardといった、LLM(Large Language Models)に基づいたツールの出現は、大きな注目を集めている。 これらの信じられないほど有用で自然に聞こえるツールは、自然言語生成の大きな進歩を示しているが、偽、誤、あるいは誤解を招くコンテンツを生成するための正当性を示す。 さらに、LLMは、偽ながら信頼できるコンテンツやプロファイルを大規模に生成するなど、悪意あるアプリケーションに利用することができる。 これは、利用者の潜在的な騙しと不正確な情報の拡散の増加という観点で、社会にとって大きな課題となる。 これらのリスクを踏まえて、ファクトチェックやニュース組織、より広範な研究や政策コミュニティから必要とされる技術革新、規制改革、aiリテラシーイニシアティブの種類を調査します。 リスク、差し迫った脅威、そしていくつかの有効な解決策を特定することで、私たちは、生成aiの時代におけるveracityのさまざまな側面のナビゲートに光を当てようとしている。

The emergence of tools based on Large Language Models (LLMs), such as OpenAI's ChatGPT, Microsoft's Bing Chat, and Google's Bard, has garnered immense public attention. These incredibly useful, natural-sounding tools mark significant advances in natural language generation, yet they exhibit a propensity to generate false, erroneous, or misleading content -- commonly referred to as "hallucinations." Moreover, LLMs can be exploited for malicious applications, such as generating false but credible-sounding content and profiles at scale. This poses a significant challenge to society in terms of the potential deception of users and the increasing dissemination of inaccurate information. In light of these risks, we explore the kinds of technological innovations, regulatory reforms, and AI literacy initiatives needed from fact-checkers, news organizations, and the broader research and policy communities. By identifying the risks, the imminent threats, and some viable solutions, we seek to shed light on navigating various aspects of veracity in the era of generative AI.
翻訳日:2023-10-12 11:46:26 公開日:2023-10-10
# スコアソフトマックス分類器を用いた減算駆動検出のクロスデータセット性能向上

Enhancing Cross-Dataset Performance of Distracted Driving Detection With Score-Softmax Classifier ( http://arxiv.org/abs/2310.05202v2 )

ライセンス: Link先を確認
Cong Duan and Zixuan Liu and Jiahao Xia and Minghai Zhang and Jiacai Liao and Libo Cao(参考訳) ディープニューラルネットワークは車載運転者のリアルタイム監視を可能にし、邪魔、疲労、潜在的な危険のタイムリーな予測を容易にする。 この技術は現在、インテリジェント輸送システムに不可欠なものである。 最近の研究では、限られたデータサンプルから生じる「ショートカット学習」と呼ばれる過度な適合によって、信頼性の低いクロスデータセットのエンドツーエンドドライバの動作認識が明らかにされている。 本稿では,クラス間独立性とクラス内不確実性を高めることでこの問題に対処するScore-Softmax分類器を提案する。 人間の評価パターンに動機づけられ,分類器を訓練するために,限界ガウス分布に基づく2次元監視行列を設計した。 ガウス分布はクラス内の不確実性を増幅し、スコア・ソフトマックス分類器が正確な知識を確実に学習するのに役立つ。 さらに,独立したガウス分布確率変数の和を用いて,マルチチャネル情報融合方式を導入した。 この戦略はスコアソフトマックス分類器のマルチ情報融合課題を効果的に解決する。 同時に、転送学習とマルチデータセットの組み合わせの必要性を裏付ける。 sfd, aucdd-v1, 100ドライバのデータセットを用いたクロスデータセット実験を行い, score-softmaxがモデルアーキテクチャを変更せずにクロスデータセットのパフォーマンスを向上させることを実証した。 これは、ニューラルネットワークの一般化を強化する新しいアプローチを提供する。 さらに,情報融合手法は従来の手法よりも優れている。

Deep neural networks enable real-time monitoring of in-vehicle driver, facilitating the timely prediction of distractions, fatigue, and potential hazards. This technology is now integral to intelligent transportation systems. Recent research has exposed unreliable cross-dataset end-to-end driver behavior recognition due to overfitting, often referred to as ``shortcut learning", resulting from limited data samples. In this paper, we introduce the Score-Softmax classifier, which addresses this issue by enhancing inter-class independence and Intra-class uncertainty. Motivated by human rating patterns, we designed a two-dimensional supervisory matrix based on marginal Gaussian distributions to train the classifier. Gaussian distributions help amplify intra-class uncertainty while ensuring the Score-Softmax classifier learns accurate knowledge. Furthermore, leveraging the summation of independent Gaussian distributed random variables, we introduced a multi-channel information fusion method. This strategy effectively resolves the multi-information fusion challenge for the Score-Softmax classifier. Concurrently, we substantiate the necessity of transfer learning and multi-dataset combination. We conducted cross-dataset experiments using the SFD, AUCDD-V1, and 100-Driver datasets, demonstrating that Score-Softmax improves cross-dataset performance without modifying the model architecture. This provides a new approach for enhancing neural network generalization. Additionally, our information fusion approach outperforms traditional methods.
翻訳日:2023-10-12 11:35:22 公開日:2023-10-10
# スコアソフトマックス分類器を用いた減算駆動検出のクロスデータセット性能向上

Enhancing Cross-Dataset Performance of Distracted Driving Detection With Score-Softmax Classifier ( http://arxiv.org/abs/2310.05202v1 )

ライセンス: Link先を確認
Cong Duan and Zixuan Liu and Jiahao Xia and Minghai Zhang and Jiacai Liao and Libo Cao(参考訳) ディープニューラルネットワークは車載運転者のリアルタイム監視を可能にし、邪魔、疲労、潜在的な危険のタイムリーな予測を容易にする。 この技術は現在、インテリジェント輸送システムに不可欠なものである。 最近の研究では、限られたデータサンプルから生じる「ショートカット学習」と呼ばれる過度な適合によって、信頼性の低いクロスデータセットのエンドツーエンドドライバの動作認識が明らかにされている。 本稿では,クラス間独立性とクラス内不確実性を高めることでこの問題に対処するScore-Softmax分類器を提案する。 人間の評価パターンに動機づけられ,分類器を訓練するために,限界ガウス分布に基づく2次元監視行列を設計した。 ガウス分布はクラス内の不確実性を増幅し、スコア・ソフトマックス分類器が正確な知識を確実に学習するのに役立つ。 さらに,独立したガウス分布確率変数の和を用いて,マルチチャネル情報融合方式を導入した。 この戦略はスコアソフトマックス分類器のマルチ情報融合課題を効果的に解決する。 同時に、転送学習とマルチデータセットの組み合わせの必要性を裏付ける。 sfd, aucdd-v1, 100ドライバのデータセットを用いたクロスデータセット実験を行い, score-softmaxがモデルアーキテクチャを変更せずにクロスデータセットのパフォーマンスを向上させることを実証した。 これは、ニューラルネットワークの一般化を強化する新しいアプローチを提供する。 さらに,情報融合手法は従来の手法よりも優れている。

Deep neural networks enable real-time monitoring of in-vehicle driver, facilitating the timely prediction of distractions, fatigue, and potential hazards. This technology is now integral to intelligent transportation systems. Recent research has exposed unreliable cross-dataset end-to-end driver behavior recognition due to overfitting, often referred to as ``shortcut learning", resulting from limited data samples. In this paper, we introduce the Score-Softmax classifier, which addresses this issue by enhancing inter-class independence and Intra-class uncertainty. Motivated by human rating patterns, we designed a two-dimensional supervisory matrix based on marginal Gaussian distributions to train the classifier. Gaussian distributions help amplify intra-class uncertainty while ensuring the Score-Softmax classifier learns accurate knowledge. Furthermore, leveraging the summation of independent Gaussian distributed random variables, we introduced a multi-channel information fusion method. This strategy effectively resolves the multi-information fusion challenge for the Score-Softmax classifier. Concurrently, we substantiate the necessity of transfer learning and multi-dataset combination. We conducted cross-dataset experiments using the SFD, AUCDD-V1, and 100-Driver datasets, demonstrating that Score-Softmax improves cross-dataset performance without modifying the model architecture. This provides a new approach for enhancing neural network generalization. Additionally, our information fusion approach outperforms traditional methods.
翻訳日:2023-10-12 11:34:59 公開日:2023-10-10
# 法的事実からの自動議論生成

Automated Argument Generation from Legal Facts ( http://arxiv.org/abs/2310.05680v2 )

ライセンス: Link先を確認
Oscar Tuvey, Procheta Sen(参考訳) 差し掛かるケースの数は、各国で指数関数的に増加した(例えば、インドだけで1000万件以上の差し掛かっているケースがある)。 主な問題は、法律体系に提出された事件の数が、ある国の法律専門家の数よりもはるかに多いという事実にある。 この世界的な状況を踏まえると、AI技術の利用は、法的手続きの効率性とスピードを高めるために最重要視されている。 本研究では,訴訟分析の過程において,法的専門家を支援することに焦点を当てた。 我々の具体的な調査は、オープンソースの大規模言語モデルの生成能力を活用して、訴訟に存在する事実から派生した議論を生み出すことである。 実験結果から,ベストパフォーマンスメソッドから生成された引数は,ベンチマークセットのゴールド標準アノテーションと平均63%の重なりを持つことがわかった。

The count of pending cases has shown an exponential rise across nations (e.g., with more than 10 million pending cases in India alone). The main issue lies in the fact that the number of cases submitted to the law system is far greater than the available number of legal professionals present in a country. Given this worldwide context, the utilization of AI technology has gained paramount importance to enhance the efficiency and speed of legal procedures. In this study we partcularly focus on helping legal professionals in the process of analyzing a legal case. Our specific investigation delves into harnessing the generative capabilities of open-sourced large language models to create arguments derived from the facts present in legal cases. Experimental results show that the generated arguments from the best performing method have on average 63% overlap with the benchmark set gold standard annotations.
翻訳日:2023-10-12 11:27:02 公開日:2023-10-10
# 大規模言語モデルはホックな説明の後か?

Are Large Language Models Post Hoc Explainers? ( http://arxiv.org/abs/2310.05797v2 )

ライセンス: Link先を確認
Nicholas Kroeger, Dan Ley, Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju(参考訳) 大規模言語モデル(LLM)は、多くの自然言語処理(NLP)アプリケーションのための強力なツールとして、ますます使われている。 近年のICL(In-context Learning)では、推論時間中にプロンプトにいくつかの例を提示することで、LLMが新しいタスクを学習できるようにする。 LLMはいくつかのアプリケーションで利用されてきたが、他のモデルの振る舞いを説明するための適用性はいまだに未解明である。 新しい説明手法が増えているにもかかわらず、多くはモデルへのホワイトボックスアクセスを必要とし、あるいは計算コストが高く、次世代のポストホック説明器の必要性を強調している。 本研究では,他の予測モデルを説明する上で LLM の有効性を検討するための最初の枠組みを提案する。 具体的には、複数のプロンプト戦略を含む新しいフレームワークを提案する。 i)摂動に基づくicl, 二 予測に基づくicl、 三 指示に基づくicl、及び 四 説明に基づくICLであって、基礎となるMLモデル及びテストサンプルの局所的近傍に関する情報のレベルが異なるもの。 我々は,実世界のベンチマークデータセットを用いて広範な実験を行い,llmが生成した説明が,モデル説明の生成にiclの例と内部知識を活用する能力を用いて,最先端のポストホック説明と同等の性能を発揮することを実証する。 平均して、4つのデータセットと2つのMLモデルで、LLMが72.19%の精度で最も重要な特徴を識別し、説明可能な人工知能(XAI)の新しいフロンティアを開き、LLMベースの説明フレームワークを探索する。

Large Language Models (LLMs) are increasingly used as powerful tools for a plethora of natural language processing (NLP) applications. A recent innovation, in-context learning (ICL), enables LLMs to learn new tasks by supplying a few examples in the prompt during inference time, thereby eliminating the need for model fine-tuning. While LLMs have been utilized in several applications, their applicability in explaining the behavior of other models remains relatively unexplored. Despite the growing number of new explanation techniques, many require white-box access to the model and/or are computationally expensive, highlighting a need for next-generation post hoc explainers. In this work, we present the first framework to study the effectiveness of LLMs in explaining other predictive models. More specifically, we propose a novel framework encompassing multiple prompting strategies: i) Perturbation-based ICL, ii) Prediction-based ICL, iii) Instruction-based ICL, and iv) Explanation-based ICL, with varying levels of information about the underlying ML model and the local neighborhood of the test sample. We conduct extensive experiments with real-world benchmark datasets to demonstrate that LLM-generated explanations perform on par with state-of-the-art post hoc explainers using their ability to leverage ICL examples and their internal knowledge in generating model explanations. On average, across four datasets and two ML models, we observe that LLMs identify the most important feature with 72.19% accuracy, opening up new frontiers in explainable artificial intelligence (XAI) to explore LLM-based explanation frameworks.
翻訳日:2023-10-12 11:13:29 公開日:2023-10-10
# Persis:畳み込みニューラルネットワークを用いたペルシアのフォント認識パイプライン

Persis: A Persian Font Recognition Pipeline Using Convolutional Neural Networks ( http://arxiv.org/abs/2310.05255v1 )

ライセンス: Link先を確認
Mehrdad Mohammadian, Neda Maleki, Tobias Olsson, Fredrik Ahlgren(参考訳) デザイン作業に適したフォントに遭遇しても、その名称を知らない場合はどうなりますか? 視覚フォント認識(VFR)システムは、画像中のフォントのフォントを識別するために使用される。 これらのシステムは、グラフィックデザイナーが画像で使われるフォントを特定するのを助けることができる。 VFRシステムは光学文字認識(OCR)システムの速度と精度の向上にも役立っている。 本稿では,ペルシャ文字認識の分野で最初に公開されたデータセットを紹介し,この問題を解決するために畳み込みニューラルネットワーク(CNN)を用いる。 その結果,提案したパイプラインは新たなデータセットで78.0%,IDPL-PFODデータセットで89.1%,KAFDデータセットで94.5%であった。 さらに、提案したデータセットの1つのサンプルでパイプライン全体にかかる平均時間は、CPUとGPUでそれぞれ0.04秒と0.017秒である。 CNN法は,特徴抽出やバイナライゼーション,正規化といった付加的な前処理ステップを必要とせず,ペルシャ文字の認識に利用できる。

What happens if we encounter a suitable font for our design work but do not know its name? Visual Font Recognition (VFR) systems are used to identify the font typeface in an image. These systems can assist graphic designers in identifying fonts used in images. A VFR system also aids in improving the speed and accuracy of Optical Character Recognition (OCR) systems. In this paper, we introduce the first publicly available datasets in the field of Persian font recognition and employ Convolutional Neural Networks (CNN) to address this problem. The results show that the proposed pipeline obtained 78.0% top-1 accuracy on our new datasets, 89.1% on the IDPL-PFOD dataset, and 94.5% on the KAFD dataset. Furthermore, the average time spent in the entire pipeline for one sample of our proposed datasets is 0.54 and 0.017 seconds for CPU and GPU, respectively. We conclude that CNN methods can be used to recognize Persian fonts without the need for additional pre-processing steps such as feature extraction, binarization, normalization, etc.
翻訳日:2023-10-12 09:05:36 公開日:2023-10-10
# chatradio-valuer: 多施設・多システムデータに基づくラジオロジーレポート生成のためのチャット大言語モデル

ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data ( http://arxiv.org/abs/2310.05242v2 )

ライセンス: Link先を確認
Tianyang Zhong, Wei Zhao, Yutong Zhang, Yi Pan, Peixin Dong, Zuowei Jiang, Xiaoyan Kui, Youlan Shang, Li Yang, Yaonai Wei, Longtao Yang, Hao Chen, Huan Zhao, Yuxiao Liu, Ning Zhu, Yiwei Li, Yisong Wang, Jiaqi Yao, Jiaqi Wang, Ying Zeng, Lei He, Chao Zheng, Zhixue Zhang, Ming Li, Zhengliang Liu, Haixing Dai, Zihao Wu, Lu Zhang, Shu Zhang, Xiaoyan Cai, Xintao Hu, Shijie Zhao, Xi Jiang, Xin Zhang, Xiang Li, Dajiang Zhu, Lei Guo, Dinggang Shen, Junwei Han, Tianming Liu, Jun Liu, Tuo Zhang(参考訳) 医用画像解析における重要なステップとしての放射線レポート生成は、臨床情報による意思決定レベルの定量的分析に不可欠である。 しかしながら、クロスソースな異質性を持つ複雑で多様な放射線学レポートは、主に放射線学レポートのスタイルと規範が明らかに機関、身体領域検査、放射線学者の間で異なるため、現在の手法に膨大なデータ量で大きな一般化性をもたらす。 近年,大規模言語モデル(LLM)の出現は,健康状態の兆候を認識する大きな可能性を秘めている。 この問題を解決するため,中国第2新宮病院と共同で,汎用表現を学習し,洗練されたアナリストのケースにおけるモデル適応のための基礎パターンを提供する自動放射線学レポート生成のためのモデルであるLSMに基づくChatRadio-Valuerを提案する。 具体的には、chatradio-valuerは、1つの機関からの放射線学的レポートに基づいて、監視された微調整によって訓練され、臨床レベルの出来事において6つの異なる機関から人間の多系統評価(胸部、腹部、筋骨格、頭、顎顔面)のための疾患診断タスクに適応される。 本研究で利用した臨床データセットは, 著明な総観測値であるtextbf{332,673} を含む。 この結果から,ChatRadio-Valuerは,特にChatGPT(GPT-3.5-Turbo)やGPT-4(GPT-4)などの最先端モデルよりも,放射線診断の診断に優れていたことが示唆された。 ChatRadio-Valuerは、モデル一般化のパフォーマンスを向上し、専門家のアノテーションの作業量を軽減し、放射線学レポートにおける臨床AI応用の促進を可能にする効果的な方法を提供する。

Radiology report generation, as a key step in medical image analysis, is critical to the quantitative analysis of clinically informed decision-making levels. However, complex and diverse radiology reports with cross-source heterogeneity pose a huge generalizability challenge to the current methods under massive data volume, mainly because the style and normativity of radiology reports are obviously distinctive among institutions, body regions inspected and radiologists. Recently, the advent of large language models (LLM) offers great potential for recognizing signs of health conditions. To resolve the above problem, we collaborate with the Second Xiangya Hospital in China and propose ChatRadio-Valuer based on the LLM, a tailored model for automatic radiology report generation that learns generalizable representations and provides a basis pattern for model adaptation in sophisticated analysts' cases. Specifically, ChatRadio-Valuer is trained based on the radiology reports from a single institution by means of supervised fine-tuning, and then adapted to disease diagnosis tasks for human multi-system evaluation (i.e., chest, abdomen, muscle-skeleton, head, and maxillofacial $\&$ neck) from six different institutions in clinical-level events. The clinical dataset utilized in this study encompasses a remarkable total of \textbf{332,673} observations. From the comprehensive results on engineering indicators, clinical efficacy and deployment cost metrics, it can be shown that ChatRadio-Valuer consistently outperforms state-of-the-art models, especially ChatGPT (GPT-3.5-Turbo) and GPT-4 et al., in terms of the diseases diagnosis from radiology reports. ChatRadio-Valuer provides an effective avenue to boost model generalization performance and alleviate the annotation workload of experts to enable the promotion of clinical AI applications in radiology reports.
翻訳日:2023-10-12 09:02:37 公開日:2023-10-10
# chatradio-valuer: 多施設・多システムデータに基づくラジオロジーレポート生成のためのチャット大言語モデル

ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data ( http://arxiv.org/abs/2310.05242v1 )

ライセンス: Link先を確認
Tianyang Zhong, Wei Zhao, Yutong Zhang, Yi Pan, Peixin Dong, Zuowei Jiang, Xiaoyan Kui, Youlan Shang, Li Yang, Yaonai Wei, Longtao Yang, Hao Chen, Huan Zhao, Yuxiao Liu, Ning Zhu, Yiwei Li, Yisong Wang, Jiaqi Yao, Jiaqi Wang, Ying Zeng, Lei He, Chao Zheng, Zhixue Zhang, Ming Li, Zhengliang Liu, Haixing Dai, Zihao Wu, Lu Zhang, Shu Zhang, Xiaoyan Cai, Xintao Hu, Shijie Zhao, Xi Jiang, Xin Zhang, Xiang Li, Dajiang Zhu, Lei Guo, Dinggang Shen, Junwei Han, Tianming Liu, Jun Liu, Tuo Zhang(参考訳) 医用画像解析における重要なステップとしての放射線レポート生成は、臨床情報による意思決定レベルの定量的分析に不可欠である。 しかしながら、クロスソースな異質性を持つ複雑で多様な放射線学レポートは、主に放射線学レポートのスタイルと規範が明らかに機関、身体領域検査、放射線学者の間で異なるため、現在の手法に膨大なデータ量で大きな一般化性をもたらす。 近年,大規模言語モデル(LLM)の出現は,健康状態の兆候を認識する大きな可能性を秘めている。 この問題を解決するため,中国第2新宮病院と共同で,汎用表現を学習し,洗練されたアナリストのケースにおけるモデル適応のための基礎パターンを提供する自動放射線学レポート生成のためのモデルであるLSMに基づくChatRadio-Valuerを提案する。 具体的には、chatradio-valuerは、1つの機関からの放射線学的レポートに基づいて、監視された微調整によって訓練され、臨床レベルの出来事において6つの異なる機関から人間の多系統評価(胸部、腹部、筋骨格、頭、顎顔面)のための疾患診断タスクに適応される。 本研究で利用した臨床データセットは, 著明な総観測値であるtextbf{332,673} を含む。 この結果から,ChatRadio-Valuerは,特にChatGPT(GPT-3.5-Turbo)やGPT-4(GPT-4)などの最先端モデルよりも,放射線診断の診断に優れていたことが示唆された。 ChatRadio-Valuerは、モデル一般化のパフォーマンスを向上し、専門家のアノテーションの作業量を軽減し、放射線学レポートにおける臨床AI応用の促進を可能にする効果的な方法を提供する。

Radiology report generation, as a key step in medical image analysis, is critical to the quantitative analysis of clinically informed decision-making levels. However, complex and diverse radiology reports with cross-source heterogeneity pose a huge generalizability challenge to the current methods under massive data volume, mainly because the style and normativity of radiology reports are obviously distinctive among institutions, body regions inspected and radiologists. Recently, the advent of large language models (LLM) offers great potential for recognizing signs of health conditions. To resolve the above problem, we collaborate with the Second Xiangya Hospital in China and propose ChatRadio-Valuer based on the LLM, a tailored model for automatic radiology report generation that learns generalizable representations and provides a basis pattern for model adaptation in sophisticated analysts' cases. Specifically, ChatRadio-Valuer is trained based on the radiology reports from a single institution by means of supervised fine-tuning, and then adapted to disease diagnosis tasks for human multi-system evaluation (i.e., chest, abdomen, muscle-skeleton, head, and maxillofacial $\&$ neck) from six different institutions in clinical-level events. The clinical dataset utilized in this study encompasses a remarkable total of \textbf{332,673} observations. From the comprehensive results on engineering indicators, clinical efficacy and deployment cost metrics, it can be shown that ChatRadio-Valuer consistently outperforms state-of-the-art models, especially ChatGPT (GPT-3.5-Turbo) and GPT-4 et al., in terms of the diseases diagnosis from radiology reports. ChatRadio-Valuer provides an effective avenue to boost model generalization performance and alleviate the annotation workload of experts to enable the promotion of clinical AI applications in radiology reports.
翻訳日:2023-10-12 09:02:02 公開日:2023-10-10
# Persis:畳み込みニューラルネットワークを用いたペルシアのフォント認識パイプライン

Persis: A Persian Font Recognition Pipeline Using Convolutional Neural Networks ( http://arxiv.org/abs/2310.05255v2 )

ライセンス: Link先を確認
Mehrdad Mohammadian, Neda Maleki, Tobias Olsson, Fredrik Ahlgren(参考訳) デザイン作業に適したフォントに遭遇しても、その名称を知らない場合はどうなりますか? 視覚フォント認識(VFR)システムは、画像中のフォントのフォントを識別するために使用される。 これらのシステムは、グラフィックデザイナーが画像で使われるフォントを特定するのを助けることができる。 VFRシステムは光学文字認識(OCR)システムの速度と精度の向上にも役立っている。 本稿では,ペルシャ文字認識の分野で最初に公開されたデータセットを紹介し,この問題を解決するために畳み込みニューラルネットワーク(CNN)を用いる。 その結果,提案したパイプラインは新たなデータセットで78.0%,IDPL-PFODデータセットで89.1%,KAFDデータセットで94.5%であった。 さらに、提案したデータセットの1つのサンプルでパイプライン全体にかかる平均時間は、CPUとGPUでそれぞれ0.04秒と0.017秒である。 CNN法は,特徴抽出やバイナライゼーション,正規化といった付加的な前処理ステップを必要とせず,ペルシャ文字の認識に利用できる。

What happens if we encounter a suitable font for our design work but do not know its name? Visual Font Recognition (VFR) systems are used to identify the font typeface in an image. These systems can assist graphic designers in identifying fonts used in images. A VFR system also aids in improving the speed and accuracy of Optical Character Recognition (OCR) systems. In this paper, we introduce the first publicly available datasets in the field of Persian font recognition and employ Convolutional Neural Networks (CNN) to address this problem. The results show that the proposed pipeline obtained 78.0% top-1 accuracy on our new datasets, 89.1% on the IDPL-PFOD dataset, and 94.5% on the KAFD dataset. Furthermore, the average time spent in the entire pipeline for one sample of our proposed datasets is 0.54 and 0.017 seconds for CPU and GPU, respectively. We conclude that CNN methods can be used to recognize Persian fonts without the need for additional pre-processing steps such as feature extraction, binarization, normalization, etc.
翻訳日:2023-10-12 08:49:04 公開日:2023-10-10
# タスク適応トークン化によるメンタルヘルスにおける長文テキスト生成の促進

Enhancing Long-form Text Generation in Mental Health with Task-adaptive Tokenization ( http://arxiv.org/abs/2310.05317v2 )

ライセンス: Link先を確認
Siyang Liu, Naihao Deng, Sahand Sabour, Yilin Jia, Minlie Huang, Rada Mihalcea(参考訳) 本稿では,ダウンストリームタスクの仕様に生成パイプラインを適用する方法としてタスク適応トークン化を提案し,メンタルヘルスにおける長期的生成の促進を図る。 認知科学の知見に触発されて、タスク適応型トークンーザは複数の結果から可変セグメンテーションをサンプリングし、タスク固有データに基づいてサンプリング確率を最適化した。 本稿では,専門用語構築のための戦略と,事前学習したモデルのトークン化ステップへのタスク固有のトークンの統合を可能にする語彙統合プロトコルを提案する。 中国語と英語の心理学的質問応答タスクに関する広範な実験を通して、我々のタスク適応型トークン化アプローチは、最大60%のトークンを使用しながら、生成性能を大幅に改善することを発見した。 予備実験は、非常に大きな言語モデルでトークン化アプローチを使用する場合に有望な結果を示す。

We propose task-adaptive tokenization as a way to adapt the generation pipeline to the specifics of a downstream task and enhance long-form generation in mental health. Inspired by insights from cognitive science, our task-adaptive tokenizer samples variable segmentations from multiple outcomes, with sampling probabilities optimized based on task-specific data. We introduce a strategy for building a specialized vocabulary and introduce a vocabulary merging protocol that allows for the integration of task-specific tokens into the pre-trained model's tokenization step. Through extensive experiments on psychological question-answering tasks in both Chinese and English, we find that our task-adaptive tokenization approach brings a significant improvement in generation performance while using up to 60% fewer tokens. Preliminary experiments point to promising results when using our tokenization approach with very large language models.
翻訳日:2023-10-12 08:29:19 公開日:2023-10-10
# タスク適応トークン化によるメンタルヘルスにおける長文テキスト生成の促進

Enhancing Long-form Text Generation in Mental Health with Task-adaptive Tokenization ( http://arxiv.org/abs/2310.05317v1 )

ライセンス: Link先を確認
Siyang Liu, Naihao Deng, Sahand Sabour, Yilin Jia, Minlie Huang, Rada Mihalcea(参考訳) 本稿では,ダウンストリームタスクの仕様に生成パイプラインを適用する方法としてタスク適応トークン化を提案し,メンタルヘルスにおける長期的生成の促進を図る。 認知科学の知見に触発されて、タスク適応型トークンーザは複数の結果から可変セグメンテーションをサンプリングし、タスク固有データに基づいてサンプリング確率を最適化した。 本稿では,専門用語構築のための戦略と,事前学習したモデルのトークン化ステップへのタスク固有のトークンの統合を可能にする語彙統合プロトコルを提案する。 中国語と英語の心理学的質問応答タスクに関する広範な実験を通して、我々のタスク適応型トークン化アプローチは、最大60%のトークンを使用しながら、生成性能を大幅に改善することを発見した。 予備実験は、非常に大きな言語モデルでトークン化アプローチを使用する場合に有望な結果を示す。

We propose task-adaptive tokenization as a way to adapt the generation pipeline to the specifics of a downstream task and enhance long-form generation in mental health. Inspired by insights from cognitive science, our task-adaptive tokenizer samples variable segmentations from multiple outcomes, with sampling probabilities optimized based on task-specific data. We introduce a strategy for building a specialized vocabulary and introduce a vocabulary merging protocol that allows for the integration of task-specific tokens into the pre-trained model's tokenization step. Through extensive experiments on psychological question-answering tasks in both Chinese and English, we find that our task-adaptive tokenization approach brings a significant improvement in generation performance while using up to 60% fewer tokens. Preliminary experiments point to promising results when using our tokenization approach with very large language models.
翻訳日:2023-10-12 08:29:02 公開日:2023-10-10
# セマンティックセグメンテーションにおける古典的テスト時間適応手法の批判的考察

A Critical Look at Classic Test-Time Adaptation Methods in Semantic Segmentation ( http://arxiv.org/abs/2310.05341v2 )

ライセンス: Link先を確認
Chang'an Yi, Haotian Chen, Yifan Zhang(参考訳) テスト時間適応(TTA)は、当初トレーニングデータに基づいてトレーニングされたモデルを、テストデータの潜在的分散シフトに適応することを目的としている。 しかし、既存のTTA研究の多くは分類作業に重点を置いており、意味的セグメンテーションのためのTTAの探索において顕著なギャップを残している。 この分類に重点を置いていると、多くの新参者や技術者は、分類用に設計された古典的なTTAメソッドがセグメント化に直接適用できると誤って仮定するかもしれない。 それでも、この仮定は未検証のままであり、オープンな疑問を呈している。 そこで我々は,セグメント化TTAの独特な課題を明らかにし,従来のTTA戦略がこの課題に効果的に対処できるかどうかを,体系的に実証研究する。 我々の総合的な結果は、3つの重要な観察につながった。 まず、分類ttaで一般的に使用される古典的なバッチノルム更新戦略は、わずかなパフォーマンス改善しか与えず、場合によっては結果に悪影響を及ぼす場合もある。 バッチ再正規化のような高度な分布推定手法を適用しても、問題は未解決のままである。 第二に、教師学生方式は、ノイズの多い擬似ラベルの存在下でセグメンテーションTTAの訓練安定性を向上させる。 しかし、TTAを使わずにオリジナルのモデルと比べて直接的に性能が向上することはない。 第3に、セグメンテーションTTAは、TTAの分類よりもかなり複雑である、厳しい長い尾の不均衡問題に悩まされる。 この長尾チャレンジは、擬似ラベルの精度が高い場合でもセグメンテーションTTA性能に大きな影響を与える。 これらの観測から,分割のためのTTAは重要な課題であり,従来のTTA手法ではこの問題にうまく対処できないと結論付けた。

Test-time adaptation (TTA) aims to adapt a model, initially trained on training data, to potential distribution shifts in the test data. Most existing TTA studies, however, focus on classification tasks, leaving a notable gap in the exploration of TTA for semantic segmentation. This pronounced emphasis on classification might lead numerous newcomers and engineers to mistakenly assume that classic TTA methods designed for classification can be directly applied to segmentation. Nonetheless, this assumption remains unverified, posing an open question. To address this, we conduct a systematic, empirical study to disclose the unique challenges of segmentation TTA, and to determine whether classic TTA strategies can effectively address this task. Our comprehensive results have led to three key observations. First, the classic batch norm updating strategy, commonly used in classification TTA, only brings slight performance improvement, and in some cases it might even adversely affect the results. Even with the application of advanced distribution estimation techniques like batch renormalization, the problem remains unresolved. Second, the teacher-student scheme does enhance training stability for segmentation TTA in the presence of noisy pseudo-labels. However, it cannot directly result in performance improvement compared to the original model without TTA. Third, segmentation TTA suffers a severe long-tailed imbalance problem, which is substantially more complex than that in TTA for classification. This long-tailed challenge significantly affects segmentation TTA performance, even when the accuracy of pseudo-labels is high. In light of these observations, we conclude that TTA for segmentation presents significant challenges, and simply using classic TTA methods cannot address this problem well.
翻訳日:2023-10-12 08:21:54 公開日:2023-10-10
# セマンティックセグメンテーションにおける古典的テスト時間適応手法の批判的考察

A Critical Look at Classic Test-Time Adaptation Methods in Semantic Segmentation ( http://arxiv.org/abs/2310.05341v1 )

ライセンス: Link先を確認
Chang'an Yi, Haotian Chen, Yifan Zhang(参考訳) テスト時間適応(TTA)は、当初トレーニングデータに基づいてトレーニングされたモデルを、テストデータの潜在的分散シフトに適応することを目的としている。 しかし、既存のTTA研究の多くは分類作業に重点を置いており、意味的セグメンテーションのためのTTAの探索において顕著なギャップを残している。 この分類に重点を置いていると、多くの新参者や技術者は、分類用に設計された古典的なTTAメソッドがセグメント化に直接適用できると誤って仮定するかもしれない。 それでも、この仮定は未検証のままであり、オープンな疑問を呈している。 そこで我々は,セグメント化TTAの独特な課題を明らかにし,従来のTTA戦略がこの課題に効果的に対処できるかどうかを,体系的に実証研究する。 我々の総合的な結果は、3つの重要な観察につながった。 まず、分類ttaで一般的に使用される古典的なバッチノルム更新戦略は、わずかなパフォーマンス改善しか与えず、場合によっては結果に悪影響を及ぼす場合もある。 バッチ再正規化のような高度な分布推定手法を適用しても、問題は未解決のままである。 第二に、教師学生方式は、ノイズの多い擬似ラベルの存在下でセグメンテーションTTAの訓練安定性を向上させる。 しかし、TTAを使わずにオリジナルのモデルと比べて直接的に性能が向上することはない。 第3に、セグメンテーションTTAは、TTAの分類よりもかなり複雑である、厳しい長い尾の不均衡問題に悩まされる。 この長尾チャレンジは、擬似ラベルの精度が高い場合でもセグメンテーションTTA性能に大きな影響を与える。 これらの観測から,分割のためのTTAは重要な課題であり,従来のTTA手法ではこの問題にうまく対処できないと結論付けた。

Test-time adaptation (TTA) aims to adapt a model, initially trained on training data, to potential distribution shifts in the test data. Most existing TTA studies, however, focus on classification tasks, leaving a notable gap in the exploration of TTA for semantic segmentation. This pronounced emphasis on classification might lead numerous newcomers and engineers to mistakenly assume that classic TTA methods designed for classification can be directly applied to segmentation. Nonetheless, this assumption remains unverified, posing an open question. To address this, we conduct a systematic, empirical study to disclose the unique challenges of segmentation TTA, and to determine whether classic TTA strategies can effectively address this task. Our comprehensive results have led to three key observations. First, the classic batch norm updating strategy, commonly used in classification TTA, only brings slight performance improvement, and in some cases it might even adversely affect the results. Even with the application of advanced distribution estimation techniques like batch renormalization, the problem remains unresolved. Second, the teacher-student scheme does enhance training stability for segmentation TTA in the presence of noisy pseudo-labels. However, it cannot directly result in performance improvement compared to the original model without TTA. Third, segmentation TTA suffers a severe long-tailed imbalance problem, which is substantially more complex than that in TTA for classification. This long-tailed challenge significantly affects segmentation TTA performance, even when the accuracy of pseudo-labels is high. In light of these observations, we conclude that TTA for segmentation presents significant challenges, and simply using classic TTA methods cannot address this problem well.
翻訳日:2023-10-12 08:21:25 公開日:2023-10-10
# トランスフォーマによる強化学習による分子デノボ設計

Molecular De Novo Design through Transformer-based Reinforcement Learning ( http://arxiv.org/abs/2310.05365v1 )

ライセンス: Link先を確認
Tao Feng, Pengcheng Xu, Tianfan Fu, Siddhartha Laghuvarapu, Jimeng Sun(参考訳) 本稿では,分子ドノボ設計のためのトランスベース生成モデルを微調整する手法を提案する。 リカレントニューラルネットワーク(rnn)上でのトランスフォーマの優れたシーケンス学習能力を活用することで,望ましい特性を持つ分子構造を効果的に生成することができる。 従来のrnnモデルとは対照的に, 分子構造配列の長期依存性を捉えることにより, 種々の生物標的に対する活性が予測される化合物の生成において優れた性能を示す。 モデルの有効性は、クエリ構造に類似点を生成し、特定の属性を持つ化合物を生成し、ベースラインのRNNベースの手法より優れるなど、数多くのタスクで実証されている。 本手法は, 足場ホッピング, 単一分子からのライブラリ拡張, 生物標的に対する高い活性を有する化合物の生成に利用できる。

In this work, we introduce a method to fine-tune a Transformer-based generative model for molecular de novo design. Leveraging the superior sequence learning capacity of Transformers over Recurrent Neural Networks (RNNs), our model can generate molecular structures with desired properties effectively. In contrast to the traditional RNN-based models, our proposed method exhibits superior performance in generating compounds predicted to be active against various biological targets, capturing long-term dependencies in the molecular structure sequence. The model's efficacy is demonstrated across numerous tasks, including generating analogues to a query structure and producing compounds with particular attributes, outperforming the baseline RNN-based methods. Our approach can be used for scaffold hopping, library expansion starting from a single molecule, and generating compounds with high predicted activity against biological targets.
翻訳日:2023-10-12 08:11:04 公開日:2023-10-10
# 反復Fusing Modality similarity Pathsによるユニバーサルマルチモーダルエンティティアライメント

Universal Multi-modal Entity Alignment via Iteratively Fusing Modality Similarity Paths ( http://arxiv.org/abs/2310.05364v2 )

ライセンス: Link先を確認
Bolin Zhu, Xiaoze Liu, Xin Mao, Zhuo Chen, Lingbing Guo, Tao Gui, Qi Zhang(参考訳) エンティティアライメント(EA)の目的は、複数の知識グラフ(KG)から同等のエンティティペアを特定し、より包括的で統一されたKGを作成することである。 EA法の大部分はKGの構造的モダリティに重点を置いており、マルチモーダル情報の探索は行っていない。 いくつかのマルチモーダルEA手法がこの分野で良い試みをしている。 それでも、2つの欠点がある:(1)モダリティごとに複雑で異なるモデルを設計する一貫性のない非効率なモダリティモデリング、(2)EAにおけるモダリティの不均一性に起因する非効率なモダリティ融合。 これらの課題に対処するため,(1) MSP, エンティティとモダリティノードを接続して複数のモダリティを表現する経路を構築することでアライメントプロセスを単純化する統一モデリング手法, (2) IRF, 様々なモダリティからの情報を情報担体として効果的に結合する反復融合手法の2つの主要なコンポーネントからなるPathFusionを提案する。 実世界のデータセットにおける実験結果は、hit@1で22.4%-28.9%、mrで0.194-0.245、最先端法よりもパスフュージョンが優れていることを示している。

The objective of Entity Alignment (EA) is to identify equivalent entity pairs from multiple Knowledge Graphs (KGs) and create a more comprehensive and unified KG. The majority of EA methods have primarily focused on the structural modality of KGs, lacking exploration of multi-modal information. A few multi-modal EA methods have made good attempts in this field. Still, they have two shortcomings: (1) inconsistent and inefficient modality modeling that designs complex and distinct models for each modality; (2) ineffective modality fusion due to the heterogeneous nature of modalities in EA. To tackle these challenges, we propose PathFusion, consisting of two main components: (1) MSP, a unified modeling approach that simplifies the alignment process by constructing paths connecting entities and modality nodes to represent multiple modalities; (2) IRF, an iterative fusion method that effectively combines information from different modalities using the path as an information carrier. Experimental results on real-world datasets demonstrate the superiority of PathFusion over state-of-the-art methods, with 22.4%-28.9% absolute improvement on Hits@1, and 0.194-0.245 absolute improvement on MRR.
翻訳日:2023-10-12 08:10:42 公開日:2023-10-10
# 反復Fusing Modality similarity Pathsによるユニバーサルマルチモーダルエンティティアライメント

Universal Multi-modal Entity Alignment via Iteratively Fusing Modality Similarity Paths ( http://arxiv.org/abs/2310.05364v1 )

ライセンス: Link先を確認
Bolin Zhu, Xiaoze Liu, Xin Mao, Zhuo Chen, Lingbing Guo, Tao Gui, Qi Zhang(参考訳) エンティティアライメント(EA)の目的は、複数の知識グラフ(KG)から同等のエンティティペアを特定し、より包括的で統一されたKGを作成することである。 EA法の大部分はKGの構造的モダリティに重点を置いており、マルチモーダル情報の探索は行っていない。 いくつかのマルチモーダルEA手法がこの分野で良い試みをしている。 それでも、2つの欠点がある:(1)モダリティごとに複雑で異なるモデルを設計する一貫性のない非効率なモダリティモデリング、(2)EAにおけるモダリティの不均一性に起因する非効率なモダリティ融合。 これらの課題に対処するため,(1) MSP, エンティティとモダリティノードを接続して複数のモダリティを表現する経路を構築することでアライメントプロセスを単純化する統一モデリング手法, (2) IRF, 様々なモダリティからの情報を情報担体として効果的に結合する反復融合手法の2つの主要なコンポーネントからなるPathFusionを提案する。 実世界のデータセットにおける実験結果は、hit@1で22.4%-28.9%、mrで0.194-0.245、最先端法よりもパスフュージョンが優れていることを示している。

The objective of Entity Alignment (EA) is to identify equivalent entity pairs from multiple Knowledge Graphs (KGs) and create a more comprehensive and unified KG. The majority of EA methods have primarily focused on the structural modality of KGs, lacking exploration of multi-modal information. A few multi-modal EA methods have made good attempts in this field. Still, they have two shortcomings: (1) inconsistent and inefficient modality modeling that designs complex and distinct models for each modality; (2) ineffective modality fusion due to the heterogeneous nature of modalities in EA. To tackle these challenges, we propose PathFusion, consisting of two main components: (1) MSP, a unified modeling approach that simplifies the alignment process by constructing paths connecting entities and modality nodes to represent multiple modalities; (2) IRF, an iterative fusion method that effectively combines information from different modalities using the path as an information carrier. Experimental results on real-world datasets demonstrate the superiority of PathFusion over state-of-the-art methods, with 22.4%-28.9% absolute improvement on Hits@1, and 0.194-0.245 absolute improvement on MRR.
翻訳日:2023-10-12 08:10:19 公開日:2023-10-10
# 大規模ブラックボックス最適化のためのマルチレベル学習による分散進化戦略

Distributed Evolution Strategies with Multi-Level Learning for Large-Scale Black-Box Optimization ( http://arxiv.org/abs/2310.05377v1 )

ライセンス: Link先を確認
Qiqi Duan and Chang Shao and Guochen Zhou and Qi Zhao and Yuhui Shi(参考訳) ムーア時代以降、ブラックボックスオプティマイザの主な性能向上は、特に大規模最適化(lso)において、並列性に依存している。 本稿では,共分散行列適応進化戦略(CMA-ES)の並列化,特にLSO用リミテッドメモリCMA(LM-CMA)の並列化を提案する。 不変性を可能な限り維持しながらスケーラビリティを実現するため,多段階学習に基づくメタフレームワークを提案する。 階層的に整理された構造のため、Meta-ESは分散メタフレームワークの実装に適しており、外部ESは戦略パラメータを制御し、全ての並列内部ESは異なる設定でシリアルLM-CMAを実行する。 外部esの分布平均更新は、それぞれ停滞と退行を避けるために、エリート戦略とマルチ組換え戦略の両方を並行して使用する。 時空間情報を活用するため、グローバルステップサイズ適応はMeta-ESと並列累積ステップサイズ適応を組み合わせた。 それぞれの分離時間の後、メタフレームワークは構造とパラメータ学習戦略の両方を使用してcma再構成のための進化経路を結合します。 多くのデータ駆動最適化問題を反映した、メモリ集約型評価を備えた一連の大規模ベンチマーク関数の実験は、その利点(スケーラビリティw.r.t. cpuコア、有効性w.r.t.ソリューション品質、適応性w.r.t.2次学習)とメタフレームワークのコストを検証する。

In the post-Moore era, the main performance gains of black-box optimizers are increasingly depending upon parallelism, especially for large-scale optimization (LSO). In this paper, we propose to parallelize the well-established covariance matrix adaptation evolution strategy (CMA-ES) and in particular its one latest variant called limited-memory CMA (LM-CMA) for LSO. To achieve scalability while maintaining the invariance property as much as possible, we present a multilevel learning-based meta-framework. Owing to its hierarchically organized structure, Meta-ES is well-suited to implement our distributed meta-framework, wherein the outer-ES controls strategy parameters while all parallel inner-ESs run the serial LM-CMA with different settings. For the distribution mean update of the outer-ES, both the elitist and multi-recombination strategy are used in parallel to avoid stagnation and regression, respectively. To exploit spatiotemporal information, the global step-size adaptation combines Meta-ES with the parallel cumulative step-size adaptation. After each isolation time, our meta-framework employs both the structure and parameter learning strategy to combine aligned evolution paths for CMA reconstruction. Experiments on a set of large-scale benchmarking functions with memory-intensive evaluations, arguably reflecting many data-driven optimization problems, validate the benefits (e.g., scalability w.r.t. CPU cores, effectiveness w.r.t. solution quality, and adaptability w.r.t. second-order learning) and costs of our meta-framework.
翻訳日:2023-10-12 08:02:43 公開日:2023-10-10
# 深層学習による前立腺癌診断の強化 : mpMRI分類と分類による検討

Enhancing Prostate Cancer Diagnosis with Deep Learning: A Study using mpMRI Segmentation and Classification ( http://arxiv.org/abs/2310.05371v2 )

ライセンス: Link先を確認
Anil B. Gavade, Neel Kanwal, Priyanka A. Gavade, Rajendra Nerli(参考訳) 前立腺癌(PCa)は世界中の男性の間で重篤な疾患である。 早期にPCaを同定し,有効治療のための正確な診断を行うことが重要である。 PCa診断では,前立腺とその組織構造を正確に解剖学的に観察する上で,Multi-parametric magnetic resonance imaging (mpMRI) が有用であった。 深層学習(DL)モデルは、医師の関心領域を特定することで、既存の臨床システムを強化し、患者のケアを改善することができる。 近年,様々ながんタイプを区分・分類するパイプラインの開発にdl技術が採用されている。 これらの結果から,DLは診断精度の向上と,変動のない客観的な結果の獲得に有効であることが示唆された。 本研究は, mpMRI画像の分類とセグメンテーションによく知られたDLモデルを用いてPCaを検出する。 実装には4つのパイプラインが含まれる。semantic deepsegnet with resnet50, deepsegnet with recurrent neural network (rnn), u-net with rnn, u-net with a long short-term memory (lstm)。 各セグメンテーションモデルは異なる分類器と組み合わせて、異なるメトリクスを使用してパフォーマンスを評価する。 実験の結果,U-NetとLSTMモデルの組み合わせを用いたパイプラインは,他の組み合わせよりも優れ,セグメンテーションと分類の両方に優れていた。

Prostate cancer (PCa) is a severe disease among men globally. It is important to identify PCa early and make a precise diagnosis for effective treatment. For PCa diagnosis, Multi-parametric magnetic resonance imaging (mpMRI) emerged as an invaluable imaging modality that offers a precise anatomical view of the prostate gland and its tissue structure. Deep learning (DL) models can enhance existing clinical systems and improve patient care by locating regions of interest for physicians. Recently, DL techniques have been employed to develop a pipeline for segmenting and classifying different cancer types. These studies show that DL can be used to increase diagnostic precision and give objective results without variability. This work uses well-known DL models for the classification and segmentation of mpMRI images to detect PCa. Our implementation involves four pipelines; Semantic DeepSegNet with ResNet50, DeepSegNet with recurrent neural network (RNN), U-Net with RNN, and U-Net with a long short-term memory (LSTM). Each segmentation model is paired with a different classifier to evaluate the performance using different metrics. The results of our experiments show that the pipeline that uses the combination of U-Net and the LSTM model outperforms all other combinations, excelling in both segmentation and classification tasks.
翻訳日:2023-10-12 08:00:59 公開日:2023-10-10
# 深層学習による前立腺癌診断の強化 : mpMRI分類と分類による検討

Enhancing Prostate Cancer Diagnosis with Deep Learning: A Study using mpMRI Segmentation and Classification ( http://arxiv.org/abs/2310.05371v1 )

ライセンス: Link先を確認
Anil B. Gavade, Neel Kanwal, Priyanka A. Gavade, Rajendra Nerli(参考訳) 前立腺癌(PCa)は世界中の男性の間で重篤な疾患である。 早期にPCaを同定し,有効治療のための正確な診断を行うことが重要である。 PCa診断では,前立腺とその組織構造を正確に解剖学的に観察する上で,Multi-parametric magnetic resonance imaging (mpMRI) が有用であった。 深層学習(DL)モデルは、医師の関心領域を特定することで、既存の臨床システムを強化し、患者のケアを改善することができる。 近年,様々ながんタイプを区分・分類するパイプラインの開発にdl技術が採用されている。 これらの結果から,DLは診断精度の向上と,変動のない客観的な結果の獲得に有効であることが示唆された。 本研究は, mpMRI画像の分類とセグメンテーションによく知られたDLモデルを用いてPCaを検出する。 実装には4つのパイプラインが含まれる。semantic deepsegnet with resnet50, deepsegnet with recurrent neural network (rnn), u-net with rnn, u-net with a long short-term memory (lstm)。 各セグメンテーションモデルは異なる分類器と組み合わせて、異なるメトリクスを使用してパフォーマンスを評価する。 実験の結果,U-NetとLSTMモデルの組み合わせを用いたパイプラインは,他の組み合わせよりも優れ,セグメンテーションと分類の両方に優れていた。

Prostate cancer (PCa) is a severe disease among men globally. It is important to identify PCa early and make a precise diagnosis for effective treatment. For PCa diagnosis, Multi-parametric magnetic resonance imaging (mpMRI) emerged as an invaluable imaging modality that offers a precise anatomical view of the prostate gland and its tissue structure. Deep learning (DL) models can enhance existing clinical systems and improve patient care by locating regions of interest for physicians. Recently, DL techniques have been employed to develop a pipeline for segmenting and classifying different cancer types. These studies show that DL can be used to increase diagnostic precision and give objective results without variability. This work uses well-known DL models for the classification and segmentation of mpMRI images to detect PCa. Our implementation involves four pipelines; Semantic DeepSegNet with ResNet50, DeepSegNet with recurrent neural network (RNN), U-Net with RNN, and U-Net with a long short-term memory (LSTM). Each segmentation model is paired with a different classifier to evaluate the performance using different metrics. The results of our experiments show that the pipeline that uses the combination of U-Net and the LSTM model outperforms all other combinations, excelling in both segmentation and classification tasks.
翻訳日:2023-10-12 08:00:33 公開日:2023-10-10
# トランスフォーマによる強化学習による分子デノボ設計

Molecular De Novo Design through Transformer-based Reinforcement Learning ( http://arxiv.org/abs/2310.05365v2 )

ライセンス: Link先を確認
Tao Feng, Pengcheng Xu, Tianfan Fu, Siddhartha Laghuvarapu, Jimeng Sun(参考訳) 本稿では,分子ドノボ設計のためのトランスベース生成モデルを微調整する手法を提案する。 リカレントニューラルネットワーク(rnn)上でのトランスフォーマの優れたシーケンス学習能力を活用することで,望ましい特性を持つ分子構造を効果的に生成することができる。 従来のrnnモデルとは対照的に, 分子構造配列の長期依存性を捉えることにより, 種々の生物標的に対する活性が予測される化合物の生成において優れた性能を示す。 モデルの有効性は、クエリ構造に類似点を生成し、特定の属性を持つ化合物を生成し、ベースラインのRNNベースの手法より優れるなど、数多くのタスクで実証されている。 本手法は, 足場ホッピング, 単一分子からのライブラリ拡張, 生物標的に対する高い活性を有する化合物の生成に利用できる。

In this work, we introduce a method to fine-tune a Transformer-based generative model for molecular de novo design. Leveraging the superior sequence learning capacity of Transformers over Recurrent Neural Networks (RNNs), our model can generate molecular structures with desired properties effectively. In contrast to the traditional RNN-based models, our proposed method exhibits superior performance in generating compounds predicted to be active against various biological targets, capturing long-term dependencies in the molecular structure sequence. The model's efficacy is demonstrated across numerous tasks, including generating analogues to a query structure and producing compounds with particular attributes, outperforming the baseline RNN-based methods. Our approach can be used for scaffold hopping, library expansion starting from a single molecule, and generating compounds with high predicted activity against biological targets.
翻訳日:2023-10-12 07:59:14 公開日:2023-10-10
# 視覚トランスフォーマーの階層型サイドチューニング

Hierarchical Side-Tuning for Vision Transformers ( http://arxiv.org/abs/2310.05393v1 )

ライセンス: Link先を確認
Weifeng Lin, Ziheng Wu, Jiayu Chen, Wentao Yang, Mingxin Huang, Jun Huang, Lianwen Jin(参考訳) 微調整事前学習された視覚トランスフォーマー(vit)は、視覚認識の分野で一貫して有望な性能を示している。 しかし、様々なタスクに大規模な事前学習モデルを適用することは大きな課題となる。 この課題は、各モデルが独立して包括的な微調整プロセスを実行する必要性から生じ、計算とメモリの大幅な要求がもたらされる。 近年のPETL(パラメータ効率変換学習)の進歩は、パラメータ更新のサブセットが小さい完全微調整に比べて優れた性能を実現する能力を示しているが、オブジェクト検出やセグメンテーションのような密集した予測タスクは見過ごされる傾向にある。 本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。 入力空間内やバックボーンに接続された特定のモジュールにのみ微調整パラメータを割り当てる既存の手法と異なり、バックボーンから抽出された中間活性化を利用した軽量かつ階層的なサイドネットワーク(HSN)をチューニングし、マルチスケールな特徴を生成して予測する。 HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど多様な視覚的タスクを含む広範な実験を行った。 特に,VTAB-1kにおける最先端平均Top-1精度76.0%を実現し,0.78Mパラメータを微調整した。 COCO testdevベンチマークのオブジェクト検出タスクに適用すると、HSTは完全な微調整を超え、Cascade Mask R-CNNを使用して49.7ボックスAPと43.2マスクAPでパフォーマンスが向上する。

Fine-tuning pre-trained Vision Transformers (ViT) has consistently demonstrated promising performance in the realm of visual recognition. However, adapting large pre-trained models to various tasks poses a significant challenge. This challenge arises from the need for each model to undergo an independent and comprehensive fine-tuning process, leading to substantial computational and memory demands. While recent advancements in Parameter-efficient Transfer Learning (PETL) have demonstrated their ability to achieve superior performance compared to full fine-tuning with a smaller subset of parameter updates, they tend to overlook dense prediction tasks such as object detection and segmentation. In this paper, we introduce Hierarchical Side-Tuning (HST), a novel PETL approach that enables ViT transfer to various downstream tasks effectively. Diverging from existing methods that exclusively fine-tune parameters within input spaces or certain modules connected to the backbone, we tune a lightweight and hierarchical side network (HSN) that leverages intermediate activations extracted from the backbone and generates multi-scale features to make predictions. To validate HST, we conducted extensive experiments encompassing diverse visual tasks, including classification, object detection, instance segmentation, and semantic segmentation. Notably, our method achieves state-of-the-art average Top-1 accuracy of 76.0% on VTAB-1k, all while fine-tuning a mere 0.78M parameters. When applied to object detection tasks on COCO testdev benchmark, HST even surpasses full fine-tuning and obtains better performance with 49.7 box AP and 43.2 mask AP using Cascade Mask R-CNN.
翻訳日:2023-10-12 07:51:43 公開日:2023-10-10
# 大規模ブラックボックス最適化のためのマルチレベル学習による分散進化戦略

Distributed Evolution Strategies with Multi-Level Learning for Large-Scale Black-Box Optimization ( http://arxiv.org/abs/2310.05377v2 )

ライセンス: Link先を確認
Qiqi Duan and Chang Shao and Guochen Zhou and Qi Zhao and Yuhui Shi(参考訳) ムーア時代以降、ブラックボックスオプティマイザの主な性能向上は、特に大規模最適化(lso)において、並列性に依存している。 本稿では,共分散行列適応進化戦略(CMA-ES)の並列化,特にLSO用リミテッドメモリCMA(LM-CMA)の並列化を提案する。 不変性を可能な限り維持しながらスケーラビリティを実現するため,多段階学習に基づくメタフレームワークを提案する。 階層的に整理された構造のため、Meta-ESは分散メタフレームワークの実装に適しており、外部ESは戦略パラメータを制御し、全ての並列内部ESは異なる設定でシリアルLM-CMAを実行する。 外部esの分布平均更新は、それぞれ停滞と退行を避けるために、エリート戦略とマルチ組換え戦略の両方を並行して使用する。 時空間情報を活用するため、グローバルステップサイズ適応はMeta-ESと並列累積ステップサイズ適応を組み合わせた。 それぞれの分離時間の後、メタフレームワークは構造とパラメータ学習戦略の両方を使用してcma再構成のための進化経路を結合します。 多くのデータ駆動最適化問題を反映した、メモリ集約型評価を備えた一連の大規模ベンチマーク関数の実験は、その利点(スケーラビリティw.r.t. cpuコア、有効性w.r.t.ソリューション品質、適応性w.r.t.2次学習)とメタフレームワークのコストを検証する。

In the post-Moore era, the main performance gains of black-box optimizers are increasingly depending upon parallelism, especially for large-scale optimization (LSO). In this paper, we propose to parallelize the well-established covariance matrix adaptation evolution strategy (CMA-ES) and in particular its one latest variant called limited-memory CMA (LM-CMA) for LSO. To achieve scalability while maintaining the invariance property as much as possible, we present a multilevel learning-based meta-framework. Owing to its hierarchically organized structure, Meta-ES is well-suited to implement our distributed meta-framework, wherein the outer-ES controls strategy parameters while all parallel inner-ESs run the serial LM-CMA with different settings. For the distribution mean update of the outer-ES, both the elitist and multi-recombination strategy are used in parallel to avoid stagnation and regression, respectively. To exploit spatiotemporal information, the global step-size adaptation combines Meta-ES with the parallel cumulative step-size adaptation. After each isolation time, our meta-framework employs both the structure and parameter learning strategy to combine aligned evolution paths for CMA reconstruction. Experiments on a set of large-scale benchmarking functions with memory-intensive evaluations, arguably reflecting many data-driven optimization problems, validate the benefits (e.g., scalability w.r.t. CPU cores, effectiveness w.r.t. solution quality, and adaptability w.r.t. second-order learning) and costs of our meta-framework.
翻訳日:2023-10-12 07:47:54 公開日:2023-10-10
# 視覚トランスフォーマーの階層型サイドチューニング

Hierarchical Side-Tuning for Vision Transformers ( http://arxiv.org/abs/2310.05393v2 )

ライセンス: Link先を確認
Weifeng Lin, Ziheng Wu, Jiayu Chen, Wentao Yang, Mingxin Huang, Jun Huang, Lianwen Jin(参考訳) 微調整事前学習された視覚トランスフォーマー(vit)は、視覚認識の分野で一貫して有望な性能を示している。 しかし、様々なタスクに大規模な事前学習モデルを適用することは大きな課題となる。 この課題は、各モデルが独立して包括的な微調整プロセスを実行する必要性から生じ、計算とメモリの大幅な要求がもたらされる。 近年のPETL(パラメータ効率変換学習)の進歩は、パラメータ更新のサブセットが小さい完全微調整に比べて優れた性能を実現する能力を示しているが、オブジェクト検出やセグメンテーションのような密集した予測タスクは見過ごされる傾向にある。 本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。 入力空間内やバックボーンに接続された特定のモジュールにのみ微調整パラメータを割り当てる既存の手法と異なり、バックボーンから抽出された中間活性化を利用した軽量かつ階層的なサイドネットワーク(HSN)をチューニングし、マルチスケールな特徴を生成して予測する。 HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど多様な視覚的タスクを含む広範な実験を行った。 特に,VTAB-1kにおける最先端平均Top-1精度76.0%を実現し,0.78Mパラメータを微調整した。 COCO testdevベンチマークのオブジェクト検出タスクに適用すると、HSTは完全な微調整を超え、Cascade Mask R-CNNを使用して49.7ボックスAPと43.2マスクAPでパフォーマンスが向上する。

Fine-tuning pre-trained Vision Transformers (ViT) has consistently demonstrated promising performance in the realm of visual recognition. However, adapting large pre-trained models to various tasks poses a significant challenge. This challenge arises from the need for each model to undergo an independent and comprehensive fine-tuning process, leading to substantial computational and memory demands. While recent advancements in Parameter-efficient Transfer Learning (PETL) have demonstrated their ability to achieve superior performance compared to full fine-tuning with a smaller subset of parameter updates, they tend to overlook dense prediction tasks such as object detection and segmentation. In this paper, we introduce Hierarchical Side-Tuning (HST), a novel PETL approach that enables ViT transfer to various downstream tasks effectively. Diverging from existing methods that exclusively fine-tune parameters within input spaces or certain modules connected to the backbone, we tune a lightweight and hierarchical side network (HSN) that leverages intermediate activations extracted from the backbone and generates multi-scale features to make predictions. To validate HST, we conducted extensive experiments encompassing diverse visual tasks, including classification, object detection, instance segmentation, and semantic segmentation. Notably, our method achieves state-of-the-art average Top-1 accuracy of 76.0% on VTAB-1k, all while fine-tuning a mere 0.78M parameters. When applied to object detection tasks on COCO testdev benchmark, HST even surpasses full fine-tuning and obtains better performance with 49.7 box AP and 43.2 mask AP using Cascade Mask R-CNN.
翻訳日:2023-10-12 07:38:45 公開日:2023-10-10
# retseg: 保持型大腸ポリープセグメンテーションネットワーク

RetSeg: Retention-based Colorectal Polyps Segmentation Network ( http://arxiv.org/abs/2310.05446v2 )

ライセンス: Link先を確認
Khaled ELKarazle, Valliappan Raman, Caslon Chua and Patrick Then(参考訳) ビジョントランスフォーマー(ViT)は医療画像解析に革命をもたらし、ポリープ分類、検出、セグメンテーションといった重要なタスクにおいて従来の畳み込みニューラルネットワーク(CNN)よりも優れた効果を示した。 注意のメカニズムを利用して特定の画像領域に集中し、vitsは視覚データの処理において文脈的意識を示し、複雑な医療画像であっても、堅牢で正確な予測が可能となる。 さらに、トランスフォーマにおける固有の自己着脱機構は、様々な入力サイズと解像度に対応し、従来のcnnにない前例のない柔軟性をもたらす。 しかし、トランスフォーマーは過度のメモリ使用やセルフアテンションによるトレーニング並列性の制限といった課題に対処し、リソース制約のあるデバイスでのリアルタイム疾患検出には実用的でない。 本研究では,最近導入された保持機構をポリプセグメンテーションに統合し,マルチヘッド保持ブロックを備えたエンコーダデコーダネットワークRetSegを導入することで,これらのハードルに対処する。 RetNet(RetNet)からインスピレーションを得たRetSegは,特に大腸内視鏡画像に適した,正確なポリープ分割と資源利用のギャップを埋めるように設計されている。 我々は、Kvasir-SEGとCVC-ClinicDBという2つの公開データセットを使用して、ポリプセグメンテーションのためのRetSegをトレーニングし、検証する。 さらに、CVC-ColonDB、ETIS-LaribPolypDB、CVC-300、BKAI-IGH NeoPolypなど、さまざまなパブリックデータセットにわたるRetSegの有望なパフォーマンスを紹介します。 我々の研究は初期段階の探査を表しているが、さらなる深い研究はこれらの有望な発見を前進させるのに不可欠である。

Vision Transformers (ViTs) have revolutionized medical imaging analysis, showcasing superior efficacy compared to conventional Convolutional Neural Networks (CNNs) in vital tasks such as polyp classification, detection, and segmentation. Leveraging attention mechanisms to focus on specific image regions, ViTs exhibit contextual awareness in processing visual data, culminating in robust and precise predictions, even for intricate medical images. Moreover, the inherent self-attention mechanism in Transformers accommodates varying input sizes and resolutions, granting an unprecedented flexibility absent in traditional CNNs. However, Transformers grapple with challenges like excessive memory usage and limited training parallelism due to self-attention, rendering them impractical for real-time disease detection on resource-constrained devices. In this study, we address these hurdles by investigating the integration of the recently introduced retention mechanism into polyp segmentation, introducing RetSeg, an encoder-decoder network featuring multi-head retention blocks. Drawing inspiration from Retentive Networks (RetNet), RetSeg is designed to bridge the gap between precise polyp segmentation and resource utilization, particularly tailored for colonoscopy images. We train and validate RetSeg for polyp segmentation employing two publicly available datasets: Kvasir-SEG and CVC-ClinicDB. Additionally, we showcase RetSeg's promising performance across diverse public datasets, including CVC-ColonDB, ETIS-LaribPolypDB, CVC-300, and BKAI-IGH NeoPolyp. While our work represents an early-stage exploration, further in-depth studies are imperative to advance these promising findings.
翻訳日:2023-10-12 07:21:38 公開日:2023-10-10
# retseg: 保持型大腸ポリープセグメンテーションネットワーク

RetSeg: Retention-based Colorectal Polyps Segmentation Network ( http://arxiv.org/abs/2310.05446v1 )

ライセンス: Link先を確認
Khaled ELKarazle, Valliappan Raman, Caslon Chua and Patrick Then(参考訳) ビジョントランスフォーマー(ViT)は医療画像解析に革命をもたらし、ポリープ分類、検出、セグメンテーションといった重要なタスクにおいて従来の畳み込みニューラルネットワーク(CNN)よりも優れた効果を示した。 注意のメカニズムを利用して特定の画像領域に集中し、vitsは視覚データの処理において文脈的意識を示し、複雑な医療画像であっても、堅牢で正確な予測が可能となる。 さらに、トランスフォーマにおける固有の自己着脱機構は、様々な入力サイズと解像度に対応し、従来のcnnにない前例のない柔軟性をもたらす。 しかし、トランスフォーマーは過度のメモリ使用やセルフアテンションによるトレーニング並列性の制限といった課題に対処し、リソース制約のあるデバイスでのリアルタイム疾患検出には実用的でない。 本研究では,最近導入された保持機構をポリプセグメンテーションに統合し,マルチヘッド保持ブロックを備えたエンコーダデコーダネットワークRetSegを導入することで,これらのハードルに対処する。 RetNet(RetNet)からインスピレーションを得たRetSegは,特に大腸内視鏡画像に適した,正確なポリープ分割と資源利用のギャップを埋めるように設計されている。 我々は、Kvasir-SEGとCVC-ClinicDBという2つの公開データセットを使用して、ポリプセグメンテーションのためのRetSegをトレーニングし、検証する。 さらに、CVC-ColonDB、ETIS-LaribPolypDB、CVC-300、BKAI-IGH NeoPolypなど、さまざまなパブリックデータセットにわたるRetSegの有望なパフォーマンスを紹介します。 我々の研究は初期段階の探査を表しているが、さらなる深い研究はこれらの有望な発見を前進させるのに不可欠である。

Vision Transformers (ViTs) have revolutionized medical imaging analysis, showcasing superior efficacy compared to conventional Convolutional Neural Networks (CNNs) in vital tasks such as polyp classification, detection, and segmentation. Leveraging attention mechanisms to focus on specific image regions, ViTs exhibit contextual awareness in processing visual data, culminating in robust and precise predictions, even for intricate medical images. Moreover, the inherent self-attention mechanism in Transformers accommodates varying input sizes and resolutions, granting an unprecedented flexibility absent in traditional CNNs. However, Transformers grapple with challenges like excessive memory usage and limited training parallelism due to self-attention, rendering them impractical for real-time disease detection on resource-constrained devices. In this study, we address these hurdles by investigating the integration of the recently introduced retention mechanism into polyp segmentation, introducing RetSeg, an encoder-decoder network featuring multi-head retention blocks. Drawing inspiration from Retentive Networks (RetNet), RetSeg is designed to bridge the gap between precise polyp segmentation and resource utilization, particularly tailored for colonoscopy images. We train and validate RetSeg for polyp segmentation employing two publicly available datasets: Kvasir-SEG and CVC-ClinicDB. Additionally, we showcase RetSeg's promising performance across diverse public datasets, including CVC-ColonDB, ETIS-LaribPolypDB, CVC-300, and BKAI-IGH NeoPolyp. While our work represents an early-stage exploration, further in-depth studies are imperative to advance these promising findings.
翻訳日:2023-10-12 07:20:33 公開日:2023-10-10
# m3f polypsegnet:マルチ周波数特徴融合による大腸内視鏡画像におけるポリープ局在のセグメンテーションネットワーク

M3FPolypSegNet: Segmentation Network with Multi-frequency Feature Fusion for Polyp Localization in Colonoscopy Images ( http://arxiv.org/abs/2310.05538v2 )

ライセンス: Link先を確認
Ju-Hyeon Nam, Seo-Hyeong Park, Nur Suriza Syazwany, Yerim Jung, Yu-Han Im and Sang-Chul Lee(参考訳) ポリープセグメンテーションは大腸癌の一般的なタイプの癌の予防に不可欠である。 深層学習はポリープの自動分割に使われており、誤診のリスクを低減している。 大腸内視鏡画像における小ポリープの局在は,色,咬合,多彩なポリープの形状などの複雑な特徴から困難である。 この課題に対処するために、新しい周波数ベースの完全畳み込みニューラルネットワークであるM3FPolypSegNet(M3FPolypSegNet)が提案され、入力画像を低周波数/高周波数のコンポーネントに分解して各コンポーネントの特性を利用する。 複数の入力画像を高次元特徴空間にマッピングするために, 3つの独立なマルチ周波数エンコーダを用いた。 周波数-ASPPスケーラブルアテンションモジュール(F-ASPP SAM)では、各周波数成分間でASPPを適用してスケール情報を保存する。 その後、高次元特徴空間におけるポリプ領域の強調にスケーラブルな注意を向けた。 最後に、4つのデコーダブロックに3つのマルチタスク学習(すなわち、領域、エッジ、距離)を設計、その領域の構造特性を学習した。 提案モデルでは,CVC-ClinicDBとBKAI-IGH-NeoPolypでそれぞれ平均6.92%,7.52%の性能向上を示した。

Polyp segmentation is crucial for preventing colorectal cancer a common type of cancer. Deep learning has been used to segment polyps automatically, which reduces the risk of misdiagnosis. Localizing small polyps in colonoscopy images is challenging because of its complex characteristics, such as color, occlusion, and various shapes of polyps. To address this challenge, a novel frequency-based fully convolutional neural network, Multi-Frequency Feature Fusion Polyp Segmentation Network (M3FPolypSegNet) was proposed to decompose the input image into low/high/full-frequency components to use the characteristics of each component. We used three independent multi-frequency encoders to map multiple input images into a high-dimensional feature space. In the Frequency-ASPP Scalable Attention Module (F-ASPP SAM), ASPP was applied between each frequency component to preserve scale information. Subsequently, scalable attention was applied to emphasize polyp regions in a high-dimensional feature space. Finally, we designed three multi-task learning (i.e., region, edge, and distance) in four decoder blocks to learn the structural characteristics of the region. The proposed model outperformed various segmentation models with performance gains of 6.92% and 7.52% on average for all metrics on CVC-ClinicDB and BKAI-IGH-NeoPolyp, respectively.
翻訳日:2023-10-12 06:40:35 公開日:2023-10-10
# m3f polypsegnet:マルチ周波数特徴融合による大腸内視鏡画像におけるポリープ局在のセグメンテーションネットワーク

M3FPolypSegNet: Segmentation Network with Multi-frequency Feature Fusion for Polyp Localization in Colonoscopy Images ( http://arxiv.org/abs/2310.05538v1 )

ライセンス: Link先を確認
Ju-Hyeon Nam, Seo-Hyeong Park, Nur Suriza Syazwany, Yerim Jung, Yu-Han Im and Sang-Chul Lee(参考訳) ポリープセグメンテーションは大腸癌の一般的なタイプの癌の予防に不可欠である。 深層学習はポリープの自動分割に使われており、誤診のリスクを低減している。 大腸内視鏡画像における小ポリープの局在は,色,咬合,多彩なポリープの形状などの複雑な特徴から困難である。 この課題に対処するために、新しい周波数ベースの完全畳み込みニューラルネットワークであるM3FPolypSegNet(M3FPolypSegNet)が提案され、入力画像を低周波数/高周波数のコンポーネントに分解して各コンポーネントの特性を利用する。 複数の入力画像を高次元特徴空間にマッピングするために, 3つの独立なマルチ周波数エンコーダを用いた。 周波数-ASPPスケーラブルアテンションモジュール(F-ASPP SAM)では、各周波数成分間でASPPを適用してスケール情報を保存する。 その後、高次元特徴空間におけるポリプ領域の強調にスケーラブルな注意を向けた。 最後に、4つのデコーダブロックに3つのマルチタスク学習(すなわち、領域、エッジ、距離)を設計、その領域の構造特性を学習した。 提案モデルでは,CVC-ClinicDBとBKAI-IGH-NeoPolypでそれぞれ平均6.92%,7.52%の性能向上を示した。

Polyp segmentation is crucial for preventing colorectal cancer a common type of cancer. Deep learning has been used to segment polyps automatically, which reduces the risk of misdiagnosis. Localizing small polyps in colonoscopy images is challenging because of its complex characteristics, such as color, occlusion, and various shapes of polyps. To address this challenge, a novel frequency-based fully convolutional neural network, Multi-Frequency Feature Fusion Polyp Segmentation Network (M3FPolypSegNet) was proposed to decompose the input image into low/high/full-frequency components to use the characteristics of each component. We used three independent multi-frequency encoders to map multiple input images into a high-dimensional feature space. In the Frequency-ASPP Scalable Attention Module (F-ASPP SAM), ASPP was applied between each frequency component to preserve scale information. Subsequently, scalable attention was applied to emphasize polyp regions in a high-dimensional feature space. Finally, we designed three multi-task learning (i.e., region, edge, and distance) in four decoder blocks to learn the structural characteristics of the region. The proposed model outperformed various segmentation models with performance gains of 6.92% and 7.52% on average for all metrics on CVC-ClinicDB and BKAI-IGH-NeoPolyp, respectively.
翻訳日:2023-10-12 06:40:06 公開日:2023-10-10
# parfam --連続的グローバル最適化に基づく記号回帰

ParFam -- Symbolic Regression Based on Continuous Global Optimization ( http://arxiv.org/abs/2310.05537v2 )

ライセンス: Link先を確認
Philipp Scholl, Katharina Bieker, Hillary Hauger, Gitta Kutyniok(参考訳) 記号回帰(SR)の問題は、物理法則の特定や、与えられたデータから金融市場の振舞いを記述する数学的方程式の導出など、多くの異なる応用で生じる。 SRの問題に対処する様々な方法があり、しばしば遺伝的プログラミングに基づいている。 しかし、これらの手法は通常非常に複雑であり、多くのハイパーパラメータチューニングと計算資源を必要とする。 本稿では, 離散的記号回帰問題を連続的に解くために, 適切な記号関数のパラメトリック族を利用する新しい手法parfamを提案する。 強力なグローバルオプティマイザと組み合わせることで、このアプローチはsrの問題に取り組む効果的な方法をもたらす。 さらに、例えば、優れたパラメトリックファミリーを見つけるためにディープニューラルネットワークを追加することで、より高度なアルゴリズムに容易に拡張できる。 本稿では,SRベンチマークのSRBenchに基づく広範な数値実験によりParFamの性能を実証し,その結果を得た。 私たちのコードと結果はhttps://github.com/Philipp238/parfam で確認できます。

The problem of symbolic regression (SR) arises in many different applications, such as identifying physical laws or deriving mathematical equations describing the behavior of financial markets from given data. Various methods exist to address the problem of SR, often based on genetic programming. However, these methods are usually quite complicated and require a lot of hyperparameter tuning and computational resources. In this paper, we present our new method ParFam that utilizes parametric families of suitable symbolic functions to translate the discrete symbolic regression problem into a continuous one, resulting in a more straightforward setup compared to current state-of-the-art methods. In combination with a powerful global optimizer, this approach results in an effective method to tackle the problem of SR. Furthermore, it can be easily extended to more advanced algorithms, e.g., by adding a deep neural network to find good-fitting parametric families. We prove the performance of ParFam with extensive numerical experiments based on the common SR benchmark suit SRBench, showing that we achieve state-of-the-art results. Our code and results can be found at https://github.com/Philipp238/parfam .
翻訳日:2023-10-12 06:39:37 公開日:2023-10-10
# parfam --連続的グローバル最適化に基づく記号回帰

ParFam -- Symbolic Regression Based on Continuous Global Optimization ( http://arxiv.org/abs/2310.05537v1 )

ライセンス: Link先を確認
Philipp Scholl, Katharina Bieker, Hillary Hauger, Gitta Kutyniok(参考訳) 記号回帰(SR)の問題は、物理法則の特定や、与えられたデータから金融市場の振舞いを記述する数学的方程式の導出など、多くの異なる応用で生じる。 SRの問題に対処する様々な方法があり、しばしば遺伝的プログラミングに基づいている。 しかし、これらの手法は通常非常に複雑であり、多くのハイパーパラメータチューニングと計算資源を必要とする。 本稿では, 離散的記号回帰問題を連続的に解くために, 適切な記号関数のパラメトリック族を利用する新しい手法parfamを提案する。 強力なグローバルオプティマイザと組み合わせることで、このアプローチはsrの問題に取り組む効果的な方法をもたらす。 さらに、例えば、優れたパラメトリックファミリーを見つけるためにディープニューラルネットワークを追加することで、より高度なアルゴリズムに容易に拡張できる。 本稿では,SRベンチマークのSRBenchに基づく広範な数値実験によりParFamの性能を実証し,その結果を得た。 私たちのコードと結果はhttps://github.com/Philipp238/parfam で確認できます。

The problem of symbolic regression (SR) arises in many different applications, such as identifying physical laws or deriving mathematical equations describing the behavior of financial markets from given data. Various methods exist to address the problem of SR, often based on genetic programming. However, these methods are usually quite complicated and require a lot of hyperparameter tuning and computational resources. In this paper, we present our new method ParFam that utilizes parametric families of suitable symbolic functions to translate the discrete symbolic regression problem into a continuous one, resulting in a more straightforward setup compared to current state-of-the-art methods. In combination with a powerful global optimizer, this approach results in an effective method to tackle the problem of SR. Furthermore, it can be easily extended to more advanced algorithms, e.g., by adding a deep neural network to find good-fitting parametric families. We prove the performance of ParFam with extensive numerical experiments based on the common SR benchmark suit SRBench, showing that we achieve state-of-the-art results. Our code and results can be found at https://github.com/Philipp238/parfam .
翻訳日:2023-10-12 06:39:20 公開日:2023-10-10
# HyperLips:顔生成のための高解像度デコーダ付きハイパーコントロールリップ

HyperLips: Hyper Control Lips with High Resolution Decoder for Talking Face Generation ( http://arxiv.org/abs/2310.05720v2 )

ライセンス: Link先を確認
Yaosen Chen, Yu Yao, Zhiqiang Li, Wei Wang, Yanru Zhang, Han Yang, Xuming Wen(参考訳) 対話型顔生成は、仮想デジタル人間の分野において、幅広い可能性を秘めている。 しかし、既存の音声駆動音声合成アプローチでは、高忠実度顔ビデオのレンダリングと唇同期の確保が依然として課題である。 この問題に対処するため,高精細な顔の描画を行うハイパーネットワークと高精細なデコーダからなる2段階フレームワークHyperLipsを提案する。 第1段階では,ハイパーネットワークを用いたベースフェイス生成ネットワークを構築し,音声による視覚的顔情報の符号化遅延コードを制御する。 まず、FaceEncoderを用いて、顔フレームを含むビデオソースから抽出した視覚的顔情報から特徴を抽出し、音声の特徴を入力としてHyperNetによって重み付けパラメータを更新するHyperConvは、潜時コードを変更して、唇の動きをオーディオと同期させる。 最後に、facedecoderは修正および同期された潜在コードをvisual face contentにデコードする。 第2段階では,高精細デコーダを用いて高品質な顔映像を得る。 顔画像を用いた高分解能デコーダHRDecoderを訓練し,第1ステージから生成されたスケッチを入力として検出した。 プロジェクトページ: https://semchan.github.io/HyperLips/

Talking face generation has a wide range of potential applications in the field of virtual digital humans. However, rendering high-fidelity facial video while ensuring lip synchronization is still a challenge for existing audio-driven talking face generation approaches. To address this issue, we propose HyperLips, a two-stage framework consisting of a hypernetwork for controlling lips and a high-resolution decoder for rendering high-fidelity faces. In the first stage, we construct a base face generation network that uses the hypernetwork to control the encoding latent code of the visual face information over audio. First, FaceEncoder is used to obtain latent code by extracting features from the visual face information taken from the video source containing the face frame.Then, HyperConv, which weighting parameters are updated by HyperNet with the audio features as input, will modify the latent code to synchronize the lip movement with the audio. Finally, FaceDecoder will decode the modified and synchronized latent code into visual face content. In the second stage, we obtain higher quality face videos through a high-resolution decoder. To further improve the quality of face generation, we trained a high-resolution decoder, HRDecoder, using face images and detected sketches generated from the first stage as input.Extensive quantitative and qualitative experiments show that our method outperforms state-of-the-art work with more realistic, high-fidelity, and lip synchronization. Project page: https://semchan.github.io/HyperLips/
翻訳日:2023-10-12 04:38:59 公開日:2023-10-10
# HyperLips:顔生成のための高解像度デコーダ付きハイパーコントロールリップ

HyperLips: Hyper Control Lips with High Resolution Decoder for Talking Face Generation ( http://arxiv.org/abs/2310.05720v1 )

ライセンス: Link先を確認
Yaosen Chen, Yu Yao, Zhiqiang Li, Wei Wang, Yanru Zhang, Han Yang, Xuming Wen(参考訳) 対話型顔生成は、仮想デジタル人間の分野において、幅広い可能性を秘めている。 しかし、既存の音声駆動音声合成アプローチでは、高忠実度顔ビデオのレンダリングと唇同期の確保が依然として課題である。 この問題に対処するため,高精細な顔の描画を行うハイパーネットワークと高精細なデコーダからなる2段階フレームワークHyperLipsを提案する。 第1段階では,ハイパーネットワークを用いたベースフェイス生成ネットワークを構築し,音声による視覚的顔情報の符号化遅延コードを制御する。 まず、FaceEncoderを用いて、顔フレームを含むビデオソースから抽出した視覚的顔情報から特徴を抽出し、音声の特徴を入力としてHyperNetによって重み付けパラメータを更新するHyperConvは、潜時コードを変更して、唇の動きをオーディオと同期させる。 最後に、facedecoderは修正および同期された潜在コードをvisual face contentにデコードする。 第2段階では,高精細デコーダを用いて高品質な顔映像を得る。 顔画像を用いた高分解能デコーダHRDecoderを訓練し,第1ステージから生成されたスケッチを入力として検出した。 プロジェクトページ: https://semchan.github.io/HyperLips/

Talking face generation has a wide range of potential applications in the field of virtual digital humans. However, rendering high-fidelity facial video while ensuring lip synchronization is still a challenge for existing audio-driven talking face generation approaches. To address this issue, we propose HyperLips, a two-stage framework consisting of a hypernetwork for controlling lips and a high-resolution decoder for rendering high-fidelity faces. In the first stage, we construct a base face generation network that uses the hypernetwork to control the encoding latent code of the visual face information over audio. First, FaceEncoder is used to obtain latent code by extracting features from the visual face information taken from the video source containing the face frame.Then, HyperConv, which weighting parameters are updated by HyperNet with the audio features as input, will modify the latent code to synchronize the lip movement with the audio. Finally, FaceDecoder will decode the modified and synchronized latent code into visual face content. In the second stage, we obtain higher quality face videos through a high-resolution decoder. To further improve the quality of face generation, we trained a high-resolution decoder, HRDecoder, using face images and detected sketches generated from the first stage as input.Extensive quantitative and qualitative experiments show that our method outperforms state-of-the-art work with more realistic, high-fidelity, and lip synchronization. Project page: https://semchan.github.io/HyperLips/
翻訳日:2023-10-12 04:38:34 公開日:2023-10-10
# 共形決定理論:不完全予測からの安全な自律的決定

Conformal Decision Theory: Safe Autonomous Decisions from Imperfect Predictions ( http://arxiv.org/abs/2310.05921v2 )

ライセンス: Link先を確認
Jordan Lekeufack, Anastasios N. Angelopoulos, Andrea Bajcsy, Michael I. Jordan, Jitendra Malik(参考訳) 不完全な機械学習予測にも拘わらず、安全な自律的意思決定を実現するためのフレームワークであるコンフォーマル決定理論を導入する。 そのような決定の例としては、歩行者予測に依存するロボット計画アルゴリズムから、高いスループットと低いエラーを示すための自律的製造のキャリブレーション、実行時の安全なバックアップポリシへの切り替えよりも名目上のポリシーを信頼する選択などがある。 我々のアルゴリズムが生み出した決定は、世界モデルに何の仮定もせずに低いリスクを持つという証明可能な統計的保証があるという意味では安全である。 この理論は、予測セットの構築を必要とせず、共形予測の結果を拡張して、直接決定を校正する。 実験は,ロボットの動作計画,自動株式取引,ロボット製造における我々のアプローチの有用性を実証する。

We introduce Conformal Decision Theory, a framework for producing safe autonomous decisions despite imperfect machine learning predictions. Examples of such decisions are ubiquitous, from robot planning algorithms that rely on pedestrian predictions, to calibrating autonomous manufacturing to exhibit high throughput and low error, to the choice of trusting a nominal policy versus switching to a safe backup policy at run-time. The decisions produced by our algorithms are safe in the sense that they come with provable statistical guarantees of having low risk without any assumptions on the world model whatsoever; the observations need not be I.I.D. and can even be adversarial. The theory extends results from conformal prediction to calibrate decisions directly, without requiring the construction of prediction sets. Experiments demonstrate the utility of our approach in robot motion planning around humans, automated stock trading, and robot manufacturing.
翻訳日:2023-10-12 04:30:45 公開日:2023-10-10
# テキストに基づく分解によるクリップ画像の解釈

Interpreting CLIP's Image Representation via Text-Based Decomposition ( http://arxiv.org/abs/2310.05916v2 )

ライセンス: Link先を確認
Yossi Gandelsman, Alexei A. Efros, Jacob Steinhardt(参考訳) CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。 我々は,個々の画像パッチ,モデルレイヤ,注意ヘッドの合計として画像表現を分解し,クリップのテキスト表現を用いて要約を解釈する。 注目ヘッドを解釈し、出力空間にまたがるテキスト表現を自動的に見つけ、多くのヘッド(例えば、位置や形状)のプロパティ固有の役割を明らかにすることで、各ヘッドの役割を特徴付ける。 次に、画像パッチを解釈し、CLIP内の創発的な空間的局在を明らかにする。 最後に、この理解を用いて、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成する。 その結果、トランスフォーマーモデルのスケーラブルな理解が実現可能であり、モデルの修復と改善に使用できることがわかった。

We investigate the CLIP image encoder by analyzing how individual model components affect the final representation. We decompose the image representation as a sum across individual image patches, model layers, and attention heads, and use CLIP's text representation to interpret the summands. Interpreting the attention heads, we characterize each head's role by automatically finding text representations that span its output space, which reveals property-specific roles for many heads (e.g. location or shape). Next, interpreting the image patches, we uncover an emergent spatial localization within CLIP. Finally, we use this understanding to remove spurious features from CLIP and to create a strong zero-shot image segmenter. Our results indicate that a scalable understanding of transformer models is attainable and can be used to repair and improve models.
翻訳日:2023-10-12 04:30:17 公開日:2023-10-10
# NEFTune: インストラクションファインタニングを改善するノイズの埋め込み

NEFTune: Noisy Embeddings Improve Instruction Finetuning ( http://arxiv.org/abs/2310.05914v2 )

ライセンス: Link先を確認
Neel Jain, Ping-yeh Chiang, Yuxin Wen, John Kirchenbauer, Hong-Min Chu, Gowthami Somepalli, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 言語モデルの微調整は、単純な拡張によって、時には劇的に改善できることを示している。 NEFTuneはトレーニング中に埋め込みベクトルにノイズを追加する。 Alpacaを用いたLLaMA-2-7Bの標準的な微調整では、AlpacaEvalの29.79%が達成され、ノイズの多い埋め込みを使用して64.69%まで上昇する。 NEFTuneは、モダンな命令データセットの強いベースラインも改善している。 Evol-Instructでトレーニングされたモデルは10%改善され、ShareGPTは8%改善され、OpenPlatypusは8%改善された。 LLaMA-2-ChatのようなRLHFで改良された強力なモデルでさえNEFTuneでの追加訓練の恩恵を受けた。

We show that language model finetuning can be improved, sometimes dramatically, with a simple augmentation. NEFTune adds noise to the embedding vectors during training. Standard finetuning of LLaMA-2-7B using Alpaca achieves 29.79% on AlpacaEval, which rises to 64.69% using noisy embeddings. NEFTune also improves over strong baselines on modern instruction datasets. Models trained with Evol-Instruct see a 10% improvement, with ShareGPT an 8% improvement, and with OpenPlatypus an 8% improvement. Even powerful models further refined with RLHF such as LLaMA-2-Chat benefit from additional training with NEFTune.
翻訳日:2023-10-12 04:30:01 公開日:2023-10-10
# Geom-Erasing:拡散モデルにおける不入概念の幾何学的除去

Geom-Erasing: Geometry-Driven Removal of Implicit Concept in Diffusion Models ( http://arxiv.org/abs/2310.05873v2 )

ライセンス: Link先を確認
Zhili Liu, Kai Chen, Yifan Zhang, Jianhua Han, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James Kwok(参考訳) パーソナライズされたデータセットによる拡散モデルの微調整は、下流タスク全体の生成品質を改善する方法として認識されているが、ウォーターマークやqrコードといった意図しない概念を不注意に生成することが多い。 既存のソリューションは、主にモデルが実際に認識できない概念を認識する能力に依存しているため、意図せず学習された暗黙の概念を取り除くことに苦しむ。 本研究では,これらの概念の幾何学的情報をテキスト領域にエンコードするために,アクセシブルな分類器や検出器モデルを用いて暗黙的な概念をうまく除去する手法であるGeom-Erasingを紹介する。 さらに,3つの暗黙的な概念(ウォーターマーク,qrコード,テキスト)を付与した,新たな画像テキストデータセットである暗黙的概念を提案する。 実験の結果,geom-erasingは暗黙的な概念を識別するだけでなく,熟達して根絶することを示し,既存の手法よりも大きな改善が見られた。 幾何学的情報の統合は拡散モデルにおける暗黙的な概念の正確な除去において重要な進歩を示している。

Fine-tuning diffusion models through personalized datasets is an acknowledged method for improving generation quality across downstream tasks, which, however, often inadvertently generates unintended concepts such as watermarks and QR codes, attributed to the limitations in image sources and collecting methods within specific downstream tasks. Existing solutions suffer from eliminating these unintentionally learned implicit concepts, primarily due to the dependency on the model's ability to recognize concepts that it actually cannot discern. In this work, we introduce Geom-Erasing, a novel approach that successfully removes the implicit concepts with either an additional accessible classifier or detector model to encode geometric information of these concepts into text domain. Moreover, we propose Implicit Concept, a novel image-text dataset imbued with three implicit concepts (i.e., watermarks, QR codes, and text) for training and evaluation. Experimental results demonstrate that Geom-Erasing not only identifies but also proficiently eradicates implicit concepts, revealing a significant improvement over the existing methods. The integration of geometric information marks a substantial progression in the precise removal of implicit concepts in diffusion models.
翻訳日:2023-10-12 04:29:48 公開日:2023-10-10
# 単一粒子グリーン関数を用いた多成分絡み合いパターンの検出

Detecting Multipartite Entanglement Patterns using Single Particle Green's Functions ( http://arxiv.org/abs/2310.05870v2 )

ライセンス: Link先を確認
Rajesh K. Malla, Andreas Weichselbaum, Tzu-Chieh Wei, and Robert M. Konik(参考訳) 本稿では,量子フィッシャー情報(QFI)を用いた多体電子システムの多部絡み検出プロトコルを提案する。 非自明な目撃者の集合を同定することにより、QFIと単一粒子グリーン関数の接続を確立する。 これらの演算子を構築するために、元のモデルの2つの同一コピーを導入するシステムの二重化を用いる。 目撃者はコピー間で電子をホップするが、コピーは相互に相互作用しない。 この手法を有限サイズのフェルミオン系に適用し、スピンレスイテナント電子モデルにおけるエンタングルメントの検出の有効性を示す。 検出された絡み合いレベルはホッピング過程に関連する波動ベクトルに敏感であることを示す。 また、対称性が絡み合いのレベルを検出する上で重要な役割を実証する。 本プロトコルは, 走査型トンネル顕微鏡と角度分解光電子分光を用いて多体系における絡み合いの検出方法を示し, 中性子散乱実験でアクセスされる動的スピン応答による絡み合いの検出以上のエキサイティングな展望を提供する。

We propose a protocol for detecting multipartite entanglement in itinerant many-body electronic systems using the quantum Fisher information (QFI). We establish a connection between the QFI and single-particle Green's functions by identifying a set of non-trivial witness operators. To construct these operators, we employ a doubling of the system wherein we introduce two identical copies of the original model. While the witness operator hops electrons between copies, the copies do not interact with one another. We apply this methodology to a finite-sized fermionic system and showcase its effectiveness in detecting entanglement in spinless itinerant electron models. We show that the detected entanglement level is sensitive to the wave vector associated with the hopping process. We also demonstrate the important role that symmetry has in detecting levels of entanglement. Our protocol paves the way for detecting entanglement in many-body systems using scanning tunneling microscopy and angle-resolved photoemission spectroscopy, thus offering exciting prospects beyond the detection of entanglement via the dynamical spin response accessed in neutron scattering experiments.
翻訳日:2023-10-12 04:29:25 公開日:2023-10-10
# マルチモーダル大言語モデルのための細粒度視聴覚結合表現

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models ( http://arxiv.org/abs/2310.05863v2 )

ライセンス: Link先を確認
Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang(参考訳) 音声・視覚大言語モデル(llm)は注目を浴びているが、両方の入力ストリームの細かな組み合わせは未検討であり、llmが一般的なビデオ入力を理解するのに必要である。 そこで本論文では,マルチモーダルLLMのための微細な音声・視覚共同表現(FAVOR)学習フレームワークを提案し,テキストベースのLLMを拡張して,音声入力ストリーム内の音声・音声イベントと視覚入力ストリーム内の画像・映像をフレームレベルで同時に知覚する。 音声・視覚的特徴ストリームを結合表現に融合させ,LLM入力埋め込み空間と結合空間を整合させるため,時間をかけて音声・視覚的フレームの因果関係を捉えるために,因果注意モジュールを用いた因果Q-Former構造を提案する。 また,6つの単一モーダルなタスクと5つのクロスモーダルなタスクからなる音声視覚評価ベンチマーク(AVEB)を提案する。 avebでは、音声、音声、画像のタスクで競争力のあるシングルモーダル性能を達成する一方で、粒度の細かい情報や時間的因果推論が必要な場合、ビデオ質問応答タスクの20%以上の精度向上を達成している。 さらに、他のマルチモーダルllmで前例のないタスクに対して、驚くべきビデオ理解と推論能力を示した。 FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。

Audio-visual large language models (LLM) have drawn significant attention, yet the fine-grained combination of both input streams is rather under-explored, which is challenging but necessary for LLMs to understand general video inputs. To this end, a fine-grained audio-visual joint representation (FAVOR) learning framework for multimodal LLMs is proposed in this paper, which extends a text-based LLM to simultaneously perceive speech and audio events in the audio input stream and images or videos in the visual input stream, at the frame level. To fuse the audio and visual feature streams into joint representations and to align the joint space with the LLM input embedding space, we propose a causal Q-Former structure with a causal attention module to enhance the capture of causal relations of the audio-visual frames across time. An audio-visual evaluation benchmark (AVEB) is also proposed which comprises six representative single-modal tasks with five cross-modal tasks reflecting audio-visual co-reasoning abilities. While achieving competitive single-modal performance on audio, speech and image tasks in AVEB, FAVOR achieved over 20% accuracy improvements on the video question-answering task when fine-grained information or temporal causal reasoning is required. FAVOR, in addition, demonstrated remarkable video comprehension and reasoning abilities on tasks that are unprecedented by other multimodal LLMs. An interactive demo of FAVOR is available at https://github.com/BriansIDP/AudioVisualLLM.git, and the training code and model checkpoints will be released soon.
翻訳日:2023-10-12 04:29:08 公開日:2023-10-10
# gem5pred: gem5シミュレーション時間の予測的アプローチ

Gem5Pred: Predictive Approaches For Gem5 Simulation Time ( http://arxiv.org/abs/2310.06290v1 )

ライセンス: Link先を確認
Tian Yan, Xueyang Li, Sifat Ut Taki, Saeid Mehrdad(参考訳) Gem5はオープンソースでフレキシブルで費用効率のよいシミュレータであり、学術と産業の両方でハードウェアシミュレーションに広く利用されている。 しかし、gem5上でプログラムをシミュレートする典型的な時間のかかる性質は、シミュレーション時間を見積もる予測モデルの必要性を浮き彫りにしている。 現在、そのようなデータセットやモデルは存在しない。 このギャップに対応するために,本稿では,この目的に特化して作成されたユニークなデータセットを導入することで,新たな貢献を行う。 また,gem5のシミュレーション時間に対する異なる命令型の影響について解析を行った。 その後、CodeBERTを利用した3つの異なるモデルを用いて、開発したデータセットに基づいて予測タスクを実行する。 上位回帰モデルは0.546の平均絶対誤差(MAE)を達成し,上位分類モデルは0.696の精度を記録した。 我々のモデルは今後の研究の基礎を確立し、その後のモデルを比較するためのベンチマークとして役立ちます。 私たちの貢献がこの分野のさらなる研究をシミュレートできることを願っています。 私たちが使用したデータセットは、https://github.com/xueyangliosu/gem5predで利用可能です。

Gem5, an open-source, flexible, and cost-effective simulator, is widely recognized and utilized in both academic and industry fields for hardware simulation. However, the typically time-consuming nature of simulating programs on Gem5 underscores the need for a predictive model that can estimate simulation time. As of now, no such dataset or model exists. In response to this gap, this paper makes a novel contribution by introducing a unique dataset specifically created for this purpose. We also conducted analysis of the effects of different instruction types on the simulation time in Gem5. After this, we employ three distinct models leveraging CodeBERT to execute the prediction task based on the developed dataset. Our superior regression model achieves a Mean Absolute Error (MAE) of 0.546, while our top-performing classification model records an Accuracy of 0.696. Our models establish a foundation for future investigations on this topic, serving as benchmarks against which subsequent models can be compared. We hope that our contribution can simulate further research in this field. The dataset we used is available at https://github.com/XueyangLiOSU/Gem5Pred.
翻訳日:2023-10-12 02:07:54 公開日:2023-10-10
# 微分プライベート統計量推定のための改良と簡易化

Better and Simpler Lower Bounds for Differentially Private Statistical Estimation ( http://arxiv.org/abs/2310.06289v1 )

ライセンス: Link先を確認
Shyam Narayanan(参考訳) 既知の2つの高次元プライベート推定タスクに対して,下限の改善を提案する。 まず、スペクトル誤差までのガウスの共分散を近似微分プライバシーを持つ$\alpha$まで推定するには、任意の$\alpha \le o(1)$に対して$\tilde{\omega}\left(\frac{d^{3/2}}{\alpha \varepsilon} + \frac{d}{\alpha^2}\right)$サンプルが必要であり、これは対数因子に密接である。 これは$\alpha \le O\left(\frac{1}{\sqrt{d}}\right)$に対してこれを確立した以前の作業よりも改善され、以前の作業よりも単純である。 次に、近似微分プライバシーを持つ有界な$k$thモーメントで重み付き分布の平均を推定するためには、$\tilde{\Omega}\left(\frac{d}{\alpha^{k/(k-1)} \varepsilon} + \frac{d}{\alpha^2}\right)$サンプルが必要である。 これは既知の上界と一致し、この問題の最もよく知られた下界よりも改善され、純粋な差分プライバシー、または$k = 2$ の場合のみ保持される。 我々の技術は指紋認証の手法に従っており、概して非常に単純である。 重み付き推定の低い境界は、個人的同一性共分散ガウスのブラックボックス削減に基づいている。 共分散行列に対する逆ウィッシュアート事前分布の下では、十分多くのサンプルを使わずに、期待してもプライベートな推定器が正確ではないことをベイズ法を用いて証明する。

We provide improved lower bounds for two well-known high-dimensional private estimation tasks. First, we prove that for estimating the covariance of a Gaussian up to spectral error $\alpha$ with approximate differential privacy, one needs $\tilde{\Omega}\left(\frac{d^{3/2}}{\alpha \varepsilon} + \frac{d}{\alpha^2}\right)$ samples for any $\alpha \le O(1)$, which is tight up to logarithmic factors. This improves over previous work which established this for $\alpha \le O\left(\frac{1}{\sqrt{d}}\right)$, and is also simpler than previous work. Next, we prove that for estimating the mean of a heavy-tailed distribution with bounded $k$th moments with approximate differential privacy, one needs $\tilde{\Omega}\left(\frac{d}{\alpha^{k/(k-1)} \varepsilon} + \frac{d}{\alpha^2}\right)$ samples. This matches known upper bounds and improves over the best known lower bound for this problem, which only hold for pure differential privacy, or when $k = 2$. Our techniques follow the method of fingerprinting and are generally quite simple. Our lower bound for heavy-tailed estimation is based on a black-box reduction from privately estimating identity-covariance Gaussians. Our lower bound for covariance estimation utilizes a Bayesian approach to show that, under an Inverse Wishart prior distribution for the covariance matrix, no private estimator can be accurate even in expectation, without sufficiently many samples.
翻訳日:2023-10-12 02:07:37 公開日:2023-10-10
# 限定探査による双方向オフライン政策最適化

Bi-Level Offline Policy Optimization with Limited Exploration ( http://arxiv.org/abs/2310.06268v1 )

ライセンス: Link先を確認
Wenzhuo Zhou(参考訳) 既定データセットに基づく良質なポリシの学習を目的とした,オフライン強化学習(rl)について検討した。 このタスクの根本的な課題は、特に関数近似の下での十分な探索が不十分なデータセットによる分散シフトである。 この問題に対処するために、ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する二層構造最適化アルゴリズムを提案する。 低レベルは、分布ミスマッチに起因する不確実性を制御するとともに、十分に小さな重み付き平均ベルマン誤差を維持できる信頼度セットを構築することに焦点を当てている。 その後、上層レベルでは、下層レベルで形成された信頼度から、保守的価値見積りを最大化することを目指す。 この新たな定式化は、暗黙的に誘導される探索データ分布の最大柔軟性を保ち、モデル外挿のパワーを可能にする。 実際には、計算効率が良く、ペナルティ化された逆推定手順によって解くことができる。 我々の理論的後悔の保証は、データカバレッジや完全性のような仮定に頼らず、実現可能性のみを必要とする。 これらの保証はまた、学習した政策が全ての政策の中で「最善の努力」を表していることも示している。 我々は,オフラインrlのための合成,ベンチマーク,実世界のデータセットをブレンドしてモデルを評価し,最先端の手法との競合性を示す。

We study offline reinforcement learning (RL) which seeks to learn a good policy based on a fixed, pre-collected dataset. A fundamental challenge behind this task is the distributional shift due to the dataset lacking sufficient exploration, especially under function approximation. To tackle this issue, we propose a bi-level structured policy optimization algorithm that models a hierarchical interaction between the policy (upper-level) and the value function (lower-level). The lower level focuses on constructing a confidence set of value estimates that maintain sufficiently small weighted average Bellman errors, while controlling uncertainty arising from distribution mismatch. Subsequently, at the upper level, the policy aims to maximize a conservative value estimate from the confidence set formed at the lower level. This novel formulation preserves the maximum flexibility of the implicitly induced exploratory data distribution, enabling the power of model extrapolation. In practice, it can be solved through a computationally efficient, penalized adversarial estimation procedure. Our theoretical regret guarantees do not rely on any data-coverage and completeness-type assumptions, only requiring realizability. These guarantees also demonstrate that the learned policy represents the "best effort" among all policies, as no other policies can outperform it. We evaluate our model using a blend of synthetic, benchmark, and real-world datasets for offline RL, showing that it performs competitively with state-of-the-art methods.
翻訳日:2023-10-12 02:06:58 公開日:2023-10-10
# サンプル効率の高いマルチエージェントrl:最適化の展望

Sample-Efficient Multi-Agent RL: An Optimization Perspective ( http://arxiv.org/abs/2310.06243v1 )

ライセンス: Link先を確認
Nuoya Xiong, Zhihan Liu, Zhaoran Wang, Zhuoran Yang(参考訳) 一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。 サンプル効率学習の最小仮定を求めるため,汎用MGのためのマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。 本手法を用いて,MADCが低いモデルベースおよびモデルフリーのMARL問題に対して,Nash平衡,粗相関平衡,および相関平衡の学習において,サンプル効率を確保するための最初の統一アルゴリズムフレームワークを提案する。 また、我々のアルゴリズムは既存の研究に匹敵するサブ線形後悔を与えることを示した。 さらに, このアルゴリズムでは, データ依存的制約(Jin et al. 2020; Wang et al. 2023)内での制約付き最適化問題の解決や, 複雑な多目的最適化問題(Foster et al. 2023)によるサンプリング手順の実行を回避し, 各決定論的共同政策の正規化ペイオフを解消する単一目的最適化サブプロデューサと平衡解オラクルを組み合わせる。

We study multi-agent reinforcement learning (MARL) for the general-sum Markov Games (MGs) under the general function approximation. In order to find the minimum assumption for sample-efficient learning, we introduce a novel complexity measure called the Multi-Agent Decoupling Coefficient (MADC) for general-sum MGs. Using this measure, we propose the first unified algorithmic framework that ensures sample efficiency in learning Nash Equilibrium, Coarse Correlated Equilibrium, and Correlated Equilibrium for both model-based and model-free MARL problems with low MADC. We also show that our algorithm provides comparable sublinear regret to the existing works. Moreover, our algorithm combines an equilibrium-solving oracle with a single objective optimization subprocedure that solves for the regularized payoff of each deterministic joint policy, which avoids solving constrained optimization problems within data-dependent constraints (Jin et al. 2020; Wang et al. 2023) or executing sampling procedures with complex multi-objective optimization problems (Foster et al. 2023), thus being more amenable to empirical implementation.
翻訳日:2023-10-12 02:06:35 公開日:2023-10-10
# 個人別マルチサイト処理効果推定

Differentially Private Multi-Site Treatment Effect Estimation ( http://arxiv.org/abs/2310.06237v1 )

ライセンス: Link先を確認
Tatsuki Koga, Kamalika Chaudhuri, David Page(参考訳) 患者のプライバシーは、医療AIにとって大きな障壁である。 機密性のために、ほとんどの患者データは別々の病院のサイロに残されており、効果的な意思決定のために大量の患者データを必要とするデータ駆動の医療aiシステムの設計を妨げている。 これに対する解決策は、差分プライバシーを持つ連合学習を通じて、複数のサイトをまたいだ集合学習である。 しかし、この分野の文献は典型的には、医療における因果推論に関連する問題とは異なる、差分プライベートな統計推定と機械学習に焦点を当てている。 本研究では,医療アプリケーションにおける因果推論における重要な課題である平均治療効果(ATE)を推定し,各サイトにおける差分プライバシー(DP)保証とともに,複数のサイトにわたるATE推定を可能にするフェデレーション分析アプローチを提案する。 主な課題はサイトの不均一性であり、異なるサイトは異なるサンプルサイズとプライバシー予算を持っている。 本稿では, ATE推定とその分散を品質指標として報告するサイト単位推定アルゴリズムのクラスと, ATE推定全体の分散を最小化するサーバ側の集約アルゴリズムを用いて, この問題に対処する。 実データおよび合成データを用いた実験により,提案手法はサイト全体のプライベート統計を確実に集約し,ベースラインよりもサイトの不均質性下でのプライバシー利用上のトレードオフを改善できることを示した。

Patient privacy is a major barrier to healthcare AI. For confidentiality reasons, most patient data remains in silo in separate hospitals, preventing the design of data-driven healthcare AI systems that need large volumes of patient data to make effective decisions. A solution to this is collective learning across multiple sites through federated learning with differential privacy. However, literature in this space typically focuses on differentially private statistical estimation and machine learning, which is different from the causal inference-related problems that arise in healthcare. In this work, we take a fresh look at federated learning with a focus on causal inference; specifically, we look at estimating the average treatment effect (ATE), an important task in causal inference for healthcare applications, and provide a federated analytics approach to enable ATE estimation across multiple sites along with differential privacy (DP) guarantees at each site. The main challenge comes from site heterogeneity -- different sites have different sample sizes and privacy budgets. We address this through a class of per-site estimation algorithms that reports the ATE estimate and its variance as a quality measure, and an aggregation algorithm on the server side that minimizes the overall variance of the final ATE estimate. Our experiments on real and synthetic data show that our method reliably aggregates private statistics across sites and provides better privacy-utility tradeoff under site heterogeneity than baselines.
翻訳日:2023-10-12 02:06:11 公開日:2023-10-10
# フォノン結晶を用いた工学的フォノン-クビット相互作用

Engineering Phonon-Qubit Interactions using Phononic Crystals ( http://arxiv.org/abs/2310.06236v1 )

ライセンス: Link先を確認
Kazuhiro Kuruma, Benjamin Pingault, Cleaven Chia, Michael Haas, Graham D Joe, Daniel Rimoli Assumpcao, Sophie Weiyi Ding, Chang Jin, C. J. Xin, Matthew Yeh, Neil Sinclair, and Marko Lon\v{c}ar(参考訳) 固体中のフォノンを制御できることは、量子情報処理からセンシングまで、様々な量子応用の鍵となる。 フォノンは様々な固体量子システムと相互作用できるため、ノイズやデコヒーレンスの原因となることが多い。 これを緩和するために、量子系は通常ミリケルビン温度で動作し、熱フォノンの数を減らす。 ここでは、量子エミッタの自然放出を制御するために用いられるフォトニックバンドギャップ構造から着想を得た、状態の工学的フォノン密度に依存する別のアプローチを示す。 50~70ギガヘルツにまたがる完全なフォノニックバンドギャップを持つダイヤモンドフォノニック結晶を設計・作製し、単一のシリコン空白色中心と熱浴の共振フォノオンとの相互作用を抑制するために調整した。 4ケルビンでは,色中心のフォノン誘起軌道緩和速度をバルクに比べて18倍に低下させることを示した。 さらに、フォノン色中心相互作用を20ケルビンまで効果的に抑制できることを示す。 量子メモリの高温での動作を可能にすることに加えて、量子ビット-フォノン相互作用を設計できる能力は、フォノンを量子情報のキャリアとして用いる量子科学と技術に新たな機能をもたらす可能性がある。

The ability to control phonons in solids is key for diverse quantum applications, ranging from quantum information processing to sensing. Often, phonons are sources of noise and decoherence, since they can interact with a variety of solid-state quantum systems. To mitigate this, quantum systems typically operate at milli-Kelvin temperatures to reduce the number of thermal phonons. Here we demonstrate an alternative approach that relies on engineering phononic density of states, drawing inspiration from photonic bandgap structures that have been used to control the spontaneous emission of quantum emitters. We design and fabricate diamond phononic crystals with a complete phononic bandgap spanning 50 - 70 gigahertz, tailored to suppress interactions of a single silicon-vacancy color center with resonant phonons of the thermal bath. At 4 Kelvin, we demonstrate a reduction of the phonon-induced orbital relaxation rate of the color center by a factor of 18 compared to bulk. Furthermore, we show that the phononic bandgap can efficiently suppress phonon-color center interactions up to 20 Kelvin. In addition to enabling operation of quantum memories at higher temperatures, the ability to engineer qubit-phonon interactions may enable new functionalities for quantum science and technology, where phonons are used as carriers of quantum information.
翻訳日:2023-10-12 02:05:46 公開日:2023-10-10
# 新規スポーシティ誘導正則化器による低域テンソル補修

Low-Rank Tensor Completion via Novel Sparsity-Inducing Regularizers ( http://arxiv.org/abs/2310.06233v1 )

ライセンス: Link先を確認
Zhi-Yong Wang, Hing Cheung So and Abdelhak M. Zoubir(参考訳) ローランクテンソル完備問題におけるl1-ノルムによるバイアスを軽減するため、非凸サロゲート/正則化器はテンソル核ノルムを置き換えることが提案されている。 しかし、これらの非凸正規化子のしきい値関数は閉形式式を持たないため、反復が必要となり、計算負荷が増加する。 この問題を解決するために,閉形式しきい値付き正規化器を生成するフレームワークを考案した。 これらの正則化器を低次テンソル完備化に適用し,乗算器の交互方向法に基づく効率的なアルゴリズムを開発した。 さらに,本手法の収束を解析し,生成配列が有界であり,任意の極限点が定常点であることを証明した。 合成および実世界のデータセットを用いた実験の結果,提案手法が復元性能の点で最先端手法よりも優れていることがわかった。

To alleviate the bias generated by the l1-norm in the low-rank tensor completion problem, nonconvex surrogates/regularizers have been suggested to replace the tensor nuclear norm, although both can achieve sparsity. However, the thresholding functions of these nonconvex regularizers may not have closed-form expressions and thus iterations are needed, which increases the computational loads. To solve this issue, we devise a framework to generate sparsity-inducing regularizers with closed-form thresholding functions. These regularizers are applied to low-tubal-rank tensor completion, and efficient algorithms based on the alternating direction method of multipliers are developed. Furthermore, convergence of our methods is analyzed and it is proved that the generated sequences are bounded and any limit point is a stationary point. Experimental results using synthetic and real-world datasets show that the proposed algorithms outperform the state-of-the-art methods in terms of restoration performance.
翻訳日:2023-10-12 02:05:23 公開日:2023-10-10
# 医学画像のための連合学習における敵対的攻撃の探索

Exploring adversarial attacks in federated learning for medical imaging ( http://arxiv.org/abs/2310.06227v1 )

ライセンス: Link先を確認
Erfan Darzi, Florian Dubost, N.M. Sijtsema, P.M.A van Ooijen(参考訳) フェデレーション学習は、医療画像分析のためのプライバシー保護フレームワークを提供するが、システムを敵対的な攻撃に晒す。 本稿では,このような攻撃に対する医療画像解析において,フェデレーション学習ネットワークの脆弱性を評価することを目的とする。 ドメイン固有のMRI腫瘍と病理画像データセットを用いて,フェデレート学習環境における既知の脅威シナリオの有効性を評価する。 テストの結果、ドメイン固有の構成が攻撃者の成功率を大幅に向上させることがわかった。 本研究は, 効果的な防御機構の必要性を強調し, 医療画像解析システムにおける現行のセキュリティプロトコルの再評価を提案する。

Federated learning offers a privacy-preserving framework for medical image analysis but exposes the system to adversarial attacks. This paper aims to evaluate the vulnerabilities of federated learning networks in medical image analysis against such attacks. Employing domain-specific MRI tumor and pathology imaging datasets, we assess the effectiveness of known threat scenarios in a federated learning environment. Our tests reveal that domain-specific configurations can increase the attacker's success rate significantly. The findings emphasize the urgent need for effective defense mechanisms and suggest a critical re-evaluation of current security protocols in federated medical image analysis systems.
翻訳日:2023-10-12 02:05:05 公開日:2023-10-10
# 分散ネットワーク上でのフェデレーションマルチレベル最適化

Federated Multi-Level Optimization over Decentralized Networks ( http://arxiv.org/abs/2310.06217v1 )

ライセンス: Link先を確認
Shuoguang Yang, Xuezhou Zhang, Mengdi Wang(参考訳) 近年,メタラーニング,マルチプレイヤーゲーム,強化学習,ネスト合成最適化など,多くの分野で発生する複雑な最適化問題を解くための強力なフレームワークとして,マルチレベル最適化が注目されている。 本稿では,エージェントが隣接ノードとのみ通信できるネットワーク上の分散マルチレベル最適化の問題について検討する。 この設定は、集中型最適化が実用的でも実現可能でもないような大規模システムにおける分散最適化の必要性が動機となっている。 この問題に対処するために,ネットワークエージェントが1つの時間スケールで異なるレベルの最適化問題を解き,ネットワークの伝搬を通じて情報を共有できる,新しいゴシップベースの分散マルチレベル最適化アルゴリズムを提案する。 このアルゴリズムは,ネットワークサイズと線形にスケーリングすることで,最適なサンプル複雑性を実現し,ハイパーパラメータチューニングや分散強化学習,リスク回避最適化など,さまざまなアプリケーションで最先端のパフォーマンスを示す。

Multi-level optimization has gained increasing attention in recent years, as it provides a powerful framework for solving complex optimization problems that arise in many fields, such as meta-learning, multi-player games, reinforcement learning, and nested composition optimization. In this paper, we study the problem of distributed multi-level optimization over a network, where agents can only communicate with their immediate neighbors. This setting is motivated by the need for distributed optimization in large-scale systems, where centralized optimization may not be practical or feasible. To address this problem, we propose a novel gossip-based distributed multi-level optimization algorithm that enables networked agents to solve optimization problems at different levels in a single timescale and share information through network propagation. Our algorithm achieves optimal sample complexity, scaling linearly with the network size, and demonstrates state-of-the-art performance on various applications, including hyper-parameter tuning, decentralized reinforcement learning, and risk-averse optimization.
翻訳日:2023-10-12 02:04:56 公開日:2023-10-10
# 契約理論に基づくインセンティブメカニズムによる非同期フェデレーション学習

Asynchronous Federated Learning with Incentive Mechanism Based on Contract Theory ( http://arxiv.org/abs/2310.06448v1 )

ライセンス: Link先を確認
Danni Yang, Yun Ji, Zhoubin Kou, Xiaoxiong Zhong, Sheng Zhang(参考訳) フェデレーション学習(fl)に内在する異質性に対処し,高品質なクライアントを惹きつけるために,様々なインセンティブ機構が採用されている。 しかし、既存のインセンティブメカニズムは、通常、従来の同期アグリゲーションで利用され、大きなトラグラー問題を引き起こす。 本研究では,契約理論に基づくインセンティブ機構を統合した新しい非同期FLフレームワークを提案する。 インセンティブメカニズムの中では、時間遅延やテスト精度などの要因を考慮して、クライアントのローカルモデルトレーニングのエポックを適応的に調整し、タスクパブリッシャの有用性を最大化する。 クライアント品質を考慮した非同期方式では,集約重みとアクセス制御アルゴリズムを考案し,非同期集約を容易にする。 MNISTデータセットを用いて行った実験により、我々のフレームワークが達成したテスト精度は、攻撃を受けずにFedAvgとFedProxより3.12%高く、5.84%高いことがわかった。 このフレームワークは攻撃時の理想的なローカルSGDよりも1.35%精度が向上している。 さらに、同じ目標精度を目指して、我々のフレームワークは明らかにFedAvgとFedProxよりも計算時間が少ないことを要求しています。

To address the challenges posed by the heterogeneity inherent in federated learning (FL) and to attract high-quality clients, various incentive mechanisms have been employed. However, existing incentive mechanisms are typically utilized in conventional synchronous aggregation, resulting in significant straggler issues. In this study, we propose a novel asynchronous FL framework that integrates an incentive mechanism based on contract theory. Within the incentive mechanism, we strive to maximize the utility of the task publisher by adaptively adjusting clients' local model training epochs, taking into account factors such as time delay and test accuracy. In the asynchronous scheme, considering client quality, we devise aggregation weights and an access control algorithm to facilitate asynchronous aggregation. Through experiments conducted on the MNIST dataset, the simulation results demonstrate that the test accuracy achieved by our framework is 3.12% and 5.84% higher than that achieved by FedAvg and FedProx without any attacks, respectively. The framework exhibits a 1.35% accuracy improvement over the ideal Local SGD under attacks. Furthermore, aiming for the same target accuracy, our framework demands notably less computation time than both FedAvg and FedProx.
翻訳日:2023-10-12 01:59:44 公開日:2023-10-10
# 分類モデルの修正のためのルールマイニング

Rule Mining for Correcting Classification Models ( http://arxiv.org/abs/2310.06446v1 )

ライセンス: Link先を確認
Hirofumi Suzuki, Hiroaki Iwashita, Takuya Takagi, Yuta Fujishige, Satoshi Hara(参考訳) 予測精度が一貫して高いことを保証するためには、機械学習モデルを継続的に更新または修正する必要がある。 本研究では,モデルが複雑なシステムやソフトウェアの一部である場合など,モデル修正によって予測結果を変更することを注意すべきシナリオを検討する。 このようなシナリオでは、開発者は修正の仕様を制御したい。 これを達成するためには、入力のどのサブポピュレーションがモデルによって不正確な予測を受けるかを理解する必要がある。 そこで本研究では,不正確な亜集団を記述した規則の包括的リストを取得するために,補正規則マイニングを提案する。 また、頻繁なアイテムセットマイニングと、補正ルールに対するユニークなプルーニング技術を組み合わせた効率的な補正ルールマイニングアルゴリズムを開発した。 提案アルゴリズムは,学習したデータを収集し,モデル出力を直接補正し,概念ドリフトを解析するための様々なルールを発見した。

Machine learning models need to be continually updated or corrected to ensure that the prediction accuracy remains consistently high. In this study, we consider scenarios where developers should be careful to change the prediction results by the model correction, such as when the model is part of a complex system or software. In such scenarios, the developers want to control the specification of the corrections. To achieve this, the developers need to understand which subpopulations of the inputs get inaccurate predictions by the model. Therefore, we propose correction rule mining to acquire a comprehensive list of rules that describe inaccurate subpopulations and how to correct them. We also develop an efficient correction rule mining algorithm that is a combination of frequent itemset mining and a unique pruning technique for correction rules. We observed that the proposed algorithm found various rules which help to collect data insufficiently learned, directly correct model outputs, and analyze concept drift.
翻訳日:2023-10-12 01:59:22 公開日:2023-10-10
# 作物型モニタリングのための信頼性の高いトランスナショナルリファレンスデータベース作成のための管理データインベントリのハーネス

Harnessing Administrative Data Inventories to Create a Reliable Transnational Reference Database for Crop Type Monitoring ( http://arxiv.org/abs/2310.06393v1 )

ライセンス: Link先を確認
Maja Schneider and Marco K\"orner(参考訳) 機械学習技術の飛躍と、その応用による地球観測の課題により、ドメイン全体の前例のないパフォーマンスが解き放たれた。 これらの方法のさらなる開発は、以前はセンサデータと計算リソースの可用性と量によって制限されていたが、適切な参照データの欠如が新たなボトルネックを形成している。 このような真正な情報の作成は高価でエラーを起こしやすい作業であるため、信頼性の高い高品質な参照データを大規模に提供するための新しい方法を考案する必要がある。 例えばE URO C ROPSは、国家間の相互運用を目標として、各国で調査された管理データを集約・調和する作物分類基準データセットである。

With leaps in machine learning techniques and their applicationon Earth observation challenges has unlocked unprecedented performance across the domain. While the further development of these methods was previously limited by the availability and volume of sensor data and computing resources, the lack of adequate reference data is now constituting new bottlenecks. Since creating such ground-truth information is an expensive and error-prone task, new ways must be devised to source reliable, high-quality reference data on large scales. As an example, we showcase E URO C ROPS, a reference dataset for crop type classification that aggregates and harmonizes administrative data surveyed in different countries with the goal of transnational interoperability.
翻訳日:2023-10-12 01:59:05 公開日:2023-10-10
# パーティショニングに基づく微分プライベート合成データ生成

Partition-based differentially private synthetic data generation ( http://arxiv.org/abs/2310.06371v1 )

ライセンス: Link先を確認
Meifan Zhang, Dihang Deng, Lihua Yin(参考訳) 個人の合成データ共有は、要約統計と比較して元のデータの分布とニュアンスを維持することが望ましい。 最先端の手法では選択基準生成パラダイムを採用しているが、大きなドメイン境界の測定は依然としてエラーが多く、プライバシ予算を反復的に割り当てるのは難しい。 これらの問題に対処するため,本手法では,プライバシ予算が限られている場合でも,エラーを効果的に低減し,合成データの品質を向上させるパーティションベースアプローチを採用している。 実験の結果,既存の手法よりも優れた方法が得られた。 本手法により得られた合成データは品質と有用性が向上し,プライベートな合成データ共有に好適な選択肢となる。

Private synthetic data sharing is preferred as it keeps the distribution and nuances of original data compared to summary statistics. The state-of-the-art methods adopt a select-measure-generate paradigm, but measuring large domain marginals still results in much error and allocating privacy budget iteratively is still difficult. To address these issues, our method employs a partition-based approach that effectively reduces errors and improves the quality of synthetic data, even with a limited privacy budget. Results from our experiments demonstrate the superiority of our method over existing approaches. The synthetic data produced using our approach exhibits improved quality and utility, making it a preferable choice for private synthetic data sharing.
翻訳日:2023-10-12 01:58:52 公開日:2023-10-10
# コア中間周辺指数:近隣と最短経路に基づく中央値の因子分析

Core-Intermediate-Peripheral Index: Factor Analysis of Neighborhood and Shortest Paths-based Centrality Metrics ( http://arxiv.org/abs/2310.06358v1 )

ライセンス: Link先を確認
Natarajan Meghanathan(参考訳) We perform factor analysis on the raw data of the four major neighborhood and shortest paths-based centrality metrics (Degree, Eigenvector, Betweeenness and Closeness) and propose a novel quantitative measure called the Core-Intermediate-Peripheral (CIP) Index to capture the extent with which a node could play the role of a core node (nodes at the center of a network with larger values for any centrality metric) vis-a-vis a peripheral node (nodes that exist at the periphery of a network with lower values for any centrality metric). 我々は,ノードidを特徴として,原集中度メトリクスデータセットの転置行列上での因子分析(固有ベクトルの変動に基づく回転)を行い,中心度メトリクスに対してノードが負う値を動かす2つの要因(コアと周辺)が存在することを仮定した。 当社のアプローチは、12の複雑な現実世界ネットワークの多様なスイートでテストしています。

We perform factor analysis on the raw data of the four major neighborhood and shortest paths-based centrality metrics (Degree, Eigenvector, Betweeenness and Closeness) and propose a novel quantitative measure called the Core-Intermediate-Peripheral (CIP) Index to capture the extent with which a node could play the role of a core node (nodes at the center of a network with larger values for any centrality metric) vis-a-vis a peripheral node (nodes that exist at the periphery of a network with lower values for any centrality metric). We conduct factor analysis (varimax-based rotation of the Eigenvectors) on the transpose matrix of the raw centrality metrics dataset, with the node ids as features, under the hypothesis that there are two factors (core and peripheral) that drive the values incurred by the nodes with respect to the centrality metrics. We test our approach on a diverse suite of 12 complex real-world networks.
翻訳日:2023-10-12 01:58:39 公開日:2023-10-10
# 超音波検査における結節の自動識別と識別

Automatic nodule identification and differentiation in ultrasound videos to facilitate per-nodule examination ( http://arxiv.org/abs/2310.06339v1 )

ライセンス: Link先を確認
Siyuan Jiang, Yan Ding, Yuling Wang, Lei Xu, Wenli Dai, Wanru Chang, Jianfeng Zhang, Jie Yu, Jianqiao Zhou, Chunquan Zhang, Ping Liang, Dexing Kong(参考訳) 超音波は、非侵襲性、費用効果、放射線のない健康診断において重要な診断技術であり、結節の診断に広く応用されている。 しかし、ソノグラフィーの専門知識と臨床経験に大きく依存している。 超音波画像では、1個の結節は異なる断面図で異種に見えるため、結節ごとの検査は困難である。 超音波撮影者は通常、結節の特徴と腺や管のような周囲の構造を調べることで異なる結節を識別する。 この問題を解決するために,数百本の乳房超音波映像を収集し,入力ビデオクリップから特徴ベクトルを抽出するディープラーニングモデルに基づく抽出器と,特徴ベクトルを結節毎に自動グループ化するリアルタイムクラスタリングアルゴリズムの2部からなる結節識別システムを構築した。 本システムは良好な結果を得て,超音波映像を識別する能力を示す。 我々の知る限りでは、超音波場に再同定技術を適用する最初の試みである。

Ultrasound is a vital diagnostic technique in health screening, with the advantages of non-invasive, cost-effective, and radiation free, and therefore is widely applied in the diagnosis of nodules. However, it relies heavily on the expertise and clinical experience of the sonographer. In ultrasound images, a single nodule might present heterogeneous appearances in different cross-sectional views which makes it hard to perform per-nodule examination. Sonographers usually discriminate different nodules by examining the nodule features and the surrounding structures like gland and duct, which is cumbersome and time-consuming. To address this problem, we collected hundreds of breast ultrasound videos and built a nodule reidentification system that consists of two parts: an extractor based on the deep learning model that can extract feature vectors from the input video clips and a real-time clustering algorithm that automatically groups feature vectors by nodules. The system obtains satisfactory results and exhibits the capability to differentiate ultrasound videos. As far as we know, it's the first attempt to apply re-identification technique in the ultrasonic field.
翻訳日:2023-10-12 01:58:25 公開日:2023-10-10
# CSIデータのアライメント基準を定義するためのアンテナ応答整合性の探索

Exploit the antenna response consistency to define the alignment criteria for CSI data ( http://arxiv.org/abs/2310.06328v1 )

ライセンス: Link先を確認
Ke Xu, Jiangtao Wang, Hongyuan Zhu, Dingchang Zheng(参考訳) WiFiベースのヒューマンアクティビティ認識(HAR)のための自己教師付き学習(SSL)は、ラベル付きデータ不足の課題に対処する能力のため、大きな期待を持っている。 しかし、SSLアルゴリズムを直接移植する、特に対照的な学習は、本来は他のドメインのためにCSIデータに設計されていたが、期待する性能を達成できなかった。 この問題は,特徴空間と入力空間間の意味的距離の整合性を阻害する不適切なアライメント基準に起因する。 この課題に対処するために、適切なアライメント基準を定義するソリューションとして、 \textbf{A}netenna \textbf{R}esponse \textbf{C}onsistency (ARC) を導入する。 ARCは、実世界の雑音に堅牢性を導入しながら、入力空間からの意味情報を保持するように設計されている。 CSIデータ構造の観点からARCを解析し、その最適解が入力されたCSIデータから特徴写像のアクションベクトルへの直接マッピングにつながることを示す。 さらに、WiFiベースのHARにおける自己教師付き学習の性能向上におけるARCの有効性を検証するための広範な実験的証拠を提供する。

Self-supervised learning (SSL) for WiFi-based human activity recognition (HAR) holds great promise due to its ability to address the challenge of insufficient labeled data. However, directly transplanting SSL algorithms, especially contrastive learning, originally designed for other domains to CSI data, often fails to achieve the expected performance. We attribute this issue to the inappropriate alignment criteria, which disrupt the semantic distance consistency between the feature space and the input space. To address this challenge, we introduce \textbf{A}netenna \textbf{R}esponse \textbf{C}onsistency (ARC) as a solution to define proper alignment criteria. ARC is designed to retain semantic information from the input space while introducing robustness to real-world noise. We analyze ARC from the perspective of CSI data structure, demonstrating that its optimal solution leads to a direct mapping from input CSI data to action vectors in the feature map. Furthermore, we provide extensive experimental evidence to validate the effectiveness of ARC in improving the performance of self-supervised learning for WiFi-based HAR.
翻訳日:2023-10-12 01:58:06 公開日:2023-10-10
# 移動学習に基づく物理インフォームド畳み込みニューラルネットワークによる多孔質媒体内の流れの時間変化制御

Transfer learning-based physics-informed convolutional neural network for simulating flow in porous media with time-varying controls ( http://arxiv.org/abs/2310.06319v1 )

ライセンス: Link先を確認
Jungang Chen, Eduardo Gildin, John E. Killough(参考訳) 物理インフォームド畳み込みニューラルネットワークは,多孔質媒質中での2相流を時変井戸制御でシミュレートするために提案される。 既存文献のPICNNの多くはパラメータ・ツー・ステートマッピングに取り組んでいたが,提案するネットワークは時間変化の制御によりパラメータ化して制御・状態回帰を確立する。 まず, 有限体積スキームを用いて流れ方程式を離散化し, 質量保存則に関する損失関数を定式化する。 ノイマン境界条件は半離散方程式にシームレスに組み込まれ、余分な損失項は不要である。 ネットワークアーキテクチャは2つの並列U-Net構造で構成され、ネットワーク入力はよく制御され、出力はシステム状態である。 入力と出力の間の時間依存関係を捉えるために、ネットワークは離散状態空間方程式を模倣するようによく設計されている。 各時間ステップ毎にネットワークを段階的にトレーニングし、各時間ステップで油圧と水の飽和を同時に予測できるようにします。 ネットワークを1段階訓練した後,転送学習技術を活用して学習プロセスを高速化する。 本モデルでは, 貯留層グリッドブロックの異なる油水多孔質流シナリオをシミュレートし, 計算効率, 精度などの側面を対応する数値手法と比較した。 計算時間はモデル次元ではスケールしないため、picnnが多数のグリッドブロックを効果的にシミュレートする可能性の中核となる。 提案手法では,大小の異なる10種類のテスト制御と交替頻度の高い10種類のテスト制御を用いて時間誤差を評価する。 我々の観察は、大きさや周波数のかなりの変化を示す制御を扱う際に、より堅牢で信頼性の高いモデルの必要性を示唆している。

A physics-informed convolutional neural network is proposed to simulate two phase flow in porous media with time-varying well controls. While most of PICNNs in existing literatures worked on parameter-to-state mapping, our proposed network parameterizes the solution with time-varying controls to establish a control-to-state regression. Firstly, finite volume scheme is adopted to discretize flow equations and formulate loss function that respects mass conservation laws. Neumann boundary conditions are seamlessly incorporated into the semi-discretized equations so no additional loss term is needed. The network architecture comprises two parallel U-Net structures, with network inputs being well controls and outputs being the system states. To capture the time-dependent relationship between inputs and outputs, the network is well designed to mimic discretized state space equations. We train the network progressively for every timestep, enabling it to simultaneously predict oil pressure and water saturation at each timestep. After training the network for one timestep, we leverage transfer learning techniques to expedite the training process for subsequent timestep. The proposed model is used to simulate oil-water porous flow scenarios with varying reservoir gridblocks and aspects including computation efficiency and accuracy are compared against corresponding numerical approaches. The results underscore the potential of PICNN in effectively simulating systems with numerous grid blocks, as computation time does not scale with model dimensionality. We assess the temporal error using 10 different testing controls with variation in magnitude and another 10 with higher alternation frequency with proposed control-to-state architecture. Our observations suggest the need for a more robust and reliable model when dealing with controls that exhibit significant variations in magnitude or frequency.
翻訳日:2023-10-12 01:57:30 公開日:2023-10-10
# 3次元pitaevskii模型における物質移動について

On the mass transfer in the 3D Pitaevskii model ( http://arxiv.org/abs/2310.06305v1 )

ライセンス: Link先を確認
Juhi Jang, Pranava Chaitanya Jayanti, Igor Kukavica(参考訳) 1959年にPitaevskiiによって導かれた超流動のマイクロスケールモデルについて検討し、超流動He-4と通常の流体相の間の相互作用力学を記述する。 この系は非線形シュリンガー方程式と非圧縮的で不均一なナビエ・ストークス方程式からなり、双方向の非線形緩和機構を介して互いに結合する。 この結合は相間の質量/分子/エネルギー移動を許容し、超流動を通常の流体に変換する。 我々は、小さな初期データから始まり、パワー型非線形性に対して$\mathbb{t}^3$ の弱解の存在を証明する。 主な課題は、通常の流体密度の厳密な正の正の度合いを確保するために相間物質移動を制御することである。

We examine a micro-scale model of superfluidity derived by Pitaevskii in 1959 which describes the interacting dynamics between superfluid He-4 and its normal fluid phase. This system consists of the nonlinear Schr\"odinger equation and the incompressible, inhomogeneous Navier-Stokes equations, coupled to each other via a bidirectional nonlinear relaxation mechanism. The coupling permits mass/momentum/energy transfer between the phases, and accounts for the conversion of superfluid into normal fluid. We prove the existence of weak solutions in $\mathbb{T}^3$ for a power-type nonlinearity, beginning from small initial data. The main challenge is to control the inter-phase mass transfer in order to ensure the strict positivity of the normal fluid density, while obtaining time-independent a priori estimates.
翻訳日:2023-10-12 01:56:16 公開日:2023-10-10
# 変形可能なクロスアテンションを有する三次元医用画像融合

Three-Dimensional Medical Image Fusion with Deformable Cross-Attention ( http://arxiv.org/abs/2310.06291v1 )

ライセンス: Link先を確認
Lin Liu, Xinxin Fan, Chulong Zhang, Jingjing Dai, Yaoqin Xie, Xiaokun Liang(参考訳) マルチモーダル医療画像融合は、医療画像処理のいくつかの領域、特に疾患の認識と腫瘍検出において重要な役割を果たす。 従来の融合法は、特徴を組み合わせて融合画像を再構成する前に、各モードを独立して処理する傾向がある。 しかしながら、このアプローチは、しばしばマルチモーダル情報間の基本的な共通性と相違を無視する。 さらに, 2次元(2次元)の医用画像スライスを融合させることが主流であり, 融合画像における文脈的監督の欠如, そして, 3次元(3次元)画像に対する医師の情報収率の低下につながっている。 本研究では,これらの制限を是正するための,革新的な非教師付き相互学習融合ネットワークを提案する。 提案手法は変形可能なクロス特徴ブレンド (DCFB) モジュールを組み込んで, それぞれの類似点と相違点を識別する。 我々は,アルツハイマー病神経画像イニシアチブ(ADNI)データセットの660例から得られた3D MRIとPET画像の融合に本モデルを適用した。 DCFBモジュールの適用により,我々のネットワークは高品質なMRI-PET融合画像を生成する。 実験の結果,Pak Signal to Noise Ratio (PSNR) やStructuor similarity Index Measure (SSIM) など,従来の2次元画像融合手法よりも優れていることがわかった。 重要なことは、3D画像の融合能力は、医師や研究者が利用できる情報を高め、この分野において重要な一歩を踏み出したことである。 コードはまもなくオンラインで入手できる。

Multimodal medical image fusion plays an instrumental role in several areas of medical image processing, particularly in disease recognition and tumor detection. Traditional fusion methods tend to process each modality independently before combining the features and reconstructing the fusion image. However, this approach often neglects the fundamental commonalities and disparities between multimodal information. Furthermore, the prevailing methodologies are largely confined to fusing two-dimensional (2D) medical image slices, leading to a lack of contextual supervision in the fusion images and subsequently, a decreased information yield for physicians relative to three-dimensional (3D) images. In this study, we introduce an innovative unsupervised feature mutual learning fusion network designed to rectify these limitations. Our approach incorporates a Deformable Cross Feature Blend (DCFB) module that facilitates the dual modalities in discerning their respective similarities and differences. We have applied our model to the fusion of 3D MRI and PET images obtained from 660 patients in the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset. Through the application of the DCFB module, our network generates high-quality MRI-PET fusion images. Experimental results demonstrate that our method surpasses traditional 2D image fusion methods in performance metrics such as Peak Signal to Noise Ratio (PSNR) and Structural Similarity Index Measure (SSIM). Importantly, the capacity of our method to fuse 3D images enhances the information available to physicians and researchers, thus marking a significant step forward in the field. The code will soon be available online.
翻訳日:2023-10-12 01:55:52 公開日:2023-10-10
# 量子コヒーレンスにおける超伝導材料の不規則性の役割の解明

Unraveling the role of disorderness in superconducting materials on qubit coherence ( http://arxiv.org/abs/2310.06621v1 )

ライセンス: Link先を確認
Ran Gao, Feng Wu, Hantao Sun, Jianjun Chen, Hao Deng, Xizheng Ma, Xiaohe Miao, Zhijun Song, Xin Wan, Fei Wang, Tian Xia, Make Ying, Chao Zhang, Yaoyun Shi, Hui-Hai Zhao, Chunqing Deng(参考訳) 超伝導材料の障害導入は、電磁インピーダンスの向上と耐雑音性超伝導量子ビットの実現に期待されている。 多くの先駆的な実装にもかかわらず、物質障害とキュービットコヒーレンスとの相関の理解はまだ発展途上である。 ここでは, チタン-窒化アルミニウム-窒化チタン製スーパーインダクタを用いたフラクソニウム量子ビットの最初の, 体系的特性を示す。 クビット雑音スペクトルから、コヒーレンス特性の指標としてフラックスノイズと誘電損失を抽出する。 その結果, 1/f$のフラックスノイズはフラックスフラストレーション点付近のクビットのデコヒーレンスを支配しており, 誘電体損失は幅広い材料特性下では低いが, 材料障害と強く相関していることがわかった。 フラックスノイズ振幅から, 現象的スピン欠陥のアラル密度(\sigma$)と材料障害は, $\sigma \propto \rho_{xx}^3$, あるいは有効$(k_F l)^{-3}$とほぼ相関していることがわかった。 この研究は超伝導体内のデコヒーレンスチャネルの起源に関する新たな洞察を与え、材料設計と最適化のための有用なガイドラインとして役立った。

Introducing disorderness in the superconducting materials has been considered promising to enhance the electromagnetic impedance and realize noise-resilient superconducting qubits. Despite a number of pioneering implementations, the understanding of the correlation between the material disorderness and the qubit coherence is still developing. Here, we demonstrate the first and a systematic characterization of fluxonium qubits with the superinductors made from titanium-aluminum-nitride with varied disorderness. From qubit noise spectroscopy, the flux noise and the dielectric loss are extracted as a measure of the coherence properties. Our results reveal that the $1/f$ flux noise dominates the qubit decoherence around the flux-frustration point, strongly correlated with the material disorderness; while the dielectric loss remains low under a wide range of material properties. From the flux-noise amplitudes, the areal density ($\sigma$) of the phenomenological spin defects and material disorderness are found to be approximately correlated by $\sigma \propto \rho_{xx}^3$, or effectively $(k_F l)^{-3}$. This work has provided new insights on the origin of decoherence channels within superconductors, and could serve as a useful guideline for material design and optimization.
翻訳日:2023-10-12 01:46:53 公開日:2023-10-10
# 多体局在を用いた超伝導量子プロセッサのクロストークと残結合誤差の緩和

Mitigating crosstalk and residual coupling errors in superconducting quantum processors using many-body localization ( http://arxiv.org/abs/2310.06618v1 )

ライセンス: Link先を確認
Peng Qian, Hong-Ze Xu, Peng Zhao, Xiao Li, Dong E. Liu(参考訳) 超伝導量子量子ビット、特に周波数制御における極大キャリブレーションの必要性に対処し、Multi-Body Localization(MBL)の原理を利用した新しいキャリブレーション手法を提案する。 googleのsnakeアルゴリズムのような既存の戦略は量子ビット周波数パラメータの最適化を目標としているが、我々のmblベースの手法はノイズ、特にクロストークと残差結合エラーに対する脅威として浮上し、量子プロセッサの忠実性と安定性を大幅に向上させる。 このアプローチは、特に特定の残基結合が存在する場合に、パフォーマンスを著しく改善するだけでなく、リソース効率が高く、コスト効率のよいキャリブレーションプロセスも提供する。 ここで述べられている研究は、高度なキャリブレーション戦略に対する新たな洞察を与え、量子計算の領域を前進させ、将来のエラー最小化と量子ビット性能の最適化のためのロバストな枠組みを提供する。

Addressing the paramount need for precise calibration in superconducting quantum qubits, especially in frequency control, this study introduces a novel calibration scheme harnessing the principles of Many-Body Localization (MBL). While existing strategies, such as Google's snake algorithm, have targeted optimization of qubit frequency parameters, our MBL-based methodology emerges as a stalwart against noise, notably crosstalk and residual coupling errors, thereby significantly enhancing quantum processor fidelity and stability without necessitating extensive optimization computation. Not only does this approach provide a marked improvement in performance, particularly where specific residue couplings are present, but it also presents a more resource-efficient and cost-effective calibration process. The research delineated herein affords fresh insights into advanced calibration strategies and propels forward the domain of superconducting quantum computation by offering a robust framework for future explorations in minimizing error and optimizing qubit performance.
翻訳日:2023-10-12 01:46:28 公開日:2023-10-10
# ハーマイト・ガウスポインターを用いた高精度マルチパラメータ弱測定

High Precision Multi-parameter Weak Measurement with Hermite-Gaussian Pointer ( http://arxiv.org/abs/2310.06605v1 )

ライセンス: Link先を確認
Binke Xia, Jingzheng Huang, Chen Fang, Hongjing Li, Guihua Zeng(参考訳) 弱値増幅技術は理論と実験の両方において精密な計測に有用であることが証明されている。 多パラメータ推定のための弱値増幅の究極の性能を探るため,高次ヘルミテ・ガウスポインターと量子フィッシャー情報行列を用いた一般的な弱測定形式について検討した。 理論的解析により、我々のスキームの最終的な精度は、n がエルミート・ガウスモードの順序である 2n+1 の平方根の係数によって改善されることが示された。 さらに,パラメータの推定精度は最大確率推定法とホモダイン法で精度限界に近づくことができる。 また,h-gポインター理論を検証するための原理実証実験を行い,その精度計測への応用について検討した。

The weak value amplification technique has been proved useful for precision metrology in both theory and experiment. To explore the ultimate performance of weak value amplification for multi-parameter estimation, we investigate a general weak measurement formalism with assistance of high-order Hermite-Gaussian pointer and quantum Fisher information matrix. Theoretical analysis shows that the ultimate precision of our scheme is improved by a factor of square root of 2n+1, where n is the order of Hermite-Gaussian mode. Moreover, the parameters' estimation precision can approach the precision limit with maximum likelihood estimation method and homodyne method. We have also given a proof-of-principle experimental setup to validate the H-G pointer theory and explore its potential applications in precision metrology.
翻訳日:2023-10-12 01:46:07 公開日:2023-10-10
# QFTの検出器ベース測定:2つの課題とAQFTの提案

Detector-based measurements for QFT: two issues and an AQFT proposal ( http://arxiv.org/abs/2310.06596v1 )

ライセンス: Link先を確認
Nicola Pranzini, Esko Keski-Vakkuri(参考訳) 本稿では, J. Polo-Gomez, J. J. Garay, E. Martin-Martinezの2つのQFT測定法について, 量子場理論の検出器ベース測定理論について述べる。 測定手法を文脈場状態に適用する場合に発生するいくつかの相違点を指摘する。 また、局所処理領域に基づく$n$-point関数の割り当ては、例えば測定光円錐における時空点の選択の不整合をもたらすことを示す。 これら2つの問題を解決するために,測定方式の変更を提案する。 この提案は時空領域に代数的状態(同値類)を割り当てるための規則である。 このように、測定誘起崩壊は状態の公式な表現で表され、$n$-point関数は測定と明確な因果関係を持つ任意の領域にわたって一貫して評価することができる。

We present and investigate two issues with the measurement scheme for QFT presented by J. Polo-Gomez, J. J. Garay and E. Martin-Martinez in "A detector-based measurement theory for quantum field theory". We point out some discrepancies that arise when applying the measurement scheme to contextual field states. Also, we show that $n$-point function assignments based on local processing regions lead to inconsistencies for some choices of spacetime points, e.g. across measurement light cones. To solve these two issues, we propose a modification to the measurement scheme. The proposal is a rule for assigning (equivalence classes of) algebraic states to spacetime regions. In this way, the measurement-induced collapse is represented in the formal expression of the states, and $n$-point functions can be consistently evaluated across any region having a definite causal relation with measurements.
翻訳日:2023-10-12 01:45:52 公開日:2023-10-10
# 加速による加速減衰

Accelerating decay with acceleration ( http://arxiv.org/abs/2310.06592v1 )

ライセンス: Link先を確認
Wim Beenakker, David Venhoek(参考訳) 粒子崩壊モデルとして, 加速したウンルー・デウィット検出器について検討した。 崩壊速度のピークのパターンを含む非自明な崩壊速度は、より低い加速にまで拡大する。 我々のモデルを$\mathrm{^{210}Po}$のアルファ崩壊に適用すると、加速が1%以内に制御される限り、$a\approx 10^{26} \frac {\mathrm{m}}{\mathrm{s}^2}$で効果を観測できる。 現在の実験装置にはまだ届かなかったが、ベータ崩壊のような低エネルギーでの他の崩壊過程は、将来の実験の範囲内で見られるピークをもたらす可能性がある。

We investigate accelerated Unruh-deWitt detectors as a model for particle decay. We find non-trivial decay rates, including a pattern of peaks in decay rate that extends to lower accelerations. Applying our model to the alpha decay of $\mathrm{^{210}Po}$, we find that effects could be observed with an acceleration of $a\approx 10^{26} \frac{\mathrm{m}}{\mathrm{s}^2}$ as long as that acceleration is controlled to within 1 percent. Although still out of reach of current experimental setups, other decay processes at lower energy, such as beta decay, could result in the peaks we find being within range of future experiments.
翻訳日:2023-10-12 01:45:36 公開日:2023-10-10
# 高速シンチレータ検出器における$\gamma$光子相互作用の不確実性推定によるディープラーニング再構成

Deep Learning reconstruction with uncertainty estimation for $\gamma$ photon interaction in fast scintillator detectors ( http://arxiv.org/abs/2310.06572v1 )

ライセンス: Link先を確認
Geoffrey Daniel, Mohamed Bahi Yahiaoui, Claude Comtat, Sebastien Jan, Olga Kochebina, Jean-Marc Martinez, Viktoriya Sergeyeva, Viatcheslav Sharyy, Chi-Hsun Sung, Dominique Yvon(参考訳) 本稿では,モノリシックシンチレータ内のガンマ相互作用の空間座標を定量的に推定するための物理学的インフォームド深層学習法について述べる。 密度ニューラルネットワークは高速鉛タングステート(PbWO4)モノリシックシンチレータにおける2次元ガンマ光子相互作用座標を推定するために設計されている。 本稿では,再建過程に関連する不確実性を推定し,検出器の物理的制約を組み込むために,カスタム損失関数を導入する。 このユニークな組み合わせにより、より堅牢で信頼性の高い位置推定が可能となり、得られた結果は、提案手法の有効性を示し、不確実性推定の重要な利点を強調する。 本稿では,PET画像の画質向上に対するその潜在的影響について論じるとともに,モデルの利用改善,アプリケーションへのメリットの付与,与えられた予測の有効性と関連する不確実性を評価する方法について述べる。 提案手法は,PET画像以外の応用にも応用できるため,このユースケースを超えて拡張されている。

This article presents a physics-informed deep learning method for the quantitative estimation of the spatial coordinates of gamma interactions within a monolithic scintillator, with a focus on Positron Emission Tomography (PET) imaging. A Density Neural Network approach is designed to estimate the 2-dimensional gamma photon interaction coordinates in a fast lead tungstate (PbWO4) monolithic scintillator detector. We introduce a custom loss function to estimate the inherent uncertainties associated with the reconstruction process and to incorporate the physical constraints of the detector. This unique combination allows for more robust and reliable position estimations and the obtained results demonstrate the effectiveness of the proposed approach and highlights the significant benefits of the uncertainties estimation. We discuss its potential impact on improving PET imaging quality and show how the results can be used to improve the exploitation of the model, to bring benefits to the application and how to evaluate the validity of the given prediction and the associated uncertainties. Importantly, our proposed methodology extends beyond this specific use case, as it can be generalized to other applications beyond PET imaging.
翻訳日:2023-10-12 01:45:21 公開日:2023-10-10
# シリコン量子ドットにおける単一スピン量子ビット幾何ゲート

Single spin qubit geometric gate in a silicon quantum dot ( http://arxiv.org/abs/2310.06569v1 )

ライセンス: Link先を確認
Rong-Long Ma, Ao-Ran Li, Chu Wang, Zhen-Zhen Kong, Wei-Zhu Liao, Ming Ni, Sheng-Kai Zhu, Ning Chu, Cheng-Xian Zhang, Di Liu, Gang Cao, Gui-Lei Wang, Hai-Ou Li and Guo-Ping Guo(参考訳) 複雑なノイズ環境下で量子ビットコヒーレンスを保持し、高忠実な量子ビット制御を維持することは、スケーラブルな量子コンピューティングにおける永続的な課題である。 ここでは,マイクロマグネットを内蔵したシリコン量子ドットデバイス上でのランダム化ベンチマークにより,平均制御精度99.12%のフォールトトレラントシングルスピン量子ビットを実証する。 強調時間T2*は1.025 usで、ハーンエコー法を用いて264 usに拡大することができ、システム内の強い低周波ノイズを反映している。 ノイズ制限を破るために,そのノイズ耐性を生かして高制御性を得るために,幾何量子コンピューティングを導入する。 しかし、幾何学的量子ゲートの制御性は99%未満である。 シミュレーションによれば、幾何学的量子ゲートの耐雑音特性は加熱効果によってマスキングされる。 加熱効果を緩和するさらなる最適化により、幾何量子コンピューティングは複雑な雑音環境下で高忠実な量子ビット制御を再現的に達成するための潜在的アプローチとなる。

Preserving qubit coherence and maintaining high-fidelity qubit control under complex noise environment is an enduring challenge for scalable quantum computing. Here we demonstrate an addressable fault-tolerant single spin qubit with an average control fidelity of 99.12% via randomized benchmarking on a silicon quantum dot device with an integrated micromagnet. Its dephasing time T2* is 1.025 us and can be enlarged to 264 us by using the Hahn echo technique, reflecting strong low-frequency noise in our system. To break through the noise limitation, we introduce geometric quantum computing to obtain high control fidelity by exploiting its noise-resilient feature. However, the control fidelities of the geometric quantum gates are lower than 99%. According to our simulation, the noise-resilient feature of geometric quantum gates is masked by the heating effect. With further optimization to alleviate the heating effect, geometric quantum computing can be a potential approach to reproducibly achieving high-fidelity qubit control in a complex noise environment.
翻訳日:2023-10-12 01:45:00 公開日:2023-10-10
# 非対称オットーエンジン:性能限界と操作モードに対する摩擦効果

The asymmetric Otto engine: frictional effects on performance bounds and operational modes ( http://arxiv.org/abs/2310.06512v1 )

ライセンス: Link先を確認
Varinder Singh, Vahid Shaghaghi, Tanmoy Pandit, Cameron Beetar, Giuliano Benenti, Dario Rosa(参考訳) 本稿では,時間依存高調波発振器を動作媒体とする非対称駆動型量子オットーエンジンの詳細な研究を行う。 拡張作業ストロークと圧縮作業ストロークの非対称性を有する2つの異なる駆動スキームに対するエンジンの効率の上限に関する解析式を得る。 その結果,オットーサイクルは低温では熱エンジンとして動作できないことがわかった。 そして, 膨張ストロークの摩擦は, 圧縮ストロークの摩擦に比べ, エンジンの性能に対して著しく有害であることを示した。 さらに, エンジンの性能を, 急激な膨張, 急激な圧縮, 両方の急激なストロークと比較することにより, 運転点間の接続パターンを明らかにし, それぞれのケースに最適な運転条件を示す。 最後に,両駆動方式のオットーサイクルの全位相図を解析的に特徴付け,サイクルの異なる動作モードをヒートエンジン,冷凍機,アクセル,ヒータとして強調する。

We present a detailed study of an asymmetrically driven quantum Otto engine with a time-dependent harmonic oscillator as its working medium. We obtain analytic expressions for the upper bounds on the efficiency of the engine for two different driving schemes having asymmetry in the expansion and compression work strokes. We show that the Otto cycle under consideration cannot operate as a heat engine in the low-temperature regime. Then, we show that the friction in the expansion stroke is significantly more detrimental to the performance of the engine as compared to the friction in the compression stroke. Further, by comparing the performance of the engine with sudden expansion, sudden compression, and both sudden strokes, we uncover a pattern of connections between the operational points, and we indicate the optimal operation regime for each case. Finally, we analytically characterize the complete phase diagram of the Otto cycle for both driving schemes and highlight the different operational modes of the cycle as a heat engine, refrigerator, accelerator, and heater.
翻訳日:2023-10-12 01:44:44 公開日:2023-10-10
# 量子接続、電荷および仮想粒子

Quantum connection, charges and virtual particles ( http://arxiv.org/abs/2310.06507v1 )

ライセンス: Link先を確認
Alexander D. Popov(参考訳) 幾何学的には、量子力学は古典的な粒子相空間上の複素直線束 $L_\hbar$ で定義される: $T^*{R}^3\cong{R}^6$ で、座標は $x^a$ と momenta $p_a$, $a,...=1,2,3$ である。 この量子バンドル $L_\hbar$ には接続 $A_\hbar$ が与えられ、そのセクションはシュリンガー方程式に従う標準波動関数 $\psi$ である。 共変微分の成分 $\nabla_{a_\hbar}^{}$ in $l_\hbar$ は作用素 ${\hat x}^a$ と ${\hat p}_a$ と等価である。 束 $L_\hbar=: L_{C}^+$ は対称性群 U(1)$_\hbar$ に関連付けられ、群 U(1)$_\hbar$ の生成元の固有値である量子電荷 $q=1$ の粒子を記述する。 複素共役束 $L^-_{C}:={\overline{L_{C}^+}}$ は量子電荷 $q=-1$ の反粒子を記述する。 L_{C}^\pm$ と接続 $A_\hbar$ を相対論的位相空間 $T^*{R}^{3,1}$ に持ち上げ、粒子と反粒子の両方を記述するディラックスピノルバンドルに結合する。 自由相対論的クォークとレプトンはミンコフスキー空間${R}^{3,1}$上のディラック方程式によって記述される。 この方程式は、バンドル上での量子接続 $a_\hbar$ との相互作用を含まない: $l^\pm_{c}\to t^*{r}^{3,1}$ なぜなら、$a_\hbar$ は $t^*{r}^{3,1}$ の $p_a$-directions に沿ってのみ非有界成分を持つからである。 素フェルミオン$\Psi$と量子接続$A_\hbar$ on $L_{C}^\pm$との相互作用を可能にするため、$\Psi$が$t$と$x^a$にのみ依存する条件を維持しながら、ダイラック方程式を位相空間に拡張する。 拡張方程式は、離散エネルギー値とコヒーレント状態のウェーブパケットを持つ振動子型解の無限個数を持つ。 これらの正規化解は、質量殻ハイパーボロイドの外に住む仮想粒子や反粒子を記述している。 自由粒子への遷移は、圧縮されたコヒーレント状態を通じて可能である。

Geometrically, quantum mechanics is defined by a complex line bundle $L_\hbar$ over the classical particle phase space $T^*{R}^3\cong{R}^6$ with coordinates $x^a$ and momenta $p_a$, $a,...=1,2,3$. This quantum bundle $L_\hbar$ is endowed with a connection $A_\hbar$, and its sections are standard wave functions $\psi$ obeying the Schr\"odinger equation. The components of covariant derivatives $\nabla_{A_\hbar}^{}$ in $L_\hbar$ are equivalent to operators ${\hat x}^a$ and ${\hat p}_a$. The bundle $L_\hbar=: L_{C}^+$ is associated with symmetry group U(1)$_\hbar$ and describes particles with quantum charge $q=1$ which is eigenvalue of the generator of the group U(1)$_\hbar$. The complex conjugate bundle $L^-_{C}:={\overline{L_{C}^+}}$ describes antiparticles with quantum charge $q=-1$. We will lift the bundles $L_{C}^\pm$ and connection $A_\hbar$ on them to the relativistic phase space $T^*{R}^{3,1}$ and couple them to the Dirac spinor bundle describing both particles and antiparticles. Free relativistic quarks and leptons are described by the Dirac equation on Minkowski space ${R}^{3,1}$. This equation does not contain interaction with the quantum connection $A_\hbar$ on bundles $L^\pm_{C}\to T^*{R}^{3,1}$ because $A_\hbar$ has non-vanishing components only along $p_a$-directions in $T^*{R}^{3,1}$. To enable the interaction of elementary fermions $\Psi$ with quantum connection $A_\hbar$ on $L_{C}^\pm$, we will extend the Dirac equation to the phase space while maintaining the condition that $\Psi$ depends only on $t$ and $x^a$. The extended equation has an infinite number of oscillator-type solutions with discrete energy values as well as wave packets of coherent states. We argue that all these normalized solutions describe virtual particles and antiparticles living outside the mass shell hyperboloid. The transition to free particles is possible through squeezed coherent states.
翻訳日:2023-10-12 01:44:28 公開日:2023-10-10
# プラズモニックナノキャビティにおけるサブラジアントの絡み合い

Subradiant entanglement in plasmonic nanocavities ( http://arxiv.org/abs/2310.06462v1 )

ライセンス: Link先を確認
Kalun Bedingfield, Benjamin Yuen, Angela Demetriadou(参考訳) プラズモニックナノキャビティは、わずか数ナノメートルのギャップにおける極端磁場の増強とサブ波長光の閉じ込めで知られている。 これを量子エミッターをホストする能力と組み合わせることで、室温での量子状態の制御とエンジニアリングのための非常に有望なプラットフォームを形成する。 ここでは、プラズモニックナノキャビティ内の2つ以上の量子エミッタ間に、サブラジアントの絡み合い状態がどのように現れるかを示す。 量子変数を、絶滅断面積のような実験的に測定可能な量に直接リンクする理論記述を開発する。 プラズモンナノキャビティの損失特性は、プラズモン励起よりも100倍長く持続する量子エミッタ間のサブラジアント絡み状態の出現に有効であることを示す。 この研究は、ラピッド量子メモリ、量子通信、量子センサーなどの潜在的な用途のために、プラズモニックナノキャビティを伴う環境条件における量子絡み合い状態の設計と設計への道を開く。

Plasmonic nanocavities are known for their extreme field enhancement and sub-wavelength light confinement in gaps of just a few nanometers. Pairing this with the ability to host quantum emitters, they form highly promising platforms for controlling and engineering quantum states at room temperature. Here, we show how sub-radiant entangled states emerge between two or more quantum emitters within plasmonic nanocavities. We develop a theoretical description that directly links quantum variables to experimentally measurable quantities, such as the extinction cross-section. We show that the lossy nature of plasmonic nanocavities aids the emergence of sub-radiant entangled states between quantum emitters, persisting for 100 times longer than the plasmonic excitation. This work paves the way towards designing and engineering quantum entangled states in ambient conditions with plasmonic nanocavities, for potential applications as rapid quantum memories, quantum communications and quantum sensors.
翻訳日:2023-10-12 01:43:41 公開日:2023-10-10
# タンパク質$\unicode{x2013}$タンパク質相互作用モデリングのための深層学習法のエコシステム形成

Growing ecosystem of deep learning methods for modeling protein$\unicode{x2013}$protein interactions ( http://arxiv.org/abs/2310.06725v1 )

ライセンス: Link先を確認
Julia R. Rogers, Gerg\H{o} Nikol\'enyi, Mohammed AlQuraishi(参考訳) 多くの細胞機能はタンパク質$\unicode{x2013}$タンパク質相互作用に依存している。 それらを包括的に特徴付ける努力は、プロテオーム内で使用される分子認識機構の多様性によって、依然として挑戦されている。 深層学習は、実験データとタンパク質相互作用に関する基本的な生物物理学的知識の両方を活用し、この問題に取り組むための有望なアプローチとして登場した。 本稿では,タンパク質相互作用をモデル化する深層学習手法のエコシステムを概観し,生物物理学的に変化したモデルとそのトレードオフの多様性について述べる。 本稿では,タンパク質相互作用や相互作用部位の予測に係わる複雑な特徴を表現学習で捉えること,タンパク質構造を推論し複雑な構造を予測する幾何学的深層学習,デノボタンパク質集合を設計するための生成モデルについて論じる。 また、際立った課題のいくつかを概説し、新しい方向性を約束します。 新たな相互作用を発見し、その物理的メカニズムを解明し、エンジニアのバインダーが深層学習を用いて機能を調節し、タンパク質の相互作用が複雑な細胞行動をどのようにオーケストレーションするかを解明する機会がある。

Numerous cellular functions rely on protein$\unicode{x2013}$protein interactions. Efforts to comprehensively characterize them remain challenged however by the diversity of molecular recognition mechanisms employed within the proteome. Deep learning has emerged as a promising approach for tackling this problem by exploiting both experimental data and basic biophysical knowledge about protein interactions. Here, we review the growing ecosystem of deep learning methods for modeling protein interactions, highlighting the diversity of these biophysically-informed models and their respective trade-offs. We discuss recent successes in using representation learning to capture complex features pertinent to predicting protein interactions and interaction sites, geometric deep learning to reason over protein structures and predict complex structures, and generative modeling to design de novo protein assemblies. We also outline some of the outstanding challenges and promising new directions. Opportunities abound to discover novel interactions, elucidate their physical mechanisms, and engineer binders to modulate their functions using deep learning and, ultimately, unravel how protein interactions orchestrate complex cellular behaviors.
翻訳日:2023-10-12 01:38:14 公開日:2023-10-10
# ニューラルネットワークを用いたcfdシミュレーションのための擬似時間ステップ収束の改善

Improving Pseudo-Time Stepping Convergence for CFD Simulations With Neural Networks ( http://arxiv.org/abs/2310.06717v1 )

ライセンス: Link先を確認
Anouk Zandbergen, Tycho van Noorden, Alexander Heinlein(参考訳) Navier-Stokes方程式による粘性流体の計算流体力学(CFD)シミュレーションについて考察した。 流れのレイノルズ数に依存すると、ナビエ・ストークス方程式は極めて非線形な振る舞いを示す。 ナヴィエ・ストークス方程式の離散化による非線形方程式の系はニュートン法のような非線形反復法を用いて解くことができる。 しかし、高速二次収束は通常、解の局所近傍でのみ得られ、多くの構成において古典ニュートン反復は全く収束しない。 このような場合、いわゆるグローバリゼーション技術は収束を改善するのに役立つ。 本稿では,非線形収束を改善するために擬似過渡継続法を用いる。 従来のアルゴリズムは、ローカルな擬似時間ステップを予測するためにトレーニングされたニューラルネットワークモデルによって強化される。 隣接する要素のパッチのローカル情報のみを入力として、各要素のローカル擬似時間ステップを別々に予測することにより、新しいアプローチの一般化を容易にする。 逆向きのステップ幾何とクーエットフローを含む標準ベンチマーク問題に対する数値的な結果から,機械学習によるグローバル化手法の性能が示され,シミュレーションソフトウェアとしてcomsol multiphysicsのcfdモジュールが採用されている。

Computational fluid dynamics (CFD) simulations of viscous fluids described by the Navier-Stokes equations are considered. Depending on the Reynolds number of the flow, the Navier-Stokes equations may exhibit a highly nonlinear behavior. The system of nonlinear equations resulting from the discretization of the Navier-Stokes equations can be solved using nonlinear iteration methods, such as Newton's method. However, fast quadratic convergence is typically only obtained in a local neighborhood of the solution, and for many configurations, the classical Newton iteration does not converge at all. In such cases, so-called globalization techniques may help to improve convergence. In this paper, pseudo-transient continuation is employed in order to improve nonlinear convergence. The classical algorithm is enhanced by a neural network model that is trained to predict a local pseudo-time step. Generalization of the novel approach is facilitated by predicting the local pseudo-time step separately on each element using only local information on a patch of adjacent elements as input. Numerical results for standard benchmark problems, including flow through a backward facing step geometry and Couette flow, show the performance of the machine learning-enhanced globalization approach; as the software for the simulations, the CFD module of COMSOL Multiphysics is employed.
翻訳日:2023-10-12 01:37:54 公開日:2023-10-10
# ベイズネットワークを用いた解釈可能な交通イベント解析

Interpretable Traffic Event Analysis with Bayesian Networks ( http://arxiv.org/abs/2310.06713v1 )

ライセンス: Link先を確認
Tong Yuan, Jian Yang, Zeyi Wen(参考訳) 既存の機械学習に基づく交通事故分析手法は、ダウンストリームタスクに優れた品質結果を提供するが、この重要な問題に不可欠な解釈可能性に欠ける。 本稿では,交通事故予測のためのベイズネットワークに基づく解釈フレームワークを提案する。 解釈容易性を実現するため,本手法では,重要なトラフィックデータ情報を保持しつつ,トラフィックデータをフレームワークに供給するデータセット構築パイプラインを設計する。 具体的なケーススタディにより、我々のフレームワークは、アメリカ各地の気象と交通事象の因果関係に基づくデータセットからベイズネットワークを導出することができる。 その結果, 異なる状況下での事故発生確率の変動を検証しつつ, 競合精度で交通事故の予測が可能となり, 交通と気象の相互関係を明らかにした。 さらに、ネットワークの可視化は、異なる変数間の関係の分析を単純化し、交通事故の主な原因を明らかにし、最終的に交通事故を減らすための貴重な参照を提供する。

Although existing machine learning-based methods for traffic accident analysis can provide good quality results to downstream tasks, they lack interpretability which is crucial for this critical problem. This paper proposes an interpretable framework based on Bayesian Networks for traffic accident prediction. To enable the ease of interpretability, we design a dataset construction pipeline to feed the traffic data into the framework while retaining the essential traffic data information. With a concrete case study, our framework can derive a Bayesian Network from a dataset based on the causal relationships between weather and traffic events across the United States. Consequently, our framework enables the prediction of traffic accidents with competitive accuracy while examining how the probability of these events changes under different conditions, thus illustrating transparent relationships between traffic and weather events. Additionally, the visualization of the network simplifies the analysis of relationships between different variables, revealing the primary causes of traffic accidents and ultimately providing a valuable reference for reducing traffic accidents.
翻訳日:2023-10-12 01:37:36 公開日:2023-10-10
# デルタ$層トンネル接合部のトンネル電流に対する電気的高モーメントダイポールの異方性効果の解明

Uncovering anisotropic effects of electric high-moment dipoles on the tunneling current in $\delta$-layer tunnel junctions ( http://arxiv.org/abs/2310.06704v1 )

ライセンス: Link先を確認
Juan P. Mendez and Denis Mamaluy(参考訳) 走査トンネル顕微鏡を用いた半導体中のドーパントの正確な位置決めは、古典的および量子コンピューティングにおける新しい概念の探索を促進するために、$\delta$-layersとも呼ばれる平面ドーパントベースのデバイスの開発につながった。 近年、$\delta$-layer 系の導電帯に準離散状態と連続状態が存在するため、$\delta$-layer のトンネル接合に2つの異なる導電系(低バイアスと高バイアス)が存在することが示されている。 さらに, トンネル接合部の荷電不純物は, $\delta$-layer トンネル接合部のトンネル速度に大きな影響を及ぼす。 ここでは, トンネル接合部に存在するゼロ電荷不純物, 電気的双極子が, 比導電率や双極子の配向, モーメントに応じてトンネル速度を著しく変化させることができることを示す。 ほぼすべての方向とモーメントの高抵抗トンネルモードの双極子不純物を持つ低バイアス状態においては、トンネルギャップのわずかな不完全性に対するトンネル電流の極端な感度を示す電流を変化させることができる。 低抵抗の高バイアスでは、電子トンネル方向に垂直な方向に配向した高モーメントの双極子欠陥のみが電流に著しく影響するため、この導電性は、低モーメントまたは双極子を伝播方向に沿って向いた双極子欠陥の影響を著しく減少させる。

The precise positioning of dopants in semiconductors using scanning tunneling microscopes has led to the development of planar dopant-based devices, also known as $\delta$-layers, facilitating the exploration of new concepts in classical and quantum computing. Recently it have been shown that two distinct conductivity regimes (low- and high- bias regimes) exist in $\delta$-layer tunnel junctions due to the presence of quasi-discrete and continuous states in the conduction band of $\delta$-layer systems. Furthermore, discrete charged impurities in the tunnel junction region significantly influence the tunneling rates in $\delta$-layer tunnel junctions. Here we demonstrate that zero-charge impurities, or electrical dipoles, present in the tunnel junction region can also significantly alter the tunneling rate, depending, however, on the specific conductivity regime and orientation and moment of the dipole. In the low-bias regime with high-resistance tunneling mode dipole impurities of nearly all orientations and moments can alter the current, indicating the extreme sensitivity of the tunnel current to the slightest imperfection in the tunnel gap. In the high-bias regime with low-resistivity only dipole defects with high moment and orientated in the direction perpendicular to the electron tunneling direction can significantly affect the current, thus making this conductivity regime significantly less prone to the influence of dipole defects with low-moment or dipoles oriented along the propagation direction.
翻訳日:2023-10-12 01:37:21 公開日:2023-10-10
# 分離BF理論と多極対称性

Foliated BF theories and Multipole symmetries ( http://arxiv.org/abs/2310.06701v1 )

ライセンス: Link先を確認
Hiromi Ebisu, Masazumi Honda, Taiichi Nakanishi(参考訳) 移動制限付き準粒子励起をホストするフラクトン位相相の最近の研究により、対称性の概念が更新されている。 このような新しい対称性の1つ、大域的、双極子的、四重極的対称性を含む多極対称性、およびそれらの関係するゲージ場に焦点を当てて、従来の位相相のbf理論をそれらの間のカップリングを持つ層に積み重ねて構成する、$\mathbb{z}_n$ $2+1d$ foliated bf 理論の新たな集合を構築する。 ゲージ不変な非局所作用素を調べることで、我々の葉付きbf理論は系の大きさに応じて異常な基底状態の縮退を示し、n$ と系サイズの間の最大公約数に依存することを示した。 この結果は,フラクトン位相相のuv格子モデルと,葉付場理論の観点からの非慣習的モデルに対する統一的洞察を与える。

Due to the recent studies of the fracton topological phases, which host deconfined quasi-particle excitations with mobility restrictions, the concept of symmetries have been updated. Focusing on one of such new symmetries, multipole symmetries, including global, dipole, and quadruple symmetries, and gauge fields associated with them, we construct a new sets of $\mathbb{Z}_N$ $2+1d$ foliated BF theories, where BF theories of conventional topological phases are stacked in layers with couplings between them. By investigating gauge invariant non-local operators, we show that our foliated BF theories exhibit unusual ground state degeneracy depending on the system size; it depends on the greatest common divisor between $N$ and the system size. Our result provides a unified insight on UV lattice models of the fracton topological phases and other unconventional ones in view of foliated field theories.
翻訳日:2023-10-12 01:36:55 公開日:2023-10-10
# シリコンにおけるスピン量子のSWAPゲート

A SWAP Gate for Spin Qubits in Silicon ( http://arxiv.org/abs/2310.06700v1 )

ライセンス: Link先を確認
Ming Ni, Rong-Long Ma, Zhen-Zhen Kong, Xiao Xue, Sheng-Kai Zhu, Chu Wang, Ao-Ran Li, Ning Chu, Wei-Zhu Liao, Gang Cao, Gui-Lei Wang, Guang-Can Guo, Xuedong Hu, Hong-Wen Jiang, Hai-Ou Li and Guo-Ping Guo(参考訳) シリコン中のスピン量子ビットの耐故障しきい値に近づいた1ビットと2ビットのゲートフィラリティにより、アーキテクチャをスケールアップし、スピン量子ビットの大規模な配列を作る方法はより迫力のある課題となる。 スケールアップ構造では、qubit-to-qubit接続は、量子エラー補正と一般的な量子アルゴリズムのゲート数に決定的な影響を与える。 スピン量子ビットの量子ゲートのツールボックスでは、SWAPゲートは短距離スピン状態転送と長距離スピン状態転送の両方を実現し、他の2量子ビットゲートと組み合わせることで量子回路の深さを低減できる基本2量子ゲートとして機能することで接続問題を解決することができる。 しかし、シリコン量子ドットのスピン量子ビットでは、大きな回路帯域と交換結合 J の強度とゼーマンエネルギー差 Delta E_z との高度に調整可能な比が要求されるため、高忠実なSWAPゲートは証明されていない。 ここでは,J と Delta E_z の高度に調整可能な比で,デバイス内の2桁以上の大きさで,等方的に濃縮されたシリコンの量子ドットに基づく ~25 ns の高速 SWAP ゲートを実証する。 また、SWAPゲートの単一量子ゲートを回路に組み込むことで、SWAPゲート中の単一量子ローカル位相を調整できる。 キュービットを独立に読み取ることにより、2つのスピン間の反相関を探索し、動作の忠実度を推定し、SWAPゲートの優越誤差源を解析する。 これらの結果は高忠実度スワップゲートへの道を開き、チップ上の量子通信やシリコンのハイゼンベルク・ハミルトニアン(英語版)工学による量子シミュレーションなどのプロセスに基づく。

With one- and two-qubit gate fidelities approaching the fault-tolerance threshold for spin qubits in silicon, how to scale up the architecture and make large arrays of spin qubits become the more pressing challenges. In a scaled-up structure, qubit-to-qubit connectivity has crucial impact on gate counts of quantum error correction and general quantum algorithms. In our toolbox of quantum gates for spin qubits, SWAP gate is quite versatile: it can help solve the connectivity problem by realizing both short- and long-range spin state transfer, and act as a basic two-qubit gate, which can reduce quantum circuit depth when combined with other two-qubit gates. However, for spin qubits in silicon quantum dots, high fidelity SWAP gates have not been demonstrated due to the requirements of large circuit bandwidth and a highly adjustable ratio between the strength of the exchange coupling J and the Zeeman energy difference Delta E_z. Here we demonstrate a fast SWAP gate with a duration of ~25 ns based on quantum dots in isotopically enriched silicon, with a highly adjustable ratio between J and Delta E_z, for over two orders of magnitude in our device. We are also able to calibrate the single-qubit local phases during the SWAP gate by incorporating single-qubit gates in our circuit. By independently reading out the qubits, we probe the anti-correlations between the two spins, estimate the operation fidelity and analyze the dominant error sources for our SWAP gate. These results pave the way for high fidelity SWAP gates, and processes based on them, such as quantum communication on chip and quantum simulation by engineering the Heisenberg Hamiltonian in silicon.
翻訳日:2023-10-12 01:36:35 公開日:2023-10-10
# プログラマブル量子アニールを用いたかごめ格子上の横界等方性モデルのシミュレーション

Simulating the Transverse Field Ising Model on the Kagome Lattice using a Programmable Quantum Annealer ( http://arxiv.org/abs/2310.06698v1 )

ライセンス: Link先を確認
Pratyankara Narasimhan, Stephan Humeniuk, Ananda Roy, Victor Drouin-Touchette(参考訳) 幾何学による競合する相互作用の存在は、量子スピンモデルにフラストレーションをもたらす。 その結果、このような系の基底状態は、しばしば熱効果や量子効果によって持ち上げることができる大きな縮退性を示す。 そのような例として、カゴメ格子上の反強磁性イジングモデルがある。 三角格子上の同じモデルは、乱れ機構による順序付けにより、小さな横磁場に対してゼロ温度で順序付けされるが、カゴメ格子はそのような効果に抵抗し、短距離スピン相関と自明な常磁性相のみを示す。 このモデルをD-Waveの量子アニールの最新のアーキテクチャであるAdvantage2のプロトタイプに埋め込む。 先進的な埋め込み法とキャリブレーション法を用いて,現在利用可能なプロトタイプの全グラフ上に231箇所の混合開・周期境界条件を組み込んだカゴメ格子を組み込むことができた。 次に、アニール・ポーズ・クエンチプロトコルを用いて、有限横方向および長手方向でのモデルの平衡から生じる実験的な状態のアンサンブルを抽出する。 これにより、部分位相図を構築し、システムが古典的なスピン液体の制約されたヒルベルト空間を、横方向の場に従えば出ることを確認できる。 この結果と先行する理論結果と量子モンテカルロシミュレーションを結びつけ,ここで実現した量子シミュレーションの有効性を検証し,d波量子アニーラの性能に関する知見を抽出し,非自明な量子系を平衡的にシミュレートする。

The presence of competing interactions due to geometry leads to frustration in quantum spin models. As a consequence, the ground state of such systems often displays a large degeneracy that can be lifted due to thermal or quantum effects. One such example is the antiferromagnetic Ising model on the Kagome lattice. It was shown that while the same model on the triangular lattice is ordered at zero temperature for small transverse field due to an order by disorder mechanism, the Kagome lattice resists any such effects and exhibits only short range spin correlations and a trivial paramagnetic phase. We embed this model on the latest architecture of D-Wave's quantum annealer, the Advantage2 prototype, which uses the highly connected Zephyr graph. Using advanced embedding and calibration techniques, we are able to embed a Kagome lattice with mixed open and periodic boundary conditions of 231 sites on the full graph of the currently available prototype.Through forward annealing experiments, we show that under a finite longitudinal field the system exhibits a one-third magnetization plateau, consistent with a classical spin liquid state of reduced entropy. An anneal-pause-quench protocol is then used to extract an experimental ensemble of states resulting from the equilibration of the model at finite transverse and longitudinal field. This allows us to construct a partial phase diagram and confirm that the system exits the constrained Hilbert space of the classical spin liquid when subjected to a transverse field. We connect our results to previous theoretical results and quantum Monte Carlo simulation, which helps us confirm the validity of the quantum simulation realized here, thereby extracting insight into the performance of the D-Wave quantum annealer to simulate non-trivial quantum systems in equilibrium.
翻訳日:2023-10-12 01:36:04 公開日:2023-10-10
# 一般化ウィック分解

Generalized Wick Decompositions ( http://arxiv.org/abs/2310.06686v1 )

ライセンス: Link先を確認
Chris MacLeod, Evgenia Nitishinskaya, Buck Shlegeris(参考訳) 我々は、累積分解(確率変数の積(例えば $\mathbb{E}[XYZ]$)をこれらの変数の分割に対応する項の和に分解する方法)をレビューする。 ) と wick 分解(変数の部分集合に対応する項の和に(必ずしもランダムではない)変数の積を分解する方法)。 次に、各々の積関数を任意の関数に一般化した新しい分解に一般化する。

We review the cumulant decomposition (a way of decomposing the expectation of a product of random variables (e.g. $\mathbb{E}[XYZ]$) into a sum of terms corresponding to partitions of these variables.) and the Wick decomposition (a way of decomposing a product of (not necessarily random) variables into a sum of terms corresponding to subsets of the variables). Then we generalize each one to a new decomposition where the product function is generalized to an arbitrary function.
翻訳日:2023-10-12 01:35:32 公開日:2023-10-10
# ニューラルネットワーク用ゼロレベルセットエンコーダ

Zero-Level-Set Encoder for Neural Distance Fields ( http://arxiv.org/abs/2310.06644v1 )

ライセンス: Link先を確認
Stefan Rhys Jeske and Jonathan Klein and Dominik L. Michels and Jan Bender(参考訳) 神経形状表現は一般的に、特定の空間位置で符号付き距離または占有値を計算するためにニューラルネットワークを使用する3次元幾何学を表す。 従来の手法はオートデコーダのパラダイムに頼りがちで、トレーニングやテスト中に既知の密集した正確な符号付き距離と、推論中に追加の最適化ループを必要とすることが多い。 これは、テスト中であっても、署名された距離を解析的に計算することに加えて、多くの計算オーバーヘッドをもたらす。 本稿では,1つの前方パスに3次元形状を埋め込む新しいエンコーダデコーダニューラルネットワークを提案する。 我々のアーキテクチャは、グラフベースおよびボクセルベースのコンポーネントを組み込んだマルチスケールハイブリッドシステムと、連続的に微分可能なデコーダに基づいている。 さらに、ネットワークはアイコン方程式を解くために訓練され、訓練と推論のためにゼロレベル集合の知識のみを必要とする。 追加のボリュームサンプルはオンザフライで生成でき、教師なしの方法で組み込むことができる。 これは、これまでのほとんどの作業とは対照的に、ネットワークは、非ゼロ距離値や形状占有率の明示的な事前知識なしに、有効な符号付き距離フィールドを出力することができることを意味する。 言い換えれば、ネットワークは境界値の固有方程式の近似解を計算する。 また、一般的な遅延コード最適化の代わりに、推論中に1つのフォワードパスしか必要としない。 さらに, 表面ノルムが十分に定義されていない場合, 例えば, 非水密曲面と非多様体幾何学の文脈において, 損失関数の修正を提案する。 3次元形状の変形, 単一クラスエンコーディング, マルチクラスエンコーディングからなるデータセットに対して, 提案手法の有効性, 汎用性, スケーラビリティを実証し, 幅広い応用可能性を示した。

Neural shape representation generally refers to representing 3D geometry using neural networks, e.g., to compute a signed distance or occupancy value at a specific spatial position. Previous methods tend to rely on the auto-decoder paradigm, which often requires densely-sampled and accurate signed distances to be known during training and testing, as well as an additional optimization loop during inference. This introduces a lot of computational overhead, in addition to having to compute signed distances analytically, even during testing. In this paper, we present a novel encoder-decoder neural network for embedding 3D shapes in a single forward pass. Our architecture is based on a multi-scale hybrid system incorporating graph-based and voxel-based components, as well as a continuously differentiable decoder. Furthermore, the network is trained to solve the Eikonal equation and only requires knowledge of the zero-level set for training and inference. Additional volumetric samples can be generated on-the-fly, and incorporated in an unsupervised manner. This means that in contrast to most previous work, our network is able to output valid signed distance fields without explicit prior knowledge of non-zero distance values or shape occupancy. In other words, our network computes approximate solutions to the boundary-valued Eikonal equation. It also requires only a single forward pass during inference, instead of the common latent code optimization. We further propose a modification of the loss function in case that surface normals are not well defined, e.g., in the context of non-watertight surface-meshes and non-manifold geometry. We finally demonstrate the efficacy, generalizability and scalability of our method on datasets consisting of deforming 3D shapes, single class encoding and multiclass encoding, showcasing a wide range of possible applications.
翻訳日:2023-10-12 01:35:26 公開日:2023-10-10
# ADMMを用いた深部心MRI画像再構成

Deep Cardiac MRI Reconstruction with ADMM ( http://arxiv.org/abs/2310.06628v1 )

ライセンス: Link先を確認
George Yiasemis, Nikita Moriakov, Jan-Jakob Sonke, Jonas Teuwen(参考訳) 心臓MRIは心臓血管疾患の診断に有用な非侵襲的ツールである。 例えば、Cine MRIは心臓機能と解剖を評価するためのベンチマークモダリティである。 一方、マルチコントラスト(t1およびt2)マッピングは、心筋および間質の病理および異常を評価する可能性を秘めている。 しかし、自発的な呼吸保持としばしば不整脈は、MRIの遅い撮像速度と組み合わせることで、モーションアーティファクトにつながり、リアルタイムの取得画像の品質を損なう。 加速取得はダイナミックイメージングを容易にするが、エイリアスを誘発し、シネmriにおける低再構成画像品質と不正確なt1およびt2マッピング推定を引き起こす。 本研究は,MRIの高速化における関連研究に触発され,動的心イメージングの文脈において,深層学習(DL)に基づくシネ・マルチコントラスト再構成法を提案する。 本稿では,最小二乗正規化最適化タスクとして再構成問題を定式化し,半二次変数分割と乗算器の交互方向法を組み込んだ最先端dlベース逆問題解法vsharpを用いる。 2次元の動的再構成タスクと2次元の動的再構成タスクの2つの設定でこの問題を処理し,それぞれ2次元と3次元の深層学習ネットワークを利用する。 提案手法は画像領域とk空間領域の両方を最適化し,高い再構成精度を実現する。 対象データはCartesian equispaced scheme でアンサンプされるが、Cartesian とsimulated non-Cartesian undersampling scheme の両方を用いてモデルを訓練し、モデルの一般化を未確認データに拡張する。 さらに,本モデルでは,マルチコイルk空間データの感度マップを学習・洗練するために,ディープニューラルネットワークを採用している。 最後に,本手法はシネおよびマルチコントラストデータを用いて共同学習を行う。

Cardiac magnetic resonance imaging is a valuable non-invasive tool for identifying cardiovascular diseases. For instance, Cine MRI is the benchmark modality for assessing the cardiac function and anatomy. On the other hand, multi-contrast (T1 and T2) mapping has the potential to assess pathologies and abnormalities in the myocardium and interstitium. However, voluntary breath-holding and often arrhythmia, in combination with MRI's slow imaging speed, can lead to motion artifacts, hindering real-time acquisition image quality. Although performing accelerated acquisitions can facilitate dynamic imaging, it induces aliasing, causing low reconstructed image quality in Cine MRI and inaccurate T1 and T2 mapping estimation. In this work, inspired by related work in accelerated MRI reconstruction, we present a deep learning (DL)-based method for accelerated cine and multi-contrast reconstruction in the context of dynamic cardiac imaging. We formulate the reconstruction problem as a least squares regularized optimization task, and employ vSHARP, a state-of-the-art DL-based inverse problem solver, which incorporates half-quadratic variable splitting and the alternating direction method of multipliers with neural networks. We treat the problem in two setups; a 2D reconstruction and a 2D dynamic reconstruction task, and employ 2D and 3D deep learning networks, respectively. Our method optimizes in both the image and k-space domains, allowing for high reconstruction fidelity. Although the target data is undersampled with a Cartesian equispaced scheme, we train our model using both Cartesian and simulated non-Cartesian undersampling schemes to enhance generalization of the model to unseen data. Furthermore, our model adopts a deep neural network to learn and refine the sensitivity maps of multi-coil k-space data. Lastly, our method is jointly trained on both, undersampled cine and multi-contrast data.
翻訳日:2023-10-12 01:34:57 公開日:2023-10-10
# 静かな白い光

Silent White Light ( http://arxiv.org/abs/2310.06834v1 )

ライセンス: Link先を確認
Kai Niklas Hansmann, Franziska Dommermuth, Wolfgang Els\"a{\ss}er, Reinhold Walser(参考訳) 半導体量子ドット物理学と量子光学を組み合わせることで、広帯域光を導波路内統計操作する。 量子ドット超発光ダイオードを7,7Kドル、Blazekらで液体窒素温度に冷却する。 [Phys. A 84, 63840 (2011)] は, 温度依存性の2次強度相関係数を熱増幅自然発光光の2つから$g^{(2)}(T=190K)\approx 1.33$に還元することを示した。 本稿では、励起された飽和量子ドットゲイン媒体における自然発光の増幅を仮定したブロードバンド光子統計をモデル化する。 温度調整された準フェルミ準準準準位による量子ドット占有ダイナミクスによる強度増加と飽和非線形性により、熱ボース・アインシュタイン統計からポアソニアン統計への統計操作が実現され、「銀白色光」が生成できることを実証した。 このような強度雑音低減広帯域放射は、光コヒーレンストモグラフィ、光通信、光トワイザーなどの多くの応用に関係している。

We investigate the intra-waveguide statistics manipulation of broadband light by combining semiconductor quantum dot physics with quantum optics. By cooling a quantum dot superluminescent diode to liquid nitrogen temperature of $77K$, Blazek et al. [Phys. Rev. A 84, 63840 (2011)] have demonstrated a temperature-dependent reduction of the second-order intensity correlation coefficient from two for thermal amplified spontaneous emission light to $g^{(2)}(T=190 K)\approx 1.33$. Here, we model the broadband photon statistics assuming amplified spontaneous emission radiation in a pumped, saturable quantum dot gain medium. We demonstrate that, by an intensity increase due to the quantum dot occupation dynamics via the temperature-tuned quasi Fermi levels, together with the saturation nonlinearity, a statistics manipulation from thermal Bose-Einstein statistics towards Poissonian statistics can be realized, thus producing "silent white light". Such intensity-noise reduced broadband radiation is relevant for many applications like optical coherence tomography, optical communication or optical tweezers.
翻訳日:2023-10-12 01:26:59 公開日:2023-10-10
# 最大パースペクティヴ解釈としてのConvivial Solipsism

Convivial Solipsism as a maximally perspectival interpretation ( http://arxiv.org/abs/2310.06815v1 )

ライセンス: Link先を確認
Herve Zwirn(参考訳) 量子形式論の異なる解釈の分類について検討し、perspectival interpretationの概念を提示する。 perspectival 解釈は真理が観測者に対して相対的であることを意味する。 QBism と Convivial Solipsism が精査される程度を調べ、Convivial Solipsim は QBism よりも高い程度で、少なくとも QBism の創始者版よりも高い程度で精査されていることを示す。

A classification of different interpretations of the quantum formalism is examined and the concept of perspectival interpretation is presented. A perspectival interpretation implies that the truth is relative to the observer. The degree to which QBism and Convivial Solipsism are perspectival is examined and Convivial Solipsim is shown to be perspectival at a higher degree than QBism or at least than the QBism founders version.
翻訳日:2023-10-12 01:26:42 公開日:2023-10-10
# 多種混合系における多体量子カオス

Many-body quantum chaos in mixtures of multiple species ( http://arxiv.org/abs/2310.06811v1 )

ライセンス: Link先を確認
Vijay Kumar and Dibyendu Roy(参考訳) フェルミオン,ボソン,クビットの多体量子混合物におけるスペクトル相関と,種々の周期的拡散・混合について検討した。 我々はそれぞれ2種類の混合、すなわちJaynes-CummingsとRabiを取り、総種の保存を満足させ、破壊する。 スペクトル特性が主系列のスペクトル形式因子を決定する生成ハミルトニアンを解析的に導出する。 さらに、thouless time $t^*$のシステムサイズ$(l)$スケーリングを解析し、その上でスペクトル形式因子はランダム行列理論の予測に従う。 $L$-dependence of $t^*$が$\log L$から$L^2$に渡り、有限サイズの鎖におけるクォービットとフェルミオンまたはボソンの混合が増加すると、任意の混合強度に対する熱力学極限において$t^* \propto \mathcal{O}(L^2)$に収まる。 クォービットとフェルミオンのラビ混合は、総数保存のない単一種のクォービットやフェルミオンに対して以前予測されていた$t^*\propto \mathcal{O}(\log L)$となる。

We study spectral correlations in many-body quantum mixtures of fermions, bosons, and qubits with periodically kicked spreading and mixing of species. We take two types of mixing, namely, Jaynes-Cummings and Rabi, respectively, satisfying and breaking the conservation of a total number of species. We analytically derive the generating Hamiltonians whose spectral properties determine the spectral form factor in the leading order. We further analyze the system-size $(L)$ scaling of Thouless time $t^*$, beyond which the spectral form factor follows the prediction of random matrix theory. The $L$-dependence of $t^*$ crosses over from $\log L$ to $L^2$ with an increasing Jaynes-Cummings mixing between qubits and fermions or bosons in a finite-sized chain, and it finally settles to $t^* \propto \mathcal{O}(L^2)$ in the thermodynamic limit for any mixing strength. The Rabi mixing between qubits and fermions leads to $t^*\propto \mathcal{O}(\log L)$, previously predicted for single species of qubits or fermions without total number conservation.
翻訳日:2023-10-12 01:26:31 公開日:2023-10-10
# 量子ビット正則化と相対論的量子回路の位相項

Topological terms with qubit regularization and relativistic quantum circuits ( http://arxiv.org/abs/2310.06805v1 )

ライセンス: Link先を確認
Tanmoy Bhattacharya (1), Shailesh Chandrasekharan (2), Rajan Gupta (1), Thomas R. Richardson (3), Hersh Singh (4) ((1) Los Alamos National Laboratory (2) Duke University (3) Johannes Gutenberg-Universit\"at (4) Fermi National Accelerator Laboratory)(参考訳) クビット正則化は、場の量子論を探求する豊富なフレームワークを提供する。 量子ビット正規化スキームに理論の重要な対称性がどのように埋め込まれているかを選択する自由は、リッチな位相図を持つ新しい格子モデルを構築することができる。 いくつかの相は臨界相につながる位相的項を含むことができる。 本研究では、SO(3)スピン対称性を埋め込むSU(3)-F量子正則化スキームを紹介し、研究する。 この正規化スキームにおけるキュービットモデルは、長距離における k = 1 Wess-Zumino-Witten (WZW) 共形場理論(英語版) (CFT) を記述する臨界位相と、2つの大きな位相を含む。 単一の結合 u を持つ単純な時空ユークリッド格子モデルを構築し、モンテカルロ法を用いて研究する。 モデルが小さいuに臨界相を持ち、大きなuに自明に大質量の位相を持ち、一階の遷移が2つを分離していることを示す。 我々のモデルの特徴は、時空回転の下で対称であることであり、時間的および空間的格子間隔が互いに結びついていることを意味する。 モデルの移動行列のウィック回転によって得られるユニタリ時間進化作用素は、時間的格子間隔をゼロに調整することなく、k = 1 WZW CFTの物理をリアルタイムで計算するのに役立つ。 このアイデアを用いて、離散時空格子上に相対論的量子回路の概念を導入する。

Qubit regularization provides a rich framework to explore quantum field theories. The freedom to choose how the important symmetries of the theory are embedded in the qubit regularization scheme allows us to construct new lattice models with rich phase diagrams. Some of the phases can contain topological terms which lead to critical phases. In this work we introduce and study the SU(3)-F qubit regularization scheme to embed the SO(3) spin-symmetry. We argue that qubit models in this regularization scheme contain several phases including a critical phase which describes the k = 1 Wess-Zumino-Witten (WZW) conformal field theory (CFT) at long distances, and two massive phases one of which is trvially gapped and the other which breaks the lattice translation symmetry. We construct a simple space-time Euclidean lattice model with a single coupling U and study it using the Monte Carlo method. We show the model has a critical phase at small U and a trivially massive phase at large U with a first order transition separating the two. Another feature of our model is that it is symmetric under space-time rotations, which means the temporal and spatial lattice spacing are connected to each other. The unitary time evolution operator obtained by a Wick rotation of the transfer matrix of our model can help us compute the physics of the k = 1 WZW CFT in real time without the need for tuning the temporal lattice spacing to zero. We use this idea to introduce the concept of a relativistic quantum circuit on a discrete space-time lattice.
翻訳日:2023-10-12 01:26:04 公開日:2023-10-10
# 協調型マルチエージェント模倣学習のための逆因子Q-Learning

Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation Learning ( http://arxiv.org/abs/2310.06801v1 )

ライセンス: Link先を確認
The Viet Bui and Tien Mai and Thanh Hong Nguyen(参考訳) 本稿では,協調型マルチエージェントシステムにおける模倣学習(il,すなわち,実演から専門家の行動を模倣する学習の問題)について述べる。 検討中の学習問題は、高次元の状態と行動空間と複雑なエージェント間の依存関係によって特徴づけられるいくつかの課題を提起する。 単一エージェント環境では、専門家によるデモンストレーションによって、ilは逆ソフトq学習プロセスを通じて効率的に実行されることが証明されている。 しかし、このフレームワークをマルチエージェントコンテキストに拡張するためには、ローカルな観察と個々のアクションを捉えるために、ローカル値関数と、集中学習を利用するための共同値関数の両方を同時に学習する必要がある。 本研究では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。 本手法は,分散Q関数の集約に混合ネットワークを活用することで,集中学習を実現する。 このアプローチの主な利点は、混合ネットワークの重み付けがグローバルな状態から派生した情報を用いて訓練できることである。 さらに,マルチエージェント目的関数がq関数空間内で凸性を示す混合ネットワークの条件を定式化する。 本稿では,既存の最先端マルチエージェントILアルゴリズムと比較して,提案アルゴリズムの有効性を実証するStar-Craft Multi-agent Challenge(SMACv2)の先進バージョンを含む,競争的かつ協調的なマルチエージェントゲーム環境について広範な実験を行った。

This paper concerns imitation learning (IL) (i.e, the problem of learning to mimic expert behaviors from demonstrations) in cooperative multi-agent systems. The learning problem under consideration poses several challenges, characterized by high-dimensional state and action spaces and intricate inter-agent dependencies. In a single-agent setting, IL has proven to be done efficiently through an inverse soft-Q learning process given expert demonstrations. However, extending this framework to a multi-agent context introduces the need to simultaneously learn both local value functions to capture local observations and individual actions, and a joint value function for exploiting centralized learning. In this work, we introduce a novel multi-agent IL algorithm designed to address these challenges. Our approach enables the centralized learning by leveraging mixing networks to aggregate decentralized Q functions. A main advantage of this approach is that the weights of the mixing networks can be trained using information derived from global states. We further establish conditions for the mixing networks under which the multi-agent objective function exhibits convexity within the Q function space. We present extensive experiments conducted on some challenging competitive and cooperative multi-agent game environments, including an advanced version of the Star-Craft multi-agent challenge (i.e., SMACv2), which demonstrates the effectiveness of our proposed algorithm compared to existing state-of-the-art multi-agent IL algorithms.
翻訳日:2023-10-12 01:25:36 公開日:2023-10-10
# 機械学習対応システムのテストと評価ベストプラクティス

Test & Evaluation Best Practices for Machine Learning-Enabled Systems ( http://arxiv.org/abs/2310.06800v1 )

ライセンス: Link先を確認
Jaganmohan Chandrasekaran, Tyler Cody, Nicola McCarthy, Erin Lanus, Laura Freeman(参考訳) 機械学習(ML)ベースのソフトウェアシステムは、さまざまなドメインにまたがって急速に採用されつつある。 本報告では,ML対応ソフトウェアシステムのライフサイクルにおけるテスト・評価(T&E)のベストプラクティスについて述べる。 ML対応ソフトウェアシステムのライフサイクルを,コンポーネント,統合とデプロイメント,デプロイ後の3段階に分類する。 コンポーネントレベルでの主な目的は、mlモデルをスタンドアロンコンポーネントとしてテストし、評価することである。 次に、インテグレーションとデプロイメントの段階では、MLコンポーネントと非MLコンポーネントの両方で構成される統合ML対応システムを評価することが目標である。 最後に、ML対応のソフトウェアシステムがデプロイおよび運用されると、T&Eの目的はシステムが意図した通りに動作することを保証することである。 ML対応ソフトウェアシステムの保守活動はライフサイクルにまたがり、ML対応ソフトウェアシステムの様々な資産の維持に関わる。 その特徴から、ML対応ソフトウェアシステムのT&Eは困難である。 コンポーネントレベルでのT&Eに関する重要な研究が報告されているが、残りの2段階のT&Eについては限定的な研究が報告されている。 さらに、多くの場合、ML対応システムのライフサイクル全体を通して、体系的なT&E戦略が欠如している。 これにより、実践者は、ML対応ソフトウェアシステムの信頼性に対するユーザの信頼を損なう、アドホックなT&Eプラクティスに頼ることができる。 ML対応システムライフサイクルの全段階にわたるT&E課題に対処するために、新しい体系的テストアプローチ、妥当性測定、メトリクスが必要である。

Machine learning (ML) - based software systems are rapidly gaining adoption across various domains, making it increasingly essential to ensure they perform as intended. This report presents best practices for the Test and Evaluation (T&E) of ML-enabled software systems across its lifecycle. We categorize the lifecycle of ML-enabled software systems into three stages: component, integration and deployment, and post-deployment. At the component level, the primary objective is to test and evaluate the ML model as a standalone component. Next, in the integration and deployment stage, the goal is to evaluate an integrated ML-enabled system consisting of both ML and non-ML components. Finally, once the ML-enabled software system is deployed and operationalized, the T&E objective is to ensure the system performs as intended. Maintenance activities for ML-enabled software systems span the lifecycle and involve maintaining various assets of ML-enabled software systems. Given its unique characteristics, the T&E of ML-enabled software systems is challenging. While significant research has been reported on T&E at the component level, limited work is reported on T&E in the remaining two stages. Furthermore, in many cases, there is a lack of systematic T&E strategies throughout the ML-enabled system's lifecycle. This leads practitioners to resort to ad-hoc T&E practices, which can undermine user confidence in the reliability of ML-enabled software systems. New systematic testing approaches, adequacy measurements, and metrics are required to address the T&E challenges across all stages of the ML-enabled system lifecycle.
翻訳日:2023-10-12 01:25:13 公開日:2023-10-10
# アルミニウムオンシリコン超伝導量子ビットにおける界面誘電損失の緩和

Mitigation of interfacial dielectric loss in aluminum-on-silicon superconducting qubits ( http://arxiv.org/abs/2310.06797v1 )

ライセンス: Link先を確認
Janka Bizn\'arov\'a, Amr Osman, Emil Rehnman, Lert Chayanun, Christian Kri\v{z}an, Per Malmberg, Marcus Rommel, Christopher Warren, Per Delsing, August Yurgens, Jonas Bylander and Anita Fadavi Roudsari(参考訳) 計算時間平均${t_1}$エネルギー緩和時間は${270\,\mu s}$であり、q = 500mに対応し、最大観測値${501\,\mu s}$である。 我々は材料分析技術と数値シミュレーションを用いてエネルギー損失の主原因を解明し、それらを緩和するための戦略を考案し実証する。 損失の軽減は、基板-金属界面近くの既知の欠陥のホストである酸化物の存在を300nmより厚いアルミニウム膜を成長させることによって達成される。 コプラナー導波管共振器の損失解析により, 2レベル系欠陥による誘電損失の低減による改善が示されている。 我々は飛行時二次イオン質量分析を行い、より厚い膜に対する基板-金属界面における酸素の減少を観察した。 結晶粒の厚さが膜厚に依存する平行粒界の柱状構造では, 膜厚と膜厚との相関性が強く, 膜厚が大きくなる傾向がみられた。 これらの結論は、デバイス内の異なる損失貢献の数値シミュレーションによって支持される。

We demonstrate aluminum-on-silicon planar transmon qubits with time-averaged ${T_1}$ energy relaxation times of up to ${270\,\mu s}$, corresponding to Q = 5 million, and a highest observed value of ${501\,\mu s}$. We use materials analysis techniques and numerical simulations to investigate the dominant sources of energy loss, and devise and demonstrate a strategy towards mitigating them. The mitigation of loss is achieved by reducing the presence of oxide, a known host of defects, near the substrate-metal interface, by growing aluminum films thicker than 300 nm. A loss analysis of coplanar-waveguide resonators shows that the improvement is owing to a reduction of dielectric loss due to two-level system defects. We perform time-of-flight secondary ion mass spectrometry and observe a reduced presence of oxygen at the substrate-metal interface for the thicker films. The correlation between the enhanced performance and the film thickness is due to the tendency of aluminum to grow in columnar structures of parallel grain boundaries, where the size of the grain depends on the film thickness: transmission electron microscopy imaging shows that the thicker film has larger grains and consequently fewer grain boundaries containing oxide near this interface. These conclusions are supported by numerical simulations of the different loss contributions in the device.
翻訳日:2023-10-12 01:24:48 公開日:2023-10-10
# 22nmFDSOICMOSの小型TIAによるモノリシック量子プロセッサのビット読み出し

A Compact TIA in 22nm FDSOI CMOS for Qubit Readout in Monolithic Quantum Processors ( http://arxiv.org/abs/2310.06792v1 )

ライセンス: Link先を確認
Domenico Zito, Tan Doan Nhut(参考訳) 本稿では,モノリシック量子プロセッサにおけるスピン量子ビット読み出し動作において,非常にコンパクトで十分な性能を有するインダクタレストランスインピーダンス増幅器(TIA)について報告する。 TIAは22nmのFDSOI CMOSファウントリー技術で設計され製造されている。 その結果、室温で13ghzの帯域幅を持つ103db{\omegaのトランインプデンスゲインを示し、極低温ではわずかに優れた性能を示すことが期待される。 消費電力は4.1mWである。 コア領域は0.00025mm2、すなわち、先行技術と比較して2桁ほど小さくなり、量子ビットサイズに近づくと、インダクタレスIAはモノリシック量子プロセッサのコンパクト化ソリューションとなる。

This paper reports an inductorless transimpedance amplifier (TIA) with very compact size and adequate performance for spin qubit readout operations in monolithic quantum processors. The TIA has been designed and fabricated in a 22nm FDSOI CMOS foundry technology commercially available. The measurement results show a transimpedance gain of 103 dB{\Omega} with a bandwidth of 13 GHz, at room temperature, and it is expected to exhibit slightly superior performance at cryogenic temperatures. The power consumption amounts to 4.1 mW. The core area amount to 0.00025 mm2, i.e., about two orders of magnitude smaller with respect to the prior-art works, and approaching the qubit size, which makes the inductorless TIA a compact enabling solution for monolithic quantum processors.
翻訳日:2023-10-12 01:24:21 公開日:2023-10-10
# displaced-null測定による純状態の最適推定

Optimal estimation of pure states with displaced-null measurements ( http://arxiv.org/abs/2310.06767v1 )

ライセンス: Link先を確認
Federico Girotti, Alfred Godley, M\u{a}d\u{a}lin Gu\c{t}\u{a}(参考訳) 我々は、純粋な量子状態の未知のパラメータを推定する問題を再検討し、実験者が真の系状態に近いベクトルを含む基底で測定しようとする「ヌル測定」戦略を検討する。 このような戦略は、量子Cram\'{e}r-Rao境界が達成可能なモデルに対する量子フィッシャー情報にアプローチすることが知られているが、マルチコピー設定における境界を達成するための詳細な適応戦略は欠如している。 まず、以下のnaive null-measurement実装では、標準的な推定スケーリングさえ達成できていないことを示し、小さなサブサンプルでパラメータを推定し、システムの他の部分で推定値に対応するnull-measurementを適用する。 これは、真と参照パラメータが互いに近接しているときに発生する、null測定に特有の非識別性の問題に起因する。 そこで本研究では,参照パラメータを小額に変更してパラメータ識別性を確保するための代替displaced-null計測手法を提案する。 この戦略を用いて、量子Cram\'{e}r-Rao境界が達成可能なモデルに対する漸近的最適測定を考案する。 より一般に、この手法を任意のマルチパラメータモデルに拡張し、ホレヴォ境界の漸近的達成性を証明する。 我々の分析において重要なツールは量子局所漸近正規性の理論であり、提案した推定器の設計に関する明確な直観を提供し、漸近的に正規分布を持つことを示す。

We revisit the problem of estimating an unknown parameter of a pure quantum state, and investigate `null-measurement' strategies in which the experimenter aims to measure in a basis that contains a vector close to the true system state. Such strategies are known to approach the quantum Fisher information for models where the quantum Cram\'{e}r-Rao bound is achievable but a detailed adaptive strategy for achieving the bound in the multi-copy setting has been lacking. We first show that the following naive null-measurement implementation fails to attain even the standard estimation scaling: estimate the parameter on a small sub-sample, and apply the null-measurement corresponding to the estimated value on the rest of the systems. This is due to non-identifiability issues specific to null-measurements, which arise when the true and reference parameters are close to each other. To avoid this, we propose the alternative displaced-null measurement strategy in which the reference parameter is altered by a small amount which is sufficient to ensure parameter identifiability. We use this strategy to devise asymptotically optimal measurements for models where the quantum Cram\'{e}r-Rao bound is achievable. More generally, we extend the method to arbitrary multi-parameter models and prove the asymptotic achievability of the the Holevo bound. An important tool in our analysis is the theory of quantum local asymptotic normality which provides a clear intuition about the design of the proposed estimators, and shows that they have asymptotically normal distributions.
翻訳日:2023-10-12 01:24:07 公開日:2023-10-10
# 木をせん断する: 分岐構造と多面体における生まれのルール

Shearing Off the Tree: Emerging Branch Structure and Born's Rule in the Multiverse ( http://arxiv.org/abs/2310.06755v1 )

ライセンス: Link先を確認
Philipp Strasberg and Joseph Schindler(参考訳) デコヒーレンス理論は、ユニタリ系と検出器の相互作用の後、異なる測定結果に属する波動関数の成分があらゆる実用目的のために古典的に振る舞うことを示した。 それゆえ、第2の計測の後、以前の各コンポーネントは、より古典的な振る舞いのあるコンポーネントのセットなどを生成し、最終的に`everything happens''という指数関数的に多くの非結合ブランチを生成します。 例えば、シュリンガー方程式の正確な数値対角化を用いて、この図は間違っていることを示す。 枝のかなりの部分(多くの場合、大多数)は、上記の推論を何度も繰り返すと、最も強い干渉効果を示す。 これは、多くの世界解釈の支持者と反対者の両方が議論を改訂する必要があることを意味する。 さらに, 玩具モデルでは, 残る古典的動作(つまり, 分離)がボルンの規則に従ってサンプル周波数を分岐するのも観察した。 これが量子測定問題にとって何を意味するかは、一般に真実であることが判明すれば推測される。

Decoherence theory has shown that, after a unitary system-detector interaction, the components of the wave function belonging to different measurement outcomes behave classical for all practical purposes. So, the story continues, after a second measurement each previous component produces a further set of classically behaving components, and so on and so forth, eventually generating a set of exponentially many decohered branches in which ``everything happens''. By way of example, using exact numerical diagonalization of the Schr\"odinger equation, we show that this picture is wrong. A significant fraction (often even the vast majority) of branches shows the strongest possible interference effects if the above reasoning is repeated many times. This implies that both proponents and opponents of the many worlds interpretation need to revise their argumentation. Moreover, within our toy model we also observe that the remaining classically behaving (i.e., decohering) branches sample frequencies in accordance with Born's rule. We speculate what this could imply for the quantum measurement problem if it turns out to be true in general.
翻訳日:2023-10-12 01:23:41 公開日:2023-10-10
# GPT-4はAgronomist Assistant? 大規模言語モデルを用いた農業試験の回答

GPT-4 as an Agronomist Assistant? Answering Agriculture Exams Using Large Language Models ( http://arxiv.org/abs/2310.06225v1 )

ライセンス: Link先を確認
Bruno Silva, Leonardo Nunes, Roberto Estev\~ao, Ranveer Chandra(参考訳) 大規模言語モデル(LLM)は、医療や金融など、さまざまな分野における自然言語理解において顕著な能力を示している。 一部のタスクでは、LLMは訓練された人間よりも類似または優れたパフォーマンスを達成するため、LLMのパフォーマンスを評価するために人間の試験(例えば、認定試験)を採用するのが妥当である。 本稿では,Llama 2 や GPT などの一般的な LLM の総合評価を行い,農業関連問題への回答能力について述べる。 評価では,情報検索と生成機能を組み合わせたRAG(Retrieval-Augmented Generation)とER(Ensemble Refinement)技術を採用し,LCMの性能向上のための戦略を推進している。 LLMの能力を実証するため,ブラジル,インド,米国の三大農業生産国から,農業試験とベンチマークデータセットを選択した。 分析では,gpt-4がagronomist認定の更新のクレジットを得るための試験のパススコアを達成する能力を強調し,質問の93%を正しく回答し,88%の精度を実現した従来の汎用モデルよりも優れていた。 実験の1つで, GPT-4はヒトと比較して高い性能を示した。 この成績は、GPT-4が大卒の入学試験に合格したり、アグロノミー認定証の更新のクレジットを得られる可能性を示唆している。 また、ブラジル農業庁(Embrapa)の堅牢なデータセットとインドからの大学院プログラム試験を利用して、一般的な農業関連問題に対処し、ブラジルおよびインドの農家のための作物管理ガイドラインを作成するためのモデルの能力についても検討する。 その結果, GPT-4, ER, RAGは農業教育, 評価, 作物管理の実践に有意義に寄与し, 農家や農業専門家に貴重な洞察を与えることができた。

Large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding across various domains, including healthcare and finance. For some tasks, LLMs achieve similar or better performance than trained human beings, therefore it is reasonable to employ human exams (e.g., certification tests) to assess the performance of LLMs. We present a comprehensive evaluation of popular LLMs, such as Llama 2 and GPT, on their ability to answer agriculture-related questions. In our evaluation, we also employ RAG (Retrieval-Augmented Generation) and ER (Ensemble Refinement) techniques, which combine information retrieval, generation capabilities, and prompting strategies to improve the LLMs' performance. To demonstrate the capabilities of LLMs, we selected agriculture exams and benchmark datasets from three of the largest agriculture producer countries: Brazil, India, and the USA. Our analysis highlights GPT-4's ability to achieve a passing score on exams to earn credits for renewing agronomist certifications, answering 93% of the questions correctly and outperforming earlier general-purpose models, which achieved 88% accuracy. On one of our experiments, GPT-4 obtained the highest performance when compared to human subjects. This performance suggests that GPT-4 could potentially pass on major graduate education admission tests or even earn credits for renewing agronomy certificates. We also explore the models' capacity to address general agriculture-related questions and generate crop management guidelines for Brazilian and Indian farmers, utilizing robust datasets from the Brazilian Agency of Agriculture (Embrapa) and graduate program exams from India. The results suggest that GPT-4, ER, and RAG can contribute meaningfully to agricultural education, assessment, and crop management practice, offering valuable insights to farmers and agricultural professionals.
翻訳日:2023-10-11 21:18:56 公開日:2023-10-10
# オープンワールドにおける分散データの検出と学習:アルゴリズムと理論

Detecting and Learning Out-of-Distribution Data in the Open world: Algorithm and Theory ( http://arxiv.org/abs/2310.06221v1 )

ライセンス: Link先を確認
Yiyou Sun(参考訳) この論文は機械学習の領域、特にシステムがこれまで認識されていなかったデータとコンテキストに直面するオープンワールドシナリオの文脈に多大な貢献をしている。 従来の機械学習モデルは、通常、固定された既知のクラス(クローズドワールド設定として知られる)内でトレーニングされ、テストされる。 この仮定は制御された環境では機能するが、新しいクラスやデータカテゴリが動的かつ予期しない形で現れる現実のアプリケーションでは不足する。 そこで本研究では,オープンワールド機械学習に不可欠な2つのステップであるアウト・オブ・ディストリビューション(OOD)検出とオープンワールド表現学習(ORL)について検討する。 OOD検出は、モデルのトレーニングディストリビューションの外にある未知のクラスからインスタンスを特定することに焦点を当てる。 このプロセスは、不慣れな入力に対して過度に自信を持って誤った予測をするリスクを低減します。 OOD検出を超えて、ORLはモデルの機能を拡張して、未知のインスタンスを検出するだけでなく、これらの新しいクラスに関する知識から学び、組み込む。 オープンワールド学習のこれらの研究問題を掘り下げることで、この論文はアルゴリズムの解法と理論の基礎の両方に寄与する。

This thesis makes considerable contributions to the realm of machine learning, specifically in the context of open-world scenarios where systems face previously unseen data and contexts. Traditional machine learning models are usually trained and tested within a fixed and known set of classes, a condition known as the closed-world setting. While this assumption works in controlled environments, it falls short in real-world applications where new classes or categories of data can emerge dynamically and unexpectedly. To address this, our research investigates two intertwined steps essential for open-world machine learning: Out-of-distribution (OOD) Detection and Open-world Representation Learning (ORL). OOD detection focuses on identifying instances from unknown classes that fall outside the model's training distribution. This process reduces the risk of making overly confident, erroneous predictions about unfamiliar inputs. Moving beyond OOD detection, ORL extends the capabilities of the model to not only detect unknown instances but also learn from and incorporate knowledge about these new classes. By delving into these research problems of open-world learning, this thesis contributes both algorithmic solutions and theoretical foundations, which pave the way for building machine learning models that are not only performant but also reliable in the face of the evolving complexities of the real world.
翻訳日:2023-10-11 21:18:22 公開日:2023-10-10
# SUBP:1xNスパースCNNのマルチスレッド高速化のためのソフト均一ブロック実行

SUBP: Soft Uniform Block Pruning for 1xN Sparse CNNs Multithreading Acceleration ( http://arxiv.org/abs/2310.06218v1 )

ライセンス: Link先を確認
Jingyang Xiang and Siqi Li and Jun Chen and Shipeng Bai and Yukai Ma and Guang Dai and Yong Liu(参考訳) 畳み込みニューラルネットワーク(cnns)におけるスパーシティの研究は、限られた資源を持つ環境でモデルを圧縮および加速するために広く行われている。 出力チャネルに沿ってn個の連続重みをグループごとに非ゼロに制限することで、最近の1$\times$nのネットワークはその3つの優れた利点によって大きな人気を得ている。 1) {\displaystyle \emph{Block Sparse Row} 行列による大量の記憶空間の節約。 2)高いスパース性で優れた性能を示す。 3)アドバンストベクトル拡張によるCPU上の重要なスピードアップ。 最近の作業では、厳密なトレーニング済み重量に基づいて1$\times$Nスパースウェイトを選択して微調整する必要があるため、高価なトレーニングコストやメモリアクセス、サブ最適モデルの品質、スレッド間の不均衡なワークロード(出力チャネル間の間隔)といった問題が発生する。 そこで本稿では,一様 1$\times$n スパース構造化ネットワークをスクラッチからトレーニングするために,新しい \emph{\textbf{s}oft \textbf{u}niform \textbf{b}lock \textbf{p}runing} (subp) 手法を提案する。 特に,本手法では,ブロック角の冗長性や重要度をトレーニング過程を通じて一様にサンプリングすることにより,ブロックを繰り返しネットワークに再起動させる。 モデルの事前トレーニングへの依存を減らし、モデルの冗長性と重要なブロックを恒久的に切断するリスクを低減するだけでなく、バランスの取れたワークロードも達成する。 imagenetでは、さまざまなcnnアーキテクチャにわたる包括的な実験によって、トレーニング済みモデルやスクラッチからのトレーニングに基づいて、既存の1$\times$nと構造化スパーシティメソッドを一貫して上回っています。 ソースコードとモデルは \url{https://github.com/jingyangxiang/subp} で入手できる。

The study of sparsity in Convolutional Neural Networks (CNNs) has become widespread to compress and accelerate models in environments with limited resources. By constraining N consecutive weights along the output channel to be group-wise non-zero, the recent network with 1$\times$N sparsity has received tremendous popularity for its three outstanding advantages: 1) A large amount of storage space saving by a \emph{Block Sparse Row} matrix. 2) Excellent performance at a high sparsity. 3) Significant speedups on CPUs with Advanced Vector Extensions. Recent work requires selecting and fine-tuning 1$\times$N sparse weights based on dense pre-trained weights, leading to the problems such as expensive training cost and memory access, sub-optimal model quality, as well as unbalanced workload across threads (different sparsity across output channels). To overcome them, this paper proposes a novel \emph{\textbf{S}oft \textbf{U}niform \textbf{B}lock \textbf{P}runing} (SUBP) approach to train a uniform 1$\times$N sparse structured network from scratch. Specifically, our approach tends to repeatedly allow pruned blocks to regrow to the network based on block angular redundancy and importance sampling in a uniform manner throughout the training process. It not only makes the model less dependent on pre-training, reduces the model redundancy and the risk of pruning the important blocks permanently but also achieves balanced workload. Empirically, on ImageNet, comprehensive experiments across various CNN architectures show that our SUBP consistently outperforms existing 1$\times$N and structured sparsity methods based on pre-trained models or training from scratch. Source codes and models are available at \url{https://github.com/JingyangXiang/SUBP}.
翻訳日:2023-10-11 21:17:59 公開日:2023-10-10
# CoT3DRef:データ効率のよい3Dビジュアルグラウンド

CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding ( http://arxiv.org/abs/2310.06214v1 )

ライセンス: Link先を確認
Eslam Mohamed Bakr, Mohamed Ayman, Mahmoud Ahmed, Habib Slim, Mohamed Elhoseiny(参考訳) 3Dビジュアルグラウンドティングは、発話によって条件付けられた3Dシーンでオブジェクトをローカライズする機能である。 既存のほとんどのメソッドは参照ヘッドを使って参照オブジェクトを直接ローカライズし、複雑なシナリオで失敗する。 さらに、ネットワークが最終決定に達する方法や理由も説明されていない。 本稿では,人間の知覚システムを模倣する可能性を秘めた,解釈可能な3次元視覚接地フレームワークを設計できるのか? . この目的のために、まずアンカーの連鎖と最終ターゲットを予測することによって、シーケンス・ツー・シーケンスタスクとして3次元視覚接地問題を定式化する。 解釈性は全体的なパフォーマンスを向上させるだけでなく、障害事例の特定にも役立ちます。 思考の連鎖に従えば、参照タスクを解釈可能な中間ステップに分解し、パフォーマンスを高め、フレームワークを極めてデータ効率良くすることができる。 さらに,提案するフレームワークは既存のアーキテクチャに容易に組み込むことができる。 我々は,Nr3D,Sr3D,Scanreferベンチマークの総合的な実験を通じてアプローチを検証するとともに,手動のアノテートデータを必要としない既存手法と比較して一貫した性能向上を示す。 さらに,提案フレームワークであるcot3drefはデータ効率が著しく向上するが,sr3dデータセットでは10%のデータしかトレーニングしない場合,データ全体のsata性能と一致している。

3D visual grounding is the ability to localize objects in 3D scenes conditioned by utterances. Most existing methods devote the referring head to localize the referred object directly, causing failure in complex scenarios. In addition, it does not illustrate how and why the network reaches the final decision. In this paper, we address this question Can we design an interpretable 3D visual grounding framework that has the potential to mimic the human perception system?. To this end, we formulate the 3D visual grounding problem as a sequence-to-sequence task by first predicting a chain of anchors and then the final target. Interpretability not only improves the overall performance but also helps us identify failure cases. Following the chain of thoughts approach enables us to decompose the referring task into interpretable intermediate steps, boosting the performance and making our framework extremely data-efficient. Moreover, our proposed framework can be easily integrated into any existing architecture. We validate our approach through comprehensive experiments on the Nr3D, Sr3D, and Scanrefer benchmarks and show consistent performance gains compared to existing methods without requiring manually annotated data. Furthermore, our proposed framework, dubbed CoT3DRef, is significantly data-efficient, whereas on the Sr3D dataset, when trained only on 10% of the data, we match the SOTA performance that trained on the entire data.
翻訳日:2023-10-11 21:17:23 公開日:2023-10-10
# geollm: 大きな言語モデルから地理空間知識を抽出する

GeoLLM: Extracting Geospatial Knowledge from Large Language Models ( http://arxiv.org/abs/2310.06213v1 )

ライセンス: Link先を確認
Rohin Manvi, Samar Khanna, Gengchen Mai, Marshall Burke, David Lobell, Stefano Ermon(参考訳) 様々な地理空間タスクにおける機械学習(ml)の応用は、ますます一般的になっているが、しばしば、費用のかかる衛星画像や予測能力の欠如といった世界的な共変量に依存する。 本稿では,現在大規模言語モデル(llm)に圧縮されているインターネット言語コーパスに含まれる膨大な知識が,地理空間予測タスクに活用できるかどうかを考察する。 まず, LLMが位置に関する顕著な空間情報を埋め込んでいることを実証するが, 地理的座標だけでは, 人口密度などの重要な指標を予測するのに有効ではない。 次に,openstreetmap から補助地図データを用いて llm から地理空間知識を効果的に抽出する手法 geollm を提案する。 我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。 これらの課題を通して,本手法は,近辺のユーザやプロンプトから直接情報を利用するベースラインと比較して70%の改善(pearsonの$r^2$を用いて測定)し,文献における衛星ベースのベンチマークと同等かそれ以上の性能を示す。 GeoLLM では GPT-3.5 が Llama 2 と RoBERTa を 19% と 51% で上回り,本手法の性能はモデルのサイズや事前学習データセットとよく一致している。 実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。 重要なことは、GeoLLMは既存の地理空間共変体の制限を緩和し、それらをうまく補うことを約束している。

The application of machine learning (ML) in a range of geospatial tasks is increasingly common but often relies on globally available covariates such as satellite imagery that can either be expensive or lack predictive power. Here we explore the question of whether the vast amounts of knowledge found in Internet language corpora, now compressed within large language models (LLMs), can be leveraged for geospatial prediction tasks. We first demonstrate that LLMs embed remarkable spatial information about locations, but naively querying LLMs using geographic coordinates alone is ineffective in predicting key indicators like population density. We then present GeoLLM, a novel method that can effectively extract geospatial knowledge from LLMs with auxiliary map data from OpenStreetMap. We demonstrate the utility of our approach across multiple tasks of central interest to the international community, including the measurement of population density and economic livelihoods. Across these tasks, our method demonstrates a 70% improvement in performance (measured using Pearson's $r^2$) relative to baselines that use nearest neighbors or use information directly from the prompt, and performance equal to or exceeding satellite-based benchmarks in the literature. With GeoLLM, we observe that GPT-3.5 outperforms Llama 2 and RoBERTa by 19% and 51% respectively, suggesting that the performance of our method scales well with the size of the model and its pretraining dataset. Our experiments reveal that LLMs are remarkably sample-efficient, rich in geospatial information, and robust across the globe. Crucially, GeoLLM shows promise in mitigating the limitations of existing geospatial covariates and complementing them well.
翻訳日:2023-10-11 21:16:58 公開日:2023-10-10
# ギストは? 大規模言語モデルによる音声の非コンテクスト化

Get the gist? Using large language models for few-shot decontextualization ( http://arxiv.org/abs/2310.06254v1 )

ライセンス: Link先を確認
Benjamin Kane and Lenhart Schubert(参考訳) 例えば情報検索システムや対話システムなど、リッチなコンテキスト内で文を解釈する多くのnlpアプリケーションでは、後に再利用するために、文脈なしで容易に理解可能な形式で文を保存することが望ましい。 以前の研究では、生成型seq2seqモデルが特定のデータセット上で微調整された後に、効果的にデコンテキスト化を行うことができることを示したが、このアプローチには高価なヒューマンアノテーションが必要であり、他のドメインへの転送はできない。 本稿では,大規模言語モデルを用いたデコンテクスチャライズ手法を提案するとともに,本手法が複数のドメインで実現可能であることを示す予備的な結果を示す。

In many NLP applications that involve interpreting sentences within a rich context -- for instance, information retrieval systems or dialogue systems -- it is desirable to be able to preserve the sentence in a form that can be readily understood without context, for later reuse -- a process known as ``decontextualization''. While previous work demonstrated that generative Seq2Seq models could effectively perform decontextualization after being fine-tuned on a specific dataset, this approach requires expensive human annotations and may not transfer to other domains. We propose a few-shot method of decontextualization using a large language model, and present preliminary results showing that this method achieves viable performance on multiple domains using only a small set of examples.
翻訳日:2023-10-11 21:09:30 公開日:2023-10-10
# モデルベース強化学習における客観的ミスマッチ解消の統一的視点

A Unified View on Solving Objective Mismatch in Model-Based Reinforcement Learning ( http://arxiv.org/abs/2310.06253v1 )

ライセンス: Link先を確認
Ran Wei, Nathan Lambert, Anthony McDonald, Alfredo Garcia, Roberto Calandra(参考訳) モデルベース強化学習(MBRL)は、エージェントが環境の明示的なモデルを学ぶことで、よりサンプリング効率、適応性、説明しやすくすることを目的としている。 MBRLエージェントの能力は近年大幅に改善されているが、モデルをどのように学習するかはまだ未解決の問題である。 MBRLアルゴリズムの大半は、環境に関する正確な予測を行うためにモデルをトレーニングすることを目的としており、その後、最も報われる行動を決定するためにモデルを使用する。 しかし、最近の研究では、モデル予測精度は行動品質と相関せず、正確な力学モデル学習と報酬のポリシー最適化の間に根本原因を「emph{objective mismatch}」に追従していることが示されている。 MBRLが研究領域として成熟を続けるにつれ、客観的なミスマッチ問題に対する多くの相互関連ソリューションカテゴリが出現している。 本研究では,これらの解のカテゴリについて詳細な調査を行い,今後の研究を育むための分類法を提案する。

Model-based Reinforcement Learning (MBRL) aims to make agents more sample-efficient, adaptive, and explainable by learning an explicit model of the environment. While the capabilities of MBRL agents have significantly improved in recent years, how to best learn the model is still an unresolved question. The majority of MBRL algorithms aim at training the model to make accurate predictions about the environment and subsequently using the model to determine the most rewarding actions. However, recent research has shown that model predictive accuracy is often not correlated with action quality, tracing the root cause to the \emph{objective mismatch} between accurate dynamics model learning and policy optimization of rewards. A number of interrelated solution categories to the objective mismatch problem have emerged as MBRL continues to mature as a research area. In this work, we provide an in-depth survey of these solution categories and propose a taxonomy to foster future research.
翻訳日:2023-10-11 21:09:16 公開日:2023-10-10
# deep learning: チュートリアル

Deep Learning: A Tutorial ( http://arxiv.org/abs/2310.06251v1 )

ライセンス: Link先を確認
Nick Polson and Vadim Sokolov(参考訳) 我々の目標は、構造化された高次元データに対する洞察を提供するディープラーニング手法のレビューを提供することである。 多くの統計モデルに共通する浅い付加的アーキテクチャを使う代わりに、ディープラーニングは半ファイン入力変換の層を使って予測ルールを提供する。 これらの変換層を適用すると、確率的統計的手法を適用できる属性(または特徴)の集合が生まれる。 したがって、両方の世界の最良のものは、不確実な定量化で強化されたスケーラブルな予測ルールである。

Our goal is to provide a review of deep learning methods which provide insight into structured high-dimensional data. Rather than using shallow additive architectures common to most statistical models, deep learning uses layers of semi-affine input transformations to provide a predictive rule. Applying these layers of transformations leads to a set of attributes (or, features) to which probabilistic statistical methods can be applied. Thus, the best of both worlds can be achieved: scalable prediction rules fortified with uncertainty quantification, where sparse regularization finds the features.
翻訳日:2023-10-11 21:08:58 公開日:2023-10-10
# 私たちは繰り返し、ペルソナベースのレスポンスで習慣スキーマを導入しデプロイします。

We are what we repeatedly do: Inducing and deploying habitual schemas in persona-based responses ( http://arxiv.org/abs/2310.06245v1 )

ライセンス: Link先を確認
Benjamin Kane and Lenhart Schubert(参考訳) 対話技術の多くの実用的な応用には、特定の開発者特定人格に応じた応答の生成が必要である。 最近の大規模言語モデルから様々なペルソナが導かれるが、これらのモデルの不透明さと予測不可能性により、ペルソナを明示的な形式で指定することが望ましい。 以前の研究では、ペルソナは一般的に1対1の自己知識の集合として表現され、それによって対話システムが生成時に使用する。 しかし、現実の人間との会話では、エージェントがしばしば参加する出来事の種類(仕事活動、趣味、スポーツ活動、お気に入りの娯楽など)に関する知識、典型的な目標、サブイベント、プリコンディション、ポストコンディションなど、リッチな習慣的知識を含む物語のような物語を通してペルソナが明らかにされることが多い。 明示的なスキーマ表現を用いてそのような習慣的知識をキャプチャし、対話生成手法を提案し、関連するスキーマを検索して大きな言語モデルを条件付けしてペルソナに基づく応答を生成する。 さらに,まず一連の単純な事実からジェネリックパスを生成し,生成したパスからスキーマを誘導することで,そのようなスキーマの作成をブートストラップする方法を示す。

Many practical applications of dialogue technology require the generation of responses according to a particular developer-specified persona. While a variety of personas can be elicited from recent large language models, the opaqueness and unpredictability of these models make it desirable to be able to specify personas in an explicit form. In previous work, personas have typically been represented as sets of one-off pieces of self-knowledge that are retrieved by the dialogue system for use in generation. However, in realistic human conversations, personas are often revealed through story-like narratives that involve rich habitual knowledge -- knowledge about kinds of events that an agent often participates in (e.g., work activities, hobbies, sporting activities, favorite entertainments, etc.), including typical goals, sub-events, preconditions, and postconditions of those events. We capture such habitual knowledge using an explicit schema representation, and propose an approach to dialogue generation that retrieves relevant schemas to condition a large language model to generate persona-based responses. Furthermore, we demonstrate a method for bootstrapping the creation of such schemas by first generating generic passages from a set of simple facts, and then inducing schemas from the generated passages.
翻訳日:2023-10-11 21:08:50 公開日:2023-10-10
# データから力学系の解釈可能なラグランジアンを発見するベイズフレームワーク

A Bayesian framework for discovering interpretable Lagrangian of dynamical systems from data ( http://arxiv.org/abs/2310.06241v1 )

ライセンス: Link先を確認
Tapas Tripura and Souvik Chakraborty(参考訳) 物理システムのダイナミクスを学習し、予測するには、基礎となる物理法則を深く理解する必要がある。 物理法則の学習に関する最近の研究は、方程式発見フレームワークをハミルトニアンとラグランジアンの物理系の発見に一般化することを含んでいる。 既存の手法はニューラルネットワークを用いてラグランジアンをパラメータ化するが、スパースベイズ手法を用いて限られたデータから物理的システムの解釈可能なラグランジアン記述を学習するための代替フレームワークを提案する。 既存のニューラルネットワークベースのアプローチとは異なり、提案されたアプローチ a)ラグランジュ語の解釈可能な記述を与える。 (b)限られたデータによるてんかんの不確かさの定量化にベイズ学習を利用する。 c) ルジャンドル変換を用いて学習したラグランジアンからハミルトニアンの蒸留を自動化し、 (d) は観測系の通常の(ode)および偏微分方程式(pde)に基づく記述を提供する。 離散システムと連続システムの両方に関わる6つの異なる例は、提案手法の有効性を示している。

Learning and predicting the dynamics of physical systems requires a profound understanding of the underlying physical laws. Recent works on learning physical laws involve generalizing the equation discovery frameworks to the discovery of Hamiltonian and Lagrangian of physical systems. While the existing methods parameterize the Lagrangian using neural networks, we propose an alternate framework for learning interpretable Lagrangian descriptions of physical systems from limited data using the sparse Bayesian approach. Unlike existing neural network-based approaches, the proposed approach (a) yields an interpretable description of Lagrangian, (b) exploits Bayesian learning to quantify the epistemic uncertainty due to limited data, (c) automates the distillation of Hamiltonian from the learned Lagrangian using Legendre transformation, and (d) provides ordinary (ODE) and partial differential equation (PDE) based descriptions of the observed systems. Six different examples involving both discrete and continuous system illustrates the efficacy of the proposed approach.
翻訳日:2023-10-11 21:08:26 公開日:2023-10-10
# モデルチューニングか、プロンプトチューニングか? 臨床概念と関係抽出のための大規模言語モデルの検討

Model Tuning or Prompt Tuning? A Study of Large Language Models for Clinical Concept and Relation Extraction ( http://arxiv.org/abs/2310.06239v1 )

ライセンス: Link先を確認
Cheng Peng, Xi Yang, Kaleb E Smith, Zehao Yu, Aokun Chen, Jiang Bian, Yonghui Wu(参考訳) 目的 大規模言語モデル(LLM)のためのソフトプロンプトベース学習アルゴリズムの開発,プロンプトの形状,凍結・凍結LDMを用いたプロンプトチューニング,トランスファラーニング,少数ショット学習能力について検討する。 方法 ソフトプロンプトベースLLMモデルを開発し,(1)プロンプトなしの微調整,(2)凍結LLM付きハードプロンプト,(3)凍結LLM付きソフトプロンプト,(4)凍結LLM付きソフトプロンプトの4つのトレーニング戦略を比較した。 2つのベンチマークデータセットを用いて,臨床概念と関係抽出のための4つのトレーニング戦略を用いて,事前学習した7つのLSMを評価した。 クロスインスティテュート環境下では,プロンプトベース学習アルゴリズムの伝達学習能力を評価した。 また,学習能力も評価した。 結果と結論 LLM が凍結しない場合、GatorTron-3.9B はソフトプロンプトの F1 スコアを0.9118 と 0.8604 でそれぞれ0.6~3.1% と 1.2~2.9% で上回り、ソフトプロンプトの GatorTron-345M は0.8332 と 0.7488 で最高 F1 スコアをそれぞれ0.22% と 0.6~11.7% で上回ります。 LLMが凍結されると(すなわち3億4500万のパラメータ)、LLMは未凍結モデルと競合する大きなギャップを持つ。 クロスインフォーマル評価では、凍ったGatorTron-8.9Bモデルによるソフトプロンプトが最高性能を達成した。 本研究は,(1)機械が人間よりもソフトプロンプトを学習できること,(2)冷凍LLMはミューティ・インスティテュート・アプリケーションを促進するために,より少ないショット学習能力とトランスファー学習能力を有すること,(3)冷凍LLMは大きなモデルを必要とすることを実証する。

Objective To develop soft prompt-based learning algorithms for large language models (LLMs), examine the shape of prompts, prompt-tuning using frozen/unfrozen LLMs, transfer learning, and few-shot learning abilities. Methods We developed a soft prompt-based LLM model and compared 4 training strategies including (1) fine-tuning without prompts; (2) hard-prompt with unfrozen LLMs; (3) soft-prompt with unfrozen LLMs; and (4) soft-prompt with frozen LLMs. We evaluated 7 pretrained LLMs using the 4 training strategies for clinical concept and relation extraction on two benchmark datasets. We evaluated the transfer learning ability of the prompt-based learning algorithms in a cross-institution setting. We also assessed the few-shot learning ability. Results and Conclusion When LLMs are unfrozen, GatorTron-3.9B with soft prompting achieves the best strict F1-scores of 0.9118 and 0.8604 for concept extraction, outperforming the traditional fine-tuning and hard prompt-based models by 0.6~3.1% and 1.2~2.9%, respectively; GatorTron-345M with soft prompting achieves the best F1-scores of 0.8332 and 0.7488 for end-to-end relation extraction, outperforming the other two models by 0.2~2% and 0.6~11.7%, respectively. When LLMs are frozen, small (i.e., 345 million parameters) LLMs have a big gap to be competitive with unfrozen models; scaling LLMs up to billions of parameters makes frozen LLMs competitive with unfrozen LLMs. For cross-institute evaluation, soft prompting with a frozen GatorTron-8.9B model achieved the best performance. This study demonstrates that (1) machines can learn soft prompts better than humans, (2) frozen LLMs have better few-shot learning ability and transfer learning ability to facilitate muti-institution applications, and (3) frozen LLMs require large models.
翻訳日:2023-10-11 21:08:11 公開日:2023-10-10
# MUSIC-AVQAのデータバイアスに対処する - 偏見のない質問応答のためのバランスのとれたデータセットの構築

Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering ( http://arxiv.org/abs/2310.06238v1 )

ライセンス: Link先を確認
Xiulong Liu and Zhikang Dong and Peng Zhang(参考訳) 近年、音声、視覚、テキストのモダリティの交わりがますます強調され、マルチモーダル研究の進歩が進んでいる。 しかしながら、任意のモダリティに存在する強いバイアスは、他のモデルを無視してしまう可能性がある。 その結果、モデルがこれらの多様なモダリティを効果的に推論する能力は妥協され、さらなる進歩を妨げる。 本稿では,各質問種別を元のデータセットから精査し,回答バイアスが明瞭な質問種別を選択する。 これらのバイアスに対処するため、補完的なビデオや質問を収集し、回答が偏りのない分布を保証します。 特に、二分問題に対しては、両方の答えが各質問カテゴリにほぼ均一に広がるように努力する。 その結果、我々はMUSIC-AVQA v2.0という新しいデータセットを構築した。 さらに,音声-視覚-テキスト相互関係を深く掘り下げる新しいベースラインモデルを提案する。 MUSIC-AVQA v2.0では、このモデルは既存のベンチマークをすべて上回り、MUSIC-AVQA v2.0では精度を2%向上させ、新しい最先端のパフォーマンスを設定できる。

In recent years, there has been a growing emphasis on the intersection of audio, vision, and text modalities, driving forward the advancements in multimodal research. However, strong bias that exists in any modality can lead to the model neglecting the others. Consequently, the model's ability to effectively reason across these diverse modalities is compromised, impeding further advancement. In this paper, we meticulously review each question type from the original dataset, selecting those with pronounced answer biases. To counter these biases, we gather complementary videos and questions, ensuring that no answers have outstanding skewed distribution. In particular, for binary questions, we strive to ensure that both answers are almost uniformly spread within each question category. As a result, we construct a new dataset, named MUSIC-AVQA v2.0, which is more challenging and we believe could better foster the progress of AVQA task. Furthermore, we present a novel baseline model that delves deeper into the audio-visual-text interrelation. On MUSIC-AVQA v2.0, this model surpasses all the existing benchmarks, improving accuracy by 2% on MUSIC-AVQA v2.0, setting a new state-of-the-art performance.
翻訳日:2023-10-11 21:07:19 公開日:2023-10-10
# アダプタ再構成による大型視覚変圧器の効率的な適応

Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing ( http://arxiv.org/abs/2310.06234v1 )

ライセンス: Link先を確認
Wei Dong, Dawei Yan, Zhijun Lin, Peng Wang(参考訳) 高容量事前学習モデルの出現は、コンピュータビジョンにおける問題解決に革命をもたらし、タスク固有のモデルの訓練から事前学習モデルへの適応へと焦点を移した。 その結果,大規模な事前学習モデルによる下流作業の効率化が目覚ましい研究領域となっている。 既存のソリューションは主に軽量アダプタの設計と、事前訓練されたモデルとの相互作用に焦点を当てており、更新を必要とするパラメータの数を最小化することを目的としている。 本研究では,新しい視点からより効率的な事前学習モデル適応に対応する新しいアダプタ再合成(arc)戦略を提案する。 本稿では適応パラメータの再利用性を検討し,パラメータ共有方式を提案する。 具体的には、対称的なダウン/アッププロジェクションを利用して、レイヤ間で共有されるボトルネック操作を構築します。 低次元再スケーリング係数を学習することにより、層適応型アダプタを効果的に再構成することができる。 アダプタ設計におけるパラメータ共有戦略により、良好な性能を維持しつつ、新しいパラメータの数を著しく削減し、適応コストを圧縮するための有望なアプローチを提供する。 様々な視覚変換器を用いた24の下流画像分類タスクの実験を行い,その評価を行った。 その結果,本手法はパラメータ数を減らし,魅力的な伝達学習性能が得られることを示した。 私たちのコードは \href{https://github.com/DavidYanAnDe/ARC}{https://github.com/DavidYanAnDe/ARC} で利用可能です。

The advent of high-capacity pre-trained models has revolutionized problem-solving in computer vision, shifting the focus from training task-specific models to adapting pre-trained models. Consequently, effectively adapting large pre-trained models to downstream tasks in an efficient manner has become a prominent research area. Existing solutions primarily concentrate on designing lightweight adapters and their interaction with pre-trained models, with the goal of minimizing the number of parameters requiring updates. In this study, we propose a novel Adapter Re-Composing (ARC) strategy that addresses efficient pre-trained model adaptation from a fresh perspective. Our approach considers the reusability of adaptation parameters and introduces a parameter-sharing scheme. Specifically, we leverage symmetric down-/up-projections to construct bottleneck operations, which are shared across layers. By learning low-dimensional re-scaling coefficients, we can effectively re-compose layer-adaptive adapters. This parameter-sharing strategy in adapter design allows us to significantly reduce the number of new parameters while maintaining satisfactory performance, thereby offering a promising approach to compress the adaptation cost. We conduct experiments on 24 downstream image classification tasks using various Vision Transformer variants to evaluate our method. The results demonstrate that our approach achieves compelling transfer learning performance with a reduced parameter count. Our code is available at \href{https://github.com/DavidYanAnDe/ARC}{https://github.com/DavidYanAnDe/ARC}.
翻訳日:2023-10-11 21:06:57 公開日:2023-10-10
# Spiking PointNet: ポイントクラウドのためのスパイクニューラルネットワーク

Spiking PointNet: Spiking Neural Networks for Point Clouds ( http://arxiv.org/abs/2310.06232v1 )

ライセンス: Link先を確認
Dayong Ren, Zhe Ma, Yuanpei Chen, Weihang Peng, Xiaode Liu, Yuhan Zhang, Yufei Guo(参考訳) 近年、エネルギー効率が極端に高いスパイキングニューラルネットワーク(SNN)は、2次元視覚認識に多くの研究関心を集め、徐々に応用可能性を高めている。 しかし、SNNが3D認識に一般化できるかどうかはまだ解明されていない。 そこで本研究では,ポイントクラウド上の効率的な深層学習のための最初のスパイキングニューラルモデルであるspyking pointnetについて述べる。 ポイントクラウドにおけるSNNの適用を制限する2つの大きな障害は、大きなタイムステップを持つ大きなスパイクモデルのトレーニングを妨げるSNNの本質的な最適化障害と、大きなスパイクポイントモデルのトレーニングを非現実的にするPointNetの高価なメモリと計算コストである。 この問題を同時に解くために、理論的正当化と詳細な実験分析によるSpike PointNetの学習パラダイムを提案する。 具体的には、spiking pointnetは単一のタイムステップでトレーニングされていますが、複数のタイムステップで直接トレーニングされたものよりも、複数のタイムステップの推論でより良いパフォーマンスを得ることができます。 スパイキングポイントネットの有効性を実証するために,ModelNet10,ModelNet40の様々な実験を行った。 私たちのSpking PointNetは、SNN分野では珍しいANNよりも優れています。 さらに、spiking pointnetはトレーニングフェーズで驚くべきスピードアップとストレージの節約を示す。

Recently, Spiking Neural Networks (SNNs), enjoying extreme energy efficiency, have drawn much research attention on 2D visual recognition and shown gradually increasing application potential. However, it still remains underexplored whether SNNs can be generalized to 3D recognition. To this end, we present Spiking PointNet in the paper, the first spiking neural model for efficient deep learning on point clouds. We discover that the two huge obstacles limiting the application of SNNs in point clouds are: the intrinsic optimization obstacle of SNNs that impedes the training of a big spiking model with large time steps, and the expensive memory and computation cost of PointNet that makes training a big spiking point model unrealistic. To solve the problems simultaneously, we present a trained-less but learning-more paradigm for Spiking PointNet with theoretical justifications and in-depth experimental analysis. In specific, our Spiking PointNet is trained with only a single time step but can obtain better performance with multiple time steps inference, compared to the one trained directly with multiple time steps. We conduct various experiments on ModelNet10, ModelNet40 to demonstrate the effectiveness of Spiking PointNet. Notably, our Spiking PointNet even can outperform its ANN counterpart, which is rare in the SNN field thus providing a potential research direction for the following work. Moreover, Spiking PointNet shows impressive speedup and storage saving in the training phase.
翻訳日:2023-10-11 21:06:34 公開日:2023-10-10
# 自然言語処理技術の進化:汎用AIに向けた言語処理だけではない

Evolution of Natural Language Processing Technology: Not Just Language Processing Towards General Purpose AI ( http://arxiv.org/abs/2310.06228v1 )

ライセンス: Link先を確認
Masahiro Yamamoto(参考訳) コンピュータの発明以来、自然言語(現実の人間言語)によるコミュニケーションは夢の技術となっている。 しかし、自然言語の数学的定式化は非常に困難であり、プログラミングを考慮せずにアルゴリズムとして実現することは困難である。 技術開発は数多く行われているが、自由利用を可能にする結果がこれまでに達成されたとは言い切れない。 人間の言語学習の場合、例えば母国語や外国語を学習する場合、学習方法が一点まで重要なものであるにもかかわらず、この過程は原則として「実践が完璧になる」という格言に類似していることを認めなければならない。 近年、ディープラーニングは現代のAI技術において中心的な役割を果たしている。 自然言語処理(NLP)に適用すると、前例のない結果が得られた。 深層学習を用いて大量のテキストデータを学習した結果,初期予測を超える成果が報告されている。 例えば、4つの算術演算を明示的な学習なしに行うことができ、複雑な画像の説明と対応する説明文からの画像の生成を可能にする。 大量のテキストデータを用いて「実践は完璧」という概念を具現化した学習者の正確な例である。 本報告は,最先端NLPがいかにして「実践が完璧である」原理を実現するかの技術的説明を提供する。 また、ビジネスにどのように適用できるかの例も提供されている。 2022年6月に日本におけるNLP運動について報告した。 現在の大規模言語モデル(llm)への最初の動きに過ぎないので、これを覚書として要約したいと思います。

Since the invention of computers, communication through natural language (actual human language) has been a dream technology. However, natural language is extremely difficult to mathematically formulate, making it difficult to realize as an algorithm without considering programming. While there have been numerous technological developments, one cannot say that any results allowing free utilization have been achieved thus far. In the case of language learning in humans, for instance when learning one's mother tongue or foreign language, one must admit that this process is similar to the adage "practice makes perfect" in principle, even though the learning method is significant up to a point. Deep learning has played a central role in contemporary AI technology in recent years. When applied to natural language processing (NLP), this produced unprecedented results. Achievements exceeding the initial predictions have been reported from the results of learning vast amounts of textual data using deep learning. For instance, four arithmetic operations could be performed without explicit learning, thereby enabling the explanation of complex images and the generation of images from corresponding explanatory texts. It is an accurate example of the learner embodying the concept of "practice makes perfect" by using vast amounts of textual data. This report provides a technological explanation of how cutting-edge NLP has made it possible to realize the "practice makes perfect" principle. Additionally, examples of how this can be applied to business are provided. We reported in June 2022 in Japanese on the NLP movement from late 2021 to early 2022. We would like to summarize this as a memorandum since this is just the initial movement leading to the current large language models (LLMs).
翻訳日:2023-10-11 21:06:11 公開日:2023-10-10
# 高忠実度3次元頭部アバターの空間可変表現型ニューラルラジアンスフィールドによる再構成

High-Fidelity 3D Head Avatars Reconstruction through Spatially-Varying Expression Conditioned Neural Radiance Field ( http://arxiv.org/abs/2310.06275v1 )

ライセンス: Link先を確認
Minghan Qin, Yifan Liu, Yuelang Xu, Xiaochen Zhao, Yebin Liu, Haoqian Wang(参考訳) 3D頭部アバター再建の1つの重要な側面は表情の細部にある。 近年のNeRFベースの光リアル3Dヘッドアバター法は高品質なアバターレンダリングを実現するが、放射野の条件付け時に異なる空間位置における特定の表情変化の可能性を見落としているため、複雑な表情の詳細を保ったままの課題に直面する。 本研究の目的は,新しい空間変化表現(SVE)条件の導入である。 SVEは、空間的位置特徴と大域的表現情報の両方を含む、単純なMLPベースの生成ネットワークで得ることができる。 異なる位置におけるSVEの多種多様な情報から、提案されたSVE条件の神経放射場は、複雑な表情に対処し、高忠実度3Dヘッドアバターのリアルなレンダリングと幾何学的詳細を実現することができる。 さらに, 幾何学的, レンダリング的品質をさらに高めるために, 粗い段階における幾何学的初期化戦略と, 微妙な段階における適応的重要サンプリング戦略を含む, 新たな粗さから細かなトレーニング戦略を導入する。 大規模な実験により,携帯電話および公開データセットのレンダリングおよび幾何学的品質において,本手法が他の最先端(SOTA)手法よりも優れていることが示された。

One crucial aspect of 3D head avatar reconstruction lies in the details of facial expressions. Although recent NeRF-based photo-realistic 3D head avatar methods achieve high-quality avatar rendering, they still encounter challenges retaining intricate facial expression details because they overlook the potential of specific expression variations at different spatial positions when conditioning the radiance field. Motivated by this observation, we introduce a novel Spatially-Varying Expression (SVE) conditioning. The SVE can be obtained by a simple MLP-based generation network, encompassing both spatial positional features and global expression information. Benefiting from rich and diverse information of the SVE at different positions, the proposed SVE-conditioned neural radiance field can deal with intricate facial expressions and achieve realistic rendering and geometry details of high-fidelity 3D head avatars. Additionally, to further elevate the geometric and rendering quality, we introduce a new coarse-to-fine training strategy, including a geometry initialization strategy at the coarse stage and an adaptive importance sampling strategy at the fine stage. Extensive experiments indicate that our method outperforms other state-of-the-art (SOTA) methods in rendering and geometry quality on mobile phone-collected and public datasets.
翻訳日:2023-10-11 20:58:10 公開日:2023-10-10
# 解離アルゴリズムを用いた量子状態トモグラフィ

Quantum state tomography with disentanglement algorithm ( http://arxiv.org/abs/2310.06273v1 )

ライセンス: Link先を確認
Juan Yao(参考訳) 本研究では, 量子状態再構成プロセスについて, ディコンタングルメントアルゴリズムに基づく検討を行った。 変動量子回路を用いて、量子状態を計算ゼロ状態の積に分解する。 ゼロ状態の逆の進化は、全体的な位相まで量子状態を再構成する。 キュービットを1つずつ順次切り離すことで、必要な測定量を1つのキュービット測定で削減する。 乱数状態の再構成に関する提案とともに, 量子回路の異種化を最適化する実験を行った。 実験的な実装を容易にするために,離散量子ゲートを限定した量子回路設計のための強化学習も行う。 我々の方法は普遍的であり、量子状態に特定のアンサッツや制約を課さない。

In this work, we report on a novel quantum state reconstruction process based on the disentanglement algorithm. Using variational quantum circuits, we disentangle the quantum state to a product of computational zero states. Inverse evolution of the zero states reconstructs the quantum state up to an overall phase. By sequentially disentangling the qubit one by one, we reduce the required measurements with only single qubit measurement. Demonstrations with our proposal for the reconstruction of the random states are presented where variational quantum circuit is optimized by disentangling process. To facilitate experimental implementation, we also employ reinforcement learning for quantum circuit design with limited discrete quantum gates. Our method is universal and imposes no specific ansatz or constrain on the quantum state.
翻訳日:2023-10-11 20:57:48 公開日:2023-10-10
# Let Models Speakciphers: Embeddingsによるマルチエージェント討論

Let Models Speak Ciphers: Multiagent Debate through Embeddings ( http://arxiv.org/abs/2310.06272v1 )

ライセンス: Link先を確認
Chau Pham, Boyi Liu, Yingxiang Yang, Zhengyu Chen, Tianyi Liu, Jianbo Yuan, Bryan A. Plummer, Zhaoran Wang, Hongxia Yang(参考訳) 大規模言語モデル(LLM)の議論と議論は,LLMの推論能力を高める可能性から注目されている。 自然言語は、llmの言語理解能力によるコミュニケーションの明確な選択であるが、自然言語を生成する際に必要とされるトークンサンプリングステップは、語彙全体にわたってモデルの信念を表現するために1つのトークンのみを使用するため、情報損失の潜在的なリスクをもたらす。 本稿では,この問題に対処するために,cipher(communicative inter-model protocol through embedded representation)という通信方式を提案する。 具体的には, LLMからトークンサンプリングステップを取り除き, 生のトランスフォーマー出力の埋め込みを期待することで, 語彙間の信念を伝達させる。 興味深いことに、CIPHERは自然言語から逸脱することで、モデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。 自然言語を用いたLLMの議論手法は従来の推論を1.5-8%の差で上回っているが,本実験の結果,CIPHERの議論はさらに,5つの推論タスクにまたがる1~3.5%,さまざまなサイズのオープンソースLLMを1~3.5%に拡張した。 このことは、LLM間の通信における代替の"言語"としての埋め込みの優位性と堅牢性を示している。

Discussion and debate among Large Language Models (LLMs) have gained considerable attention due to their potential to enhance the reasoning ability of LLMs. Although natural language is an obvious choice for communication due to LLM's language understanding capability, the token sampling step needed when generating natural language poses a potential risk of information loss, as it uses only one token to represent the model's belief across the entire vocabulary. In this paper, we introduce a communication regime named CIPHER (Communicative Inter-Model Protocol Through Embedding Representation) to address this issue. Specifically, we remove the token sampling step from LLMs and let them communicate their beliefs across the vocabulary through the expectation of the raw transformer output embeddings. Remarkably, by deviating from natural language, CIPHER offers an advantage of encoding a broader spectrum of information without any modification to the model weights. While the state-of-the-art LLM debate methods using natural language outperforms traditional inference by a margin of 1.5-8%, our experiment results show that CIPHER debate further extends this lead by 1-3.5% across five reasoning tasks and multiple open-source LLMs of varying sizes. This showcases the superiority and robustness of embeddings as an alternative "language" for communication among LLMs.
翻訳日:2023-10-11 20:57:39 公開日:2023-10-10
# 自己回帰による大規模言語モデルにおける幻覚緩和に向けて

Towards Mitigating Hallucination in Large Language Models via Self-Reflection ( http://arxiv.org/abs/2310.06271v1 )

ライセンス: Link先を確認
Ziwei Ji, Tiezheng Yu, Yan Xu, Nayeon Lee, Etsuko Ishii, Pascale Fung(参考訳) 大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。 しかし、実際的な展開は依然として課題に直面している。特に「幻覚」の問題は、モデルが妥当な音を出すが不適切な情報を生成することである。 この問題は、専門的な概念や潜在的な社会的リスクによって、医療分野で特に重要になる。 本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。 本研究は,幻覚を中心に,一般的な問題解答の同定と理解に焦点を当てている。 この課題に取り組むために,我々は知識獲得と回答生成を組み込んだ対話型自己回帰手法を提案する。 このフィードバックプロセスを通じて,我々のアプローチは,生成した回答の事実性,一貫性,含意を着実に向上させる。 その結果, LLMの対話性とマルチタスク能力を活用し, より正確かつ正確な解が得られることがわかった。 自動評価と人的評価を併用した実験結果から,幻覚減少に対するアプローチがベースラインよりも優れていることが示された。

Large language models (LLMs) have shown promise for generative and knowledge-intensive tasks including question-answering (QA) tasks. However, the practical deployment still faces challenges, notably the issue of "hallucination", where models generate plausible-sounding but unfaithful or nonsensical information. This issue becomes particularly critical in the medical domain due to the uncommon professional concepts and potential social risks involved. This paper analyses the phenomenon of hallucination in medical generative QA systems using widely adopted LLMs and datasets. Our investigation centers on the identification and comprehension of common problematic answers, with a specific emphasis on hallucination. To tackle this challenge, we present an interactive self-reflection methodology that incorporates knowledge acquisition and answer generation. Through this feedback process, our approach steadily enhances the factuality, consistency, and entailment of the generated answers. Consequently, we harness the interactivity and multitasking ability of LLMs and produce progressively more precise and accurate answers. Experimental results on both automatic and human evaluation demonstrate the superiority of our approach in hallucination reduction compared to baselines.
翻訳日:2023-10-11 20:57:09 公開日:2023-10-10
# ベイズレンズを用いた量子最適化アルゴリズムのトレーサビリティ解析

Trainability Analysis of Quantum Optimization Algorithms from a Bayesian Lens ( http://arxiv.org/abs/2310.06270v1 )

ライセンス: Link先を確認
Yanqi Song, Yusen Wu, Sujuan Qin, Qiaoyan Wen, Jingbo B. Wang, Fei Gao(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、近距離量子デバイスにおける最適化問題の解法として広く研究されている変分量子アルゴリズムである。 n$-qubit QAOA回路のトレーニングの有効性、すなわち最適化繰り返しの回数がキュービットの数と多項式的にスケールするにつれて、最適化誤差が一定レベルに収束するかどうかを判断することに注力する。 現実的なシナリオでは、対応するQAOA目的関数のランドスケープは一般に非凸であり、多くの局所最適化を含んでいる。 本研究では,非凸関数の処理におけるベイズ最適化の性能向上を動機として,ベイズ方式のレンズによるQAOA回路のトレーニング性について理論的に検討する。 このレンズは、対応するQAOA目的関数を、特定のガウス過程から引き出されたサンプルと考える。 具体的には、雑音のないQAOA回路と、局所的なパウリチャネルの雑音の多いQAOA回路の2つのシナリオに焦点を当てる。 最初の結果は、回路内の各ブロックの左または右スライスが局所1設計を形成するという広く受け入れられている仮定に基づいて、$\tilde{\mathcal{o}}\left(\sqrt{\log n}\right)$のノイズのないqaoa回路を効率的に訓練できることを示しています。 さらに、各量子ゲートが1/{\rm poly} (n)$から0.1の雑音強度範囲を持つ$q$の局所パウリチャネルの影響を受けている場合、深さが$\mathcal{O}\left(\log n/\log(1/q)\right)$のノイズQAOA回路も効率的に訓練可能であることを示す。 本研究は,中間スケール量子時代における量子最適化アルゴリズムの理論的性能に関する貴重な知見を提供する。

The Quantum Approximate Optimization Algorithm (QAOA) is an extensively studied variational quantum algorithm utilized for solving optimization problems on near-term quantum devices. A significant focus is placed on determining the effectiveness of training the $n$-qubit QAOA circuit, i.e., whether the optimization error can converge to a constant level as the number of optimization iterations scales polynomially with the number of qubits. In realistic scenarios, the landscape of the corresponding QAOA objective function is generally non-convex and contains numerous local optima. In this work, motivated by the favorable performance of Bayesian optimization in handling non-convex functions, we theoretically investigate the trainability of the QAOA circuit through the lens of the Bayesian approach. This lens considers the corresponding QAOA objective function as a sample drawn from a specific Gaussian process. Specifically, we focus on two scenarios: the noiseless QAOA circuit and the noisy QAOA circuit subjected to local Pauli channels. Our first result demonstrates that the noiseless QAOA circuit with a depth of $\tilde{\mathcal{O}}\left(\sqrt{\log n}\right)$ can be trained efficiently, based on the widely accepted assumption that either the left or right slice of each block in the circuit forms a local 1-design. Furthermore, we show that if each quantum gate is affected by a $q$-strength local Pauli channel with the noise strength range of $1/{\rm poly} (n)$ to 0.1, the noisy QAOA circuit with a depth of $\mathcal{O}\left(\log n/\log(1/q)\right)$ can also be trained efficiently. Our results offer valuable insights into the theoretical performance of quantum optimization algorithms in the noisy intermediate-scale quantum era.
翻訳日:2023-10-11 20:56:53 公開日:2023-10-10
# AIハームの意識を高めるための教育ツールとしてのAIインシデントデータベース

The AI Incident Database as an Educational Tool to Raise Awareness of AI Harms: A Classroom Exploration of Efficacy, Limitations, & Future Improvements ( http://arxiv.org/abs/2310.06269v1 )

ライセンス: Link先を確認
Michael Feffer, Nikolas Martelaro, and Hoda Heidari(参考訳) 以前の研究は、ai倫理のトピックをコンピュータとデータサイエンスのカリキュラムに統合する重要性を確立した。 我々は、AI倫理教育の重要な目的の1つは、AI害に対する認識を高めることであることを示す証拠を提供する。 このような害について学ぶにはさまざまな情報源があるが、AIID(The AI Incident Database)は、AI技術の現実世界への展開に起因する害の以前の事例をインデックス化するための、比較的包括的なデータベースを提供する数少ない試みの1つである。 本研究は、社会的に高い領域におけるAI損傷の有病率と重症度に対する意識を高めるための教育ツールとしてのAIIDの有効性を評価する。 本稿では,AIとMLに関する社会的・倫理的考察に焦点をあてた授業の一環として,R1施設で実施した教室で行った研究から得られた知見を報告する。 本研究は,ai倫理の核となる話題に対する学生の初期の認識と,その技術スキルと,倫理的・社会的側面を体系的に考える能力との教育的ギャップを解消したいという欲求を特徴付ける。 データベースと対話することで、学生はAIの被害の大きさや深刻さをよりよく理解し、周囲に緊急感を与えることができる。 a) 機能的で安全なaiを設計すること (b)ガバナンス及び説明責任機構の強化。 最後に,このツールとクラス活動に関する学生のフィードバックをデータベース開発チームと,AI倫理教育におけるAI害の認識を改善するための幅広いコミュニティに対して実行可能なレコメンデーションにまとめる。

Prior work has established the importance of integrating AI ethics topics into computer and data sciences curricula. We provide evidence suggesting that one of the critical objectives of AI Ethics education must be to raise awareness of AI harms. While there are various sources to learn about such harms, The AI Incident Database (AIID) is one of the few attempts at offering a relatively comprehensive database indexing prior instances of harms or near harms stemming from the deployment of AI technologies in the real world. This study assesses the effectiveness of AIID as an educational tool to raise awareness regarding the prevalence and severity of AI harms in socially high-stakes domains. We present findings obtained through a classroom study conducted at an R1 institution as part of a course focused on the societal and ethical considerations around AI and ML. Our qualitative findings characterize students' initial perceptions of core topics in AI ethics and their desire to close the educational gap between their technical skills and their ability to think systematically about ethical and societal aspects of their work. We find that interacting with the database helps students better understand the magnitude and severity of AI harms and instills in them a sense of urgency around (a) designing functional and safe AI and (b) strengthening governance and accountability mechanisms. Finally, we compile students' feedback about the tool and our class activity into actionable recommendations for the database development team and the broader community to improve awareness of AI harms in AI ethics education.
翻訳日:2023-10-11 20:56:15 公開日:2023-10-10
# CodeFuse-13B: 事前訓練された多言語コード大言語モデル

CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model ( http://arxiv.org/abs/2310.06266v1 )

ライセンス: Link先を確認
Peng Di, Jianguo Li, Hang Yu, Wei Jiang, Wenting Cai, Yang Cao, Chaoyu Chen, Dajun Chen, Hongwei Chen, Liang Chen, Gang Fan, Jie Gong, Zi Gong, Wen Hu, Tingting Guo, Zhichao Lei, Ting Li, Zheng Li, Ming Liang, Cong Liao, Bingchang Liu, Jiachen Liu, Zhiwei Liu, Shaojun Lu, Min Shen, Guangpei Wang, Huan Wang, Zhi Wang, Zhaogui Xu, Jiawei Yang, Qing Ye, Gehao Zhang, Yu Zhang, Zelin Zhao, Xunjin Zheng, Hailian Zhou, Lifu Zhu, Xianying Zhu(参考訳) Code Large Language Models (Code LLMs)は、ソフトウェア工学のライフサイクル全体における幅広い応用のために、業界で大きな注目を集めている。 しかし、多言語コード関連タスクに対する非英語入力の理解における既存のモデルの有効性は、まだ十分に研究されていない。 本稿では,オープンソースの事前学習コードllmであるcodefuse-13bを紹介する。 英語と中国語の両方のプロンプトによるコード関連タスク用に特別に設計されており、40以上のプログラミング言語をサポートしている。 CodeFuseは、プログラムアナライザによって注意深くフィルタリングされ、トレーニングプロセス中に最適化された高品質の事前トレーニングデータセットを使用することで、その効果を達成する。 実世界の利用シナリオ、業界標準ベンチマークのHumanEval-x、中国のプロンプト用に特別に設計されたCodeFuseEvalを用いて大規模な実験を行う。 CodeFuseの有効性を評価するため、CodeFuseがうまくデプロイされたAntGroupのソフトウェア開発プロセスから、貴重なフィードバックを積極的に収集しました。 結果は、CodeFuse-13BがHumanEval Pass@1スコアの37.10%を達成し、同様のパラメータサイズを持つトップマルチ言語コードLLMの1つに位置づけたことを示している。 コード生成、コード翻訳、コードコメント、テストケース生成といった実践的なシナリオでは、CodeFuseは中国のプロンプトに直面する場合、他のモデルよりもパフォーマンスがよい。

Code Large Language Models (Code LLMs) have gained significant attention in the industry due to their wide applications in the full lifecycle of software engineering. However, the effectiveness of existing models in understanding non-English inputs for multi-lingual code-related tasks is still far from well studied. This paper introduces CodeFuse-13B, an open-sourced pre-trained code LLM. It is specifically designed for code-related tasks with both English and Chinese prompts and supports over 40 programming languages. CodeFuse achieves its effectiveness by utilizing a high quality pre-training dataset that is carefully filtered by program analyzers and optimized during the training process. Extensive experiments are conducted using real-world usage scenarios, the industry-standard benchmark HumanEval-x, and the specially designed CodeFuseEval for Chinese prompts. To assess the effectiveness of CodeFuse, we actively collected valuable human feedback from the AntGroup's software development process where CodeFuse has been successfully deployed. The results demonstrate that CodeFuse-13B achieves a HumanEval pass@1 score of 37.10%, positioning it as one of the top multi-lingual code LLMs with similar parameter sizes. In practical scenarios, such as code generation, code translation, code comments, and testcase generation, CodeFuse performs better than other models when confronted with Chinese prompts.
翻訳日:2023-10-11 20:55:45 公開日:2023-10-10
# 異常グラフ検出のための自己識別モデル

Self-Discriminative Modeling for Anomalous Graph Detection ( http://arxiv.org/abs/2310.06261v1 )

ライセンス: Link先を確認
Jinyu Cai, Yunhe Zhang, Jicong Fan(参考訳) 本稿では, 分子, 生物学, 社会ネットワークデータ解析に多くの応用がある正規グラフのみを学習した機械学習モデルを用いて, 異常グラフ検出の問題点について検討する。 本稿では,異常グラフ検出のための自己識別モデリングフレームワークを提案する。 数学的に数値的に説明される鍵となる考え方は、与えられた正規グラフから識別器(分類器)を、協調的に訓練されたモデルによって生成される擬非正則グラフと共に学習することであり、そこでは真の異常グラフは一切使わない。 本フレームワークでは,異常グラフ検出のための計算効率と安定性の異なる3つのアルゴリズムを提案する。 3つのアルゴリズムは、9つの一般的なグラフデータセット(サイズが4つ、適度なサイズが5つ)における最先端のグラフレベルの異常検出ベースラインと比較され、aucの観点で大幅に改善されている。 アルゴリズムの成功は、識別的分類器とよく表される擬似非正則グラフの統合に起因し、異常検出の新しい洞察を与える。 さらに,大規模不均衡グラフデータセットのアルゴリズムについて検討した。 驚くべきことに、我々のアルゴリズムは教師なしだが、異常グラフ検出の教師付き学習アルゴリズムを著しく上回っている。 対応する理由も分析される。

This paper studies the problem of detecting anomalous graphs using a machine learning model trained on only normal graphs, which has many applications in molecule, biology, and social network data analysis. We present a self-discriminative modeling framework for anomalous graph detection. The key idea, mathematically and numerically illustrated, is to learn a discriminator (classifier) from the given normal graphs together with pseudo-anomalous graphs generated by a model jointly trained, where we never use any true anomalous graphs and we hope that the generated pseudo-anomalous graphs interpolate between normal ones and (real) anomalous ones. Under the framework, we provide three algorithms with different computational efficiencies and stabilities for anomalous graph detection. The three algorithms are compared with several state-of-the-art graph-level anomaly detection baselines on nine popular graph datasets (four with small size and five with moderate size) and show significant improvement in terms of AUC. The success of our algorithms stems from the integration of the discriminative classifier and the well-posed pseudo-anomalous graphs, which provide new insights for anomaly detection. Moreover, we investigate our algorithms for large-scale imbalanced graph datasets. Surprisingly, our algorithms, though fully unsupervised, are able to significantly outperform supervised learning algorithms of anomalous graph detection. The corresponding reason is also analyzed.
翻訳日:2023-10-11 20:55:22 公開日:2023-10-10
# データ駆動型音声強調手法に関する自動文献調査の試み

An experiment on an automated literature survey of data-driven speech enhancement methods ( http://arxiv.org/abs/2310.06260v1 )

ライセンス: Link先を確認
Arthur dos Santos, Jayr Pereira, Rodrigo Nogueira, Bruno Masiero, Shiva Sander-Tavallaey, Elias Zea(参考訳) 音響学における科学出版物の増加は、一般的に伝統的な文献調査を行うのが困難である。 本研究では,データ駆動型音声強調法に関する116項目の文献調査を自動化するために,生成事前学習型トランスフォーマ(GPT)モデルを用いた。 主な目的は、参照人間による調査から選択した論文に関する特定の質問に対する正確な応答を提供する際のモデルの能力と限界を評価することである。 音響学における文献調査の自動化には大きな可能性を秘めているものの、技術的問題により明確かつ正確に対処するためには改善が必要である。

The increasing number of scientific publications in acoustics, in general, presents difficulties in conducting traditional literature surveys. This work explores the use of a generative pre-trained transformer (GPT) model to automate a literature survey of 116 articles on data-driven speech enhancement methods. The main objective is to evaluate the capabilities and limitations of the model in providing accurate responses to specific queries about the papers selected from a reference human-based survey. While we see great potential to automate literature surveys in acoustics, improvements are needed to address technical questions more clearly and accurately.
翻訳日:2023-10-11 20:54:57 公開日:2023-10-10
# scar:rtlレベルの電力サイドチャネル解析

SCAR: Power Side-Channel Analysis at RTL-Level ( http://arxiv.org/abs/2310.06257v1 )

ライセンス: Link先を確認
Amisha Srivastava, Sanjay Das, Navnil Choudhury, Rafail Psiakis, Pedro Henrique Silva, Debjit Pal, Kanad Basu(参考訳) パワーサイドチャネル攻撃は、暗号化ハードウェアの機密情報をリークするために、暗号化操作の動的電力消費を利用する。 したがって、暗号システムの感受性を評価し、潜在的なリスクを緩和するために、パワーサイドチャネル分析を行う必要がある。 既存の電力サイドチャネル分析は、主にシリコン後実装に焦点を当てており、設計上の欠陥に対処するには柔軟性がない。 したがって、設計の堅牢性を改善するために、脆弱性を早期に検出するために、プリシリコンパワーサイドチャネル分析が必要である。 本稿では,グラフニューラルネットワーク(GNN)をベースとした,新しいシリコン電力サイドチャネル分析フレームワークであるSCARを紹介する。 scarは、暗号化ハードウェアのレジスタ転送レベル(rtl)設計を制御データフローグラフに変換し、サイドチャネルリークの影響を受けやすい設計モジュールを検出するために使用する。 さらに,scarに深層学習に基づく説明器を組み込んで,検出と局所化の決定の定量化と人手による説明を行う。 また,SCARの一部として,大規模言語モデル(LLM)を用いて局所領域に付加的な設計コードを自動生成・挿入し,サイドチャネルの漏洩を解消する要塞化コンポーネントを開発した。 AES、RSA、PreSENTなどの一般的な暗号化アルゴリズムや、SaberやCRYSTALS-Kyberといった暗号アルゴリズムで評価されると、最大94.49%のローカライゼーション精度、100%の精度、90.48%のリコールが得られる。 さらに、説明可能性分析により、SCARはGNNモデルのトレーニングの機能を57%削減し、同等の精度を維持している。 SCARはセキュリティクリティカルなハードウェア設計サイクルを変革し、設計コストを削減して設計のクロージャを高速化すると考えています。

Power side-channel attacks exploit the dynamic power consumption of cryptographic operations to leak sensitive information of encryption hardware. Therefore, it is necessary to conduct power side-channel analysis for assessing the susceptibility of cryptographic systems and mitigating potential risks. Existing power side-channel analysis primarily focuses on post-silicon implementations, which are inflexible in addressing design flaws, leading to costly and time-consuming post-fabrication design re-spins. Hence, pre-silicon power side-channel analysis is required for early detection of vulnerabilities to improve design robustness. In this paper, we introduce SCAR, a novel pre-silicon power side-channel analysis framework based on Graph Neural Networks (GNN). SCAR converts register-transfer level (RTL) designs of encryption hardware into control-data flow graphs and use that to detect the design modules susceptible to side-channel leakage. Furthermore, we incorporate a deep learning-based explainer in SCAR to generate quantifiable and human-accessible explanation of our detection and localization decisions. We have also developed a fortification component as a part of SCAR that uses large-language models (LLM) to automatically generate and insert additional design code at the localized zone to shore up the side-channel leakage. When evaluated on popular encryption algorithms like AES, RSA, and PRESENT, and postquantum cryptography algorithms like Saber and CRYSTALS-Kyber, SCAR, achieves up to 94.49% localization accuracy, 100% precision, and 90.48% recall. Additionally, through explainability analysis, SCAR reduces features for GNN model training by 57% while maintaining comparable accuracy. We believe that SCAR will transform the security-critical hardware design cycle, resulting in faster design closure at a reduced design cost.
翻訳日:2023-10-11 20:54:46 公開日:2023-10-10
# 時系列データから構造因果モデルの混合物の発見

Discovering Mixtures of Structural Causal Models from Time Series Data ( http://arxiv.org/abs/2310.06312v1 )

ライセンス: Link先を確認
Sumanth Varambally, Yi-An Ma, Rose Yu(参考訳) 金融、気候科学、神経科学といった分野では、時系列データから因果関係を推測することは大きな課題となる。 現代の手法は変数とフレキシブルノイズ分布の間の非線形関係を扱えるが、それらはデータが同じ基礎となる因果モデルに由来するという単純な仮定に依存している。 本研究では,この仮定を緩和し,異なる因果モデルの混合から得られた時系列データから因果発見を行う。 基礎となる構造因果モデルと特定の混合成分に属する各試料の後方確率の両方を推定する。 このアプローチでは、データ可能性のエビデンス-ローバウンドを最大化するエンドツーエンドのトレーニングプロセスを採用しています。 合成データセットと実世界のデータセットの両方を広範囲に実験した結果,本手法は因果関係発見タスクにおいて最先端のベンチマーク,特に多種多様な因果関係グラフから発生する場合を超越することを示した。 理論的には、いくつかの軽度の仮定の下でそのようなモデルの識別可能性を証明する。

In fields such as finance, climate science, and neuroscience, inferring causal relationships from time series data poses a formidable challenge. While contemporary techniques can handle nonlinear relationships between variables and flexible noise distributions, they rely on the simplifying assumption that data originates from the same underlying causal model. In this work, we relax this assumption and perform causal discovery from time series data originating from mixtures of different causal models. We infer both the underlying structural causal models and the posterior probability for each sample belonging to a specific mixture component. Our approach employs an end-to-end training process that maximizes an evidence-lower bound for data likelihood. Through extensive experimentation on both synthetic and real-world datasets, we demonstrate that our method surpasses state-of-the-art benchmarks in causal discovery tasks, particularly when the data emanates from diverse underlying causal graphs. Theoretically, we prove the identifiability of such a model under some mild assumptions.
翻訳日:2023-10-11 20:48:37 公開日:2023-10-10
# 大規模視覚言語モデルによる合成テキスト・画像生成の改善

Improving Compositional Text-to-image Generation with Large Vision-Language Models ( http://arxiv.org/abs/2310.06311v1 )

ライセンス: Link先を確認
Song Wen, Guian Fang, Renrui Zhang, Peng Gao, Hao Dong, Dimitris Metaxas(参考訳) 近年のテキストから画像へのモデル、特に拡散モデルの発展は大きな可能性を秘めている。 しかし、合成テキスト画像モデルは、複数のオブジェクト、可変属性、複雑な空間関係を記述した入力テキストと正確に一致した高品質な画像を生成するのに、しばしば困難に直面する。 この制限に対処するために、生成した画像と対応する入力テキストのアライメントを多次元評価するために、大きな視覚言語モデル(LVLM)を用いる。 この評価を利用して拡散モデルを微調整してアライメント能力を向上する。 推論フェーズでは、微調整拡散モデルを用いて初期画像を生成する。 次に、LVLMを初期画像の誤認識領域のピンポイントに使用し、その後、LVLMによりさらなる誤認識が検出されるまで画像編集アルゴリズムを用いて修正する。 その結果、画像は入力テキストとより密接に一致する。 提案手法は,特にオブジェクト数,属性結合,空間関係,美的品質に関して,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。

Recent advancements in text-to-image models, particularly diffusion models, have shown significant promise. However, compositional text-to-image models frequently encounter difficulties in generating high-quality images that accurately align with input texts describing multiple objects, variable attributes, and intricate spatial relationships. To address this limitation, we employ large vision-language models (LVLMs) for multi-dimensional assessment of the alignment between generated images and their corresponding input texts. Utilizing this assessment, we fine-tune the diffusion model to enhance its alignment capabilities. During the inference phase, an initial image is produced using the fine-tuned diffusion model. The LVLM is then employed to pinpoint areas of misalignment in the initial image, which are subsequently corrected using the image editing algorithm until no further misalignments are detected by the LVLM. The resultant image is consequently more closely aligned with the input text. Our experimental results validate that the proposed methodology significantly improves text-image alignment in compositional image generation, particularly with respect to object number, attribute binding, spatial relationships, and aesthetic quality.
翻訳日:2023-10-11 20:48:21 公開日:2023-10-10
# aiインキュベーションのためのコンテキストバンディットによるアンサンブルアクティブラーニング

Ensemble Active Learning by Contextual Bandits for AI Incubation in Manufacturing ( http://arxiv.org/abs/2310.06306v1 )

ライセンス: Link先を確認
Yingyan Zeng, Xiaoyu Chen, Ran Jin(参考訳) インダストリアルサイバー物理システム(ICPS)におけるオンラインセンシングと計算資源は、AIによる意思決定を促進する。 しかし、不均衡クラスのようなデータ品質の問題は、オフラインでトレーニングされたaiモデルを妨げている。 これを解決するために、AIモデルは、継続的な改善のためにストリーミングデータと共にオンラインで更新される。 しかし、教師付き学習モデルでは、アノテーションの制約により更新の質の高いストリーミングサンプルを選択することの課題に直面している。 文学におけるアクティブラーニング手法は、表現不足や表現不足に焦点をあてて解決策を提供する。 製造状況の変化におけるこれらの戦略のバランスをとることは難しい。 aiが学習したいくつかの獲得基準は動的に適応するが、頻繁な変更を一貫して処理しない場合もある。 我々は,探索や搾取を専門とする能動的学習エージェントを用いた,アンサンブル能動的学習手法 CBEAL を導入する。 エージェントの重量はエージェント決定の有効性に基づいて調整される。 CBEALはデータ取得を最適にガイドし、人間のアノテーションを最小限にする。 ICPS製造プロセスモデリングにおけるCBEALの有効性を理論的解析および実証研究により検証した。

Online sensing and computational resources in Industrial Cyber-physical Systems (ICPS) facilitate AI-driven decision-making. Yet, issues with data quality, such as imbalanced classes, hinder AI models trained offline. To address this, AI models are updated online with streaming data for continuous improvement. Supervised learning models, however, face challenges in selecting quality streaming samples for updates due to annotation constraints. Active learning methods in literature offer solutions by focusing on under-represented or well-represented regions. Balancing these strategies in changing manufacturing contexts is challenging. Some acquisition criteria learned by AI dynamically adapt but may not consistently handle frequent changes. We introduce an ensemble active learning method, CBEAL, employing active learning agents specifically for exploration or exploitation. Weights of agents are adjusted based on agent decision effectiveness. CBEAL optimally guides data acquisition, minimizing human annotation. Our theoretical analysis and empirical studies validate CBEAL's efficiency in ICPS manufacturing process modeling.
翻訳日:2023-10-11 20:48:03 公開日:2023-10-10
# Dobby: GPT-4による会話型サービスロボット

Dobby: A Conversational Service Robot Driven by GPT-4 ( http://arxiv.org/abs/2310.06303v1 )

ライセンス: Link先を確認
Carson Stark, Bohkyung Chun, Casey Charleston, Varsha Ravi, Luis Pabon, Surya Sunkari, Tarun Mohan, Peter Stone, and Justin Hart(参考訳) この研究は、自然言語理解とサービスタスクのためのインテリジェントな意思決定のための具体的システムに、対話型AIエージェントを組み込んだロボティクスプラットフォームを導入している。 このエージェントは、膨大な一般的な知識のコーパスから学んだ大きな言語モデルから派生している。 このエージェントは対話を生成するだけでなく、ロボットにコマンドを呼び出し、コミュニケーションと振る舞いをシームレスにマージすることで物理的な世界と対話することができる。 このシステムは,ロボットと対話型AI機能を併用したHRI研究において,自由形式のツアーガイドシナリオで実証されている。 パフォーマンスは、全体的な効率性、探索能力、検査能力、人格化に対する受容性、適応性という5つの次元で測定される。

This work introduces a robotics platform which embeds a conversational AI agent in an embodied system for natural language understanding and intelligent decision-making for service tasks; integrating task planning and human-like conversation. The agent is derived from a large language model, which has learned from a vast corpus of general knowledge. In addition to generating dialogue, this agent can interface with the physical world by invoking commands on the robot; seamlessly merging communication and behavior. This system is demonstrated in a free-form tour-guide scenario, in an HRI study combining robots with and without conversational AI capabilities. Performance is measured along five dimensions: overall effectiveness, exploration abilities, scrutinization abilities, receptiveness to personification, and adaptability.
翻訳日:2023-10-11 20:47:52 公開日:2023-10-10
# クロスドメインテキストからsqlへの選択的デモンストレーション

Selective Demonstrations for Cross-domain Text-to-SQL ( http://arxiv.org/abs/2310.06302v1 )

ライセンス: Link先を確認
Shuaichen Chang, Eric Fosler-Lussier(参考訳) コンテキスト内学習を伴う大規模言語モデル(LLM)は、ドメイン内のアノテーションを使わずに、クロスドメインのテキスト-SQLタスクにおいて印象的な一般化機能を示している。 しかし、ドメイン内の実例を組み込むことでLLMの性能を大幅に向上することが判明した。 本稿では、改善に寄与するドメイン内例における重要な要素を考察し、ドメイン内アノテーションを使わずにこれらの利点を活用できるかどうかを考察する。 そこで本研究では、ドメイン外サンプルと、ドメイン内サンプルを合成的に生成してデモを構築するためのデモ選択フレームワークODISを提案する。 ハイブリッドソースからデモを取得することで、ODISは両方の利点を活用し、単一のデータソースに依存するベースラインメソッドと比較して、その効果を示す。 さらにODISは2つのクロスドメインテキスト-SQLデータセットに対する最先端のアプローチよりも優れており、それぞれ1.1と11.8の精度が向上している。

Large language models (LLMs) with in-context learning have demonstrated impressive generalization capabilities in the cross-domain text-to-SQL task, without the use of in-domain annotations. However, incorporating in-domain demonstration examples has been found to greatly enhance LLMs' performance. In this paper, we delve into the key factors within in-domain examples that contribute to the improvement and explore whether we can harness these benefits without relying on in-domain annotations. Based on our findings, we propose a demonstration selection framework ODIS which utilizes both out-of-domain examples and synthetically generated in-domain examples to construct demonstrations. By retrieving demonstrations from hybrid sources, ODIS leverages the advantages of both, showcasing its effectiveness compared to baseline methods that rely on a single data source. Furthermore, ODIS outperforms state-of-the-art approaches on two cross-domain text-to-SQL datasets, with improvements of 1.1 and 11.8 points in execution accuracy, respectively.
翻訳日:2023-10-11 20:47:39 公開日:2023-10-10
# おもちゃの重ね合わせモデルにおける動的相転移とベイズ相転移

Dynamical versus Bayesian Phase Transitions in a Toy Model of Superposition ( http://arxiv.org/abs/2310.06301v1 )

ライセンス: Link先を確認
Zhongtian Chen, Edmund Lau, Jake Mendel, Susan Wei, Daniel Murfet(参考訳) 単数学習理論(slt)を用いたおもちゃの重ね合わせモデル(tms)における相転移について検討する。 理論的な損失に対する閉公式を導出し、2つの隠れ次元の場合、正則な $k$-gon が臨界点であることを発見する。 これらの$k$-ゴンの局所学習係数(幾何学的不変量)がベイズ後方の相転移をサンプルサイズを訓練する関数として決定することを示す支持理論を示す。 次に、同じ$k$-gon臨界点がSGDトレーニングの挙動を決定することを実証的に示す。 この図は、SGD学習軌跡が逐次学習機構の対象となるという予想を裏付けるものである。 特に,sgdやベイズ学習によるtmsの学習プロセスは,高損失と低複雑性の領域から低損失と高複雑性の領域までのパラメータ空間を旅することによって特徴づけられる。

We investigate phase transitions in a Toy Model of Superposition (TMS) using Singular Learning Theory (SLT). We derive a closed formula for the theoretical loss and, in the case of two hidden dimensions, discover that regular $k$-gons are critical points. We present supporting theory indicating that the local learning coefficient (a geometric invariant) of these $k$-gons determines phase transitions in the Bayesian posterior as a function of training sample size. We then show empirically that the same $k$-gon critical points also determine the behavior of SGD training. The picture that emerges adds evidence to the conjecture that the SGD learning trajectory is subject to a sequential learning mechanism. Specifically, we find that the learning process in TMS, be it through SGD or Bayesian learning, can be characterized by a journey through parameter space from regions of high loss and low complexity to regions of low loss and high complexity.
翻訳日:2023-10-11 20:47:22 公開日:2023-10-10
# 対向行動によるQ-Learningにおける過大評価の抑制

Suppressing Overestimation in Q-Learning through Adversarial Behaviors ( http://arxiv.org/abs/2310.06286v1 )

ライセンス: Link先を確認
HyeAnn Lee, Donghwan Lee(参考訳) 本研究の目的は,Dummy adversarial Q-learning(DAQ)と呼ばれる,Dummy adversarial Q-learning(DAQ)を用いた新しいQ-learningアルゴリズムを提案することである。 ダミープレイヤーでは、学習は2プレイヤーゼロサムゲームとして定式化することができる。 提案するDAQは,最大Qラーニングや最小Qラーニング(本論文で提案する)などの過大評価バイアスを制御するために,複数のQラーニングバリエーションを統合する。 提案したDAQは,過大評価バイアスのダミー対向行動を抑制するための簡易かつ効果的な手法であり,市販の強化学習アルゴリズムに容易に適用して性能を向上させることができる。 daqの有限時間収束は、逆q学習に適応して統合的な視点から解析される。 提案するDAQの性能は,様々なベンチマーク環境で実証的に実証される。

The goal of this paper is to propose a new Q-learning algorithm with a dummy adversarial player, which is called dummy adversarial Q-learning (DAQ), that can effectively regulate the overestimation bias in standard Q-learning. With the dummy player, the learning can be formulated as a two-player zero-sum game. The proposed DAQ unifies several Q-learning variations to control overestimation biases, such as maxmin Q-learning and minmax Q-learning (proposed in this paper) in a single framework. The proposed DAQ is a simple but effective way to suppress the overestimation bias thourgh dummy adversarial behaviors and can be easily applied to off-the-shelf reinforcement learning algorithms to improve the performances. A finite-time convergence of DAQ is analyzed from an integrated perspective by adapting an adversarial Q-learning. The performance of the suggested DAQ is empirically demonstrated under various benchmark environments.
翻訳日:2023-10-11 20:47:04 公開日:2023-10-10
# 歩行によるより効率的な抑うつリスク認識に向けて

Towards More Efficient Depression Risk Recognition via Gait ( http://arxiv.org/abs/2310.06283v1 )

ライセンス: Link先を確認
Min Ren, Muchan Tao, Xuecai Hu, Xiaotong Liu, Qiong Li, Yongzhen Huang(参考訳) うつ病は世界中で2億8000万人以上の人に影響を与えている。 早期発見とタイムリーな介入は、寛解の促進、再発の防止、抑うつに関連する感情的および経済的負担の軽減に不可欠である。 しかし、うつ病患者はプライマリケアでは診断されないことが多い。 多くの生理学的疾患とは異なり、うつ病はうつ病のリスクを認識する客観的指標を欠いている。 歩行と抑うつリスクの相関が実証的に確立されている。 Gaitは有望な客観的バイオマーカーとして機能し、効率的で便利なデータ収集の利点を提供する。 しかし、現在の歩行に基づくうつ病リスクを認識する方法は、小さなプライベートデータセットでのみ検証され、研究目的の大規模な公開データセットが欠落している。 さらに、これらの手法は主に手作りの手法に限られる。 歩行は複雑な動きであり、手作り歩行の特徴は歩行とうつ病のリスクの間の複雑な関係のごく一部しか捉えていない。 そこで本研究ではまず,1200人以上,4万の歩容シーケンスを包含し,6つの視点と3種類の服装を包含する大規模歩容データベースを構築した。 2つの一般的な心理尺度がうつ病リスクアノテーションとして提供される。 その後,深層学習に基づくうつ病リスク認識モデルを提案し,手作りアプローチの限界を克服した。 構築した大規模データベース上で行った実験により,提案手法の有効性が検証され,多くの指導的洞察が論文に提示され,歩行に基づく抑うつリスク認識の意義を浮き彫りにした。

Depression, a highly prevalent mental illness, affects over 280 million individuals worldwide. Early detection and timely intervention are crucial for promoting remission, preventing relapse, and alleviating the emotional and financial burdens associated with depression. However, patients with depression often go undiagnosed in the primary care setting. Unlike many physiological illnesses, depression lacks objective indicators for recognizing depression risk, and existing methods for depression risk recognition are time-consuming and often encounter a shortage of trained medical professionals. The correlation between gait and depression risk has been empirically established. Gait can serve as a promising objective biomarker, offering the advantage of efficient and convenient data collection. However, current methods for recognizing depression risk based on gait have only been validated on small, private datasets, lacking large-scale publicly available datasets for research purposes. Additionally, these methods are primarily limited to hand-crafted approaches. Gait is a complex form of motion, and hand-crafted gait features often only capture a fraction of the intricate associations between gait and depression risk. Therefore, this study first constructs a large-scale gait database, encompassing over 1,200 individuals, 40,000 gait sequences, and covering six perspectives and three types of attire. Two commonly used psychological scales are provided as depression risk annotations. Subsequently, a deep learning-based depression risk recognition model is proposed, overcoming the limitations of hand-crafted approaches. Through experiments conducted on the constructed large-scale database, the effectiveness of the proposed method is validated, and numerous instructive insights are presented in the paper, highlighting the significant potential of gait-based depression risk recognition.
翻訳日:2023-10-11 20:46:47 公開日:2023-10-10
# musechat:ビデオのための会話型音楽推薦システム

MuseChat: A Conversational Music Recommendation System for Videos ( http://arxiv.org/abs/2310.06282v1 )

ライセンス: Link先を確認
Zhikang Dong, Bin Chen, Xiulong Liu, Pawel Polak, Peng Zhang(参考訳) 本研究では,イノベーティブな対話型音楽レコメンデーションシステムMuseChatを紹介する。 このユニークなプラットフォームは、インタラクティブなユーザーエンゲージメントを提供するだけでなく、入力ビデオ用にカスタマイズされた音楽も提案するので、ユーザーは自分の楽曲を洗練し、パーソナライズすることができる。 対照的に、以前のシステムはコンテンツ互換性を重視しており、しばしばユーザーの個人の好みのニュアンスを見落としていた。 例えば、すべてのデータセットは、基本的な音楽とビデオのペアリングや、テキストによる音楽記述とのペアリングのみを提供する。 このギャップに対処するため、我々の研究は3つの貢献をしている。 まず,事前学習された音楽タグとアーティスト情報を活用した,ユーザとレコメンデーションシステムとの双方向インタラクションをシミュレートする会話合成手法を考案する。 このインタラクションでは,ユーザがシステムにビデオを送ると,適切な楽曲を合理的に提案する。 その後、ユーザは音楽の好みを伝達し、システムは推論で洗練された音楽レコメンデーションを提示する。 第2に,ビデオからの視覚的な手がかりと一致させたり,視覚情報を調和させたり,従来推奨されていた音楽からのフィードバックやユーザのテキスト入力などにより,音楽にマッチするマルチモーダルレコメンデーションエンジンを導入する。 第3に、音楽表現とテキストデータをLarge Language Model(Vicuna-7B)でブリッジする。 このアライメントは、musechatに音楽のレコメンデーションと、その根拠となる推論を人間のコミュニケーションに似た方法で提供させる。 評価の結果,MuseChatは音楽検索タスクにおける既存の最先端モデルを超え,自然言語フレームワーク内でのレコメンデーションプロセスの統合の先駆けとなった。

We introduce MuseChat, an innovative dialog-based music recommendation system. This unique platform not only offers interactive user engagement but also suggests music tailored for input videos, so that users can refine and personalize their music selections. In contrast, previous systems predominantly emphasized content compatibility, often overlooking the nuances of users' individual preferences. For example, all the datasets only provide basic music-video pairings or such pairings with textual music descriptions. To address this gap, our research offers three contributions. First, we devise a conversation-synthesis method that simulates a two-turn interaction between a user and a recommendation system, which leverages pre-trained music tags and artist information. In this interaction, users submit a video to the system, which then suggests a suitable music piece with a rationale. Afterwards, users communicate their musical preferences, and the system presents a refined music recommendation with reasoning. Second, we introduce a multi-modal recommendation engine that matches music either by aligning it with visual cues from the video or by harmonizing visual information, feedback from previously recommended music, and the user's textual input. Third, we bridge music representations and textual data with a Large Language Model(Vicuna-7B). This alignment equips MuseChat to deliver music recommendations and their underlying reasoning in a manner resembling human communication. Our evaluations show that MuseChat surpasses existing state-of-the-art models in music retrieval tasks and pioneers the integration of the recommendation process within a natural language framework.
翻訳日:2023-10-11 20:46:19 公開日:2023-10-10
# bc4llm: ブロックチェーンが大きな言語モデルに出会うとき、信頼できる人工知能

BC4LLM: Trusted Artificial Intelligence When Blockchain Meets Large Language Models ( http://arxiv.org/abs/2310.06278v1 )

ライセンス: Link先を確認
Haoxiang Luo, Jian Luo, Athanasios V. Vasilakos(参考訳) 近年、人工知能(AI)と機械学習(ML)は社会の生産方法と生産性を変え、科学研究のパラダイムを変えつつある。 中でもChatGPTで表現されるAI言語モデルは大きな進歩を遂げている。 このような大きな言語モデル(LLM)はAIGC(AIGC)という形で人々に提供され、コンサルティング、医療、教育に広く利用されている。 しかし,AIGC学習データの信頼性と信頼性を保証することは困難である。 さらに、分散AIトレーニングには、プライバシー開示の危険性も隠されている。 さらに,LLMが生成するコンテンツは識別・追跡が困難であり,クロスプラットフォームの相互認識は困難である。 LLMを動力とするAIの今後における上記の情報セキュリティ問題は、無限に増幅され、すべての人の生活に影響を与える。 そこで我々は,優れたセキュリティ機能を備えたブロックチェーン技術を用いて,信頼性の高いaiのためのビジョンを提案する。 本稿では,信頼性の高い学習コーパス,セキュアなトレーニングプロセス,識別可能な生成コンテンツを含む,llm(bc4llm)のためのブロックチェーンの動機と技術的経路について紹介する。 本稿では,特にネットワーク資源割当,ダイナミックスペクトル共有,セマンティックコミュニケーションなど,フロンティア通信ネットワーク分野における潜在的な応用と今後の課題について概説する。 上記の作業とブロックチェーンとLLMの展望に基づいて、信頼されたAIの早期実現と学術コミュニティへのガイダンスを提供することが期待されている。

In recent years, artificial intelligence (AI) and machine learning (ML) are reshaping society's production methods and productivity, and also changing the paradigm of scientific research. Among them, the AI language model represented by ChatGPT has made great progress. Such large language models (LLMs) serve people in the form of AI-generated content (AIGC) and are widely used in consulting, healthcare, and education. However, it is difficult to guarantee the authenticity and reliability of AIGC learning data. In addition, there are also hidden dangers of privacy disclosure in distributed AI training. Moreover, the content generated by LLMs is difficult to identify and trace, and it is difficult to cross-platform mutual recognition. The above information security issues in the coming era of AI powered by LLMs will be infinitely amplified and affect everyone's life. Therefore, we consider empowering LLMs using blockchain technology with superior security features to propose a vision for trusted AI. This paper mainly introduces the motivation and technical route of blockchain for LLM (BC4LLM), including reliable learning corpus, secure training process, and identifiable generated content. Meanwhile, this paper also reviews the potential applications and future challenges, especially in the frontier communication networks field, including network resource allocation, dynamic spectrum sharing, and semantic communication. Based on the above work combined and the prospect of blockchain and LLMs, it is expected to help the early realization of trusted AI and provide guidance for the academic community.
翻訳日:2023-10-11 20:45:24 公開日:2023-10-10
# 線形表現冗長性を強化したCNNのためのフィルタプルーニング

Filter Pruning For CNN With Enhanced Linear Representation Redundancy ( http://arxiv.org/abs/2310.06344v1 )

ライセンス: Link先を確認
Bojue Wang, Chunmei Ma, Bin Liu, Nianbo Liu, Jinqi Zhu(参考訳) 構造的ネットワークプルーニングは, 並列計算技術に長けているため, 非構造的手法が優れている。 本稿では,新しい構造的刈り取り法を提案する。 まず,より構造化された冗長性を実現するために,同一層内の異なる特徴マップの相関係数行列から計算したデータ駆動損失関数項(ccm-loss)を提案する。 この損失項により、ニューラルネットワークはトレーニング中に特徴マップ間のより強い線形表現関係をスクラッチから学習し、より均質な部分をプルーニング後に取り除くことができる。 CCM-lossは、ゼロを生成することに集中するL*-ノルム正規化以外に、別の普遍的超越数学的ツールを提供し、より冗長性を生み出す。 さらに,ccm-lossの最大ポテンシャルを活用すべく,主成分分析に基づくマッチングチャネル選択戦略を設計する。 新しい戦略では、ネットワークにおける情報フローの一貫性と統合性に重点を置いています。 チャネル選択戦略は,各層の保持率を実験的にハードコードする代わりに,訓練対象モデルの特定の状況に応じて各層の保持比を動的に調整し,プルー比を限界まで押し上げる。 とくに、Cifar-10データセットでは、パラメータが1.40M、FLOPが49.60MでプルーニングされたVGG-16の精度が93.64%、パラメータが90.6%、FLOPが84.2%である。 ImageNetデータセットでトレーニングされたResNet-50では、それぞれ42.8%と47.3%のストレージと計算の削減を達成した。 私たちのコードはhttps://github.com/Bojue-Wang/CCM-LRRで公開されています。

Structured network pruning excels non-structured methods because they can take advantage of the thriving developed parallel computing techniques. In this paper, we propose a new structured pruning method. Firstly, to create more structured redundancy, we present a data-driven loss function term calculated from the correlation coefficient matrix of different feature maps in the same layer, named CCM-loss. This loss term can encourage the neural network to learn stronger linear representation relations between feature maps during the training from the scratch so that more homogenous parts can be removed later in pruning. CCM-loss provides us with another universal transcendental mathematical tool besides L*-norm regularization, which concentrates on generating zeros, to generate more redundancy but for the different genres. Furthermore, we design a matching channel selection strategy based on principal components analysis to exploit the maximum potential ability of CCM-loss. In our new strategy, we mainly focus on the consistency and integrality of the information flow in the network. Instead of empirically hard-code the retain ratio for each layer, our channel selection strategy can dynamically adjust each layer's retain ratio according to the specific circumstance of a per-trained model to push the prune ratio to the limit. Notably, on the Cifar-10 dataset, our method brings 93.64% accuracy for pruned VGG-16 with only 1.40M parameters and 49.60M FLOPs, the pruned ratios for parameters and FLOPs are 90.6% and 84.2%, respectively. For ResNet-50 trained on the ImageNet dataset, our approach achieves 42.8% and 47.3% storage and computation reductions, respectively, with an accuracy of 76.23%. Our code is available at https://github.com/Bojue-Wang/CCM-LRR.
翻訳日:2023-10-11 20:37:34 公開日:2023-10-10
# 一貫性ポリシーによる継続的制御の促進

Boosting Continuous Control with Consistency Policy ( http://arxiv.org/abs/2310.06343v1 )

ライセンス: Link先を確認
Yuhui Chen, Haoran Li, Dongbin Zhao(参考訳) トレーニング安定性と強い表現のため、拡散モデルはオフライン強化学習において大きな注目を集めている。 しかし、いくつかの課題もあります。 1) 多数の拡散ステップの需要は,拡散モデルに基づく手法を時間非効率にし,その適用をリアルタイム制御で制限する。 2)拡散モデルに基づく政策の正確なガイダンスによる政策改善の方法はまだ未解決の問題である。 一貫性モデルに着想を得て,Q-Learning (CPQL) を用いた一貫性ポリシー (Consistency Policy with Q-Learning) という新しい時間効率手法を提案する。 逆拡散軌跡から所望のポリシーへのマッピングを確立することにより、拡散モデルに基づくポリシーを学習されたq関数で更新する際の時間効率と不正確なガイダンスの問題を同時に解決する。 我々はcpqlがオフライン強化学習のための正確なガイダンスによりポリシー改善を達成し、オンラインrlタスクにシームレスに拡張できることを実証する。 実験の結果、CPQLは11のオフラインタスクと21のオンラインタスクで新しい最先端のパフォーマンスを実現し、Diffusion-QLに比べて推論速度を45倍近く改善している。 コードは後でリリースします。

Due to its training stability and strong expression, the diffusion model has attracted considerable attention in offline reinforcement learning. However, several challenges have also come with it: 1) The demand for a large number of diffusion steps makes the diffusion-model-based methods time inefficient and limits their applications in real-time control; 2) How to achieve policy improvement with accurate guidance for diffusion model-based policy is still an open problem. Inspired by the consistency model, we propose a novel time-efficiency method named Consistency Policy with Q-Learning (CPQL), which derives action from noise by a single step. By establishing a mapping from the reverse diffusion trajectories to the desired policy, we simultaneously address the issues of time efficiency and inaccurate guidance when updating diffusion model-based policy with the learned Q-function. We demonstrate that CPQL can achieve policy improvement with accurate guidance for offline reinforcement learning, and can be seamlessly extended for online RL tasks. Experimental results indicate that CPQL achieves new state-of-the-art performance on 11 offline and 21 online tasks, significantly improving inference speed by nearly 45 times compared to Diffusion-QL. We will release our code later.
翻訳日:2023-10-11 20:36:59 公開日:2023-10-10
# 対話行列に基づくコントラスト・プロンプト学習に基づくコード検索

Contrastive Prompt Learning-based Code Search based on Interaction Matrix ( http://arxiv.org/abs/2310.06342v1 )

ライセンス: Link先を確認
Yubo Zhang, Yanfang Liu, Xinxin Fan, Yunfeng Lu(参考訳) コード検索は、自然言語で記述されたクエリにマッチするコードスニペットを検索することを目的としている。 最近、多くのコード事前学習アプローチがコード検索で顕著なパフォーマンスを示している。 しかし、既存のコード検索手法は、意味表現の不十分さと自然言語(NL)とプログラミング言語(PL)のセマンティックギャップという2つの性能制約に悩まされている。 本稿では,CPLCSを提案する。これは,クロスモーダル相互作用機構に基づく,直接学習に基づくコード検索手法である。 CPLCSは,(1)PLとNL表現のセマンティックマッチング関係を学習するPL-NLコントラスト学習,(2)不適切なセマンティック表現の問題を緩和するデュアルエンコーダ構造の迅速な学習設計,(3)NLとPLの微粒化マッピングを強化する相互モーダル相互作用機構を含む。 我々は,6つのプログラム言語にわたる実世界のデータセットに対するアプローチの有効性を評価するために,広範囲な実験を行った。 実験の結果,plとnl間の意味表現品質とマッピング能力の向上に本手法の有効性が示された。

Code search aims to retrieve the code snippet that highly matches the given query described in natural language. Recently, many code pre-training approaches have demonstrated impressive performance on code search. However, existing code search methods still suffer from two performance constraints: inadequate semantic representation and the semantic gap between natural language (NL) and programming language (PL). In this paper, we propose CPLCS, a contrastive prompt learning-based code search method based on the cross-modal interaction mechanism. CPLCS comprises:(1) PL-NL contrastive learning, which learns the semantic matching relationship between PL and NL representations; (2) a prompt learning design for a dual-encoder structure that can alleviate the problem of inadequate semantic representation; (3) a cross-modal interaction mechanism to enhance the fine-grained mapping between NL and PL. We conduct extensive experiments to evaluate the effectiveness of our approach on a real-world dataset across six programming languages. The experiment results demonstrate the efficacy of our approach in improving semantic representation quality and mapping ability between PL and NL.
翻訳日:2023-10-11 20:36:38 公開日:2023-10-10
# 情報漏洩と計算量削減による連合学習

Federated Learning with Reduced Information Leakage and Computation ( http://arxiv.org/abs/2310.06341v1 )

ライセンス: Link先を確認
Tongxin Yin, Xueru Zhang, Mohammad Mahdi Khalili, Mingyan Liu(参考訳) フェデレートラーニング(FL)は、分散学習パラダイムであり、複数の分散クライアントがローカルデータを共有せずに共通のモデルを共同で学習できるようにする。 ローカルデータは直接公開されていないが、クライアントの機密情報を中間計算から推測できるため、プライバシー上の懸念は存在する。 また、反復学習プロセス中に同じデータを繰り返し使用するので、その情報漏洩は時間とともに実質的に蓄積される。 その結果、プライバシ保存型flアルゴリズムを設計する場合、プライバシ正確性のトレードオフのバランスをとることが特に困難になる可能性がある。 本稿では,偶数反復毎に一階近似を適用した新しいフェデレーション学習フレームワークであるUpcycled-FLを紹介する。 このフレームワークでは、fl更新の半分は情報漏洩を発生せず、計算量も大幅に削減される。 そこで我々はまず,Upcycled-FLの収束率に関する理論的解析を行い,その後,プライバシーを守るために摂動機構を適用した。 実世界のデータに関する実験によると、Upcycled-FLは異種データよりも既存の手法を一貫して上回り、平均トレーニング時間の48%を削減しながら、プライバシーと精度のトレードオフを大幅に改善している。

Federated learning (FL) is a distributed learning paradigm that allows multiple decentralized clients to collaboratively learn a common model without sharing local data. Although local data is not exposed directly, privacy concerns nonetheless exist as clients' sensitive information can be inferred from intermediate computations. Moreover, such information leakage accumulates substantially over time as the same data is repeatedly used during the iterative learning process. As a result, it can be particularly difficult to balance the privacy-accuracy trade-off when designing privacy-preserving FL algorithms. In this paper, we introduce Upcycled-FL, a novel federated learning framework with first-order approximation applied at every even iteration. Under this framework, half of the FL updates incur no information leakage and require much less computation. We first conduct the theoretical analysis on the convergence (rate) of Upcycled-FL, and then apply perturbation mechanisms to preserve privacy. Experiments on real-world data show that Upcycled-FL consistently outperforms existing methods over heterogeneous data, and significantly improves privacy-accuracy trade-off while reducing 48% of the training time on average.
翻訳日:2023-10-11 20:36:17 公開日:2023-10-10
# フォント画像の局所的スタイル認識

Local Style Awareness of Font Images ( http://arxiv.org/abs/2310.06337v1 )

ライセンス: Link先を確認
Daichi Haraguchi, Seiichi Uchida(参考訳) フォントを比較するとき、私たちはしばしば、セリフや曲率などの局所的な部分のスタイルに注意を払う。 本稿では,重要な局所部分を見つけるための注意機構を提案する。 その後、注目度の高い地域が重要視される。 提案するメカニズムは,Helveticaのような同一フォントからの文字画像の集合を知っていれば,手動のアノテーションを必要としない準自己教師方式で訓練することができる。 学習した注意機構がスタイル関連局所部分を見つけることを確認した後,その特徴を局所的なスタイル認識フォント生成に利用した。 具体的には,より高精度な文字画像生成により多くの注意を向け,局所部分の重み付けを行う新しい復元損失関数を設計した。 この損失関数は様々なフォント生成モデルに適用できる利点がある。 提案した損失関数は,数発のフォント生成モデルを用いて生成した文字画像の品質を向上させる。

When we compare fonts, we often pay attention to styles of local parts, such as serifs and curvatures. This paper proposes an attention mechanism to find important local parts. The local parts with larger attention are then considered important. The proposed mechanism can be trained in a quasi-self-supervised manner that requires no manual annotation other than knowing that a set of character images is from the same font, such as Helvetica. After confirming that the trained attention mechanism can find style-relevant local parts, we utilize the resulting attention for local style-aware font generation. Specifically, we design a new reconstruction loss function to put more weight on the local parts with larger attention for generating character images with more accurate style realization. This loss function has the merit of applicability to various font generation models. Our experimental results show that the proposed loss function improves the quality of generated character images by several few-shot font generation models.
翻訳日:2023-10-11 20:35:57 公開日:2023-10-10
# 既知の骨格を持つ有界多樹の学習

Learning bounded-degree polytrees with known skeleton ( http://arxiv.org/abs/2310.06333v1 )

ライセンス: Link先を確認
Davin Choo, Joy Qiping Yang, Arnab Bhattacharyya, Cl\'ement L. Canonne(参考訳) 我々は,有界多木,高次元確率分布の豊富なクラス,および広く研究されているグラフィカルモデルであるベイズネットワークのサブクラスを効率的に学習するための有限サンプル保証を確立する。 近年、Bhattacharyya et al. (2021) は木構造ベイズネットワーク、すなわち1-ポリツリーを復元するための有限サンプル保証を得た。 基礎となる非方向グラフ(スケルトン)が知られているとき、多項式時間で$d$-polytreesを学習し、任意の有界$d$のサンプル複雑性を学習する効率的なアルゴリズムを提供することで、結果を拡張する。 このアルゴリズムを,情報理論的なサンプル複雑性下限で補完し,次元や対象の精度パラメータへの依存性がほぼタイトであることを示す。

We establish finite-sample guarantees for efficient proper learning of bounded-degree polytrees, a rich class of high-dimensional probability distributions and a subclass of Bayesian networks, a widely-studied type of graphical model. Recently, Bhattacharyya et al. (2021) obtained finite-sample guarantees for recovering tree-structured Bayesian networks, i.e., 1-polytrees. We extend their results by providing an efficient algorithm which learns $d$-polytrees in polynomial time and sample complexity for any bounded $d$ when the underlying undirected graph (skeleton) is known. We complement our algorithm with an information-theoretic sample complexity lower bound, showing that the dependence on the dimension and target accuracy parameters are nearly tight.
翻訳日:2023-10-11 20:35:44 公開日:2023-10-10
# crowdrec:単色画像からの3次元群集再構成

CrowdRec: 3D Crowd Reconstruction from Single Color Images ( http://arxiv.org/abs/2310.06332v1 )

ライセンス: Link先を確認
Buzhen Huang, Jingyi Ju, Yangang Wang(参考訳) これはGigaCrowdチャレンジの技術的レポートです。 モノクロ画像からの3次元群集の再構成は, 相互咬合, サーバの奥行き曖昧性, 複雑な空間分布などにより困難である。 堅牢なモデルのトレーニングには大規模な3Dクラウドデータセットが使用できないため、現在のマルチパーソンメッシュリカバリ手法では、混雑したシーンで満足できるパフォーマンスを達成できない。 本稿では,群集の特徴を生かし,群集画像の共通的な一人称手法を改善するために,群集制約付き最適化を提案する。 スケールのばらつきを避けるため、まず人間のバウンディングボックスを検知し、市販の検出器で元の画像から2dポーズをとる。 そして、既存の画像データセットを用いて、シングルパーソンメッシュリカバリネットワークをトレーニングする。 さらに,より合理的な空間分布を促進するために,単一人物ネットワークパラメータを洗練するための群集制約を提案する。 この最適化により,単一人物バックボーンを用いた大規模群集画像から,適切な絶対位置の正確な身体ポーズと形状を得ることができる。 コードは~\url{https://github.com/boycehbz/CrowdRec}で公開される。

This is a technical report for the GigaCrowd challenge. Reconstructing 3D crowds from monocular images is a challenging problem due to mutual occlusions, server depth ambiguity, and complex spatial distribution. Since no large-scale 3D crowd dataset can be used to train a robust model, the current multi-person mesh recovery methods can hardly achieve satisfactory performance in crowded scenes. In this paper, we exploit the crowd features and propose a crowd-constrained optimization to improve the common single-person method on crowd images. To avoid scale variations, we first detect human bounding-boxes and 2D poses from the original images with off-the-shelf detectors. Then, we train a single-person mesh recovery network using existing in-the-wild image datasets. To promote a more reasonable spatial distribution, we further propose a crowd constraint to refine the single-person network parameters. With the optimization, we can obtain accurate body poses and shapes with reasonable absolute positions from a large-scale crowd image using a single-person backbone. The code will be publicly available at~\url{https://github.com/boycehbz/CrowdRec}.
翻訳日:2023-10-11 20:35:29 公開日:2023-10-10
# 無人航空機による精密ペイロード配送:物体検出アルゴリズムを用いたアプローチ

Precise Payload Delivery via Unmanned Aerial Vehicles: An Approach Using Object Detection Algorithms ( http://arxiv.org/abs/2310.06329v1 )

ライセンス: Link先を確認
Aditya Vadduri, Anagh Benjwal, Abhishek Pai, Elkan Quadros, Aniruddh Kammar and Prajwal Uday(参考訳) 近年、無人航空機やドローンによる自律的なペイロード輸送の分野が大幅に進歩している。 しかし、これらの作業の多くは、GPS座標を使用してペイロードを所定の場所に配送することを含む。 ナビゲーションのGPS座標を頼りにすることで、ペイロードの配送の精度はGPSネットワークの精度とGPS接続の可用性と強度に制限される。 本稿では、マイクロクラスuavの開発について述べるとともに、uavをペイロード配送位置でマークされたターゲットと正確に一致させるために、ディープラーニングに基づくコンピュータビジョンアプローチを組み込むことにより、従来のナビゲーション手法の精度を向上させる新しいナビゲーション手法を提案する。 提案手法は従来のGPS手法よりも平均水平精度を500%向上させる。

Recent years have seen tremendous advancements in the area of autonomous payload delivery via unmanned aerial vehicles, or drones. However, most of these works involve delivering the payload at a predetermined location using its GPS coordinates. By relying on GPS coordinates for navigation, the precision of payload delivery is restricted to the accuracy of the GPS network and the availability and strength of the GPS connection, which may be severely restricted by the weather condition at the time and place of operation. In this work we describe the development of a micro-class UAV and propose a novel navigation method that improves the accuracy of conventional navigation methods by incorporating a deep-learning-based computer vision approach to identify and precisely align the UAV with a target marked at the payload delivery position. This proposed method achieves a 500% increase in average horizontal precision over conventional GPS-based approaches.
翻訳日:2023-10-11 20:35:11 公開日:2023-10-10
# i2srm:マルチモーダル情報抽出のためのサンプル間関係モデリング

I2SRM: Intra- and Inter-Sample Relationship Modeling for Multimodal Information Extraction ( http://arxiv.org/abs/2310.06326v1 )

ライセンス: Link先を確認
Yusheng Huang, Zhouhan Lin(参考訳) マルチモーダル情報抽出は近年,様々なモダリティから表現を集約する必要がある研究の注目を集めている。 本稿では,2つのモジュールを含むタスクに対して,i2srm(intra- and-sample relationship modeling)法を提案する。 まず、サンプル内関係モデリングモジュールが単一のサンプル上で動作し、効果的な表現の学習を目指す。 テキストおよび視覚的モダリティからの埋め込みは、異なる事前学習言語と画像モデルによるモダリティギャップを橋渡しするためにシフトされる。 第2に、サンプル間の関係モデリングモジュールは、複数のサンプル間の関係を考慮し、相互作用のキャプチャに焦点を当てる。 AttnMixup戦略が提案され、サンプル間の協調を可能にするだけでなく、データの拡張により一般化が向上する。 我々はTwitter-2015とTwitter-2017のマルチモーダルなエンティティ認識データセットとマルチモーダルな関係抽出データセットMNREについて広範な実験を行った。 提案手法は,Twitter-2015で77.12%のF1スコア,Twitter-2017で88.40%のF1スコア,MNREで84.12%のF1スコアと競合する結果を得た。

Multimodal information extraction is attracting research attention nowadays, which requires aggregating representations from different modalities. In this paper, we present the Intra- and Inter-Sample Relationship Modeling (I2SRM) method for this task, which contains two modules. Firstly, the intra-sample relationship modeling module operates on a single sample and aims to learn effective representations. Embeddings from textual and visual modalities are shifted to bridge the modality gap caused by distinct pre-trained language and image models. Secondly, the inter-sample relationship modeling module considers relationships among multiple samples and focuses on capturing the interactions. An AttnMixup strategy is proposed, which not only enables collaboration among samples but also augments data to improve generalization. We conduct extensive experiments on the multimodal named entity recognition datasets Twitter-2015 and Twitter-2017, and the multimodal relation extraction dataset MNRE. Our proposed method I2SRM achieves competitive results, 77.12% F1-score on Twitter-2015, 88.40% F1-score on Twitter-2017, and 84.12% F1-score on MNRE.
翻訳日:2023-10-11 20:34:55 公開日:2023-10-10
# ディープラーニングモデルを用いた歩行事象の3種類の凍結予測

Predicting Three Types of Freezing of Gait Events Using Deep Learning Models ( http://arxiv.org/abs/2310.06322v1 )

ライセンス: Link先を確認
Wen Tao Mo, Jonathan H. Chan(参考訳) 歩行の凍結はパーキンソン病の症状であり、歩行中にステップやターンができない患者をエピソドミー的に引き起こす。 医療専門家は歩行を凍結させる様々なトリガーや緩和作用を発見したが、根底にある原因や予測モデルはまだ調査中である。 機械学習を利用した現在の歩行予測モデルの凍結は、時系列データに基づく歩行予測の凍結の感度と特異性を達成するが、これらのモデルは歩行イベントの凍結のタイプに関する仕様を欠いている。 変換器エンコーダアーキテクチャと双方向LSTMレイヤと異なる特徴セットを用いて、様々なディープラーニングモデルを構築し、歩行イベントの3種類の凍結を予測する。 最高のパフォーマンスモデルはテストデータで0.427点を獲得し、これはMICHAEL J. FOX FOUNDATIONが主催するKaggleのフリーズ・オブ・ゲイト予測コンテストのトップ5にランクインする。 しかし、追加データとモデルアーキテクチャの単純化による擬似ラベリングによって潜在的に改善される可能性のあるトレーニングデータの過剰フィットも認識しています。

Freezing of gait is a Parkinson's Disease symptom that episodically inflicts a patient with the inability to step or turn while walking. While medical experts have discovered various triggers and alleviating actions for freezing of gait, the underlying causes and prediction models are still being explored today. Current freezing of gait prediction models that utilize machine learning achieve high sensitivity and specificity in freezing of gait predictions based on time-series data; however, these models lack specifications on the type of freezing of gait events. We develop various deep learning models using the transformer encoder architecture plus Bidirectional LSTM layers and different feature sets to predict the three different types of freezing of gait events. The best performing model achieves a score of 0.427 on testing data, which would rank top 5 in Kaggle's Freezing of Gait prediction competition, hosted by THE MICHAEL J. FOX FOUNDATION. However, we also recognize overfitting in training data that could be potentially improved through pseudo labelling on additional data and model architecture simplification.
翻訳日:2023-10-11 20:34:35 公開日:2023-10-10
# MpoxとNon-Mpoxのロバスト検出のための逆マズード画像の塗布

Adversarial Masked Image Inpainting for Robust Detection of Mpox and Non-Mpox ( http://arxiv.org/abs/2310.06318v1 )

ライセンス: Link先を確認
Yubiao Yue, Zhenzhang Li(参考訳) 効率的なmpox診断技術がないため、mpox症例は増え続けている。 近年, 深層学習モデルによるmpoxおよびnon-mpoxの検出の可能性が証明されている。 しかし、既存のモデルは画像分類によって画像表現を学習し、現実の雑音からの干渉を受けやすく、多様なノンポックス画像を必要とし、異常な入力を検出できない可能性がある。 これらの欠点により、現実世界の設定では分類モデルは適用できない。 これらの課題に対処するために,我々は"mask, inpainting, and measure" (mim)を提案する。 mimのパイプラインでは、生成的な敵ネットワークは、マスクされたmpoxイメージを塗り込み、mpoxイメージ表現のみを学習する。 そして、MIMは、印字画像と原画像との類似度を測定することにより、入力がmpoxに属するか否かを判定する。 基本的な直感は、mimは単にmpoxイメージをモデル化するため、実際の設定で正確に非mpoxイメージを塗りつぶすのに苦労しているということである。 MIMは非mpoxイメージを使わずに、巧妙にmpoxとnon-mpoxを検出し、異常な入力を処理できる。 診断されたmpox data(MSLD)と18例の非mpox皮膚疾患の画像を用いてMIMの有効性と堅牢性を検討した。 実験の結果,MIMの平均AUROCは0.8237。 さらに,分類モデルの欠点を実証し,臨床的検証を通じてMIMの可能性を示した。 最後に、影響を受けた地域で無料テストを提供するオンラインスマートフォンアプリを開発した。 この研究はまず、mpox検出を改善するために生成モデルを使用し、医療画像におけるバイナリ決定タスクに関する新たな洞察を提供する。

Due to the lack of efficient mpox diagnostic technology, mpox cases continue to increase. Recently, the great potential of deep learning models in detecting mpox and non-mpox has been proven. However, existing models learn image representations via image classification, which results in they may be easily susceptible to interference from real-world noise, require diverse non-mpox images, and fail to detect abnormal input. These drawbacks make classification models inapplicable in real-world settings. To address these challenges, we propose "Mask, Inpainting, and Measure" (MIM). In MIM's pipeline, a generative adversarial network only learns mpox image representations by inpainting the masked mpox images. Then, MIM determines whether the input belongs to mpox by measuring the similarity between the inpainted image and the original image. The underlying intuition is that since MIM solely models mpox images, it struggles to accurately inpaint non-mpox images in real-world settings. Without utilizing any non-mpox images, MIM cleverly detects mpox and non-mpox and can handle abnormal inputs. We used the recognized mpox dataset (MSLD) and images of eighteen non-mpox skin diseases to verify the effectiveness and robustness of MIM. Experimental results show that the average AUROC of MIM achieves 0.8237. In addition, we demonstrated the drawbacks of classification models and buttressed the potential of MIM through clinical validation. Finally, we developed an online smartphone app to provide free testing to the public in affected areas. This work first employs generative models to improve mpox detection and provides new insights into binary decision-making tasks in medical images.
翻訳日:2023-10-11 20:34:14 公開日:2023-10-10
# プログレッシブ条件付き拡散モデルによるポーズ誘導画像合成

Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models ( http://arxiv.org/abs/2310.06313v1 )

ライセンス: Link先を確認
Fei Shen, Hu Ye, Jun Zhang, Cong Wang, Xiao Han, Wei Yang(参考訳) 近年の研究では、ポーズ誘導人物画像合成における拡散モデルの有意な可能性を示している。 しかし、ソースイメージとターゲットイメージ間のポーズの不整合のため、ソースイメージとターゲットポーズ情報にのみ依存して、異なるポーズでイメージを合成することは深刻な課題である。 本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。 具体的には,第1段階では,ポーズ座標と画像出現のグローバルアライメント関係をマイニングすることにより,対象画像の全体的特徴を予測する簡易事前条件拡散モデルを設計する。 そこで,第2段では,前段のグローバルな特徴を用いたソース画像とターゲット画像との密接な対応性を確立し,文脈的特徴をさらに整合させ,より粗い人物画像を生成するために,塗装条件拡散モデルを提案する。 第3段階では,前段からの粗い生成画像を条件として利用する精製条件拡散モデルを提案し,テクスチャ復元を実現し,細部整合性を向上させる。 3段階のPCDMは、最終的な高品質で高忠実な合成画像を生成するために徐々に機能する。 定性的かつ定量的な結果は、挑戦的なシナリオ下で提案したPCDMの一貫性とフォトリアリズムを示し、コードとモデルはhttps://github.com/muzishen/PCDMsで利用可能である。

Recent work has showcased the significant potential of diffusion models in pose-guided person image synthesis. However, owing to the inconsistency in pose between the source and target images, synthesizing an image with a distinct pose, relying exclusively on the source image and target pose information, remains a formidable challenge. This paper presents Progressive Conditional Diffusion Models (PCDMs) that incrementally bridge the gap between person images under the target and source poses through three stages. Specifically, in the first stage, we design a simple prior conditional diffusion model that predicts the global features of the target image by mining the global alignment relationship between pose coordinates and image appearance. Then, the second stage establishes a dense correspondence between the source and target images using the global features from the previous stage, and an inpainting conditional diffusion model is proposed to further align and enhance the contextual features, generating a coarse-grained person image. In the third stage, we propose a refining conditional diffusion model to utilize the coarsely generated image from the previous stage as a condition, achieving texture restoration and enhancing fine-detail consistency. The three-stage PCDMs work progressively to generate the final high-quality and high-fidelity synthesized image. Both qualitative and quantitative results demonstrate the consistency and photorealism of our proposed PCDMs under challenging scenarios.The code and model will be available at https://github.com/muzishen/PCDMs.
翻訳日:2023-10-11 20:33:47 公開日:2023-10-10
# CoinSeg: インクリメンタルセグメンテーションのためのクラス間のコントラスト表現

CoinSeg: Contrast Inter- and Intra- Class Representations for Incremental Segmentation ( http://arxiv.org/abs/2310.06368v1 )

ライセンス: Link先を確認
Zekang Zhang, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei(参考訳) クラスインクリメンタルセマンティックセグメンテーションは、モデルの安定性と可塑性のバランスを、新しい概念に適応しながら古い知識を維持することを目的としている。 However, most state-of-the-art methods use the freeze strategy for stability, which compromises the model's plasticity.In contrast, releasing parameter training for plasticity could lead to the best performance for all categories, but this requires discriminative feature representation.Therefore, we prioritize the model's plasticity and propose the Contrast inter- and intra-class representations for Incremental Segmentation (CoinSeg), which pursues discriminative representations for flexible parameter tuning. ガウス分布の混合からサンプリングされるガウス混合モデルにインスパイアされたCoinSegは、複数の対照的な表現セントロイドを持つクラス内多様性を強調する。 具体的には,あるカテゴリの多様なインスタンス/セントロイドである可能性が高い,強い対象性を持つ領域を特定するためにマスクの提案を用いる。 これらのマスクの提案はクラス内多様性を強化するために対比表現に使用される。 一方,クラス内多様性からのバイアスを避けるために,カテゴリレベルの擬似ラベルを適用し,カテゴリレベルの一貫性とカテゴリ間多様性を高める。 さらにcoinegはモデルの安定性を確保し、特定のフレキシブルなチューニング戦略を通じて忘れることを緩和する。 我々は、Pascal VOC 2012とADE20KデータセットのCoinSegを複数のインクリメンタルシナリオで検証し、従来の最先端手法よりも優れた結果を得る。 コードはhttps://github.com/zkzhang98/CoinSegで入手できる。

Class incremental semantic segmentation aims to strike a balance between the model's stability and plasticity by maintaining old knowledge while adapting to new concepts. However, most state-of-the-art methods use the freeze strategy for stability, which compromises the model's plasticity.In contrast, releasing parameter training for plasticity could lead to the best performance for all categories, but this requires discriminative feature representation.Therefore, we prioritize the model's plasticity and propose the Contrast inter- and intra-class representations for Incremental Segmentation (CoinSeg), which pursues discriminative representations for flexible parameter tuning. Inspired by the Gaussian mixture model that samples from a mixture of Gaussian distributions, CoinSeg emphasizes intra-class diversity with multiple contrastive representation centroids. Specifically, we use mask proposals to identify regions with strong objectness that are likely to be diverse instances/centroids of a category. These mask proposals are then used for contrastive representations to reinforce intra-class diversity. Meanwhile, to avoid bias from intra-class diversity, we also apply category-level pseudo-labels to enhance category-level consistency and inter-category diversity. Additionally, CoinSeg ensures the model's stability and alleviates forgetting through a specific flexible tuning strategy. We validate CoinSeg on Pascal VOC 2012 and ADE20K datasets with multiple incremental scenarios and achieve superior results compared to previous state-of-the-art methods, especially in more challenging and realistic long-term scenarios. Code is available at https://github.com/zkzhang98/CoinSeg.
翻訳日:2023-10-11 18:42:37 公開日:2023-10-10
# drugclip: 仮想スクリーニングのためのコントラストタンパク質-分子表現学習

DrugCLIP: Contrastive Protein-Molecule Representation Learning for Virtual Screening ( http://arxiv.org/abs/2310.06367v1 )

ライセンス: Link先を確認
Bowen Gao, Bo Qiang, Haichuan Tan, Minsi Ren, Yinjun Jia, Minsi Lu, Jingjing Liu, Weiying Ma, Yanyan Lan(参考訳) 仮想スクリーニングは、大量の複合データベースから特定のタンパク質ポケットに結合する可能性のある薬物を識別する。 従来のドッキング手法は非常に時間がかかり、リアルタイムアプリケーションでは限定的な検索ライブラリでしか動作しない。 バインディング-アフィニティ予測のためのスコアリング関数を用いた最近の教師付き学習アプローチは、有望ではあるが、信頼できるバインディング-アフィニティラベルを持つ限られたデータに強く依存しているため、ドッキングメソッドを超えていない。 本稿では,仮想スクリーニングを高密度検索タスクとして再構成し,結合タンパク質ポケットや分子の表現を明示的な結合親和性スコアを伴わずに多量のペアデータから整列させるコントラスト学習手法であるD薬CLIPを提案する。 また,生物知識に基づくデータ拡張戦略を導入し,より優れたタンパク質分子表現を学習する。 大規模な実験では、特にゼロショット設定において、DragonCLIPは計算時間を大幅に削減した様々な仮想スクリーニングベンチマークにおいて、従来のドッキングおよび教師付き学習手法よりも大幅に優れていた。

Virtual screening, which identifies potential drugs from vast compound databases to bind with a particular protein pocket, is a critical step in AI-assisted drug discovery. Traditional docking methods are highly time-consuming, and can only work with a restricted search library in real-life applications. Recent supervised learning approaches using scoring functions for binding-affinity prediction, although promising, have not yet surpassed docking methods due to their strong dependency on limited data with reliable binding-affinity labels. In this paper, we propose a novel contrastive learning framework, DrugCLIP, by reformulating virtual screening as a dense retrieval task and employing contrastive learning to align representations of binding protein pockets and molecules from a large quantity of pairwise data without explicit binding-affinity scores. We also introduce a biological-knowledge inspired data augmentation strategy to learn better protein-molecule representations. Extensive experiments show that DrugCLIP significantly outperforms traditional docking and supervised learning methods on diverse virtual screening benchmarks with highly reduced computation time, especially in zero-shot setting.
翻訳日:2023-10-11 18:42:13 公開日:2023-10-10
# マルチモーダルエンティティアライメントのためのマルチモーダル知識グラフ変換フレームワーク

Multi-Modal Knowledge Graph Transformer Framework for Multi-Modal Entity Alignment ( http://arxiv.org/abs/2310.06365v1 )

ライセンス: Link先を確認
Qian Li, Cheng Ji, Shu Guo, Zhaoji Liang, Lihong Wang, Jianxin Li(参考訳) マルチモーダルエンティティアライメント(mmea)は、マルチモーダルナレッジグラフ(mmkgs)をまたいで同等のエンティティペアを特定することを目的とした重要なタスクである。 しかし、このタスクは、隣接するエンティティ、マルチモーダル属性、エンティティタイプなど、さまざまな種類の情報が存在するため、課題に直面している。 上記の情報を直接組み込むこと(例えば連結や注意)は、整合性のない情報空間につながる。 これらの課題に対処するために、階層的に隣り合う機能、マルチモーダル属性、エンティティタイプを導入してアライメントタスクを強化する、moalignと呼ばれる新しいmmeaトランスフォーマーを提案する。 複数の情報をよりうまく統合できるトランスフォーマティブの能力を利用して、異なる情報のユニークなセマンティクスを保存するためにトランスフォーマエンコーダ内の階層的修飾可能な自己アテンションブロックを設計する。 さらに,2つのエンティティ型プレフィックスインジェクションを設計し,型プレフィックスを用いてエンティティ型情報を統合し,MMKGに存在しないエンティティのグローバルな情報を制限する。 ベンチマークデータセットに関する広範な実験は、我々のアプローチが強力な競合相手を上回り、優れたエンティティアライメント性能を達成していることを示している。

Multi-Modal Entity Alignment (MMEA) is a critical task that aims to identify equivalent entity pairs across multi-modal knowledge graphs (MMKGs). However, this task faces challenges due to the presence of different types of information, including neighboring entities, multi-modal attributes, and entity types. Directly incorporating the above information (e.g., concatenation or attention) can lead to an unaligned information space. To address these challenges, we propose a novel MMEA transformer, called MoAlign, that hierarchically introduces neighbor features, multi-modal attributes, and entity types to enhance the alignment task. Taking advantage of the transformer's ability to better integrate multiple information, we design a hierarchical modifiable self-attention block in a transformer encoder to preserve the unique semantics of different information. Furthermore, we design two entity-type prefix injection methods to integrate entity-type information using type prefixes, which help to restrict the global information of entities not present in the MMKGs. Our extensive experiments on benchmark datasets demonstrate that our approach outperforms strong competitors and achieves excellent entity alignment performance.
翻訳日:2023-10-11 18:41:53 公開日:2023-10-10
# Noisy-ArcMix:混合異常音検出と付加雑音性角マージン損失

Noisy-ArcMix: Additive Noisy Angular Margin Loss Combined With Mixup Anomalous Sound Detection ( http://arxiv.org/abs/2310.06364v1 )

ライセンス: Link先を確認
Soonhyeon Choi, Jung-Woo Choi(参考訳) 非教師付き異常音検出(unsupervised anomalous sound detection, asd)は、正常な操作音の特徴を学習し、その偏差を感知することで異常音を識別することを目的としている。 近年のアプローチでは,正規データの分類を用いた自己教師ありタスクに着目し,異常データの表現空間の確保が,コンパクトなクラス内分布とクラス内分布の分離を実現する表現学習を通じて重要であることを示した。 しかし,従来の手法では十分なクラス内コンパクト性の確保に失敗することが多く,サンプルと対応する中心との角度の相違が見られる。 本稿では,クラス内コンパクト性を確保し,正常試料と異常試料との角度ギャップを増大させる訓練手法を提案する。 さらに,重要な時間領域の特徴を抽出し,どの時間枠を強調・抑制すべきかをモデルに学習させるアーキテクチャを提案する。 実験の結果,提案手法は,DCASE 2020 Challenge Task2データセットの最先端手法と比較して,AUC,pAUC,mAUCのそれぞれ0.90%,0.83%,2.16%向上した。

Unsupervised anomalous sound detection (ASD) aims to identify anomalous sounds by learning the features of normal operational sounds and sensing their deviations. Recent approaches have focused on the self-supervised task utilizing the classification of normal data, and advanced models have shown that securing representation space for anomalous data is important through representation learning yielding compact intra-class and well-separated intra-class distributions. However, we show that conventional approaches often fail to ensure sufficient intra-class compactness and exhibit angular disparity between samples and their corresponding centers. In this paper, we propose a training technique aimed at ensuring intra-class compactness and increasing the angle gap between normal and abnormal samples. Furthermore, we present an architecture that extracts features for important temporal regions, enabling the model to learn which time frames should be emphasized or suppressed. Experimental results demonstrate that the proposed method achieves the best performance giving 0.90%, 0.83%, and 2.16% improvement in terms of AUC, pAUC, and mAUC, respectively, compared to the state-of-the-art method on DCASE 2020 Challenge Task2 dataset.
翻訳日:2023-10-11 18:41:30 公開日:2023-10-10
# InfoCL:情報理論の観点からの連続テキスト分類における破滅的予測の軽減

InfoCL: Alleviating Catastrophic Forgetting in Continual Text Classification from An Information Theoretic Perspective ( http://arxiv.org/abs/2310.06362v1 )

ライセンス: Link先を確認
Yifan Song, Peiyi Wang, Weimin Xiong, Dawei Zhu, Tianyu Liu, Zhifang Sui, Sujian Li(参考訳) 継続学習(CL)は、古いタスクを忘れないようにしながら、時間とともに新しい知識を常に学習することを目的としている。 クラスインクリメンタル設定下での連続的なテキスト分類に注目した。 近年のCL研究では、破滅的忘れ込みの重要な要因として、類似クラスの性能低下が指摘されている。 本稿では,CLにおける表現学習プロセスの詳細な探索を通じて,情報ボトルネックの圧縮効果が類似クラスに混乱をもたらすことを明らかにする。 モデルが十分な表現を学習できるようにするために,新しいリプレイに基づく連続テキスト分類法infoclを提案する。 提案手法は,高速・現行のコントラスト学習を用いて相互情報最大化を行い,事前学習した表現をより良く復元する。 さらにInfoCLは、リプレイの過度な問題を軽減するために、逆メモリ拡張戦略を取り入れている。 実験の結果,InfoCLは3つのテキスト分類タスクにおいて,忘れを効果的に軽減し,最先端のパフォーマンスを達成することが示された。 コードはhttps://github.com/Yifan-Song793/InfoCLで公開されている。

Continual learning (CL) aims to constantly learn new knowledge over time while avoiding catastrophic forgetting on old tasks. We focus on continual text classification under the class-incremental setting. Recent CL studies have identified the severe performance decrease on analogous classes as a key factor for catastrophic forgetting. In this paper, through an in-depth exploration of the representation learning process in CL, we discover that the compression effect of the information bottleneck leads to confusion on analogous classes. To enable the model learn more sufficient representations, we propose a novel replay-based continual text classification method, InfoCL. Our approach utilizes fast-slow and current-past contrastive learning to perform mutual information maximization and better recover the previously learned representations. In addition, InfoCL incorporates an adversarial memory augmentation strategy to alleviate the overfitting problem of replay. Experimental results demonstrate that InfoCL effectively mitigates forgetting and achieves state-of-the-art performance on three text classification tasks. The code is publicly available at https://github.com/Yifan-Song793/InfoCL.
翻訳日:2023-10-11 18:41:08 公開日:2023-10-10
# 影響を予測: 大規模シナリオ記述を用いたニュース環境における生成型aiの多様性の探究

Anticipating Impacts: Using Large-Scale Scenario Writing to Explore Diverse Implications of Generative AI in the News Environment ( http://arxiv.org/abs/2310.06361v1 )

ライセンス: Link先を確認
Kimon Kieslich, Nicholas Diakopoulos, Natali Helberger(参考訳) 生成AIの膨大な増加は、ニュース環境を含む社会のあらゆる部分に及んでいる。 不正情報や誤情報、差別、社会的緊張の促進といった問題を含む、生成aiの利用の増加による個人的および社会的な影響について多くの懸念がある。 しかし、生成AIの影響を予想する研究はまだ初期段階であり、主に技術開発者や研究者の見解に限られている。 本稿では,3つの利害関係者グループ(新規消費者,技術開発者,コンテンツクリエータ)の,生成AIの潜在的なネガティブな影響に対する展望の拡大と,それに対応するための緩和戦略について述べる。 方法論的には, 将来の認知的多様な想像力を探求するために, 調査(n=119)の文脈でシナリオ記述と参加観を応用する。 我々は,ニュース環境における生成AIの潜在的影響,潜在的な緩和戦略,およびこれらの影響を誘発・緩和するステークホルダーの役割を,システマティック分析を用いて定量的に分析する。 また、euai草案第52条に示唆される透明性義務である特定の緩和戦略について、回答者の意見を計測する。 異なる利害関係者グループ間での結果を比較し、これらのグループ全体で異なる影響が予想される(非)存在について詳しく検討する。 生成的AI影響評価のためのツールボックスとして,シナリオ記述と参加予測の有用性について論じる。

The tremendous rise of generative AI has reached every part of society - including the news environment. There are many concerns about the individual and societal impact of the increasing use of generative AI, including issues such as disinformation and misinformation, discrimination, and the promotion of social tensions. However, research on anticipating the impact of generative AI is still in its infancy and mostly limited to the views of technology developers and/or researchers. In this paper, we aim to broaden the perspective and capture the expectations of three stakeholder groups (news consumers; technology developers; content creators) about the potential negative impacts of generative AI, as well as mitigation strategies to address these. Methodologically, we apply scenario writing and use participatory foresight in the context of a survey (n=119) to delve into cognitively diverse imaginations of the future. We qualitatively analyze the scenarios using thematic analysis to systematically map potential impacts of generative AI on the news environment, potential mitigation strategies, and the role of stakeholders in causing and mitigating these impacts. In addition, we measure respondents' opinions on a specific mitigation strategy, namely transparency obligations as suggested in Article 52 of the draft EU AI Act. We compare the results across different stakeholder groups and elaborate on the (non-) presence of different expected impacts across these groups. We conclude by discussing the usefulness of scenario-writing and participatory foresight as a toolbox for generative AI impact assessment.
翻訳日:2023-10-11 18:40:50 公開日:2023-10-10
# ダイヤモンド中の窒素空孔中心と炭素13の高密度アンサンブルとの相互作用

Interaction of Nitrogen-Vacancy Centers in Diamond with a Dense Ensemble of Carbon-13 ( http://arxiv.org/abs/2310.06359v1 )

ライセンス: Link先を確認
O.R. Rubinas, V.V. Soshenko, I.S. Cojocaru, S.V. Bolshedvorskii, P. G. Vilyuzhanina, E.A. Primak, S.M. Drofa, A.M. Kozodaev, V.G. Vins, V.N. Sorokin, A.N. Smolyaninov and A.V. Akimov(参考訳) ダイヤモンド中の窒素空孔中心は、主に温度、磁場、回転測定のためのセンシング用途において多くの注目を集めている。 窒素空孔中心を囲む炭素13の核スピンは、記憶または感知素子として使用できる。 本研究では,炭素13の濃度が比較的高いダイヤモンド板を合成,検討した。 光検出された磁気共鳴スペクトルを5-200Gの磁場範囲で記録・解析し,磁気共鳴スペクトル分析に基づく炭素13同位体濃度のひずみ非依存測定法を開発した。 さらにスペクトルの狭い特徴が検出され、理解された。

The nitrogen-vacancy center in diamond attracts a lot of attention in sensing applications, mainly for temperature, magnetic field, and rotation measurements. Nuclear spins of carbon-13 surrounding the nitrogen-vacancy center can be used as a memory or sensing element. In the current work, a diamond plate with a relatively large concentration of carbon-13 was synthesized and examined. The spectrum of optically detected magnetic resonance was recorded and analyzed in a magnetic field range of 5-200 G. A strain-independent measurement technique of carbon-13 isotope concentration based on the analysis of magnetic resonance spectra was developed. Additionally, narrow features in the spectrum were detected and understood.
翻訳日:2023-10-11 18:40:25 公開日:2023-10-10
# 大規模言語モデルのための意味不変ロバストな透かし

A Semantic Invariant Robust Watermark for Large Language Models ( http://arxiv.org/abs/2310.06356v1 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shiao Meng and Lijie Wen(参考訳) 大規模言語モデル(LLM)のための透かしアルゴリズムは,LLMによって生成されたテキストを極めて高精度に検出できる。 このようなアルゴリズムは通常、世代毎にLLMのロジットに余分な透かしロジットを追加する。 しかし、以前のアルゴリズムは攻撃の堅牢性とセキュリティの堅牢性の間のトレードオフに直面している。 これは、トークンのウォーターマークのロジットが、いくつかの先行するトークンによって決定されるためである。 本研究では,LLMの攻撃堅牢性とセキュリティ堅牢性の両方を提供する意味不変な透かし手法を提案する。 私たちの作業における透かしのロジットは、先行するすべてのトークンの意味論によって決定されます。 具体的には、他の埋め込み LLM を用いて、先行するトークンのセマンティック埋め込みを生成し、これらのセマンティック埋め込みをトレーニングされた透かしモデルを通して透かしログに変換する。 その後の分析と実験により,同義語置換とテキストパラフレーズ設定という意味的不変な設定において,本手法の攻撃堅牢性を示した。 最後に、我々の透かしが適切なセキュリティの堅牢性を持っていることも示します。 私たちのコードとデータはhttps://github.com/thu-bpm/robust_watermarkで入手できます。

Watermark algorithms for large language models (LLMs) have achieved extremely high accuracy in detecting text generated by LLMs. Such algorithms typically involve adding extra watermark logits to the LLM's logits at each generation step. However, prior algorithms face a trade-off between attack robustness and security robustness. This is because the watermark logits for a token are determined by a certain number of preceding tokens; a small number leads to low security robustness, while a large number results in insufficient attack robustness. In this work, we propose a semantic invariant watermarking method for LLMs that provides both attack robustness and security robustness. The watermark logits in our work are determined by the semantics of all preceding tokens. Specifically, we utilize another embedding LLM to generate semantic embeddings for all preceding tokens, and then these semantic embeddings are transformed into the watermark logits through our trained watermark model. Subsequent analyses and experiments demonstrated the attack robustness of our method in semantically invariant settings: synonym substitution and text paraphrasing settings. Finally, we also show that our watermark possesses adequate security robustness. Our code and data are available at https://github.com/THU-BPM/Robust_Watermark.
翻訳日:2023-10-11 18:40:17 公開日:2023-10-10
# YOLOv5による映像・映像からの火災検知

Fire Detection From Image and Video Using YOLOv5 ( http://arxiv.org/abs/2310.06351v1 )

ライセンス: Link先を確認
Arafat Islam, Md. Imtiaz Habib(参考訳) 屋内,屋外,森林の火災画像における火災様標的の検出と自然光下での火災検出のために,改良されたYOLOv5火災検出深層学習アルゴリズムを提案する。 yolov5検出モデルは、機能抽出ネットワークを3次元から拡張し、火の小さなターゲット識別の機能伝達を強化し、ネットワーク性能を改善し、モデルパラメータを減らす。 さらに、特徴ピラミッドの促進により、最高性能予測ボックスを得る。 Fire-YOLOv5は最先端の物体検出ネットワークと比較して優れた結果を得ることができ、特にmAP 90.5%とf1スコア88%で火と煙の小さな標的を検出する。 全体として、ファイアヨーブ5検出モデルは、F1スコア0.88の火や煙のような物体だけでなく、小さな火の標的の検査にも効果的に対応できる。 入力画像サイズが416 x 416の解像度の場合、平均検出時間は1フレームあたり0.12 sであり、リアルタイムの森林火災検出を可能にする。 さらに,本論文で提案するアルゴリズムは,他の複雑な状況下での小型ターゲット検出にも適用可能である。 提案方式は, 精度, リコール, 平均精度などのすべての火災検出指標において, 改善手法を示す。

For the detection of fire-like targets in indoor, outdoor and forest fire images, as well as fire detection under different natural lights, an improved YOLOv5 fire detection deep learning algorithm is proposed. The YOLOv5 detection model expands the feature extraction network from three dimensions, which enhances feature propagation of fire small targets identification, improves network performance, and reduces model parameters. Furthermore, through the promotion of the feature pyramid, the top-performing prediction box is obtained. Fire-YOLOv5 attains excellent results compared to state-of-the-art object detection networks, notably in the detection of small targets of fire and smoke with mAP 90.5% and f1 score 88%. Overall, the Fire-YOLOv5 detection model can effectively deal with the inspection of small fire targets, as well as fire-like and smoke-like objects with F1 score 0.88. When the input image size is 416 x 416 resolution, the average detection time is 0.12 s per frame, which can provide real-time forest fire detection. Moreover, the algorithm proposed in this paper can also be applied to small target detection under other complicated situations. The proposed system shows an improved approach in all fire detection metrics such as precision, recall, and mean average precision.
翻訳日:2023-10-11 18:39:58 公開日:2023-10-10
# JointNet:Dense Distribution Modelingのためのテキスト・画像拡散の拡張

JointNet: Extending Text-to-Image Diffusion for Dense Distribution Modeling ( http://arxiv.org/abs/2310.06347v1 )

ライセンス: Link先を確認
Jingyang Zhang, Shiwei Li, Yuanxun Lu, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan, Yao Yao(参考訳) 本稿では,画像の結合分布をモデル化する新しいニューラルネットワークアーキテクチャであるjointnetと,さらに深いモダリティ(奥行きマップなど)を提示する。 JointNetは、トレーニング済みのテキスト-画像拡散モデルから拡張され、元のネットワークのコピーが新しい高密度なモダリティブランチ用に作成され、RGBブランチと密に接続される。 RGBブランチはネットワーク微細調整中にロックされ、大規模な事前学習拡散モデルの強力な一般化能力を維持しつつ、新しいモード分布の効率的な学習を可能にする。 rgbd拡散を例に,広範な実験を行い,rgbd生成,濃密深度予測,奥行き条件付き画像生成,コヒーレントタイルを用いた3dパノラマ生成など,様々な用途に適用できることを示すことで,ジョイントネットの有効性を実証した。

We introduce JointNet, a novel neural network architecture for modeling the joint distribution of images and an additional dense modality (e.g., depth maps). JointNet is extended from a pre-trained text-to-image diffusion model, where a copy of the original network is created for the new dense modality branch and is densely connected with the RGB branch. The RGB branch is locked during network fine-tuning, which enables efficient learning of the new modality distribution while maintaining the strong generalization ability of the large-scale pre-trained diffusion model. We demonstrate the effectiveness of JointNet by using RGBD diffusion as an example and through extensive experiments, showcasing its applicability in a variety of applications, including joint RGBD generation, dense depth prediction, depth-conditioned image generation, and coherent tile-based 3D panorama generation.
翻訳日:2023-10-11 18:39:37 公開日:2023-10-10
# 3DS-SLAM:動的屋内環境に向けた3次元物体検出に基づく意味的SLAM

3DS-SLAM: A 3D Object Detection based Semantic SLAM towards Dynamic Indoor Environments ( http://arxiv.org/abs/2310.06385v1 )

ライセンス: Link先を確認
Ghanta Sai Krishna, Kundrapu Supriya, Sabur Baidya(参考訳) 環境内の可変因子の存在は、同時局在化マッピング(slam)アルゴリズムにおける静的環境の基本的な仮定に違反するため、カメラの局在化精度が低下する可能性がある。 動的環境に対する最近のセマンティックSLAMシステムは、2Dセマンティック情報にのみ依存するか、幾何学的情報にのみ依存するか、結果を緩く統合された方法で組み合わせる。 本稿では,3dオブジェクト検出機能を備えた動的シーン用に調整した3dセマンティックスラム,3dセマンティックスラムを提案する。 3DS-SLAMは、意味的制約と幾何学的制約の両方を逐次解決する密結合アルゴリズムである。 動的オブジェクトを識別する点クラウドに基づくオブジェクト検出のための3次元部分認識型ハイブリッドトランスを設計した。 次に,HDBSCANクラスタリングに基づく動的特徴フィルタを提案する。 ORB-SLAM2と比較すると、3DS-SLAMはTUM RGB-Dデータセットの動的シーケンスの平均98.01%の改善を示す。 さらに、動的環境向けに設計された他の4つのSLAMシステムの性能を上回る。

The existence of variable factors within the environment can cause a decline in camera localization accuracy, as it violates the fundamental assumption of a static environment in Simultaneous Localization and Mapping (SLAM) algorithms. Recent semantic SLAM systems towards dynamic environments either rely solely on 2D semantic information, or solely on geometric information, or combine their results in a loosely integrated manner. In this research paper, we introduce 3DS-SLAM, 3D Semantic SLAM, tailored for dynamic scenes with visual 3D object detection. The 3DS-SLAM is a tightly-coupled algorithm resolving both semantic and geometric constraints sequentially. We designed a 3D part-aware hybrid transformer for point cloud-based object detection to identify dynamic objects. Subsequently, we propose a dynamic feature filter based on HDBSCAN clustering to extract objects with significant absolute depth differences. When compared against ORB-SLAM2, 3DS-SLAM exhibits an average improvement of 98.01% across the dynamic sequences of the TUM RGB-D dataset. Furthermore, it surpasses the performance of the other four leading SLAM systems designed for dynamic environments.
翻訳日:2023-10-11 18:34:09 公開日:2023-10-10
# 欠落したモダリティに直面したロバストなマルチモーダルモデルに何をもたらすのか?

What Makes for Robust Multi-Modal Models in the Face of Missing Modalities? ( http://arxiv.org/abs/2310.06383v1 )

ライセンス: Link先を確認
Siting Li, Chenzhuang Du, Yue Zhao, Yu Huang, Hang Zhao(参考訳) マルチモーダル学習の成功に伴い、特にモダリティの欠如に直面する場合のマルチモーダルモデルの堅牢性に関する研究が注目されている。 しかしながら、この領域における以前の研究は、理論的な洞察がしばしば欠けているか、その方法論が特定のネットワークアーキテクチャやモダリティと結びついているため、一定の限界を示す。 情報理論的な観点から、欠落モダリティに遭遇するマルチモーダルモデルのシナリオをモデル化し、非許容モダリティに固有の情報を効率的に活用することにより、そのようなシナリオにおけるパフォーマンス天井にアプローチできることを示す。 実際には,(1) エンコーダは,非許容モードから十分な優れた特徴を抽出できなければならない,(2) 抽出された特徴は,モーダル間の融合過程においてノイズの影響を受けないほど頑健である,という2つの重要な側面がある。 そこで我々は,Uni-Modal Ensemble with Missing Modality Adaptation (UME-MMA)を紹介する。 UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。 これとは別に、UME-MMAはレイトフュージョン学習フレームワーク上に構築されており、様々なエンコーダをプラグイン・アンド・プレイで使用することができ、幅広いモダリティに適合し、大規模事前学習エンコーダのシームレスな統合によりパフォーマンスをさらに向上することができる。 また,視聴覚データセット (av-mnist, kinetics-sound, ave) および視覚言語データセット (mm-imdb, upmc food101) におけるume-mmaの有効性を示す。

With the growing success of multi-modal learning, research on the robustness of multi-modal models, especially when facing situations with missing modalities, is receiving increased attention. Nevertheless, previous studies in this domain exhibit certain limitations, as they often lack theoretical insights or their methodologies are tied to specific network architectures or modalities. We model the scenarios of multi-modal models encountering missing modalities from an information-theoretic perspective and illustrate that the performance ceiling in such scenarios can be approached by efficiently utilizing the information inherent in non-missing modalities. In practice, there are two key aspects: (1) The encoder should be able to extract sufficiently good features from the non-missing modality; (2) The extracted features should be robust enough not to be influenced by noise during the fusion process across modalities. To this end, we introduce Uni-Modal Ensemble with Missing Modality Adaptation (UME-MMA). UME-MMA employs uni-modal pre-trained weights for the multi-modal model to enhance feature extraction and utilizes missing modality data augmentation techniques to better adapt to situations with missing modalities. Apart from that, UME-MMA, built on a late-fusion learning framework, allows for the plug-and-play use of various encoders, making it suitable for a wide range of modalities and enabling seamless integration of large-scale pre-trained encoders to further enhance performance. And we demonstrate UME-MMA's effectiveness in audio-visual datasets~(e.g., AV-MNIST, Kinetics-Sound, AVE) and vision-language datasets~(e.g., MM-IMDB, UPMC Food101).
翻訳日:2023-10-11 18:33:50 公開日:2023-10-10
# CAST: 語彙データのためのクラスタ対応自己学習

CAST: Cluster-Aware Self-Training for Tabular Data ( http://arxiv.org/abs/2310.06380v1 )

ライセンス: Link先を確認
Minwook Kim, Juseong Kim, Kibeom Kim, Donggil Kang, Giltae Song(参考訳) 自己学習は単純さと汎用性から注目を集めているが、ノイズの多い擬似ラベルには弱い。 この問題に対処するためのいくつかの研究が成功したアプローチを提案しているが、自己学習アルゴリズムやモデルアーキテクチャの特定の修正を必要とするため、自己学習の利点を減らした。 さらに、それらのほとんどは、表ドメインを支配する勾配ブースティング決定木と互換性がない。 これに対処するために、私たちは、互いに近いデータサンプルが同じクラスに属する傾向があるというクラスタの仮定を再検討します。 この仮定に触発されて,表データに対するクラスタ対応自己学習(CAST)を提案する。 CASTは、大幅な修正なしに既存の自己学習アルゴリズムを強化するための、シンプルで普遍的に適応可能なアプローチである。 具体的には,疑似ラベルの値を表す分類器の信頼度を定式化し,訓練データ内の各クラスに対する事前知識を活用し,低密度領域の疑似ラベルの信頼度を低下させる。 最大20の実世界のデータセットに対する大規模な実験的評価は、CASTの優れた性能だけでなく、自己学習コンテキストにおける様々な設定における堅牢性も確認する。

Self-training has gained attraction because of its simplicity and versatility, yet it is vulnerable to noisy pseudo-labels. Several studies have proposed successful approaches to tackle this issue, but they have diminished the advantages of self-training because they require specific modifications in self-training algorithms or model architectures. Furthermore, most of them are incompatible with gradient boosting decision trees, which dominate the tabular domain. To address this, we revisit the cluster assumption, which states that data samples that are close to each other tend to belong to the same class. Inspired by the assumption, we propose Cluster-Aware Self-Training (CAST) for tabular data. CAST is a simple and universally adaptable approach for enhancing existing self-training algorithms without significant modifications. Concretely, our method regularizes the confidence of the classifier, which represents the value of the pseudo-label, forcing the pseudo-labels in low-density regions to have lower confidence by leveraging prior knowledge for each class within the training data. Extensive empirical evaluations on up to 20 real-world datasets confirm not only the superior performance of CAST but also its robustness in various setups in self-training contexts.
翻訳日:2023-10-11 18:33:15 公開日:2023-10-10
# フーリエニューラル演算子の初期化バイアス:カオスのエッジの再検討

Initialization Bias of Fourier Neural Operator: Revisiting the Edge of Chaos ( http://arxiv.org/abs/2310.06379v1 )

ライセンス: Link先を確認
Takeshi Koshizuka, Masahiro Fujisawa, Yusuke Tanaka, and Issei Sato(参考訳) 本稿ではフーリエ神経演算子(FNO)の初期化バイアスについて検討する。 FNOの平均場理論が確立され、「カオスの端」の観点からランダムなFNOの挙動を解析する。 本研究では, モード切り離しによるFNO特有の特性を示すとともに, 密結合ネットワークと類似性を示す。 また,この観察に基づいて,トレーニング不安定性につながる負初期化バイアスを緩和するために,he初期化スキームのfnoバージョンを提案する。 実験結果から,32層FNOの安定トレーニングを,追加技術や性能劣化を伴わずに実施できる初期化方式の有効性が示された。

This paper investigates the initialization bias of the Fourier neural operator (FNO). A mean-field theory for FNO is established, analyzing the behavior of the random FNO from an ``edge of chaos'' perspective. We uncover that the forward and backward propagation behaviors exhibit characteristics unique to FNO, induced by mode truncation, while also showcasing similarities to those of densely connected networks. Building upon this observation, we also propose a FNO version of the He initialization scheme to mitigate the negative initialization bias leading to training instability. Experimental results demonstrate the effectiveness of our initialization scheme, enabling stable training of a 32-layer FNO without the need for additional techniques or significant performance degradation.
翻訳日:2023-10-11 18:32:57 公開日:2023-10-10
# $k$一様量子状態の境界と構成

Bounds and Constructions on $k$-Uniform Quantum States ( http://arxiv.org/abs/2310.06378v1 )

ライセンス: Link先を確認
Fei Shi, Yu Ning, Qi Zhao and Xiande Zhang(参考訳) n$-partite $k$-uniform 状態は常に $k\leq \lfloor\frac{n}{2}\rfloor-1$ で存在するか? この研究では、パラメータ $k$ of $k$-uniform state in $(\mathbb{c}^{d})^{\otimes n}$ when $d=3,4,5$, これは1999年のrains' boundを延長し、2004年のscottのバウンドを改善する。 また、$(\mathbb{c}^{d})^{\otimes n}$ の$k$一様状態は、純粋な $((n,1,k+1))_{d}$ 量子誤り訂正符号に対応するので、最小距離 $k+1$ of pure $((n,1,k+1))_d$ 量子誤り訂正符号の新しい上限を与える。 第二に、$\mathbb{C}^{d_1}\otimes(\mathbb{C}^{d_2})^{\otimes 2n}$ において、絶対極大な絡み合った状態に対して存在しない結果を示す。 最後に、$(\mathbb{C}^{d})^{\otimes N}$が素数で$d>2$が素数で$N\geq 4$のとき、小さなサポートを持つ2$一様状態の新たな構成を与え、最小ランでいくつかの既約直交配列を決定する。

Do $N$-partite $k$-uniform states always exist when $k\leq \lfloor\frac{N}{2}\rfloor-1$? In this work, we provide new upper bounds for the parameter $k$ of $k$-uniform states in $(\mathbb{C}^{d})^{\otimes N}$ when $d=3,4,5$, which extend Rains' bound in 1999 and improve Scott's bound in 2004. Since a $k$-uniform state in $(\mathbb{C}^{d})^{\otimes N}$ corresponds to a pure $((N,1,k+1))_{d}$ quantum error-correcting codes, we also give new upper bounds for the minimum distance $k+1$ of pure $((N,1,k+1))_d$ quantum error-correcting codes. Second, we show some non-existence results for absolutely maximally entangled states in $\mathbb{C}^{d_1}\otimes(\mathbb{C}^{d_2})^{\otimes 2n}$. Finally, we give new constructions of $2$-uniform states with small supports in $(\mathbb{C}^{d})^{\otimes N}$ when $d>2$ is a prime power and $N\geq 4$, and determine some irredundant orthogonal arrays with the minimum runs.
翻訳日:2023-10-11 18:32:45 公開日:2023-10-10
# 異常検出のための量子サポートベクトルデータ記述

Quantum support vector data description for anomaly detection ( http://arxiv.org/abs/2310.06375v1 )

ライセンス: Link先を確認
Hyeondo Oh, Daniel K. Park(参考訳) 異常検出は、データ分析とパターン認識において重要な問題であり、様々な領域のアプリケーションを見つける。 本稿では,異常検出のための教師なし学習アルゴリズムである量子支援ベクトルデータ記述(QSVDD)を紹介する。 QSVDDは浅い深さの量子回路を用いて、ノイズの多い中間スケール量子(NISQ)コンピューティングの制約に合わせて、通常のデータを厳密に囲む最小体積超球面を学習する。 MNISTとFashion MNISTの画像データセットのシミュレーション結果は、QSVDDが同様のトレーニング条件下で量子オートエンコーダとディープラーニングベースのアプローチより優れていることを示している。 特に、QSVDDは、非常に少数のモデルパラメータをトレーニングする利点があり、これは入力キュービットの数と対数的に増加する。 これにより、単純なトレーニングランドスケープで効率的な学習が可能になり、異常検出に強力なパフォーマンスを持つコンパクトな量子機械学習モデルが提示される。

Anomaly detection is a critical problem in data analysis and pattern recognition, finding applications in various domains. We introduce quantum support vector data description (QSVDD), an unsupervised learning algorithm designed for anomaly detection. QSVDD utilizes a shallow-depth quantum circuit to learn a minimum-volume hypersphere that tightly encloses normal data, tailored for the constraints of noisy intermediate-scale quantum (NISQ) computing. Simulation results on the MNIST and Fashion MNIST image datasets demonstrate that QSVDD outperforms both quantum autoencoder and deep learning-based approaches under similar training conditions. Notably, QSVDD offers the advantage of training an extremely small number of model parameters, which grows logarithmically with the number of input qubits. This enables efficient learning with a simple training landscape, presenting a compact quantum machine learning model with strong performance for anomaly detection.
翻訳日:2023-10-11 18:32:06 公開日:2023-10-10
# 事前学習列列モデルを用いたキーワード生成のためのモデル選択と復号化の検討

Rethinking Model Selection and Decoding for Keyphrase Generation with Pre-trained Sequence-to-Sequence Models ( http://arxiv.org/abs/2310.06374v1 )

ライセンス: Link先を確認
Di Wu, Wasi Uddin Ahmad, Kai-Wei Chang(参考訳) keyphrase generation (kpg) はnlpの長年にわたるタスクであり、広く応用されている。 sequence-to-sequence (seq2seq) pre-trained language model (plms) の出現は、kpgの変革期を告げ、有望なパフォーマンス改善をもたらした。 しかし、多くの設計決定は未検討のままであり、しばしば任意に行われる。 本稿では,plmベースのkpgに対するモデル選択と復号戦略の影響を体系的に分析する。 まず,seq2seq plmがkpgに適している理由を明らかにする。 1) モデルサイズを増加させたり,タスク固有の適応を実行するだけではパラメータ効率が向上しない,(2) ドメイン内事前トレーニングとタスク適応の併用はkpgの利点だが,一般化を部分的に妨げている。 復号化に関しては, グリージー検索はF1スコアが強いが, サンプリング法に比べて遅延が小さいことを示す。 そこで我々は,5つのデータセットで平均4.7%のセマンティックf1によって欲望検索を改善する確率に基づくデコード選択アルゴリズムdeselを提案する。 本研究は, PLM を用いた KPG の今後の研究の道を開くものである。

Keyphrase Generation (KPG) is a longstanding task in NLP with widespread applications. The advent of sequence-to-sequence (seq2seq) pre-trained language models (PLMs) has ushered in a transformative era for KPG, yielding promising performance improvements. However, many design decisions remain unexplored and are often made arbitrarily. This paper undertakes a systematic analysis of the influence of model selection and decoding strategies on PLM-based KPG. We begin by elucidating why seq2seq PLMs are apt for KPG, anchored by an attention-driven hypothesis. We then establish that conventional wisdom for selecting seq2seq PLMs lacks depth: (1) merely increasing model size or performing task-specific adaptation is not parameter-efficient; (2) although combining in-domain pre-training with task adaptation benefits KPG, it does partially hinder generalization. Regarding decoding, we demonstrate that while greedy search delivers strong F1 scores, it lags in recall compared with sampling-based methods. From our insights, we propose DeSel, a likelihood-based decode-select algorithm that improves greedy search by an average of 4.7% semantic F1 across five datasets. Our collective findings pave the way for deeper future investigations into PLM-based KPG.
翻訳日:2023-10-11 18:31:49 公開日:2023-10-10
# 拡散に基づく画像変化を利用した有毒データロバストトレーニング

Leveraging Diffusion-Based Image Variations for Robust Training on Poisoned Data ( http://arxiv.org/abs/2310.06372v1 )

ライセンス: Link先を確認
Lukas Struppek, Martin B. Hentschel, Clifton Poth, Dominik Hintersdorf, Kristian Kersting(参考訳) バックドア攻撃は、モデルに隠れた機能を導入することによって、ニューラルネットワークのトレーニングに深刻なセキュリティ上の脅威をもたらす。 このようなバックドアは、クリーンな入力の推論中に静かであり、目立たない振る舞いによる検出を避ける。 しかし、入力データに特定のトリガーパターンが現れると、バックドアが起動し、モデルがその隠蔽された機能を実行する。 このような有毒なサンプルを膨大なデータセットで検出することは、手動検査によって事実上不可能である。 そこで本研究では,近年の拡散モデルのパワーを活用して,潜在的に有毒なデータセットのモデルトレーニングを可能にする手法を提案する。 具体的には、すべてのトレーニングサンプルの合成的なバリエーションを作成し、データ内の潜在的なトリガパターンに拡散モデルの固有のレジリエンスを活用します。 この生成的アプローチと知識蒸留を組み合わせることで,バックドアトリガーに対する頑健な抵抗を示しながら,タスクの一般的なパフォーマンスを維持する学生モデルを作成する。

Backdoor attacks pose a serious security threat for training neural networks as they surreptitiously introduce hidden functionalities into a model. Such backdoors remain silent during inference on clean inputs, evading detection due to inconspicuous behavior. However, once a specific trigger pattern appears in the input data, the backdoor activates, causing the model to execute its concealed function. Detecting such poisoned samples within vast datasets is virtually impossible through manual inspection. To address this challenge, we propose a novel approach that enables model training on potentially poisoned datasets by utilizing the power of recent diffusion models. Specifically, we create synthetic variations of all training samples, leveraging the inherent resilience of diffusion models to potential trigger patterns in the data. By combining this generative approach with knowledge distillation, we produce student models that maintain their general performance on the task while exhibiting robust resistance to backdoor triggers.
翻訳日:2023-10-11 18:31:26 公開日:2023-10-10
# マルチボックス検出によるスパイキングネットワークに基づく暗黒物体検出のための高精度戦略

Advanced Efficient Strategy for Detection of Dark Objects Based on Spiking Network with Multi-Box Detection ( http://arxiv.org/abs/2310.06370v1 )

ライセンス: Link先を確認
Munawar Ali, Baoqun Yin, Hazrat Bilal, Aakash Kumar, Ali Muhammad, Avinash Rohra(参考訳) 既存のオブジェクト検出タスクでは、いくつかのディープラーニングアルゴリズムが素晴らしいパフォーマンスを示しているが、暗いオブジェクトを認識することが最大の課題である。 さらに、これらの技術は認識速度の低下や検出に苦労し、結果としてパフォーマンスが著しく低下した。 その結果、上記の困難に対処するために、改良され正確な検出手法が必要となる。 本研究は、エネルギー効率と信頼性の高い物体検出器モデルとして、スパイク層と通常の畳み込み層の組み合わせを提案する。 提案モデルは2つのセクションに分けられる。 第1のセクションは、予め訓練されたvgg16を利用する特徴抽出器として開発され、提案構造の第2のセクションは、スパイク層と通常の畳み込み層の組み合わせで画像の境界ボックスを検出する。 検出対象を分類するための事前学習モデルを構築した。 最先端のPythonライブラリでは、スパイク層を効率的にトレーニングすることができる。 提案したスパイク畳み込み物体検出器(SCOD)はVOCおよびEx-Darkデータセット上で評価されている。 SCOD は 66.01% と 41.25% mAP に達し、VOC-12 と Ex-Dark データセットの 12 の20 個の異なる物体を検出した。 SCODはフォワードパス計算に14ギガFLOPSを使用している。 実験結果から,VOCデータセットのmAPに基づく Tiny YOLO, Spike YOLO, YOLO-LITE, Tinier YOLO, Center of loc+Xception と比較した。

Several deep learning algorithms have shown amazing performance for existing object detection tasks, but recognizing darker objects is the largest challenge. Moreover, those techniques struggled to detect or had a slow recognition rate, resulting in significant performance losses. As a result, an improved and accurate detection approach is required to address the above difficulty. The whole study proposes a combination of spiked and normal convolution layers as an energy-efficient and reliable object detector model. The proposed model is split into two sections. The first section is developed as a feature extractor, which utilizes pre-trained VGG16, and the second section of the proposal structure is the combination of spiked and normal Convolutional layers to detect the bounding boxes of images. We drew a pre-trained model for classifying detected objects. With state of the art Python libraries, spike layers can be trained efficiently. The proposed spike convolutional object detector (SCOD) has been evaluated on VOC and Ex-Dark datasets. SCOD reached 66.01% and 41.25% mAP for detecting 20 different objects in the VOC-12 and 12 objects in the Ex-Dark dataset. SCOD uses 14 Giga FLOPS for its forward path calculations. Experimental results indicated superior performance compared to Tiny YOLO, Spike YOLO, YOLO-LITE, Tinier YOLO and Center of loc+Xception based on mAP for the VOC dataset.
翻訳日:2023-10-11 18:31:09 公開日:2023-10-10
# 回帰作業における帰納的伝達のための幾何学的配向エンコーダ

Geometrically Aligned Transfer Encoder for Inductive Transfer in Regression Tasks ( http://arxiv.org/abs/2310.06369v1 )

ライセンス: Link先を確認
Sung Moon Ko, Sumin Lee, Dae-Woong Jeong, Woohyung Lim, Sehui Han(参考訳) 転送学習は、他の豊富なデータと潜在的に関連のある少量のデータを扱うための重要な技術である。 しかし,既存の手法のほとんどは,画像と言語データセットを用いた分類タスクに重点を置いている。 そこで本研究では,回帰タスクに伝達学習手法を拡張するために,微分幾何学,すなわち幾何配向変換エンコーダ(Geometrically Aligned Transfer Encoder, GATE)に基づく新しい転送手法を提案する。 この方法では、リーマン曲線多様体上に存在するようなモデルから潜在ベクトルを解釈する。 我々は、すべての任意の点が重複する領域内の局所平坦な座標に写像し、ソースから対象データへの知識の伝達を可能にするために、タスクのペア間の適切な微分同相を見つける。 これはまた、モデルが外挿領域で振る舞うための効果的な正則化器としても機能する。 本稿では、GATEが従来の手法より優れており、様々な分子グラフデータセットに対する潜伏空間と外挿領域の両方で安定した挙動を示すことを示す。

Transfer learning is a crucial technique for handling a small amount of data that is potentially related to other abundant data. However, most of the existing methods are focused on classification tasks using images and language datasets. Therefore, in order to expand the transfer learning scheme to regression tasks, we propose a novel transfer technique based on differential geometry, namely the Geometrically Aligned Transfer Encoder (GATE). In this method, we interpret the latent vectors from the model to exist on a Riemannian curved manifold. We find a proper diffeomorphism between pairs of tasks to ensure that every arbitrary point maps to a locally flat coordinate in the overlapping region, allowing the transfer of knowledge from the source to the target data. This also serves as an effective regularizer for the model to behave in extrapolation regions. In this article, we demonstrate that GATE outperforms conventional methods and exhibits stable behavior in both the latent space and extrapolation regions for various molecular graph datasets.
翻訳日:2023-10-11 18:30:45 公開日:2023-10-10
# 深層強化学習は事前知識のない漸近混合混合物の分離過程を明らかにする

Deep reinforcement learning uncovers processes for separating azeotropic mixtures without prior knowledge ( http://arxiv.org/abs/2310.06415v1 )

ライセンス: Link先を確認
Quirin G\"ottl, Jonathan Pirnay, Jakob Burger, Dominik G. Grimm(参考訳) 化学工学におけるプロセス合成は、広大な探索空間、連続パラメータ、一般化の必要性から複雑な計画問題である。 事前知識のない深層強化学習エージェントは、近年、様々な複雑な計画問題において、人間よりも優れていることが示されている。 フローシート合成のための強化学習に関する既存の研究は、有望な概念を示しているが、1つの化学系における狭い問題に焦点を当て、実用性を制限する。 本稿では,フローシート合成のための一般的な深層強化学習手法を提案する。 本稿では,二元共沸混合を分離する一般タスクへの単一エージェントの適応性を示す。 事前の知識がなければ、異なるフィード組成と概念的アプローチを考慮して、複数の化学系のための準最適フローシートを作成することを学ぶ。 平均して、エージェントは99%以上の材料を純粋なコンポーネントに分離できるが、自律的にプロセスエンジニアリングのパラダイムを学習する。 これはエージェントの計画的柔軟性を強調し、真の汎用性への励みとなる。

Process synthesis in chemical engineering is a complex planning problem due to vast search spaces, continuous parameters and the need for generalization. Deep reinforcement learning agents, trained without prior knowledge, have shown to outperform humans in various complex planning problems in recent years. Existing work on reinforcement learning for flowsheet synthesis shows promising concepts, but focuses on narrow problems in a single chemical system, limiting its practicality. We present a general deep reinforcement learning approach for flowsheet synthesis. We demonstrate the adaptability of a single agent to the general task of separating binary azeotropic mixtures. Without prior knowledge, it learns to craft near-optimal flowsheets for multiple chemical systems, considering different feed compositions and conceptual approaches. On average, the agent can separate more than 99% of the involved materials into pure components, while autonomously learning fundamental process engineering paradigms. This highlights the agent's planning flexibility, an encouraging step toward true generality.
翻訳日:2023-10-11 18:22:39 公開日:2023-10-10
# 繰り返しテキストを予測する際の人文モデルと言語モデル

Humans and language models diverge when predicting repeating text ( http://arxiv.org/abs/2310.06408v1 )

ライセンス: Link先を確認
Aditya R. Vaidya, Javier Turek, Alexander G. Huth(参考訳) 単語予測タスクで訓練された言語モデルは、単語予測と読み速度で人間の行動を正確にモデル化することが示されている。 これらの結果とは対照的に,人間とlmsの性能が分岐するシナリオを示す。 テキストの繰り返しによって形成される5つの刺激に対して,人間の次の単語予測のデータセットを収集した。 人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリ(またはテキスト内学習)が役割を担い始めると、その性能は急速に多様化する。 我々はこの分岐の原因を中層における特定の注意頭まで追跡した。 これらの注意に力の弱い傾向バイアスを加えることで、人間と同じような働きをするモデルが生まれました。 このシナリオが、lmsを人間の行動に近づける今後の取り組みを促すことを期待しています。

Language models that are trained on the next-word prediction task have been shown to accurately model human behavior in word prediction and reading speed. In contrast with these findings, we present a scenario in which the performance of humans and LMs diverges. We collected a dataset of human next-word predictions for five stimuli that are formed by repeating spans of text. Human and GPT-2 LM predictions are strongly aligned in the first presentation of a text span, but their performance quickly diverges when memory (or in-context learning) begins to play a role. We traced the cause of this divergence to specific attention heads in a middle layer. Adding a power-law recency bias to these attention heads yielded a model that performs much more similarly to humans. We hope that this scenario will spur future work in bringing LMs closer to human behavior.
翻訳日:2023-10-11 18:22:24 公開日:2023-10-10
# ヘキサ:知識接地対話システムのための自己改善

Hexa: Self-Improving for Knowledge-Grounded Dialogue System ( http://arxiv.org/abs/2310.06404v1 )

ライセンス: Link先を確認
Daejin Jo, Daniel Wontae Nam, Gunsoo Han, Kyoung-Woon On, Taehwan Kwon, Seungeun Rho, Sungwoong Kim(参考訳) 知識基底ダイアログ生成の一般的な実践は、モジュール的なアプローチで中間ステップ(例えば、Web検索、メモリ検索)を明示的に利用することである。 しかし、通常の対話では観測できないため、このようなステップのデータは対話応答のデータに比べてアクセスし難いことが多い。 これらのデータの欠如を補うために, 基礎的真理データを用いずに中間段の生成性能を向上させる自己改善手法を開発した。 特に, 自己生成応答の多様性を高めるために, 誘導プロンプトと修正損失関数を備えた新しいブートストラップ方式を提案する。 種々のベンチマークデータセットの実験を通して,本手法は中間応答と最終応答を生成する自己改善機構をうまく活用し,知識基底型対話生成タスクの性能を向上させることを実証的に実証した。

A common practice in knowledge-grounded dialogue generation is to explicitly utilize intermediate steps (e.g., web-search, memory retrieval) with modular approaches. However, data for such steps are often inaccessible compared to those of dialogue responses as they are unobservable in an ordinary dialogue. To fill in the absence of these data, we develop a self-improving method to improve the generative performances of intermediate steps without the ground truth data. In particular, we propose a novel bootstrapping scheme with a guided prompt and a modified loss function to enhance the diversity of appropriate self-generated responses. Through experiments on various benchmark datasets, we empirically demonstrate that our method successfully leverages a self-improving mechanism in generating intermediate and final responses and improves the performances on the task of knowledge-grounded dialogue generation.
翻訳日:2023-10-11 18:22:11 公開日:2023-10-10
# 時間的行動検出のための境界離散化と信頼性分類網

Boundary Discretization and Reliable Classification Network for Temporal Action Detection ( http://arxiv.org/abs/2310.06403v1 )

ライセンス: Link先を確認
Zhenying Fang(参考訳) テンポラルアクション検出は、アクションカテゴリを認識し、未トリミングビデオにおける各アクションインスタンスの開始と終了時間を決定することを目的としている。 混合手法は、単純にアンカーベースとアンカーフリーのアプローチをマージすることで、顕著な性能を達成した。 しかし,(1)ブルートフォースマージと手作りアンカーの設計は,混合手法の性能と実用性に影響を及ぼす。 2) 行動カテゴリー予測における多数の偽陽性は検出性能にさらに影響を及ぼす。 本稿では,境界離散化と信頼性分類モジュールを導入して,上記の問題に対処する新しい境界離散化・信頼性分類ネットワークを提案する。 具体的には、境界離散化モジュール(BDM)は、従来の混合法で必要とされる手作りアンカーの設計を避けるために、境界離散化の形でアンカーベースおよびアンカーフリーアプローチをエレガントにマージする。 さらに、信頼性分類モジュール(RCM)は、信頼性のあるアクションカテゴリを予測し、アクションカテゴリ予測における偽陽性を減らす。 異なるベンチマークで行った実験により,提案手法は最先端の手法と比較して良好な性能を示した。 例えば、BDRC-NetはTHUMOS'14で平均68.6%のmAPに達し、前年より1.5%上回った。 コードはhttps://github.com/zhenyingfang/BDRC-Netで公開される。

Temporal action detection aims to recognize the action category and determine the starting and ending time of each action instance in untrimmed videos. The mixed methods have achieved remarkable performance by simply merging anchor-based and anchor-free approaches. However, there are still two crucial issues in the mixed framework: (1) Brute-force merging and handcrafted anchors design affect the performance and practical application of the mixed methods. (2) A large number of false positives in action category predictions further impact the detection performance. In this paper, we propose a novel Boundary Discretization and Reliable Classification Network (BDRC-Net) that addresses the above issues by introducing boundary discretization and reliable classification modules. Specifically, the boundary discretization module (BDM) elegantly merges anchor-based and anchor-free approaches in the form of boundary discretization, avoiding the handcrafted anchors design required by traditional mixed methods. Furthermore, the reliable classification module (RCM) predicts reliable action categories to reduce false positives in action category predictions. Extensive experiments conducted on different benchmarks demonstrate that our proposed method achieves favorable performance compared with the state-of-the-art. For example, BDRC-Net hits an average mAP of 68.6% on THUMOS'14, outperforming the previous best by 1.5%. The code will be released at https://github.com/zhenyingfang/BDRC-Net.
翻訳日:2023-10-11 18:21:56 公開日:2023-10-10
# Lo-Hi: MLドラッグ発見ベンチマーク

Lo-Hi: Practical ML Drug Discovery Benchmark ( http://arxiv.org/abs/2310.06399v1 )

ライセンス: Link先を確認
Simon Steshin(参考訳) 新しい薬を見つけるのはますます難しくなっている。 薬物発見の望みの1つは、機械学習モデルを使用して分子特性を予測することである。 そのため、分子特性予測モデルが開発され、MoreculeNetなどのベンチマークでテストされている。 しかし、既存のベンチマークは非現実的であり、実際にモデルを適用することとはあまりにも異なる。 我々は, 実薬発見プロセスに対応するリード最適化 (Lo) とヒット同定 (Hi) の2つのタスクからなる, 実用的 \emph{Lo-Hi} ベンチマークを作成した。 hiタスクのために、バランスのとれた頂点最小のk$-cut問題を解く新しい分子分割アルゴリズムを設計した。 我々は最先端のMLモデルと古典的なMLモデルをテストし、実践的な設定でよりうまく機能することを示した。 最新のベンチマークを分析し、非現実的で過度に最適化されていることを示した。 レビュー: https://openreview.net/forum? id=H2Yb28qGLV Lo-Hi benchmark: https://github.com/SteshinSS/lohi_neurips2023 Lo-Hi splitter library: https://github.com/SteshinSS/lohi_splitter

Finding new drugs is getting harder and harder. One of the hopes of drug discovery is to use machine learning models to predict molecular properties. That is why models for molecular property prediction are being developed and tested on benchmarks such as MoleculeNet. However, existing benchmarks are unrealistic and are too different from applying the models in practice. We have created a new practical \emph{Lo-Hi} benchmark consisting of two tasks: Lead Optimization (Lo) and Hit Identification (Hi), corresponding to the real drug discovery process. For the Hi task, we designed a novel molecular splitting algorithm that solves the Balanced Vertex Minimum $k$-Cut problem. We tested state-of-the-art and classic ML models, revealing which works better under practical settings. We analyzed modern benchmarks and showed that they are unrealistic and overoptimistic. Review: https://openreview.net/forum?id=H2Yb28qGLV Lo-Hi benchmark: https://github.com/SteshinSS/lohi_neurips2023 Lo-Hi splitter library: https://github.com/SteshinSS/lohi_splitter
翻訳日:2023-10-11 18:21:33 公開日:2023-10-10
# グラフニューラルネットワークにおける逆ロバスト性:ハミルトニアンアプローチ

Adversarial Robustness in Graph Neural Networks: A Hamiltonian Approach ( http://arxiv.org/abs/2310.06396v1 )

ライセンス: Link先を確認
Kai Zhao, Qiyu Kang, Yang Song, Rui She, Sijie Wang, Wee Peng Tay(参考訳) グラフニューラルネットワーク(GNN)は、ノードの特徴とグラフトポロジの両方に影響を与えるものを含む、敵対的な摂動に対して脆弱である。 本稿では, BIBO安定性, リアプノフ安定性, 構造安定性, 保守安定性など, 様々な安定性概念との関連性に着目し, 多様なニューラルネットワークから得られるGNNについて検討する。 リアプノフの安定性は、その一般的な使用にもかかわらず、必ずしも敵の堅牢性を保証するとは限らない。 物理原理にインスパイアされた我々は、敵の攻撃に対して堅牢なGNNを構築するために保守的なハミルトンニューラルフローを使うことを提唱する。 異なるニューラルフローGNNの対向ロバスト性は、様々な対向攻撃の下でいくつかのベンチマークデータセットで経験的に比較される。 広範な数値実験により、リアプノフ安定性を持つ保守的ハミルトニアン流れを利用したgnnは、逆摂動に対するロバスト性を大幅に改善することが示されている。 実験の実装コードはhttps://github.com/zknus/NeurIPS-2023-HANG-Robustnessで公開されている。

Graph neural networks (GNNs) are vulnerable to adversarial perturbations, including those that affect both node features and graph topology. This paper investigates GNNs derived from diverse neural flows, concentrating on their connection to various stability notions such as BIBO stability, Lyapunov stability, structural stability, and conservative stability. We argue that Lyapunov stability, despite its common use, does not necessarily ensure adversarial robustness. Inspired by physics principles, we advocate for the use of conservative Hamiltonian neural flows to construct GNNs that are robust to adversarial attacks. The adversarial robustness of different neural flow GNNs is empirically compared on several benchmark datasets under a variety of adversarial attacks. Extensive numerical experiments demonstrate that GNNs leveraging conservative Hamiltonian flows with Lyapunov stability substantially improve robustness against adversarial perturbations. The implementation code of experiments is available at https://github.com/zknus/NeurIPS-2023-HANG-Robustness.
翻訳日:2023-10-11 18:21:16 公開日:2023-10-10
# 質的インタビューを用いたLCMによるユーザペルソナ作成の促進とプロセス:ユーザの行動と性格特性の把握

Improved prompting and process for writing user personas with LLMs, using qualitative interviews: Capturing behaviour and personality traits of users ( http://arxiv.org/abs/2310.06391v1 )

ライセンス: Link先を確認
Stefano De Paoli(参考訳) 本稿では,質的インタビューのテーマ分析の結果を用いて,大規模言語モデルを用いたユーザペルソナ作成のワークフローを提案する。 提案するワークフローでは、プロンプトの改善とテーマプールの拡大が、同じタスクに対して著者が行った以前の作業と比較される。 これは、最近リリースされた1万個のトークン(gpt3.5-turbo-16k)の処理を可能にするllmの機能と、ペルソナ作成のための洗練されたプロンプトを提供する可能性があるためである。 論文は、テーマ分析のフェーズ2とフェーズ3の実行の詳細を説明し、ペルソナ作成のワークフロー改善について論じる。 また,提案するプロセスと,データ駆動型および定性的ペルソナといったペルソナへの既存アプローチとの関係について考察する。 さらに,分析に使用する質的インタビューの基盤となるデータセットから,ユーザ行動や性格特性を捉えるLLMの能力について考察した。

This draft paper presents a workflow for creating User Personas with Large Language Models, using the results of a Thematic Analysis of qualitative interviews. The proposed workflow uses improved prompting and a larger pool of Themes, compared to previous work conducted by the author for the same task. This is possible due to the capabilities of a recently released LLM which allows the processing of 16 thousand tokens (GPT3.5-Turbo-16k) and also due to the possibility to offer a refined prompting for the creation of Personas. The paper offers details of performing Phase 2 and 3 of Thematic Analysis, and then discusses the improved workflow for creating Personas. The paper also offers some reflections on the relationship between the proposed process and existing approaches to Personas such as the data-driven and qualitative Personas. Moreover, the paper offers reflections on the capacity of LLMs to capture user behaviours and personality traits, from the underlying dataset of qualitative interviews used for the analysis.
翻訳日:2023-10-11 18:20:58 公開日:2023-10-10
# P5: パーソナライズされた応答選択のためのプラグアンドプレイペルソナプロンプト

P5: Plug-and-Play Persona Prompting for Personalized Response Selection ( http://arxiv.org/abs/2310.06390v1 )

ライセンス: Link先を確認
Joosung Lee, Minsik Oh, Donghun Lee(参考訳) パーソナライズされた検索ベースのチャットボットの使用は、パーソナライズされた会話には不可欠だが、対処すべき課題がいくつかある。 1) 一般に, 人格的コーパスの収集は非常に費用がかかる。 2) 実アプリケーションにおけるペルソナを考慮したチャットボットシステムは必ずしも応答しない。 これらの課題に対処するために,プラグアンドプレイのペルソナプロンプト手法を提案する。 本システムは,ペルソナ情報が得られない場合,標準のオープンドメインチャットボットとして機能する。 ゼロショット設定では,この手法が良好に動作し,ペルソナ-グラウンドトレーニングデータへの依存を低減できることを示す。 これにより、ペルソナグラウンドのコーパスを構築することなく、システムを他の言語に拡張しやすくなる。 さらに、我々のモデルはより優れたパフォーマンスのために微調整できる。 実験では,ゼロショットモデルにより,オリジナルのペルソナでは7.71点,改訂されたペルソナでは1.04点の標準モデルが改善された。 微調整されたモデルは、以前の最先端のシステムを元のペルソナと改訂されたペルソナでそれぞれ1.5ポイントと3.39ポイント改善した。 我々の知る限りでは、即時シーケンスを用いたパーソナライズされた応答選択の問題を解決するための最初の試みである。 私たちのコードはgithub~\footnote{https://github.com/rungjoo/plug-and-play-prompt-persona}で入手できる。

The use of persona-grounded retrieval-based chatbots is crucial for personalized conversations, but there are several challenges that need to be addressed. 1) In general, collecting persona-grounded corpus is very expensive. 2) The chatbot system does not always respond in consideration of persona at real applications. To address these challenges, we propose a plug-and-play persona prompting method. Our system can function as a standard open-domain chatbot if persona information is not available. We demonstrate that this approach performs well in the zero-shot setting, which reduces the dependence on persona-ground training data. This makes it easier to expand the system to other languages without the need to build a persona-grounded corpus. Additionally, our model can be fine-tuned for even better performance. In our experiments, the zero-shot model improved the standard model by 7.71 and 1.04 points in the original persona and revised persona, respectively. The fine-tuned model improved the previous state-of-the-art system by 1.95 and 3.39 points in the original persona and revised persona, respectively. To the best of our knowledge, this is the first attempt to solve the problem of personalized response selection using prompt sequences. Our code is available on github~\footnote{https://github.com/rungjoo/plug-and-play-prompt-persona}.
翻訳日:2023-10-11 18:20:37 公開日:2023-10-10
# 最適, 再構成可能, 可変解拡散モデリングのためのスタックブルおよびスキップブルLEGOれんがの学習

Learning Stackable and Skippable LEGO Bricks for Efficient, Reconfigurable, and Variable-Resolution Diffusion Modeling ( http://arxiv.org/abs/2310.06389v1 )

ライセンス: Link先を確認
Huangjie Zheng, Zhendong Wang, Jianbo Yuan, Guanghan Ning, Pengcheng He, Quanzeng You, Hongxia Yang, Mingyuan Zhou(参考訳) 拡散モデルはフォトリアリスティックな画像を生成するのに優れるが、トレーニングとサンプリングの両方においてかなりの計算コストがかかる。 様々な手法がこれらの計算課題に対処する一方で、探索の少ない問題は、反復的な改善のために効率的で適応可能なネットワークバックボーンを設計することである。 U-NetやVision Transformerのような現在のオプションは、しばしばリソース集約のディープネットワークに依存しており、可変解像度またはトレーニングで使用されるよりも小さなネットワークで画像を生成するのに必要な柔軟性を欠いている。 本研究では,局所機能強化とグローバルコンテンツオーケストレーションをシームレスに統合したlego bricksを紹介する。 これらのブロックを積み重ねて、テスト時間再構成可能な拡散バックボーンを作成することで、レンガの選択的スキップによりサンプリングコストを削減し、トレーニングデータよりも高解像度の画像を生成することができる。 LEGOブロックは、ローカルリージョンをMLPで豊かにし、Transformerブロックを使用して変換し、すべてのブロックにわたって一貫したフル解像度のイメージを維持します。 実験結果から,LEGOれんがの訓練効率の向上,収束の迅速化,画像の可変分解能の向上,生成性能の向上が示された。 さらにlegoは、他の方法に比べてサンプリング時間を大幅に削減し、拡散モデルの貴重な拡張として確立する。

Diffusion models excel at generating photo-realistic images but come with significant computational costs in both training and sampling. While various techniques address these computational challenges, a less-explored issue is designing an efficient and adaptable network backbone for iterative refinement. Current options like U-Net and Vision Transformer often rely on resource-intensive deep networks and lack the flexibility needed for generating images at variable resolutions or with a smaller network than used in training. This study introduces LEGO bricks, which seamlessly integrate Local-feature Enrichment and Global-content Orchestration. These bricks can be stacked to create a test-time reconfigurable diffusion backbone, allowing selective skipping of bricks to reduce sampling costs and generate higher-resolution images than the training data. LEGO bricks enrich local regions with an MLP and transform them using a Transformer block while maintaining a consistent full-resolution image across all bricks. Experimental results demonstrate that LEGO bricks enhance training efficiency, expedite convergence, and facilitate variable-resolution image generation while maintaining strong generative performance. Moreover, LEGO significantly reduces sampling time compared to other methods, establishing it as a valuable enhancement for diffusion models.
翻訳日:2023-10-11 18:20:14 公開日:2023-10-10
# 文脈記述の少ないジェイルブレークとガードアライメント言語モデル

Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations ( http://arxiv.org/abs/2310.06387v1 )

ライセンス: Link先を確認
Zeming Wei, Yifei Wang, Yisen Wang(参考訳) 大規模言語モデル(llm)は様々なタスクで顕著な成功を収めているが、その安全性と悪質なコンテンツを生み出す可能性に関する懸念が浮上している。 本稿では,LLMのアライメント能力を操作する上で,インコンテキスト学習(ICL)の能力について検討する。 微調整をせずに、わずかにコンテキスト内デモを提供することで、LLMを操作して、悪意のあるプロンプトに応答する、脱獄の確率を増大または減少させることができる。 これらの観測結果に基づいて,同調言語モデルのためのジェイルブレーキングとガードを行うためのICA(In-Context Attack)とICD(In-Context Defense)手法を提案する。 icaは有害なアウトプットを生成するモデルのガイドとして悪意のあるコンテキストを作成し、icdは有害なプロンプトへの応答を拒否するデモによってモデルの堅牢性を高める。 本実験は,ICAおよびICDが敵の脱獄攻撃の成功率を増大または減少させる効果を示した。 全体として、ICLがLCMの行動に影響を及ぼす可能性に光を当て、LCMの安全性とアライメントを高めるための新たな視点を提供する。

Large Language Models (LLMs) have shown remarkable success in various tasks, but concerns about their safety and the potential for generating malicious content have emerged. In this paper, we explore the power of In-Context Learning (ICL) in manipulating the alignment ability of LLMs. We find that by providing just few in-context demonstrations without fine-tuning, LLMs can be manipulated to increase or decrease the probability of jailbreaking, i.e. answering malicious prompts. Based on these observations, we propose In-Context Attack (ICA) and In-Context Defense (ICD) methods for jailbreaking and guarding aligned language model purposes. ICA crafts malicious contexts to guide models in generating harmful outputs, while ICD enhances model robustness by demonstrations of rejecting to answer harmful prompts. Our experiments show the effectiveness of ICA and ICD in increasing or reducing the success rate of adversarial jailbreaking attacks. Overall, we shed light on the potential of ICL to influence LLM behavior and provide a new perspective for enhancing the safety and alignment of LLMs.
翻訳日:2023-10-11 18:19:53 公開日:2023-10-10
# LLaMA:音声認識のためのクロスモーダル生成誤差補正フレームワーク

Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition ( http://arxiv.org/abs/2310.06434v1 )

ライセンス: Link先を確認
Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner(参考訳) 本稿では,自動音声認識(ASR)における生成誤り訂正のための新たなクロスモーダル融合手法を提案する。 本手法は,音響情報と外部言語表現を併用し,正確な音声認識コンテキストを生成する。 これはn-best仮説の領域における生成的誤り訂正の新しいパラダイムへの一歩である。 既存のランキングに基づくリコーリング手法とは異なり,本手法は個別の初期化手法とパラメータ効率の高いアルゴリズムを用いて,事前学習された音声・テキストモデルから得られるasr性能を向上させる。 多様なasrデータセットをまたいで評価することにより,本手法の安定性と再現性を評価し,その単語誤り率相対(werr)性能を,n-best仮説と比較して37.66%向上させた。 将来の研究を促進するため、コードと事前訓練されたモデルをhttps://github.com/Srijith-rkr/Whispering-LLaMAでオープンソース化しました。

We introduce a new cross-modal fusion technique designed for generative error correction in automatic speech recognition (ASR). Our methodology leverages both acoustic information and external linguistic representations to generate accurate speech transcription contexts. This marks a step towards a fresh paradigm in generative error correction within the realm of n-best hypotheses. Unlike the existing ranking-based rescoring methods, our approach adeptly uses distinct initialization techniques and parameter-efficient algorithms to boost ASR performance derived from pre-trained speech and text models. Through evaluation across diverse ASR datasets, we evaluate the stability and reproducibility of our fusion technique, demonstrating its improved word error rate relative (WERR) performance in comparison to n-best hypotheses by relatively 37.66%. To encourage future research, we have made our code and pre-trained models open source at https://github.com/Srijith-rkr/Whispering-LLaMA.
翻訳日:2023-10-11 18:14:36 公開日:2023-10-10
# Retromorphic Testing: テストOracle問題に対する新しいアプローチ

Retromorphic Testing: A New Approach to the Test Oracle Problem ( http://arxiv.org/abs/2310.06433v1 )

ライセンス: Link先を確認
Boxi Yu, Qiuyang Mang, Qingshuo Guo, Pinjia He(参考訳) テストオラクルは、ソフトウェア出力と所定の入力セットの予測動作との対応を評価するための基準またはメカニズムとして機能する。 自動テストでは、ブラックボックス技術は、テストオラクル構築における非侵入性で知られており、微分テストや変成テストのような顕著な方法論を含む広く使われている。 逆関数の数学的概念に着想を得て,新しいブラックボックステスト手法であるRetromorphic Testingを提案する。 テスト中のプログラムと連携して補助プログラムを活用し、前方プログラムと後方プログラムからなるデュアルプログラム構造を確立する。 入力データは、まずフォワードプログラムによって処理され、その後、そのプログラム出力がバックワードプログラムを使用して元の入力形式に反転される。 特に、補助プログラムは前方プログラムまたは後方プログラムとして動作することができ、異なるテストモードにつながる。 このプロセスは、入力領域内の初期入力と変換出力の関係を調べることによって終了する。 例えば、正弦関数 $\sin(x)$ の実装をテストするために、その逆関数 $\arcsin(x)$ を使い、方程式 $x = \sin(\arcsin(x)+2k\pi), \forall k \in \mathbb{z}$ を検証することができる。 本稿では,Retromorphic Testingの高レベルな概念に加えて,アルゴリズム,従来のソフトウェア,AIアプリケーションなど,さまざまなプログラムにまたがる実例を用いた3つのテストモードを提案する。

A test oracle serves as a criterion or mechanism to assess the correspondence between software output and the anticipated behavior for a given input set. In automated testing, black-box techniques, known for their non-intrusive nature in test oracle construction, are widely used, including notable methodologies like differential testing and metamorphic testing. Inspired by the mathematical concept of inverse function, we present Retromorphic Testing, a novel black-box testing methodology. It leverages an auxiliary program in conjunction with the program under test, which establishes a dual-program structure consisting of a forward program and a backward program. The input data is first processed by the forward program and then its program output is reversed to its original input format using the backward program. In particular, the auxiliary program can operate as either the forward or backward program, leading to different testing modes. The process concludes by examining the relationship between the initial input and the transformed output within the input domain. For example, to test the implementation of the sine function $\sin(x)$, we can employ its inverse function, $\arcsin(x)$, and validate the equation $x = \sin(\arcsin(x)+2k\pi), \forall k \in \mathbb{Z}$. In addition to the high-level concept of Retromorphic Testing, this paper presents its three testing modes with illustrative use cases across diverse programs, including algorithms, traditional software, and AI applications.
翻訳日:2023-10-11 18:14:18 公開日:2023-10-10
# 完全直交基底による多部交絡の検出

Detecting multipartite entanglement via complete orthogonal basis ( http://arxiv.org/abs/2310.06431v1 )

ライセンス: Link先を確認
Hui Zhao, Jia Hao, Jing Li, Shao-Ming Fei, Naihuan Jing and Zhi-Xi Wang(参考訳) 完全直交基底 (COB) に基づく任意の$n$-partite量子系における真の三部交絡と多部交絡について検討する。 密度行列の通常のブロッホ表現は3種類の生成器を用いるが、cob演算子を持つ密度行列は1つの一様生成器を持ち、関連する計算を単純化することができる。 このシンプルさの利点を生かして、真の三分体絡みと多分体絡みを検出するための有用かつ運用上の基準を導出する。 まず、一般対称情報完全測定とcobの関係を用いて、一般状態をより単純な形式に変換する。 そして、真の三部絡みを検出するための操作基準を導出する。 任意の次元多部系における多部絡みについて検討する。 詳細な例を提供することで,既存の基準よりも真正な絡み合い状態や多元的絡み合い状態が検出できることを実証する。

We study genuine tripartite entanglement and multipartite entanglement in arbitrary $n$-partite quantum systems based on complete orthogonal basis (COB). While the usual Bloch representation of a density matrix uses three types of generators, the density matrix with COB operators has one uniformed type of generators which may simplify related computations. We take the advantage of this simplicity to derive useful and operational criteria to detect genuine tripartite entanglement and multipartite entanglement. We first convert the general states to simpler forms by using the relationship between general symmetric informationally complete measurements and COB. Then we derive an operational criteria to detect genuine tripartite entanglement. We study multipartite entanglement in arbitrary dimensional multipartite systems. By providing detailed examples, we demonstrate that our criteria can detect more genuine entangled and multipartite entangled states than the previously existing criteria.
翻訳日:2023-10-11 18:13:49 公開日:2023-10-10
# ラベルランキングによる深部分類器のコンフォメーション予測

Conformal Prediction for Deep Classifier via Label Ranking ( http://arxiv.org/abs/2310.06430v1 )

ライセンス: Link先を確認
Jianguo Huang, Huajun Xi, Linjun Zhang, Huaxiu Yao, Yue Qiu, Hongxin Wei(参考訳) 共形予測(conformal prediction)は、所望のカバレッジ保証付き接地ラベルを含む予測セットを生成する統計フレームワークである。 機械学習モデルが生成する予測確率は一般に誤解され、共形予測において大きな予測セットをもたらす。 本稿では,確率値の無視が不適切な確率値の影響を軽減することを実証的,理論的に示す。 そこで我々は,最大ソフトマックス確率を除いて全ての確率値を捨てる,$\textit{Sorted Adaptive Prediction Set}$ (SAPS) という新しいアルゴリズムを提案する。 SAPSの背後にある鍵となる考え方は、不確実性情報を保持しながら、確率値に対する非整合スコアの依存を最小限に抑えることである。 このように、SAPSは小さなサイズの集合を生成し、インスタンスワイドの不確実性を伝えることができる。 理論的には、SAPS の有限サンプルカバレッジ保証を提供し、SAPS のセットサイズが APS よりも常に小さいことを示す。 広範な実験により、sapsは予測セットを減少させるだけでなく、条件付きカバレッジと予測セットの適応性を大きく向上させる。

Conformal prediction is a statistical framework that generates prediction sets containing ground-truth labels with a desired coverage guarantee. The predicted probabilities produced by machine learning models are generally miscalibrated, leading to large prediction sets in conformal prediction. In this paper, we empirically and theoretically show that disregarding the probabilities' value will mitigate the undesirable effect of miscalibrated probability values. Then, we propose a novel algorithm named $\textit{Sorted Adaptive prediction sets}$ (SAPS), which discards all the probability values except for the maximum softmax probability. The key idea behind SAPS is to minimize the dependence of the non-conformity score on the probability values while retaining the uncertainty information. In this manner, SAPS can produce sets of small size and communicate instance-wise uncertainty. Theoretically, we provide a finite-sample coverage guarantee of SAPS and show that the expected value of set size from SAPS is always smaller than APS. Extensive experiments validate that SAPS not only lessens the prediction sets but also broadly enhances the conditional coverage rate and adaptation of prediction sets.
翻訳日:2023-10-11 18:13:33 公開日:2023-10-10
# eXplainable AI for the Arts(XAIxArts)の第1回国際ワークショップの開催報告

Proceedings of The first international workshop on eXplainable AI for the Arts (XAIxArts) ( http://arxiv.org/abs/2310.06428v1 )

ライセンス: Link先を確認
Nick Bryan-Kinns, Corey Ford, Alan Chamberlain, Steven David Benford, Helen Kennedy, Zijin Li, Wu Qiong, Gus G. Xia, and Jeba Rezwana(参考訳) この説明可能なAI for the Arts(XAIxArts)に関する最初の国際ワークショップは、HCI、インタラクションデザイン、AI、説明可能なAI(XAI)、デジタルアーツの研究者のコミュニティを集めて、XAI for the Artsの役割を探求した。 第15回 ACM Conference on Creativity and Cognition (C&C 2023) でワークショップが開催された。

This first international workshop on explainable AI for the Arts (XAIxArts) brought together a community of researchers in HCI, Interaction Design, AI, explainable AI (XAI), and digital arts to explore the role of XAI for the Arts. Workshop held at the 15th ACM Conference on Creativity and Cognition (C&C 2023).
翻訳日:2023-10-11 18:13:14 公開日:2023-10-10
# TANGO:マルチエージェント動的システムのための時間反転潜在グラフ

TANGO: Time-Reversal Latent GraphODE for Multi-Agent Dynamical Systems ( http://arxiv.org/abs/2310.06427v1 )

ライセンス: Link先を確認
Zijie Huang, Wanjia Zhao, Jingdong Gao, Ziniu Hu, Xiao Luo, Yadi Cao, Yuanzhou Chen, Yizhou Sun, Wei Wang(参考訳) データから複雑なマルチエージェントシステムのダイナミクスを学ぶことは、物理シミュレーションや物質モデリングなど、多くの領域で不可欠である。 純粋にデータ駆動のアプローチから拡張され、ハミルトニアンニューラルネットワークのような既存の物理学インフォームドアプローチは、誘導バイアスを導入するためのエネルギー保存法に厳格に従う。 しかし、現実世界のシステムの多くは、摩擦のあるスプリングシステムのようなエネルギーを厳密に保存しない。 タイム・リバーサル・シンメトリー(Time-Reversal Symmetry)は、システムのダイナミクスが時間とともに遡るときに不変であり続けることを描いている。 保守的なシステムのエネルギーを維持するのに役立ち、一方で非保守的で可逆的なシステムの強い誘導バイアスとなる。 このような帰納バイアスを注入するために,本論文では,連続グラフニューラルネットワークに基づく常微分方程式(GraphODE)により予測される前後の軌道を整列するソフト制約として,単純かつ効果的な自己教師付き正規化項を提案する。 時間反転対称性を効果的に課し、古典力学の下でより広い範囲の力学系にわたってより正確なモデル予測を可能にする。 さらに、我々の正規化はODE統合段階における高次テイラー展開項を本質的に最小化し、より耐雑音性が高く、可逆的なシステムにも適用可能であることを示す理論解析も提供する。 様々な物理システムに対する実験結果から,提案手法の有効性が示された。 特に、挑戦的なカオス三重振り子システムにおいて、MSEを11.5%改善する。

Learning complex multi-agent system dynamics from data is crucial across many domains, such as in physical simulations and material modeling. Extended from purely data-driven approaches, existing physics-informed approaches such as Hamiltonian Neural Network strictly follow energy conservation law to introduce inductive bias, making their learning more sample efficiently. However, many real-world systems do not strictly conserve energy, such as spring systems with frictions. Recognizing this, we turn our attention to a broader physical principle: Time-Reversal Symmetry, which depicts that the dynamics of a system shall remain invariant when traversed back over time. It still helps to preserve energies for conservative systems and in the meanwhile, serves as a strong inductive bias for non-conservative, reversible systems. To inject such inductive bias, in this paper, we propose a simple-yet-effective self-supervised regularization term as a soft constraint that aligns the forward and backward trajectories predicted by a continuous graph neural network-based ordinary differential equation (GraphODE). It effectively imposes time-reversal symmetry to enable more accurate model predictions across a wider range of dynamical systems under classical mechanics. In addition, we further provide theoretical analysis to show that our regularization essentially minimizes higher-order Taylor expansion terms during the ODE integration steps, which enables our model to be more noise-tolerant and even applicable to irreversible systems. Experimental results on a variety of physical systems demonstrate the effectiveness of our proposed method. Particularly, it achieves an MSE improvement of 11.5 % on a challenging chaotic triple-pendulum systems.
翻訳日:2023-10-11 18:13:05 公開日:2023-10-10
# プロパガンダ検出のための大規模言語モデル

Large Language Models for Propaganda Detection ( http://arxiv.org/abs/2310.06422v1 )

ライセンス: Link先を確認
Kilian Sprenkamp, Daniel Gordon Jones, Liudmila Zavolokina(参考訳) デジタル社会におけるプロパガンダの普及は、社会的調和と真理の普及に挑戦している。 テキスト中のNLPによるプロパガンダの検出は微妙な操作技術と文脈依存のため困難である。 本稿では,GPT-3 や GPT-4 などの現代大規模言語モデル (LLM) によるプロパガンダ検出の有効性について検討する。 我々は,マルチラベル分類問題として,14のプロパガンダ技術でラベル付けされたニュース記事を特徴とするsemeval-2020 task 11データセットを用いて実験を行った。 GPT-3とGPT-4の5つのバリエーションが採用され、異なるモデルにまたがる様々な迅速なエンジニアリングと微調整戦略が取り入れられている。 我々は、F1$ score, $Precision$, $Recall$などのメトリクスを評価し、その結果とRoBERTaを用いた現在の最先端アプローチを比較して、モデルの性能を評価する。 以上の結果から, GPT-4は現在の最先端技術と同等の結果が得られた。 さらに,プロパガンダ検出などの複雑なタスクにおけるLCMの可能性と課題について検討した。

The prevalence of propaganda in our digital society poses a challenge to societal harmony and the dissemination of truth. Detecting propaganda through NLP in text is challenging due to subtle manipulation techniques and contextual dependencies. To address this issue, we investigate the effectiveness of modern Large Language Models (LLMs) such as GPT-3 and GPT-4 for propaganda detection. We conduct experiments using the SemEval-2020 task 11 dataset, which features news articles labeled with 14 propaganda techniques as a multi-label classification problem. Five variations of GPT-3 and GPT-4 are employed, incorporating various prompt engineering and fine-tuning strategies across the different models. We evaluate the models' performance by assessing metrics such as $F1$ score, $Precision$, and $Recall$, comparing the results with the current state-of-the-art approach using RoBERTa. Our findings demonstrate that GPT-4 achieves comparable results to the current state-of-the-art. Further, this study analyzes the potential and challenges of LLMs in complex tasks like propaganda detection.
翻訳日:2023-10-11 18:12:35 公開日:2023-10-10
# AnoDODE:拡散ODEによる異常検出

AnoDODE: Anomaly Detection with Diffusion ODE ( http://arxiv.org/abs/2310.06420v1 )

ライセンス: Link先を確認
Xianyao Hu and Congming Jin(参考訳) 異常検出は、データセットの大部分から著しく逸脱する非定型データサンプルを特定するプロセスである。 臨床検診・診断の分野では,医療画像の異常を検出することが重要である。 通常、臨床実践は大量の正常な画像へのアクセスを提供するが、異常な画像は比較的少ない。 我々は異常画像とその関連特徴がデータ分布の低密度領域に現れる傾向があることを仮定する。 この仮定に従うと、密度推定タスクのトラクタビリティと優れた性能を考慮し、教師なし異常検出のための拡散ODEに目を向ける。 さらに,多次元医用画像から抽出した特徴量の密度を推定し,拡散odeに基づく新しい異常検出法を提案する。 我々の異常スコアリング機構は,医療画像から抽出された特徴の負のログ類似度を,次元ごとに定量化することにより計算する。 さらに,本手法に適した再構成型異常局在法を提案する。 提案手法は異常を識別するだけでなく,画像レベルと画素レベルでの解釈性も提供する。 BraTS2021医療データセットの実験を通じて,提案手法は既存手法よりも優れていた。 これらの結果から,本手法の有効性と頑健性を確認した。

Anomaly detection is the process of identifying atypical data samples that significantly deviate from the majority of the dataset. In the realm of clinical screening and diagnosis, detecting abnormalities in medical images holds great importance. Typically, clinical practice provides access to a vast collection of normal images, while abnormal images are relatively scarce. We hypothesize that abnormal images and their associated features tend to manifest in low-density regions of the data distribution. Following this assumption, we turn to diffusion ODEs for unsupervised anomaly detection, given their tractability and superior performance in density estimation tasks. More precisely, we propose a new anomaly detection method based on diffusion ODEs by estimating the density of features extracted from multi-scale medical images. Our anomaly scoring mechanism depends on computing the negative log-likelihood of features extracted from medical images at different scales, quantified in bits per dimension. Furthermore, we propose a reconstruction-based anomaly localization suitable for our method. Our proposed method not only identifie anomalies but also provides interpretability at both the image and pixel levels. Through experiments on the BraTS2021 medical dataset, our proposed method outperforms existing methods. These results confirm the effectiveness and robustness of our method.
翻訳日:2023-10-11 18:12:13 公開日:2023-10-10
# 2-to-1 PN関数とLi境界によるASIC-POVMの構成

Construction of ASIC-POVMs via 2-to-1 PN functions and the Li bound ( http://arxiv.org/abs/2310.06418v1 )

ライセンス: Link先を確認
Meng Cao and Xiantao Deng(参考訳) 有限次元 $d$ における対称情報完全作用素値測度 (sic-povms) は、情報完全 povm (ic-povms) の特に魅力的な場合であり、同じ対数忠実度を持つ $d^{2}$ の準正規化射影からなる。 しかし、SIC-POVMの構築は困難であり、SIC-POVMの無限族が存在するかどうかさえ明らかではない。 量子情報処理におけるいくつかの応用を実現するために、Klappenecker et al。 [33]は、ほぼ対称な情報完全POVM(ASIC-POVM)と呼ばれるSIC-POVMの近似バージョンを導入した。 本稿では、それぞれ$q$と$q+1$の次元を持つASIC-POVMの2つの新しい構成と、$q$が素パワーであるようなLi境界について述べる。 最初の構成では、すべての 2$-to-$1$ PN 関数が、[33, Theorem 5] における構成を一般化するだけでなく、[11, Theorem III.3] における一般構成を一般化する次元 $q$ のASIC-POVM を構成するのに使うことができることを示す。 11, Theorem III.3] の条件を満たさない約 2$ から 1$ の PN 関数が、次元$q$ のASIC-POVM の構成にも利用できることを示す。 また、ASIC-POVMに関連する二角フレームのクラスも提供します。 2つ目の構成は、リー境界と呼ばれる乗法的文字和推定を通じて次元$q+1$でASIC-POVMを得る新しい方法を与える。

Symmetric informationally complete positive operator-valued measures (SIC-POVMs) in finite dimension $d$ are a particularly attractive case of informationally complete POVMs (IC-POVMs) which consist of $d^{2}$ subnormalized projectors with equal pairwise fidelity. However, it is difficult to construct SIC-POVMs and it is not even clear whether there exists an infinite family of SIC-POVMs. To realize some possible applications in quantum information processing, Klappenecker et al. [33] introduced an approximate version of SIC-POVMs called approximately symmetric informationally complete POVMs (ASIC-POVMs). In this paper, we present two new constructions of ASIC-POVMs in dimensions $q$ and $q+1$ by $2$-to-$1$ PN functions and the Li bound, respectively, where $q$ is a prime power. In the first construction, we show that all $2$-to-$1$ PN functions can be used for constructing ASIC-POVMs of dimension $q$, which not only generalizes the construction in [33, Theorem 5], but also generalizes the general construction in [11, Theorem III.3]. We show that some $2$-to-$1$ PN functions that do not satisfy the condition in [11, Theorem III.3] can be also utilized for constructing ASIC-POVMs of dimension $q$. We also give a class of biangular frames related to our ASIC-POVMs. The second construction gives a new method to obtain ASIC-POVMs in dimension $q+1$ via a multiplicative character sum estimate called the Li bound.
翻訳日:2023-10-11 18:11:41 公開日:2023-10-10
# グラフ学習における位相汎化のための随伴拡散トランス

Advective Diffusion Transformers for Topological Generalization in Graph Learning ( http://arxiv.org/abs/2310.06417v1 )

ライセンス: Link先を確認
Qitian Wu, Chenxiao Yang, Kaipeng Zeng, Fan Nie, Michael Bronstein, Junchi Yan(参考訳) グラフ拡散方程式はグラフニューラルネットワーク(GNN)と密接に関連しており、近年、GNNダイナミクスの分析、表現力の形式化、アーキテクチャ選択の正当化の原則として注目されている。 グラフ学習における重要な疑問の1つは、GNNの一般化能力である。 現在のアプローチの大きな制限は、トレーニングとテストセットのグラフトポロジが同じ分布から来ているという仮定にかかっている。 本稿では,グラフ拡散方程式がグラフトポロジーの存在下でどのように外挿・一般化するかを探索することにより,GNNの一般化を理解するためのステップを作成する。 まず,グラフ上の局所拡散に基づく既存モデルの一般化能力に,指数関数的感度から位相変化まで,欠陥があることを示す。 その後の分析では,特定データ生成条件を前提として,完全連結潜在グラフ上の特徴伝播を提唱する非局所拡散の公約を明らかにした。 これらの知見に加えて, 位相分布シフトの下での所望の一般化の理論的保証を裏付ける閉形式解を持つ対流グラフ拡散方程式に着想を得た新しいグラフエンコーダのバックボーン, Advective Diffusion Transformer (ADiT) を提案する。 汎用グラフ変換器として機能するこの新しいモデルは、幅広いグラフ学習タスクにおいて優れたパフォーマンスを示す。

Graph diffusion equations are intimately related to graph neural networks (GNNs) and have recently attracted attention as a principled framework for analyzing GNN dynamics, formalizing their expressive power, and justifying architectural choices. One key open questions in graph learning is the generalization capabilities of GNNs. A major limitation of current approaches hinges on the assumption that the graph topologies in the training and test sets come from the same distribution. In this paper, we make steps towards understanding the generalization of GNNs by exploring how graph diffusion equations extrapolate and generalize in the presence of varying graph topologies. We first show deficiencies in the generalization capability of existing models built upon local diffusion on graphs, stemming from the exponential sensitivity to topology variation. Our subsequent analysis reveals the promise of non-local diffusion, which advocates for feature propagation over fully-connected latent graphs, under the assumption of a specific data-generating condition. In addition to these findings, we propose a novel graph encoder backbone, Advective Diffusion Transformer (ADiT), inspired by advective graph diffusion equations that have a closed-form solution backed up with theoretical guarantees of desired generalization under topological distribution shifts. The new model, functioning as a versatile graph Transformer, demonstrates superior performance across a wide range of graph learning tasks.
翻訳日:2023-10-11 18:11:04 公開日:2023-10-10
# 公共資源のアルゴリズム的配置へのアプローチ:学際的考察

Approaches to the Algorithmic Allocation of Public Resources: A Cross-disciplinary Review ( http://arxiv.org/abs/2310.06475v1 )

ライセンス: Link先を確認
Saba Esnaashari, Jonathan Bright, John Francis, Youmna Hashem, Vincent Straub, Deborah Morgan(参考訳) 不足する資源の配分は公共セクターにとって繰り返される課題であり、医療、災害復旧、社会福祉など多様な分野に現れている。 これらのポリシー領域の複雑さと、しばしば相反する基準を満たす必要性は、この種の決定におけるアルゴリズムの使用に焦点を合わせている。 しかし、これらの領域にまたがる研究者同士の関わりはほとんどなく、一般的な問題やアプローチする手法の理解の欠如を意味している。 本稿では,医療,臓器移植,ホームレス,災害救助,福祉など,アルゴリズム的アロケーションの異なる分野に対するアプローチを理解するために,学際横断的文献レビューを行った。 最初は文献を検索して1070件の論文を同定し、6人の研究者がそれぞれ176件と75件の関連論文をスクリーニングした。 次に、最適化目標、技術、解釈可能性、柔軟性、バイアス、倫理的考察、パフォーマンスのレンズから75の論文を分析した。 論文の76%が人間的視点からこの問題にアプローチし,60%は最適化手法を用いてアグリゲートレベルからアプローチした。 最適化技術は、しばしば待ち時間を短縮し、成功率を最大50%向上させます。 しかし、責任あるイノベーションに注意が払われていなかった: わずか3分の1の論文は、最適化目標の選択における倫理的問題を検討したが、ごくわずかしかバイアス問題に注意を払わなかった。 我々の研究は、資源配分問題に対処するアルゴリズムを使いたいと望む政策立案者や研究者のガイドとして機能する。

Allocation of scarce resources is a recurring challenge for the public sector: something that emerges in areas as diverse as healthcare, disaster recovery, and social welfare. The complexity of these policy domains and the need for meeting multiple and sometimes conflicting criteria has led to increased focus on the use of algorithms in this type of decision. However, little engagement between researchers across these domains has happened, meaning a lack of understanding of common problems and techniques for approaching them. Here, we performed a cross disciplinary literature review to understand approaches taken for different areas of algorithmic allocation including healthcare, organ transplantation, homelessness, disaster relief, and welfare. We initially identified 1070 papers by searching the literature, then six researchers went through them in two phases of screening resulting in 176 and 75 relevant papers respectively. We then analyzed the 75 papers from the lenses of optimization goals, techniques, interpretability, flexibility, bias, ethical considerations, and performance. We categorized approaches into human-oriented versus resource-oriented perspective, and individual versus aggregate and identified that 76% of the papers approached the problem from a human perspective and 60% from an aggregate level using optimization techniques. We found considerable potential for performance gains, with optimization techniques often decreasing waiting times and increasing success rate by as much as 50%. However, there was a lack of attention to responsible innovation: only around one third of the papers considered ethical issues in choosing the optimization goals while just a very few of them paid attention to the bias issues. Our work can serve as a guide for policy makers and researchers wanting to use an algorithm for addressing a resource allocation problem.
翻訳日:2023-10-11 18:02:35 公開日:2023-10-10
# 大規模言語モデルにおける多言語脱獄問題

Multilingual Jailbreak Challenges in Large Language Models ( http://arxiv.org/abs/2310.06474v1 )

ライセンス: Link先を確認
Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing(参考訳) 大きな言語モデル(LLM)は、幅広いタスクにわたって顕著な機能を示すが、悪意のある命令がLLMを操作して望ましくない振る舞いを示す、‘jailbreak’問題のような潜在的な安全上の懸念を生じさせる。 LLMに関連する潜在的なリスクを軽減するために、いくつかの予防策が開発されているが、それらは主に英語データに焦点を当てている。 本研究では, LLM内に多言語ジェイルブレイクが存在することを明らかにするとともに, 意図しない, 意図しない2つのリスクシナリオを検討する。 意図しないシナリオは、非英語のプロンプトを使用してLLMをクエリし、不注意に安全メカニズムをバイパスすることである。 実験の結果,意図しないシナリオでは,言語の利用率が減少するにつれて,安全でないコンテンツの割合が増加することがわかった。 特に、低リソース言語は、ChatGPTとGPT-4の両方で、高リソース言語と比較して有害なコンテンツに遭遇する確率が3倍である。 意図的なシナリオでは、多言語プロンプトは悪意のある命令の悪影響を悪化させ、驚くべきことに安全でない出力の80.92\%、GPT-440.71\%である。 このような課題に対処するため、安全微調整のための多言語学習データを自動的に生成する新しいフレームワーク「textsc{Self-Defense}」を提案する。 実験結果から,このようなデータで微調整したChatGPTは,安全でないコンテンツ生成を大幅に削減できることがわかった。 データはhttps://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMsで入手できる。 警告: 本論文は潜在的に有害なコンテンツの例を含む。

While large language models (LLMs) exhibit remarkable capabilities across a wide range of tasks, they pose potential safety concerns, such as the ``jailbreak'' problem, wherein malicious instructions can manipulate LLMs to exhibit undesirable behavior. Although several preventive measures have been developed to mitigate the potential risks associated with LLMs, they have primarily focused on English data. In this study, we reveal the presence of multilingual jailbreak challenges within LLMs and consider two potential risk scenarios: unintentional and intentional. The unintentional scenario involves users querying LLMs using non-English prompts and inadvertently bypassing the safety mechanisms, while the intentional scenario concerns malicious users combining malicious instructions with multilingual prompts to deliberately attack LLMs. The experimental results reveal that in the unintentional scenario, the rate of unsafe content increases as the availability of languages decreases. Specifically, low-resource languages exhibit three times the likelihood of encountering harmful content compared to high-resource languages, with both ChatGPT and GPT-4. In the intentional scenario, multilingual prompts can exacerbate the negative impact of malicious instructions, with astonishingly high rates of unsafe output: 80.92\% for ChatGPT and 40.71\% for GPT-4. To handle such a challenge in the multilingual context, we propose a novel \textsc{Self-Defense} framework that automatically generates multilingual training data for safety fine-tuning. Experimental results show that ChatGPT fine-tuned with such data can achieve a substantial reduction in unsafe content generation. Data is available at https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMs. Warning: This paper contains examples with potentially harmful content.
翻訳日:2023-10-11 18:02:06 公開日:2023-10-10
# 問合せ型オブジェクト検出のための局所領域に着目して

Focus on Local Regions for Query-based Object Detection ( http://arxiv.org/abs/2310.06470v1 )

ライセンス: Link先を確認
Hongbin Xu, Yamei Xia, Shuai Zhao, Bo Cheng(参考訳) クエリーベースの手法は、エンドツーエンドのクエリーベースの検出器であるDETRの出現以来、オブジェクト検出に大きな注目を集めてきた。 しかし、これらの手法は低収束や準最適性能といった課題に直面している。 特に、オブジェクト検出における自己着脱は、そのグローバルな焦点によって収束を阻害することが多い。 これらの問題に対処するために,デコーダのみを有するトランスフォーマーのようなアーキテクチャであるFoLRを提案する。 我々は,グローバル領域ではなく局所領域に焦点をあてる無関係オブジェクト間の接続を分離することにより,自己着脱機構を強化する。 また,特徴マップからクエリの局所領域に基づく効果的な特徴を抽出する適応的サンプリング手法を設計する。 さらに、デコーダが事前情報を保持するためのルックバック戦略と、機能とクエリを融合するfeature mixerモジュールを採用しています。 クエリベースの検出器におけるFoLRの最先端性能を実証し,収束速度と計算効率に優れていた。

Query-based methods have garnered significant attention in object detection since the advent of DETR, the pioneering end-to-end query-based detector. However, these methods face challenges like slow convergence and suboptimal performance. Notably, self-attention in object detection often hampers convergence due to its global focus. To address these issues, we propose FoLR, a transformer-like architecture with only decoders. We enhance the self-attention mechanism by isolating connections between irrelevant objects that makes it focus on local regions but not global regions. We also design the adaptive sampling method to extract effective features based on queries' local regions from feature maps. Additionally, we employ a look-back strategy for decoders to retain prior information, followed by the Feature Mixer module to fuse features and queries. Experimental results demonstrate FoLR's state-of-the-art performance in query-based detectors, excelling in convergence speed and computational efficiency.
翻訳日:2023-10-11 18:01:32 公開日:2023-10-10
# 深層ニューラルネットワークの逆ロバスト性評価のための幾何学的アプローチ

A Geometrical Approach to Evaluate the Adversarial Robustness of Deep Neural Networks ( http://arxiv.org/abs/2310.06468v1 )

ライセンス: Link先を確認
Yang Wang, Bo Dong, Ke Xu, Haiyin Piao, Yufei Ding, Baocai Yin, Xin Yang(参考訳) Deep Neural Networks (DNN) はコンピュータビジョンタスクに広く使われている。 しかし、ディープモデルが敵の攻撃、すなわち、元の入力に不可避な摂動が行われるとパフォーマンスが低下し、さらに次の視覚的タスクが劣化するか、データやプライバシセキュリティなどの新たな問題を引き起こす可能性があることが示されている。 したがって、敵攻撃に対する深層モデルの堅牢性を評価するための指標が望まれる。 しかし, 小規模データセット上での浅層ネットワークの頑健性を評価するために, 従来の指標が主に提案されている。 nEtwork Robustness (CLEVER) のCross Lipschitz Extreme Valueは大規模データセット(例えば ImageNet データセット)に対して提案されているが、計算コストが高く、その性能は抽出可能なサンプル数に依存している。 本稿では,特定の入力に対してDNNの対向ロバスト性を定量化する攻撃依存指標であるACTS(Adversarial Converging Time Score)を提案する。 我々の重要な観察は、DNNの出力面上の局所的な近傍は異なる入力に対して異なる形状を持つであろうことである。 したがって、異なる入力が与えられると、逆のサンプルに収束するのに異なる時間が必要となる。 この幾何学的意味から、ACTSは対向ロバスト性計量として収束時間を測定する。 我々は,最先端の深層ネットワークを用いた大規模画像Netデータセットに対する様々な敵攻撃に対するACTS測定の有効性と一般化を検証した。 大規模な実験により、我々のACTSメトリックは、以前のCLEVERメトリックよりも効率的で効果的な対角距離であることが示されている。

Deep Neural Networks (DNNs) are widely used for computer vision tasks. However, it has been shown that deep models are vulnerable to adversarial attacks, i.e., their performances drop when imperceptible perturbations are made to the original inputs, which may further degrade the following visual tasks or introduce new problems such as data and privacy security. Hence, metrics for evaluating the robustness of deep models against adversarial attacks are desired. However, previous metrics are mainly proposed for evaluating the adversarial robustness of shallow networks on the small-scale datasets. Although the Cross Lipschitz Extreme Value for nEtwork Robustness (CLEVER) metric has been proposed for large-scale datasets (e.g., the ImageNet dataset), it is computationally expensive and its performance relies on a tractable number of samples. In this paper, we propose the Adversarial Converging Time Score (ACTS), an attack-dependent metric that quantifies the adversarial robustness of a DNN on a specific input. Our key observation is that local neighborhoods on a DNN's output surface would have different shapes given different inputs. Hence, given different inputs, it requires different time for converging to an adversarial sample. Based on this geometry meaning, ACTS measures the converging time as an adversarial robustness metric. We validate the effectiveness and generalization of the proposed ACTS metric against different adversarial attacks on the large-scale ImageNet dataset using state-of-the-art deep networks. Extensive experiments show that our ACTS metric is an efficient and effective adversarial metric over the previous CLEVER metric.
翻訳日:2023-10-11 18:01:16 公開日:2023-10-10
# 文化コンパス:文化的特徴を有する攻撃言語検出における伝達学習成功予測

Cultural Compass: Predicting Transfer Learning Success in Offensive Language Detection with Cultural Features ( http://arxiv.org/abs/2310.06458v1 )

ライセンス: Link先を確認
Li Zhou, Antonia Karamolegkou, Wenyu Chen, Daniel Hershcovich(参考訳) 言語技術のユビキタス化は、特に攻撃的言語検出(old)のような文化的ニュアンスに重きを置く主観的なタスクにおいて、機械学習分野における文化的多様性を考えることへのシフトを必要とする。 現在の理解では、これらの課題は文化的価値に大きく影響されているが、文化的特徴がこうした主観的なタスクに対する異文化間移動学習の成功を正確に予測できるかどうかを判断する際、顕著なギャップがある。 そこで本研究では,文化特性の交点と転校学習の効果について考察する。 その結果,文化価値調査は,旧課題における異文化間転校学習成功の予測力を有しており,攻撃的単語距離を用いてさらに改善できることがわかった。 これらの結果に基づき,文化情報のデータセットへの統合を提唱する。 さらに,文化適応性を高めるために,調査などの文化的情報に富んだデータソースを活用することを推奨する。 我々の研究は、より包括的で文化的に敏感な言語技術の探求の一歩を踏み出した。

The increasing ubiquity of language technology necessitates a shift towards considering cultural diversity in the machine learning realm, particularly for subjective tasks that rely heavily on cultural nuances, such as Offensive Language Detection (OLD). Current understanding underscores that these tasks are substantially influenced by cultural values, however, a notable gap exists in determining if cultural features can accurately predict the success of cross-cultural transfer learning for such subjective tasks. Addressing this, our study delves into the intersection of cultural features and transfer learning effectiveness. The findings reveal that cultural value surveys indeed possess a predictive power for cross-cultural transfer learning success in OLD tasks and that it can be further improved using offensive word distance. Based on these results, we advocate for the integration of cultural information into datasets. Additionally, we recommend leveraging data sources rich in cultural information, such as surveys, to enhance cultural adaptability. Our research signifies a step forward in the quest for more inclusive, culturally sensitive language technologies.
翻訳日:2023-10-11 18:00:48 公開日:2023-10-10
# LLMの一般化と多様性に及ぼすRLHFの影響の理解

Understanding the Effects of RLHF on LLM Generalisation and Diversity ( http://arxiv.org/abs/2310.06452v1 )

ライセンス: Link先を確認
Robert Kirk, Ishita Mediratta, Christoforos Nalmpantis, Jelena Luketina, Eric Hambro, Edward Grefenstette, Roberta Raileanu(参考訳) 人間のフィードバック(RLHF)からの強化学習で微調整された大規模言語モデル(LLM)は、OpenAIのChatGPT、AnthropicのClaude、MetaのLLaMA-2など、これまで最も広くデプロイされたAIモデルで使用されている。 これらの手法の開発には大きな成果があるが、RLHFにおける各段階の利点と欠点の理解はまだ限られている。 このギャップを埋めるために、プロセスの各段階(教師付き微調整(SFT)、報酬モデリング(RLHF))が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを広範囲に分析する。 oodの一般化は、これらのモデルが使われている幅広い実世界のシナリオを考えると重要であるが、アウトプットの多様性は、モデルが様々な出力を生成する能力を示しており、様々なユースケースにとって重要である。 要約と命令追従タスクの両方で2つのベースモデルで分析を行い,後者は現在のllmのユースケースに非常に関連している。 RLHFは、特に列車と試験の間の分散シフトが大きくなるにつれて、新しい入力に対してSFTよりも優れている。 しかしながら、RLHFはSFTと比較して出力の多様性を著しく低減し、一般化と多様性の間の現在のLLM微調整法におけるトレードオフを示唆している。 本研究は,アプリケーションに応じてどの微調整方法を使用するべきかを指導し,一般化と多様性のトレードオフを改善するためのさらなる研究が必要であることを示す。

Large language models (LLMs) fine-tuned with reinforcement learning from human feedback (RLHF) have been used in some of the most widely deployed AI models to date, such as OpenAI's ChatGPT, Anthropic's Claude, or Meta's LLaMA-2. While there has been significant work developing these methods, our understanding of the benefits and downsides of each stage in RLHF is still limited. To fill this gap, we present an extensive analysis of how each stage of the process (i.e. supervised fine-tuning (SFT), reward modelling, and RLHF) affects two key properties: out-of-distribution (OOD) generalisation and output diversity. OOD generalisation is crucial given the wide range of real-world scenarios in which these models are being used, while output diversity refers to the model's ability to generate varied outputs and is important for a variety of use cases. We perform our analysis across two base models on both summarisation and instruction following tasks, the latter being highly relevant for current LLM use cases. We find that RLHF generalises better than SFT to new inputs, particularly as the distribution shift between train and test becomes larger. However, RLHF significantly reduces output diversity compared to SFT across a variety of measures, implying a tradeoff in current LLM fine-tuning methods between generalisation and diversity. Our results provide guidance on which fine-tuning method should be used depending on the application, and show that more research is needed to improve the trade-off between generalisation and diversity.
翻訳日:2023-10-11 18:00:29 公開日:2023-10-10
# 多様なフィードバックを伴う構成型大規模言語モデル

Constructive Large Language Models Alignment with Diverse Feedback ( http://arxiv.org/abs/2310.06450v1 )

ライセンス: Link先を確認
Tianshu Yu, Ting-En Lin, Yuchuan Wu, Min Yang, Fei Huang, Yongbin Li(参考訳) 大規模言語モデル(LLMs)に関する最近の研究では、有害なコンテンツの影響を減らすために、これらのモデルを人的価値と整合させることに重点が置かれている。 しかしながら、現在のアライメント手法は、好み、注釈付きラベル、自然言語批判など、人間のフィードバックの特異な形態にのみ依存し、これらのフィードバックタイプを組み合わせる潜在的な利点を見越す。 この制限は、十分なトレーニングデータが利用できる場合でも、最適以下のパフォーマンスをもたらす。 本稿では,コンストラクティブ・アンド・ディバース・フィードバック(CDF)を,コンストラクティブ・ラーニング理論に着想を得て,LCMアライメントを向上させる新しい手法として紹介する。 私たちのアプローチでは、トレーニングデータセット内のさまざまな難易度の問題に合わせた3種類のフィードバックを収集する。 具体的には,簡単な問題に対する批判的フィードバック,中級問題に対する洗練フィードバック,難しい問題に対する選好フィードバックを活用している。 この多様なフィードバックでモデルをトレーニングすることで、より少ないトレーニングデータを用いて、アライメント性能の向上を実現します。 CDFの有効性を評価するため,質問応答,ダイアログ生成,テキスト要約という3つの下流タスクにおいて,従来の手法と比較して評価を行った。 実験の結果,CDFは訓練データセットが小さい場合でも優れた性能を発揮することが示された。

In recent research on large language models (LLMs), there has been a growing emphasis on aligning these models with human values to reduce the impact of harmful content. However, current alignment methods often rely solely on singular forms of human feedback, such as preferences, annotated labels, or natural language critiques, overlooking the potential advantages of combining these feedback types. This limitation leads to suboptimal performance, even when ample training data is available. In this paper, we introduce Constructive and Diverse Feedback (CDF) as a novel method to enhance LLM alignment, inspired by constructivist learning theory. Our approach involves collecting three distinct types of feedback tailored to problems of varying difficulty levels within the training dataset. Specifically, we exploit critique feedback for easy problems, refinement feedback for medium problems, and preference feedback for hard problems. By training our model with this diversified feedback, we achieve enhanced alignment performance while using less training data. To assess the effectiveness of CDF, we evaluate it against previous methods in three downstream tasks: question answering, dialog generation, and text summarization. Experimental results demonstrate that CDF achieves superior performance even with a smaller training dataset.
翻訳日:2023-10-11 17:59:59 公開日:2023-10-10
# 関係概念分析の段階的機能再構築

Stepwise functional refoundation of relational concept analysis ( http://arxiv.org/abs/2310.06441v1 )

ライセンス: Link先を確認
J\'er\^ome Euzenat (MOEX)(参考訳) relational concept analysis(rca)は、複数の関連するコンテキストを同時に扱う形式的概念分析の拡張である。 データから記述論理理論を学習するために設計され、様々なアプリケーションで使用される。 RCAに関する厄介な観察は、データに円形の依存関係がある場合、他の解は許容できると考えられるが、単一の概念格子の族を返すことである。 運用上の方法で提供されるRCAのセマンティクスは、この問題に光を当てていない。 本報告では、これらの許容可能な解を、初期文脈によって決定される空間に属する概念格子の族として定義し、新しい属性をスケールできない(飽和)ことと、家族の概念のみを参照する(自己支持)。 我々は、十分に整形された解の空間と、その空間上の2つの関数を定義することにより、RCAプロセス上の関数的ビューを採用する。 許容できる解は両方の函数の共通固定点であることを示す。 これは、コンテキスト空間と格子空間で定義された1つのコンテキストのみを考えるRCAの最小バージョンから始めることで、段階的に達成される。 これらの空間は文脈格子対の1つの空間に結合され、さらにオブジェクトマニップを表す文脈格子対のインデックス付き族空間へと拡張される。

Relational concept analysis (RCA) is an extension of formal concept analysis allowing to deal with several related contexts simultaneously. It has been designed for learning description logic theories from data and used within various applications. A puzzling observation about RCA is that it returns a single family of concept lattices although, when the data feature circular dependencies, other solutions may be considered acceptable. The semantics of RCA, provided in an operational way, does not shed light on this issue. In this report, we define these acceptable solutions as those families of concept lattices which belong to the space determined by the initial contexts (well-formed), cannot scale new attributes (saturated), and refer only to concepts of the family (self-supported). We adopt a functional view on the RCA process by defining the space of well-formed solutions and two functions on that space: one expansive and the other contractive. We show that the acceptable solutions are the common fixed points of both functions. This is achieved step-by-step by starting from a minimal version of RCA that considers only one single context defined on a space of contexts and a space of lattices. These spaces are then joined into a single space of context-lattice pairs, which is further extended to a space of indexed families of context-lattice pairs representing the objects manip
翻訳日:2023-10-11 17:59:38 公開日:2023-10-10
# ICCVマルチモーダルアルゴリズム推論タスク2023のSMART-101への挑戦

Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic Reasoning Task 2023 ( http://arxiv.org/abs/2310.06440v1 )

ライセンス: Link先を確認
Xiangyu Wu, Yang Yang, Shengdong Xu, Yifeng Wu, Qingguo Chen, Jianfeng Lu(参考訳) 本稿では,Multi-modal Algorithmic Reasoning Task: SMART-101 Challengeを提案する。 従来の視覚的質問答えデータセットと異なり、この課題は6-8歳児向けに特別に設計された視覚言語パズルの解法において、ニューラルネットワークの抽象化、推論、一般化能力を評価する。 私たちは分割型アプローチを採用しました。 課題論文から着想を得たデータレベルでは,全質問を8つのタイプに分類し,ラマ-2チャットモデルを用いて各質問の型を直接ゼロショットで生成した。 さらに,オブジェクト検出のための icon45 データセット上で yolov7 モデルをトレーニングし,ocr 法と組み合わせて画像内のオブジェクトやテキストを認識し,検出する。 モデルレベルではBLIP-2モデルを使用し、画像エンコーダVIT-Gに8つのアダプタを追加し、異なる質問型に対する視覚的特徴を適応的に抽出した。 事前構築した質問テンプレートを入力とし,flan-t5-xxlデコーダを用いて回答を生成する。 スプリット構成では,検証セットでは26.5点,プライベートテストセットでは24.30点の精度スコアを得た。

In this paper, we present our solution to a Multi-modal Algorithmic Reasoning Task: SMART-101 Challenge. Different from the traditional visual question-answering datasets, this challenge evaluates the abstraction, deduction, and generalization abilities of neural networks in solving visuolinguistic puzzles designed specifically for children in the 6-8 age group. We employed a divide-and-conquer approach. At the data level, inspired by the challenge paper, we categorized the whole questions into eight types and utilized the llama-2-chat model to directly generate the type for each question in a zero-shot manner. Additionally, we trained a yolov7 model on the icon45 dataset for object detection and combined it with the OCR method to recognize and locate objects and text within the images. At the model level, we utilized the BLIP-2 model and added eight adapters to the image encoder VIT-G to adaptively extract visual features for different question types. We fed the pre-constructed question templates as input and generated answers using the flan-t5-xxl decoder. Under the puzzle splits configuration, we achieved an accuracy score of 26.5 on the validation set and 24.30 on the private test set.
翻訳日:2023-10-11 17:59:16 公開日:2023-10-10
# スケルトングラウンド真理抽出:方法論、アノテーションツール、ベンチマーク

Skeleton Ground Truth Extraction: Methodology, Annotation Tool and Benchmarks ( http://arxiv.org/abs/2310.06437v1 )

ライセンス: Link先を確認
Cong Yang, Bipin Indurkhya, John See, Bo Gao, Yan Ke, Zeyd Boukhers, Zhenyu Yang, and Marcin Grzegorzek(参考訳) 骨格抽出法の成功には,特に深層学習技術の普及が不可欠である。 さらに,CNN(Convolutional Neural Networks)を用いた骨格検出器のトレーニングだけでなく,骨格関連プルーニングとマッチングアルゴリズムの評価にも用いられている。 しかし、既存の形状と画像のデータセットのほとんどは、骨格GTの欠如とGT標準の不整合に悩まされている。 その結果、CNNベースの骨格検出器とアルゴリズムを公平に評価し、再現することは困難である。 本稿では,2次元形状と自然画像における物体骨格GT抽出のためのヒューリスティック戦略を提案する。 提案手法は,対象の文脈,単純さ,完全性の手がかりに基づいて,ループ内gt抽出を符号化できる診断性仮説の拡張理論に基づいている。 この戦略を用いて、17の既存の形状と画像データセットのスケルトンgtを生成するツールskeviewを開発した。 GTは、公正な比較のために実行可能なベースラインを構築するための代表的手法で構造的に評価される。 実験により、我々の戦略によって生成されたGTは、標準整合性に対して有望な品質をもたらすとともに、単純さと完全さのバランスを与えることが示された。

Skeleton Ground Truth (GT) is critical to the success of supervised skeleton extraction methods, especially with the popularity of deep learning techniques. Furthermore, we see skeleton GTs used not only for training skeleton detectors with Convolutional Neural Networks (CNN) but also for evaluating skeleton-related pruning and matching algorithms. However, most existing shape and image datasets suffer from the lack of skeleton GT and inconsistency of GT standards. As a result, it is difficult to evaluate and reproduce CNN-based skeleton detectors and algorithms on a fair basis. In this paper, we present a heuristic strategy for object skeleton GT extraction in binary shapes and natural images. Our strategy is built on an extended theory of diagnosticity hypothesis, which enables encoding human-in-the-loop GT extraction based on clues from the target's context, simplicity, and completeness. Using this strategy, we developed a tool, SkeView, to generate skeleton GT of 17 existing shape and image datasets. The GTs are then structurally evaluated with representative methods to build viable baselines for fair comparisons. Experiments demonstrate that GTs generated by our strategy yield promising quality with respect to standard consistency, and also provide a balance between simplicity and completeness.
翻訳日:2023-10-11 17:58:56 公開日:2023-10-10
# MemSum-DQA: 文書質問回答のための効率的な長文抽出要約器の適応

MemSum-DQA: Adapting An Efficient Long Document Extractive Summarizer for Document Question Answering ( http://arxiv.org/abs/2310.06436v1 )

ライセンス: Link先を確認
Nianlong Gu, Yingqiang Gao, Richard H. R. Hahnloser(参考訳) 本稿では,長い文書抽出要約器であるMemSumを活用する,文書質問応答(DQA)の効率的なシステムであるMemSum-DQAを紹介する。 MemSum-DQAは、解析された文書に与えられた質問タイプと質問タイプをプレフィックスすることにより、文書からテキストブロックを選択的に抽出する。 完全文書回答タスクでは、従来の最先端のベースラインよりも正確なマッチング精度が9%向上する。 特に、MemSum-DQAは、DQAタスクの抽出的要約技術の可能性について、児童関係理解に関連する問題に対処する上で優れている。

We introduce MemSum-DQA, an efficient system for document question answering (DQA) that leverages MemSum, a long document extractive summarizer. By prefixing each text block in the parsed document with the provided question and question type, MemSum-DQA selectively extracts text blocks as answers from documents. On full-document answering tasks, this approach yields a 9% improvement in exact match accuracy over prior state-of-the-art baselines. Notably, MemSum-DQA excels in addressing questions related to child-relationship understanding, underscoring the potential of extractive summarization techniques for DQA tasks.
翻訳日:2023-10-11 17:58:34 公開日:2023-10-10
# 四重項抽出におけるChatGPTの限界:比較分析

The Limits of ChatGPT in Extracting Aspect-Category-Opinion-Sentiment Quadruples: A Comparative Analysis ( http://arxiv.org/abs/2310.06502v1 )

ライセンス: Link先を確認
Xiancai Xu, Jia-Dong Zhang, Rongchang Xiao, Lei Xiong(参考訳) 近年、ChatGPTは、自然言語の理解と生成における驚くべき能力のために、産業と学術の両方から大きな注目を集めている。 特に、アスペクトベースの感情分析における最も複雑なタスクの1つ、すなわち、テキストからアスペクトカテゴリー・オピニオン・センテンションの4つを抽出して、有望なパフォーマンスを達成できるかどうかに興味があります。 そこで本稿では,chatgptが複雑な4重項抽出タスクを効果的に処理できる,特殊なプロンプトテンプレートを開発した。 さらに,ChatGPTの文脈内学習能力をフル活用し,その複雑なタスクにおける有効性を高めるために,少数例の選択手法を提案する。 最後に,ChatGPTの4つの公開データセットに基づく既存の4重項抽出モデルとの比較評価を行い,4重項抽出におけるChatGPTの機能的境界に関する重要な知見を浮き彫りにする。

Recently, ChatGPT has attracted great attention from both industry and academia due to its surprising abilities in natural language understanding and generation. We are particularly curious about whether it can achieve promising performance on one of the most complex tasks in aspect-based sentiment analysis, i.e., extracting aspect-category-opinion-sentiment quadruples from texts. To this end, in this paper we develop a specialized prompt template that enables ChatGPT to effectively tackle this complex quadruple extraction task. Further, we propose a selection method on few-shot examples to fully exploit the in-context learning ability of ChatGPT and uplift its effectiveness on this complex task. Finally, we provide a comparative evaluation on ChatGPT against existing state-of-the-art quadruple extraction models based on four public datasets and highlight some important findings regarding the capability boundaries of ChatGPT in the quadruple extraction.
翻訳日:2023-10-11 16:08:32 公開日:2023-10-10
# メタエージェント:協調的生成エージェントによるLCMに基づくタスク指向協調のための人間行動の相互作用のシミュレーション

MetaAgents: Simulating Interactions of Human Behaviors for LLM-based Task-oriented Coordination via Collaborative Generative Agents ( http://arxiv.org/abs/2310.06500v1 )

ライセンス: Link先を確認
Yuan Li, Yixuan Zhang, and Lichao Sun(参考訳) 様々なタスクや社会シミュレーションにLarge Language Models (LLM) を適用する際に重要な進歩があった。 それにもかかわらず、タスク指向の社会的コンテキスト内で協調する能力は未検討である。 LLMが人間のような社会的行動を効果的に模倣し、有意義な結果を生み出すためには、このような能力が不可欠である。 このギャップを埋めるために,協調生成剤,一貫した行動パターンとタスク解決能力を有するllmベースのエージェントを紹介する。 これらのエージェントをシミュレートしたジョブフェア環境に配置し,コーディネートスキルの検証を行った。 本研究では,人間のような推論能力と専門的スキルを備えた協調生成エージェントを提案する。 評価の結果,これらのエージェントは有望な性能を示した。 しかし,より複雑なコーディネーションタスクにおいて,その効果を阻害する限界を明らかにする。 タスク指向社会シミュレーションにおけるLLMの役割と進化に関する貴重な知見を提供する。

Significant advancements have occurred in the application of Large Language Models (LLMs) for various tasks and social simulations. Despite this, their capacities to coordinate within task-oriented social contexts are under-explored. Such capabilities are crucial if LLMs are to effectively mimic human-like social behavior and produce meaningful results. To bridge this gap, we introduce collaborative generative agents, endowing LLM-based Agents with consistent behavior patterns and task-solving abilities. We situate these agents in a simulated job fair environment as a case study to scrutinize their coordination skills. We propose a novel framework that equips collaborative generative agents with human-like reasoning abilities and specialized skills. Our evaluation demonstrates that these agents show promising performance. However, we also uncover limitations that hinder their effectiveness in more complex coordination tasks. Our work provides valuable insights into the role and evolution of LLMs in task-oriented social simulations.
翻訳日:2023-10-11 16:08:15 公開日:2023-10-10
# パッセージレベルの幻覚検出のための新しいベンチマークと逆検証法

A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection ( http://arxiv.org/abs/2310.06498v1 )

ライセンス: Link先を確認
Shiping Yang, Renliang Sun, Xiaojun Wan(参考訳) 大きな言語モデル(LLM)は、現実世界のシナリオで人間と効果的に協力する能力を示した。 しかし、LCMは幻覚、すなわち不正確なテキストと未検証情報を生成する傾向があり、ミッションクリティカルなタスクに配備すると大きなダメージを与える可能性がある。 本稿では,ゼロリソース方式で事実誤りを自動的に検出する逆検証に基づく自己チェック手法を提案する。 今後の研究を円滑にし、異なる方法を評価するために、chatgptによって生成され、人間の注釈によって注釈される幻覚検出ベンチマークを構築する。 ゼロリソース幻覚検出の以前の研究とは対照的に,本手法とベンチマークは文レベルではなくパスレベル検出に集中している。 本手法と既存のゼロリソース検出手法をベンチマークの異なる領域で実証的に評価し,幻覚とトレーニングデータの暗黙的関係について検討する。 さらに,LLMが捕捉できなかった幻覚症例を手動で解析し,ゼロリソース手法の共有限界を明らかにした。

Large Language Models (LLMs) have demonstrated their ability to collaborate effectively with humans in real-world scenarios. However, LLMs are apt to generate hallucinations, i.e., makeup incorrect text and unverified information, which can cause significant damage when deployed for mission-critical tasks. In this paper, we propose a self-check approach based on reverse validation to detect factual errors automatically in a zero-resource fashion. To facilitate future studies and assess different methods, we construct a hallucination detection benchmark, which is generated by ChatGPT and annotated by human annotators. Contrasting previous studies of zero-resource hallucination detection, our method and benchmark concentrate on passage-level detection instead of sentence-level. We empirically evaluate our method and existing zero-resource detection methods on different domains of benchmark to explore the implicit relation between hallucination and training data. Furthermore, we manually analyze some hallucination cases that LLM failed to capture, revealing the shared limitation of zero-resource methods.
翻訳日:2023-10-11 16:08:01 公開日:2023-10-10
# 日本人マカオにおける顔認識のための深層学習 : ソーシャルネットワークの活用

Deep Learning for Automatic Detection and Facial Recognition in Japanese Macaques: Illuminating Social Networks ( http://arxiv.org/abs/2310.06489v1 )

ライセンス: Link先を確認
Julien Paulet (UJM), Axel Molina (ENS-PSL), Benjamin Beltzung (IPHC), Takafumi Suzumura, Shinya Yamamoto, C\'edric Sueur (IPHC, IUF, ANTHROPO LAB)(参考訳) 個人の識別は、特に複雑な社会構造を理解するための道具として、生態学と民族学において重要な役割を果たしている。 しかし、伝統的な識別法は、しばしば侵入的な物理的タグを伴い、動物には破壊的であり、研究者には時間を要する。 近年,研究におけるディープラーニングの統合は,複雑なタスクの自動化を通じて新たな方法論的視点をもたらした。 物体の検出と認識技術は、ビデオ映像の識別に研究者によってますます利用されている。 本研究は,深層学習によるニホンマカ(macaca fuscata)の顔検出と個体識別のための非侵襲的ツールの開発に関する予備的考察である。 この研究の最終的な目標は、データセット上で行った識別を使用して、研究対象者のソーシャルネットワーク表現を自動的に生成することである。 現在の主な成果は次のとおりである。 (i)日本のマカクの顔検出装置(Faster-RCNNモデル)の作成、82.2%の精度及び精度 (II)K{\=o}島マカケス個体群(YOLOv8nモデル)の個体認識器の作成が83%の精度で達成された。 また,ビデオ上での共著をもとに,伝統的な手法でk{\=o}jimaの人口ネットワークを構築した。 したがって、自動生成されたネットワークを信頼性のために評価するベンチマークを提供する。 これらの予備的な成果は、この革新的なアプローチの可能性を実証するものであり、日本のマカクの個人や社会ネットワーク研究を追跡するためのツールを科学コミュニティに提供するものである。

Individual identification plays a pivotal role in ecology and ethology, notably as a tool for complex social structures understanding. However, traditional identification methods often involve invasive physical tags and can prove both disruptive for animals and time-intensive for researchers. In recent years, the integration of deep learning in research offered new methodological perspectives through automatization of complex tasks. Harnessing object detection and recognition technologies is increasingly used by researchers to achieve identification on video footage. This study represents a preliminary exploration into the development of a non-invasive tool for face detection and individual identification of Japanese macaques (Macaca fuscata) through deep learning. The ultimate goal of this research is, using identifications done on the dataset, to automatically generate a social network representation of the studied population. The current main results are promising: (i) the creation of a Japanese macaques' face detector (Faster-RCNN model), reaching a 82.2% accuracy and (ii) the creation of an individual recognizer for K{\=o}jima island macaques population (YOLOv8n model), reaching a 83% accuracy. We also created a K{\=o}jima population social network by traditional methods, based on co-occurrences on videos. Thus, we provide a benchmark against which the automatically generated network will be assessed for reliability. These preliminary results are a testament to the potential of this innovative approach to provide the scientific community with a tool for tracking individuals and social network studies in Japanese macaques.
翻訳日:2023-10-11 16:07:43 公開日:2023-10-10
# SpikeCLIP: コントラスト言語による事前訓練型スパイクニューラルネットワーク

SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network ( http://arxiv.org/abs/2310.06488v1 )

ライセンス: Link先を確認
Tianlong Li, Wenhao Liu, Changze Lv, Jianhan Xu, Cenyuan Zhang, Muling Wu, Xiaoqing Zheng, Xuanjing Huang(参考訳) スパイキングニューラルネットワーク(SNN)は、視覚領域と言語領域の両方においてディープニューラルネットワーク(DNN)に匹敵する性能を達成する能力を示し、エネルギー効率の改善と生物学的な可視性への固執の利点を提供する。 しかし、そのような単一モダリティSNNをマルチモーダルシナリオの領域に拡張することは、まだ未解決領域である。 対照的な言語イメージ事前学習(CLIP)の概念からインスピレーションを得た新しいフレームワークであるSpikeCLIPを導入し、スパイクベースのコンピューティングの文脈における2つのモード間のギャップを「アライメント事前学習+デュアルロス微調整」を含む2段階のレシピで解決する。 大規模な実験により、SNNはDNNと同等の結果を得る一方で、マルチモーダルモデル評価に一般的に使用される様々なデータセットのエネルギー消費を大幅に削減することを示した。 さらに、SpikeCLIPは、特定のカテゴリ内で事前に定義されていないクラスラベルを含む画像分類タスクにおいて、堅牢なパフォーマンスを維持している。

Spiking neural networks (SNNs) have demonstrated the capability to achieve comparable performance to deep neural networks (DNNs) in both visual and linguistic domains while offering the advantages of improved energy efficiency and adherence to biological plausibility. However, the extension of such single-modality SNNs into the realm of multimodal scenarios remains an unexplored territory. Drawing inspiration from the concept of contrastive language-image pre-training (CLIP), we introduce a novel framework, named SpikeCLIP, to address the gap between two modalities within the context of spike-based computing through a two-step recipe involving ``Alignment Pre-training + Dual-Loss Fine-tuning". Extensive experiments demonstrate that SNNs achieve comparable results to their DNN counterparts while significantly reducing energy consumption across a variety of datasets commonly used for multimodal model evaluation. Furthermore, SpikeCLIP maintains robust performance in image classification tasks that involve class labels not predefined within specific categories.
翻訳日:2023-10-11 16:07:18 公開日:2023-10-10
# 微調整のない事例検証・検索のためのトポロジカルRANSAC

Topological RANSAC for instance verification and retrieval without fine-tuning ( http://arxiv.org/abs/2310.06486v1 )

ライセンス: Link先を確認
Guoyuan An, Juhyung Seon, Inkyu An, Yuchi Huo, Sung-Eui Yoon(参考訳) 本稿では,特に微調整セットが使用できない状況において,説明可能な画像検索を強化するための革新的な手法を提案する。 広く用いられている空間検証(sp)法は、その有効性にもかかわらず、空間モデルと、例えば認識のための仮説検証戦略に依存しており、平面構造の仮定や特徴間のトポロジカルな関係の無視など、固有の制限をもたらす。 これらの欠点に対処するために、RANSACプロセス内の空間モデルをトポロジカルモデルに置き換える先駆的手法を導入する。 本研究では,SPの空間モデルに係わる問題を効果的に回避し,特徴間のトポロジ的整合性を検証するために,バイオインスパイアされたササードとフォベア関数を提案する。 実験の結果,本手法はspを著しく上回っており,非微調整検索において最先端の性能が得られることがわかった。 さらに,提案手法は,微調整機能と併用することで性能を向上させることができる。 重要なことに、本手法は説明可能性が高く、軽量であり、様々な現実のアプリケーションに対して実用的で適応可能なソリューションを提供する。

This paper presents an innovative approach to enhancing explainable image retrieval, particularly in situations where a fine-tuning set is unavailable. The widely-used SPatial verification (SP) method, despite its efficacy, relies on a spatial model and the hypothesis-testing strategy for instance recognition, leading to inherent limitations, including the assumption of planar structures and neglect of topological relations among features. To address these shortcomings, we introduce a pioneering technique that replaces the spatial model with a topological one within the RANSAC process. We propose bio-inspired saccade and fovea functions to verify the topological consistency among features, effectively circumventing the issues associated with SP's spatial model. Our experimental results demonstrate that our method significantly outperforms SP, achieving state-of-the-art performance in non-fine-tuning retrieval. Furthermore, our approach can enhance performance when used in conjunction with fine-tuned features. Importantly, our method retains high explainability and is lightweight, offering a practical and adaptable solution for a variety of real-world applications.
翻訳日:2023-10-11 16:07:00 公開日:2023-10-10
# 近接認識表現によるメモリ効率の高い位置推薦

Memory efficient location recommendation through proximity-aware representation ( http://arxiv.org/abs/2310.06484v1 )

ライセンス: Link先を確認
Xuan Luo, Rui Lv, Hui Zhao(参考訳) シーケンシャルな位置推薦は、ユーザー体験を高め、ビジネスに利益をもたらし、行政を補助する現代の生活において大きな役割を果たす。 位置推薦手法は,レコメンデーションシステムの開発によって大きく発展してきたが,地理的情報の利用は限定的であり,データの疎性に対処する課題も続いている。 そこで本研究では,自己認識ネットワークアーキテクチャ上に構築された逐次レコメンデーション(PASR:Sequential Recommendation)の領域表現について述べる。 本稿では,重要サンプリングを用いた新たな損失関数を用いて,最適化時の情報的負のサンプルを強調する。 さらに、PASRは、自己アテンションに基づく地理エンコーダを、各GPSポイントにおける階層グリッドと近接グリッドに利用することにより、地理情報の統合を強化する。 さらに地理情報を活用するため,近接認識型負のサンプリング器を用いて負のサンプルの品質を向上させる。 3つの実世界位置ベースソーシャルネットワーキング(LBSN)データセットを用いて評価を行い、PASRが最先端のシーケンシャルな位置推薦方法を上回ることを示した。

Sequential location recommendation plays a huge role in modern life, which can enhance user experience, bring more profit to businesses and assist in government administration. Although methods for location recommendation have evolved significantly thanks to the development of recommendation systems, there is still limited utilization of geographic information, along with the ongoing challenge of addressing data sparsity. In response, we introduce a Proximity-aware based region representation for Sequential Recommendation (PASR for short), built upon the Self-Attention Network architecture. We tackle the sparsity issue through a novel loss function employing importance sampling, which emphasizes informative negative samples during optimization. Moreover, PASR enhances the integration of geographic information by employing a self-attention-based geography encoder to the hierarchical grid and proximity grid at each GPS point. To further leverage geographic information, we utilize the proximity-aware negative samplers to enhance the quality of negative samples. We conducted evaluations using three real-world Location-Based Social Networking (LBSN) datasets, demonstrating that PASR surpasses state-of-the-art sequential location recommendation methods
翻訳日:2023-10-11 16:06:42 公開日:2023-10-10
# メモリ制限付きカーネル化ペアワイズ学習におけるオンライン勾配のばらつき低減

Variance Reduced Online Gradient Descent for Kernelized Pairwise Learning with Limited Memory ( http://arxiv.org/abs/2310.06483v1 )

ライセンス: Link先を確認
Hilal AlQuabeh, Bhaskar Mukhoty, Bin Gu(参考訳) ペアワイズ学習は、特にトレーニング例のペアで定義された損失関数に関わる問題において、機械学習において不可欠である。 オンライン勾配降下(ogd)アルゴリズムは、データが順次到着するオンラインペアワイズ学習を処理するために提案されている。 しかし,新しいサンプルの勾配計算は過去のサンプルを全て含んでいるため,問題のペアワイズ性はスケーラビリティを困難にしている。 近年のogdアルゴリズムの進歩は、オンライン勾配の計算の複雑さを低減し、o(t)$以下、さらには$o(1)$という低い複雑さを達成することを目的としている。 しかし、これらのアプローチは主に線形モデルに制限され、分散を誘導する。 本研究では,カーネルのオンラインペアワイズ学習に拡張し,サブ線形後悔を改善したメモリOGDアルゴリズムを提案する。 具体的には、オンライン勾配のばらつきと後悔との明確な関係を確立し、過去データを表すバッファが制限された$s$を持つ最新の階層化サンプルを用いてオンライン勾配を構築し、その複雑さは$o(st)$であり、カーネル近似に$o(\sqrt{t}\log{t})$ランダムフーリエ機能を用いる。 重要なこととして、我々の理論的結果は、ばらつきによって引き起こされたオンライン勾配が、改良されたサブ線形後悔境界につながることを示している。 実世界のデータセットに関する実験は、カーネル化および線形オンラインペアワイズ学習アルゴリズムに対するアルゴリズムの優位性を示している。

Pairwise learning is essential in machine learning, especially for problems involving loss functions defined on pairs of training examples. Online gradient descent (OGD) algorithms have been proposed to handle online pairwise learning, where data arrives sequentially. However, the pairwise nature of the problem makes scalability challenging, as the gradient computation for a new sample involves all past samples. Recent advancements in OGD algorithms have aimed to reduce the complexity of calculating online gradients, achieving complexities less than $O(T)$ and even as low as $O(1)$. However, these approaches are primarily limited to linear models and have induced variance. In this study, we propose a limited memory OGD algorithm that extends to kernel online pairwise learning while improving the sublinear regret. Specifically, we establish a clear connection between the variance of online gradients and the regret, and construct online gradients using the most recent stratified samples with a limited buffer of size of $s$ representing all past data, which have a complexity of $O(sT)$ and employs $O(\sqrt{T}\log{T})$ random Fourier features for kernel approximation. Importantly, our theoretical results demonstrate that the variance-reduced online gradients lead to an improved sublinear regret bound. The experiments on real-world datasets demonstrate the superiority of our algorithm over both kernelized and linear online pairwise learning algorithms.
翻訳日:2023-10-11 16:06:21 公開日:2023-10-10
# 不均衡ディスク故障データ処理のためのCTGANの改良

An improved CTGAN for data processing method of imbalanced disk failure ( http://arxiv.org/abs/2310.06481v1 )

ライセンス: Link先を確認
Jingbo Jia, Peng Wu and Hussain Dawood(参考訳) ディスクが生成した故障データ不足と、正常データと故障データの数の不均衡に対処する。 既存のCTGAN(Conditional Tabular Generative Adversarial Networks)深層学習法は,不均衡ディスク故障データの解決に有効であることが証明されている。 しかしCTGANはディスク障害データの内部情報を十分に学習できない。 本稿では,CTGANの改良に基づく故障診断手法,特定カテゴリー識別のための分類器,残差ネットワークに基づく対向ネットワークを生成する識別器を提案する。 我々はResidual Conditional Tabular Generative Adversarial Networks (RCTGAN)と名付けた。 まず、システムの安定性を高めるために、残差ネットワークを利用する。 RCTGANは、少量の実故障データを用いて偽断層データを合成し、次いで、合成データを実データと混合して正規データと故障データのバランスをとる。最後に、4つの分類器(多層パーセプトロン、サポートベクターマシン、決定木、ランダムフォレスト)モデルを平衡データセットを用いて訓練し、G平均を用いてモデルの性能を評価する。 実験の結果,rctganが合成したデータは,分類器の故障診断精度をさらに向上できることがわかった。

To address the problem of insufficient failure data generated by disks and the imbalance between the number of normal and failure data. The existing Conditional Tabular Generative Adversarial Networks (CTGAN) deep learning methods have been proven to be effective in solving imbalance disk failure data. But CTGAN cannot learn the internal information of disk failure data very well. In this paper, a fault diagnosis method based on improved CTGAN, a classifier for specific category discrimination is added and a discriminator generate adversarial network based on residual network is proposed. We named it Residual Conditional Tabular Generative Adversarial Networks (RCTGAN). Firstly, to enhance the stability of system a residual network is utilized. RCTGAN uses a small amount of real failure data to synthesize fake fault data; Then, the synthesized data is mixed with the real data to balance the amount of normal and failure data; Finally, four classifier (multilayer perceptron, support vector machine, decision tree, random forest) models are trained using the balanced data set, and the performance of the models is evaluated using G-mean. The experimental results show that the data synthesized by the RCTGAN can further improve the fault diagnosis accuracy of the classifier.
翻訳日:2023-10-11 16:05:53 公開日:2023-10-10
# 単発ベル解析

Single-shot Bell analysis ( http://arxiv.org/abs/2310.06480v1 )

ライセンス: Link先を確認
Alfredo Luis(参考訳) 量子システムの単一実現に対するベル基準の満足度について検討する。 これは、全ての観測器のジョイントおよびノイズ測定によって実装されたベル試験で可能である。

We examine the satisfaction of Bell criteria for single realizations of quantum systems. This is possible in Bell test implemented via the joint and noisy measurement of all observables involved.
翻訳日:2023-10-11 16:05:29 公開日:2023-10-10
# 画像操作ローカライズのための知覚的mae:低レベル特徴に着目した高レベル視覚学習者

Perceptual MAE for Image Manipulation Localization: A High-level Vision Learner Focusing on Low-level Features ( http://arxiv.org/abs/2310.06525v1 )

ライセンス: Link先を確認
Xiaochen Ma, Jizhe Zhou, Xiong Xu, Zhuohang Jiang, Chi-Man Pun(参考訳) 近年,マルチメディア生成技術の急速な進歩により,画像操作ローカライゼーション(iml)が真理の追求に不可欠となり,マルチメディア法医学は先例のない課題に直面している。 IMLの鍵は、ピクセルレベルの特徴の下で明らかな、改ざんされた領域と認証された領域の間のアーティファクトや矛盾を明らかにすることである。 その結果、既存の研究では、画像RGBノイズ、エッジ信号、高周波特徴などの画素レベルの特徴を制作することで、改ざんされたマスクを割り当てることに焦点を当て、低レベルの視覚タスクとしてIMLを扱います。 しかし、実際には、オブジェクトレベルでの改ざんは通常発生し、異なる種類のオブジェクトが改ざんの対象になる可能性は様々である。 したがって、オブジェクトセマンティクスはピクセルレベルの機能に加えて、改ざんされた領域を特定するのにも不可欠である。 これにより、画像全体のセマンティック理解を実行するために、IMLモデルが必要である。 本稿では,低レベルの特徴を活かした高レベルの視覚タスクとしてIMLタスクを再構築する。 このような解釈に基づき、高精細な入力と知覚損失監視モジュールを組み込むことにより、マスケドオートエンコーダ(MAE)を強化する手法を提案し、これをPMAE(Perceptual MAE)と呼ぶ。 MAEはオブジェクトセマンティクスの驚くべき理解を示してきたが、PMAEは低レベルのセマンティクスを補うことができる。 広範な実験によって証明されたこのパラダイムは、IMLタスクの低レベルと高レベルの特徴を効果的に統合し、5つの公開データセットすべてにおいて最先端のタンパリングローカライゼーション手法より優れている。

Nowadays, multimedia forensics faces unprecedented challenges due to the rapid advancement of multimedia generation technology thereby making Image Manipulation Localization (IML) crucial in the pursuit of truth. The key to IML lies in revealing the artifacts or inconsistencies between the tampered and authentic areas, which are evident under pixel-level features. Consequently, existing studies treat IML as a low-level vision task, focusing on allocating tampered masks by crafting pixel-level features such as image RGB noises, edge signals, or high-frequency features. However, in practice, tampering commonly occurs at the object level, and different classes of objects have varying likelihoods of becoming targets of tampering. Therefore, object semantics are also vital in identifying the tampered areas in addition to pixel-level features. This necessitates IML models to carry out a semantic understanding of the entire image. In this paper, we reformulate the IML task as a high-level vision task that greatly benefits from low-level features. Based on such an interpretation, we propose a method to enhance the Masked Autoencoder (MAE) by incorporating high-resolution inputs and a perceptual loss supervision module, which is termed Perceptual MAE (PMAE). While MAE has demonstrated an impressive understanding of object semantics, PMAE can also compensate for low-level semantics with our proposed enhancements. Evidenced by extensive experiments, this paradigm effectively unites the low-level and high-level features of the IML task and outperforms state-of-the-art tampering localization methods on all five publicly available datasets.
翻訳日:2023-10-11 16:00:15 公開日:2023-10-10
# watt for what: ディープラーニングのエネルギとパフォーマンスの関係を再考する

Watt For What: Rethinking Deep Learning's Energy-Performance Relationship ( http://arxiv.org/abs/2310.06522v1 )

ライセンス: Link先を確認
Shreyank N Gowda, Xinyue Hao, Gen Li, Laura Sevilla-Lara, Shashank Narayana Gowda(参考訳) ディープラーニングモデルは、前例のない精度を達成して、画像認識から自然言語処理まで、さまざまな分野に革命をもたらした。 しかし、エネルギー消費量の増加は環境への影響を懸念し、研究で小規模の企業を軽視し、世界的なエネルギー消費を悪化させている。 本稿では,モデル精度と電力消費のトレードオフを考察し,大容量の電力消費をペナルティ化する指標を提案する。 我々は、様々なGPUにわたる様々なディープラーニングモデルの消費電力に関する総合的研究を行い、それらの精度と効率のトレードオフを詳細に分析した。 電力消費単位当たりの精度を評価することにより, 環境負荷を軽減しつつ, より小型でエネルギー効率の高いモデルが研究を著しく高速化できることを示す。 その結果,より持続的な深層学習へのアプローチの可能性が浮き彫りになり,効率性を考慮したモデル最適化の重要性が強調された。 この研究は、小さなエンティティがより大きなエンティティと効果的に競合できる、より公平な研究環境にも貢献する。 これは、電力消費を減らすための効率的なディープラーニングプラクティスの採用を提唱し、将来の世代のために環境を保護すると同時に、公正な競争環境の確保を支援する。

Deep learning models have revolutionized various fields, from image recognition to natural language processing, by achieving unprecedented levels of accuracy. However, their increasing energy consumption has raised concerns about their environmental impact, disadvantaging smaller entities in research and exacerbating global energy consumption. In this paper, we explore the trade-off between model accuracy and electricity consumption, proposing a metric that penalizes large consumption of electricity. We conduct a comprehensive study on the electricity consumption of various deep learning models across different GPUs, presenting a detailed analysis of their accuracy-efficiency trade-offs. By evaluating accuracy per unit of electricity consumed, we demonstrate how smaller, more energy-efficient models can significantly expedite research while mitigating environmental concerns. Our results highlight the potential for a more sustainable approach to deep learning, emphasizing the importance of optimizing models for efficiency. This research also contributes to a more equitable research landscape, where smaller entities can compete effectively with larger counterparts. This advocates for the adoption of efficient deep learning practices to reduce electricity consumption, safeguarding the environment for future generations whilst also helping ensure a fairer competitive landscape.
翻訳日:2023-10-11 15:59:44 公開日:2023-10-10
# 非侵襲脳刺激におけるセマンティックパブリッシングに向けて:rTMS研究の総合的分析

Toward Semantic Publishing in Non-Invasive Brain Stimulation: A Comprehensive Analysis of rTMS Studies ( http://arxiv.org/abs/2310.06517v1 )

ライセンス: Link先を確認
Swathi Anil and Jennifer D'Souza(参考訳) 非侵襲的脳刺激(NIBS)は、脳の興奮に影響を及ぼす可能性のある経頭蓋刺激技術を含んでいる。 これらの技術は、うつ病、不安、慢性的な痛みなどの症状を治療し、脳機能に関する洞察を与える可能性がある。 しかし、標準化された報告慣行の欠如は再現性と完全な臨床可能性を制限する。 本稿では,神経科学nibs研究の標準化文書化に向けて,コンピュータサイエンスのセマンティクス・レポーティング手法を採用するための学際的連携を促進することを目的としている。 NIBSのサブ領域である600回反復経頭蓋磁気刺激(rTMS)の大規模体系的レビューにおいて,本研究の構造化と比較を可能にする重要な特性について述べる。 本稿では,知識グラフに基づく次世代デジタル図書館のエコシステムにおけるNIBSのセマンティックパブリッシングについて述べる。 特に、FAIR Semantic Webリソースベースのパブリッシングパラダイムは、Open Research Knowledge Graphにおける600のレビューされたrTMS研究のために実装されている。

Noninvasive brain stimulation (NIBS) encompasses transcranial stimulation techniques that can influence brain excitability. These techniques have the potential to treat conditions like depression, anxiety, and chronic pain, and to provide insights into brain function. However, a lack of standardized reporting practices limits its reproducibility and full clinical potential. This paper aims to foster interinterdisciplinarity toward adopting Computer Science Semantic reporting methods for the standardized documentation of Neuroscience NIBS studies making them explicitly Findable, Accessible, Interoperable, and Reusable (FAIR). In a large-scale systematic review of 600 repetitive transcranial magnetic stimulation (rTMS), a subarea of NIBS, dosages, we describe key properties that allow for structured descriptions and comparisons of the studies. This paper showcases the semantic publishing of NIBS in the ecosphere of knowledge-graph-based next-generation scholarly digital libraries. Specifically, the FAIR Semantic Web resource(s)-based publishing paradigm is implemented for the 600 reviewed rTMS studies in the Open Research Knowledge Graph.
翻訳日:2023-10-11 15:59:24 公開日:2023-10-10
# AttributionLab: 制御可能な環境における特徴属性の忠実性

AttributionLab: Faithfulness of Feature Attribution Under Controllable Environments ( http://arxiv.org/abs/2310.06514v1 )

ライセンス: Link先を確認
Yang Zhang, Yawei Li, Hannah Brown, Mina Rezaei, Bernd Bischl, Philip Torr, Ashkan Khakzar, Kenji Kawaguchi(参考訳) feature attributionは、関連する入力特徴を識別することでニューラルネットワークの出力を説明する。 特定された機能が実際にネットワークに関連があることをどうやって知るのか? この概念は忠実性と呼ばれ、識別された(帰属する)特徴とモデルが使用する特徴の一致を反映する本質的な性質である。 忠実性をテストする最近のトレンドは、どの入力機能がラベルに関係しているかを知って、設計したデータでモデルをトレーニングするようにデータを設計することです。 得られた特徴をこれらの設計済みの真実特徴と比較して評価する。 しかし、このアイデアは、ニューラルネットワークがこれらの設計された機能のみを使用するように学習するという前提を持っているが、学習プロセスがネットワークをこのようにトレーニングする保証はない。 本稿では、この欠落したリンクを、手動で重みを設定することで、ニューラルネットワークを明示的に設計することで解決し、データセットのどの入力特徴が設計されたネットワークに関連しているかを正確に把握する。 そこで我々は,本設計の合成環境であるAttributionLabにおいて,健全性チェックとして機能し,属性メソッドのフィルタリングに有効であることを示す。 帰属メソッドが単純な制御された環境では忠実でない場合、より複雑なシナリオでは信頼できない可能性がある。 さらに, アトリビューションラボ環境は, 特徴帰属方法の研究, 課題の特定, 潜在的な改善の提案が可能な, 制御実験のための実験室として機能する。

Feature attribution explains neural network outputs by identifying relevant input features. How do we know if the identified features are indeed relevant to the network? This notion is referred to as faithfulness, an essential property that reflects the alignment between the identified (attributed) features and the features used by the model. One recent trend to test faithfulness is to design the data such that we know which input features are relevant to the label and then train a model on the designed data. Subsequently, the identified features are evaluated by comparing them with these designed ground truth features. However, this idea has the underlying assumption that the neural network learns to use all and only these designed features, while there is no guarantee that the learning process trains the network in this way. In this paper, we solve this missing link by explicitly designing the neural network by manually setting its weights, along with designing data, so we know precisely which input features in the dataset are relevant to the designed network. Thus, we can test faithfulness in AttributionLab, our designed synthetic environment, which serves as a sanity check and is effective in filtering out attribution methods. If an attribution method is not faithful in a simple controlled environment, it can be unreliable in more complex scenarios. Furthermore, the AttributionLab environment serves as a laboratory for controlled experiments through which we can study feature attribution methods, identify issues, and suggest potential improvements.
翻訳日:2023-10-11 15:59:06 公開日:2023-10-10
# 確率木状態抽象化によるモンテカルロ木探索の高速化

Accelerating Monte Carlo Tree Search with Probability Tree State Abstraction ( http://arxiv.org/abs/2310.06513v1 )

ライセンス: Link先を確認
Yangqing Fu, Ming Sun, Buqing Nie, Yue Gao(参考訳) AlphaGoやMuZeroのようなモンテカルロ木探索(MCTS)アルゴリズムは多くの課題において超人的性能を達成した。 しかし、MCTSに基づくアルゴリズムの計算複雑性は、探索空間のサイズに影響される。 そこで本研究では,MCTSの探索効率を向上させるために,新しい確率木状態抽象化(PTSA)アルゴリズムを提案する。 経路遷移性を持つ一般的なツリー状態抽象化を定義する。 さらに, 確率木状態の抽象化は, 集約過程における誤りが少ないために提案されている。 さらに、推移性と凝集誤差境界の理論的保証を正当化する。 PTSAアルゴリズムの有効性を評価するため,Sampred MuZeroやGumbel MuZeroといった最先端のMCTSベースのアルゴリズムと統合した。 異なるタスクにおける実験結果は,10%-45%の探索空間削減で最先端アルゴリズムの学習プロセスを高速化できることを示した。

Monte Carlo Tree Search (MCTS) algorithms such as AlphaGo and MuZero have achieved superhuman performance in many challenging tasks. However, the computational complexity of MCTS-based algorithms is influenced by the size of the search space. To address this issue, we propose a novel probability tree state abstraction (PTSA) algorithm to improve the search efficiency of MCTS. A general tree state abstraction with path transitivity is defined. In addition, the probability tree state abstraction is proposed for fewer mistakes during the aggregation step. Furthermore, the theoretical guarantees of the transitivity and aggregation error bound are justified. To evaluate the effectiveness of the PTSA algorithm, we integrate it with state-of-the-art MCTS-based algorithms, such as Sampled MuZero and Gumbel MuZero. Experimental results on different tasks demonstrate that our method can accelerate the training process of state-of-the-art algorithms with 10%-45% search space reduction.
翻訳日:2023-10-11 15:58:42 公開日:2023-10-10
# 教師なしメタラーニングのための自己教師付き集合表現学習

Self-Supervised Set Representation Learning for Unsupervised Meta-Learning ( http://arxiv.org/abs/2310.06511v1 )

ライセンス: Link先を確認
Dong Bok Lee, Seanie Lee, Joonho Ko, Kenji Kawaguchi, Juho Lee, Sung Ju Hwang(参考訳) データセット蒸留法は、大規模なデータセットを少数の代表サンプルに蒸留することに成功した。 しかし、自己教師付き事前学習を容易にするために効果的に使用できる蒸留データセットを作成するように設計されていない。 そこで本研究では,ラベルのないデータセットを,効率的な自己教師付き学習(SSL)のための小さな合成サンプル集合に蒸留する新しい問題を提案する。 まず,二値最適化におけるsslの目的に対する合成サンプルの勾配が,データの増補やマスキングに由来するランダム性から \textit{biased} であることが証明される。 この問題に対処するため,本論文では,合成例のモデル表現と学習可能な対象特徴表現との間の平均二乗誤差(mse)を最小限に抑えることを提案する。 我々の主な動機は、提案した内部最適化によって得られたモデルが \textit{self-supervised target model} を模倣できることである。 そこで本研究では,内部モデルと自己教師対象モデルとのMSEを,外部最適化のための元となる全データセット上に導入する。 最後に、特徴抽出器が固定されていると仮定すると、特徴抽出器の上の直線ヘッドのみを最適化し、計算コストを削減し、カーネルリッジ回帰を伴うヘッドの閉形式解を得る。 転送学習を含む様々な応用における本手法の有効性を実証的に検証する。

Dataset distillation methods have achieved remarkable success in distilling a large dataset into a small set of representative samples. However, they are not designed to produce a distilled dataset that can be effectively used for facilitating self-supervised pre-training. To this end, we propose a novel problem of distilling an unlabeled dataset into a set of small synthetic samples for efficient self-supervised learning (SSL). We first prove that a gradient of synthetic samples with respect to a SSL objective in naive bilevel optimization is \textit{biased} due to the randomness originating from data augmentations or masking. To address this issue, we propose to minimize the mean squared error (MSE) between a model's representations of the synthetic examples and their corresponding learnable target feature representations for the inner objective, which does not introduce any randomness. Our primary motivation is that the model obtained by the proposed inner optimization can mimic the \textit{self-supervised target model}. To achieve this, we also introduce the MSE between representations of the inner model and the self-supervised target model on the original full dataset for outer optimization. Lastly, assuming that a feature extractor is fixed, we only optimize a linear head on top of the feature extractor, which allows us to reduce the computational cost and obtain a closed-form solution of the head with kernel ridge regression. We empirically validate the effectiveness of our method on various applications involving transfer learning.
翻訳日:2023-10-11 15:58:30 公開日:2023-10-10
# ヒト母音のトポロジ的データ解析:表現空間にまたがる永続的ホモロジー

Topological data analysis of human vowels: Persistent homologies across representation spaces ( http://arxiv.org/abs/2310.06508v1 )

ライセンス: Link先を確認
Guillem Bonafos, Jean-Marc Freyermuth, Pierre Pudlo, Samuel Tron\c{c}on, Arnaud Rey(参考訳) トポロジカルデータ分析(TDA)は、可視化から教師なし/教師なしの分類に至るまで、信号/画像処理における様々なタスクに成功している。 しばしば、位相的特性は永続ホモロジー理論から得られる。 標準tdaパイプラインは、生信号データまたはその表現から開始される。 そして、あらかじめ特定されたフィルタを用いてデータの上部にマルチスケールの位相構造を構築し、最終的にさらに活用されるようなトポロジ的シグネチャを計算する。 一般的に用いられるトポロジカルシグネチャは永続的なダイアグラム(あるいはその変換)である。 現在の研究では、トポロジカルなシグネチャを利用する多くの方法の結果について論じており、フィルターの選択はそれほど多くはないが、我々の知る限り、信号の表現の選択は、まだ研究の対象にはなっていない。 本稿では,後者の問題に対するいくつかの回答を提供する。 そこで我々は,3つの異なる表現空間から抽出したトポロジカルシグネチャの識別情報の品質を評価するために,実音声データを収集し,比較研究を行った。 各音声信号は、 i) take の表現を用いた高次元空間への観測データの埋め込み 二 三次元環境空間における表面と見なす分光図 三 分光器の零点の集合 母音音声記録から,話者性,母音タイプ,個人という3つの予測問題にトポロジ的シグネチャを用いた。 近年の2つの問題に対して,トポロジ的に増大したランダム林は,Mel-Frequency Cepstral Coefficients(MFCC)のみをベースとしたOOB(Out-of-Bag Error)を改善した。 また,異なる信号表現から抽出された位相情報は相補的であり,スペクトログラムのゼロは性予測に最適な改善をもたらすことが示唆された。

Topological Data Analysis (TDA) has been successfully used for various tasks in signal/image processing, from visualization to supervised/unsupervised classification. Often, topological characteristics are obtained from persistent homology theory. The standard TDA pipeline starts from the raw signal data or a representation of it. Then, it consists in building a multiscale topological structure on the top of the data using a pre-specified filtration, and finally to compute the topological signature to be further exploited. The commonly used topological signature is a persistent diagram (or transformations of it). Current research discusses the consequences of the many ways to exploit topological signatures, much less often the choice of the filtration, but to the best of our knowledge, the choice of the representation of a signal has not been the subject of any study yet. This paper attempts to provide some answers on the latter problem. To this end, we collected real audio data and built a comparative study to assess the quality of the discriminant information of the topological signatures extracted from three different representation spaces. Each audio signal is represented as i) an embedding of observed data in a higher dimensional space using Taken's representation, ii) a spectrogram viewed as a surface in a 3D ambient space, iii) the set of spectrogram's zeroes. From vowel audio recordings, we use topological signature for three prediction problems: speaker gender, vowel type, and individual. We show that topologically-augmented random forest improves the Out-of-Bag Error (OOB) over solely based Mel-Frequency Cepstral Coefficients (MFCC) for the last two problems. Our results also suggest that the topological information extracted from different signal representations is complementary, and that spectrogram's zeros offers the best improvement for gender prediction.
翻訳日:2023-10-11 15:58:08 公開日:2023-10-10
# 滑走路符号分類器:DAL C認定機械学習システム

Runway Sign Classifier: A DAL C Certifiable Machine Learning System ( http://arxiv.org/abs/2310.06506v1 )

ライセンス: Link先を確認
Konstantin Dmitriev, Johann Schumann, Islam Bostanov, Mostafa Abdelhamid and Florian Holzapfel(参考訳) 近年、人工知能(AI)分野における機械学習(ML)技術の顕著な進歩は航空業界にとって前例のない機会となり、単一のパイロットや大型商用航空機の完全自律運転など、自動化のさらなる進歩の道を開いた。 しかしながら、ml技術は、mlモデルトレーサビリティや説明可能性の問題、従来型のカバレッジ指標の不十分など、既存の航空機認証基準と大きな非互換性に直面している。 これらの課題から,現行の基準を用いたMLベースの航空機システムの認証が問題となる。 本稿では,空港標識の検出・分類にDeep Neural Network (DNN) を用いた航空機システムのケーススタディを提案する。 設計保証レベル(dal)dに準拠していることを示す以前の研究に基づいて、設計保証レベルcのより厳密な要件を満たすようにシステムをアップグレードします。 ML固有の新しいデータ管理技術の応用により、このアプローチはさらに強化される。 この研究は、MLベースのシステムの認定課題が、中程度臨界航空機アプリケーションにどのように対処できるかを説明することを目的としている。

In recent years, the remarkable progress of Machine Learning (ML) technologies within the domain of Artificial Intelligence (AI) systems has presented unprecedented opportunities for the aviation industry, paving the way for further advancements in automation, including the potential for single pilot or fully autonomous operation of large commercial airplanes. However, ML technology faces major incompatibilities with existing airborne certification standards, such as ML model traceability and explainability issues or the inadequacy of traditional coverage metrics. Certification of ML-based airborne systems using current standards is problematic due to these challenges. This paper presents a case study of an airborne system utilizing a Deep Neural Network (DNN) for airport sign detection and classification. Building upon our previous work, which demonstrates compliance with Design Assurance Level (DAL) D, we upgrade the system to meet the more stringent requirements of Design Assurance Level C. To achieve DAL C, we employ an established architectural mitigation technique involving two redundant and dissimilar Deep Neural Networks. The application of novel ML-specific data management techniques further enhances this approach. This work is intended to illustrate how the certification challenges of ML-based systems can be addressed for medium criticality airborne applications.
翻訳日:2023-10-11 15:57:40 公開日:2023-10-10
# ell作家のコヒーレンスとコヒーレンスに対するchatgptフィードバックの評価

Evaluation of ChatGPT Feedback on ELL Writers' Coherence and Cohesion ( http://arxiv.org/abs/2310.06505v1 )

ライセンス: Link先を確認
Su-Youn Yoon, Eva Miszoglad, Lisa R. Pierce(参考訳) 2022年11月のサービス開始以来、ChatGPTは学生が宿題を手伝うために利用し、教師が教育実践に積極的に利用している教育に変革をもたらした。 例えば、ChatGPTは、教師が生徒のエッセイを格付けし、フィードバックを生成するためのツールである。 本研究では,英語学習者(ells)が書いたエッセイの一貫性と結束性について,chatgptが生成するフィードバックの質を評価した。 ELIPSEルーブリックを用いて,50の議論的エッセイを選択し,コヒーレンスと凝集に関するフィードバックを得た。 フィードバック評価では、まず、フィードバックの各文をその機能に基づいてサブタイプ(例えば、正の強化、問題文)に分類した。 次に,これらのタイプによる精度とユーザビリティを評価した。 フィードバックタイプの分析と精度とユーザビリティの評価により,ほとんどのフィードバック文は抽象的で汎用的であり,改善のための具体的な提案が得られなかった。 繰り返しアイデアや凝集装置の不正確な使用などの大きな問題を検出する精度は、表面言語的特徴に依存し、しばしば誤りであった。 結論として,ChatGPTはフィードバック生成タスクの特定の訓練を受けずに,EL学生のコヒーレンスと結束に対する効果的なフィードバックを提供していない。

Since its launch in November 2022, ChatGPT has had a transformative effect on education where students are using it to help with homework assignments and teachers are actively employing it in their teaching practices. This includes using ChatGPT as a tool for writing teachers to grade and generate feedback on students' essays. In this study, we evaluated the quality of the feedback generated by ChatGPT regarding the coherence and cohesion of the essays written by English Language Learners (ELLs) students. We selected 50 argumentative essays and generated feedback on coherence and cohesion using the ELLIPSE rubric. During the feedback evaluation, we used a two-step approach: first, each sentence in the feedback was classified into subtypes based on its function (e.g., positive reinforcement, problem statement). Next, we evaluated its accuracy and usability according to these types. Both the analysis of feedback types and the evaluation of accuracy and usability revealed that most feedback sentences were highly abstract and generic, failing to provide concrete suggestions for improvement. The accuracy in detecting major problems, such as repetitive ideas and the inaccurate use of cohesive devices, depended on superficial linguistic features and was often incorrect. In conclusion, ChatGPT, without specific training for the feedback generation task, does not offer effective feedback on ELL students' coherence and cohesion.
翻訳日:2023-10-11 15:57:22 公開日:2023-10-10
# LLMの入力摂動問題の再検討:ノイズスロット充満作業のための統一ロバストネス評価フレームワーク

Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task ( http://arxiv.org/abs/2310.06504v1 )

ライセンス: Link先を確認
Guanting Dong, Jinxu Zhao, Tingfeng Hui, Daichi Guo, Wenlong Wan, Boqi Feng, Yueyan Qiu, Zhuoma Gongque, Keqing He, Zechen Wang, Weiran Xu(参考訳) 大規模言語モデル(LLM)の能力の増大に伴い、これらの高性能モデルは幅広い自然言語処理(NLP)タスクにおいて最先端の結果を得た。 しかし、一般的に使用されるベンチマークデータセットにおけるモデルの性能は、実世界のノイズデータに適用した場合、その信頼性と堅牢性を正確に反映しないことが多い。 これらの課題に対処するために,多様な入力摂動シナリオにおけるLLMの対話理解能力を体系的に評価するスロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。 具体的には, 5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセット, noise-llmを構築した。 さらに,多段階データ拡張手法(文字,単語,文レベル)を用いて候補データプールの構築を行い,各種のプロンプトテンプレートを用いた2種類の自動タスク実証構築戦略(インスタンスレベル,エンティティレベル)を慎重に設計する。 本研究の目的は,実環境におけるllmの各種ロバストネス手法の性能を評価することである。 実験により、現在のオープンソースのLLMは、一般的に摂動堅牢性に制限された性能を達成できることが示された。 これらの実験結果に基づき,本研究を推し進めるための先見的な提案を行う。

With the increasing capabilities of large language models (LLMs), these high-performance models have achieved state-of-the-art results on a wide range of natural language processing (NLP) tasks. However, the models' performance on commonly-used benchmark datasets often fails to accurately reflect their reliability and robustness when applied to real-world noisy data. To address these challenges, we propose a unified robustness evaluation framework based on the slot-filling task to systematically evaluate the dialogue understanding capability of LLMs in diverse input perturbation scenarios. Specifically, we construct a input perturbation evaluation dataset, Noise-LLM, which contains five types of single perturbation and four types of mixed perturbation data. Furthermore, we utilize a multi-level data augmentation method (character, word, and sentence levels) to construct a candidate data pool, and carefully design two ways of automatic task demonstration construction strategies (instance-level and entity-level) with various prompt templates. Our aim is to assess how well various robustness methods of LLMs perform in real-world noisy scenarios. The experiments have demonstrated that the current open-source LLMs generally achieve limited perturbation robustness performance. Based on these experimental observations, we make some forward-looking suggestions to fuel the research in this direction.
翻訳日:2023-10-11 15:57:00 公開日:2023-10-10
# オフザシェルフ大言語モデルを用いた自動臨床コーディング

Automated clinical coding using off-the-shelf large language models ( http://arxiv.org/abs/2310.06552v1 )

ライセンス: Link先を確認
Joseph S. Boyle, Antanas Kascenas, Pat Lok, Maria Liakata, Alison Q. O'Neil(参考訳) 診断用ICD符号を患者病院入院に割り当てる作業は、典型的には熟練した人間のコーダーによって行われる。 自動icdコーディングへの取り組みは、教師付きディープラーニングモデルによって支配されている。 しかし、多くの稀なコードを予測することの難しさは、臨床実践における導入の障壁となっている。 本研究では,既成の事前学習型大言語モデル(llms)を用いて,ゼロショットと少数ショットのコード割り当てに適した実用的なソリューションを開発する。 教師なし事前学習だけでは、ICDオントロジーの正確な知識と専門的な臨床コーディングタスクが保証されないため、タスクを情報抽出として枠づけ、各コード概念の説明を提供し、関連する言及の検索をモデルに依頼する。 効率性のために、すべてのコードを反復するのではなく、ICDオントロジーの階層的な性質を活用して、関連コードを探す。 次に,「メタリファインメント」と呼ぶ第2段階において,関連するラベルのサブセットを予測として選択するためにGPT-4を利用する。 ICD 符号化臨床症例文書の CodiEsp データセット上で Llama-2, GPT-3.5, GPT-4 を用いて本手法の有効性を検証した。 PLM-ICD から 0.216 と 0.219 に対して 0.157 のマイクロ F1 をわずかに下限に抑えながら 0.225 のマクロ F1 を達成する。 我々の知る限りでは、これはタスク固有の学習を必要としない自動ICD符号化のための最初の方法である。

The task of assigning diagnostic ICD codes to patient hospital admissions is typically performed by expert human coders. Efforts towards automated ICD coding are dominated by supervised deep learning models. However, difficulties in learning to predict the large number of rare codes remain a barrier to adoption in clinical practice. In this work, we leverage off-the-shelf pre-trained generative large language models (LLMs) to develop a practical solution that is suitable for zero-shot and few-shot code assignment. Unsupervised pre-training alone does not guarantee precise knowledge of the ICD ontology and specialist clinical coding task, therefore we frame the task as information extraction, providing a description of each coded concept and asking the model to retrieve related mentions. For efficiency, rather than iterating over all codes, we leverage the hierarchical nature of the ICD ontology to sparsely search for relevant codes. Then, in a second stage, which we term 'meta-refinement', we utilise GPT-4 to select a subset of the relevant labels as predictions. We validate our method using Llama-2, GPT-3.5 and GPT-4 on the CodiEsp dataset of ICD-coded clinical case documents. Our tree-search method achieves state-of-the-art performance on rarer classes, achieving the best macro-F1 of 0.225, whilst achieving slightly lower micro-F1 of 0.157, compared to 0.216 and 0.219 respectively from PLM-ICD. To the best of our knowledge, this is the first method for automated ICD coding requiring no task-specific learning.
翻訳日:2023-10-11 15:48:18 公開日:2023-10-10
# スムースに気をつけて:ラベルのスムースティングはプライバシシールドになるだけでなく、モデル反転攻撃のための触媒にもなる

Be Careful What You Smooth For: Label Smoothing Can Be a Privacy Shield but Also a Catalyst for Model Inversion Attacks ( http://arxiv.org/abs/2310.06549v1 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Kristian Kersting(参考訳) ラベル平滑化 -- ハードラベルの代わりにソフト化ラベルを使用する -- は、ディープラーニングで広く採用されている正規化手法であり、一般化やキャリブレーションの強化など、さまざまなメリットがある。 しかし、モデルプライバシを保存することの意味は、まだ解明されていない。 このギャップを埋めるために、分類器に符号化された知識を利用してクラス表現サンプルを生成し、トレーニングデータに関する機密情報を推測することを目的としたモデル反転攻撃(MIAs)に対するラベルスムーシングの影響を検討する。 広範な分析を通じて,従来のラベル平滑化がmiasを助長し,モデルのプライバシリークを増加させることが明らかとなった。 さらに、ネガティブな要因による平滑化はこの傾向に対処し、クラス関連情報の抽出を阻害し、プライバシーの保護を阻害し、最先端の防衛を破ることを明らかにする。 これにより、MIAに対するモデルレジリエンスを強化するための実用的で強力な新しい方法が確立される。

Label smoothing -- using softened labels instead of hard ones -- is a widely adopted regularization method for deep learning, showing diverse benefits such as enhanced generalization and calibration. Its implications for preserving model privacy, however, have remained unexplored. To fill this gap, we investigate the impact of label smoothing on model inversion attacks (MIAs), which aim to generate class-representative samples by exploiting the knowledge encoded in a classifier, thereby inferring sensitive information about its training data. Through extensive analyses, we uncover that traditional label smoothing fosters MIAs, thereby increasing a model's privacy leakage. Even more, we reveal that smoothing with negative factors counters this trend, impeding the extraction of class-related information and leading to privacy preservation, beating state-of-the-art defenses. This establishes a practical and powerful novel way for enhancing model resilience against MIAs.
翻訳日:2023-10-11 15:47:48 公開日:2023-10-10
# Rationale-Enhanced Language Modelsは継続関係学習者より優れている

Rationale-Enhanced Language Models are Better Continual Relation Learners ( http://arxiv.org/abs/2310.06547v1 )

ライセンス: Link先を確認
Weimin Xiong, Yifan Song, Peiyi Wang, Sujian Li(参考訳) 連続的関係抽出(CRE)は,新たに出現する関係の系列を学習する際に,破滅的な忘れを解くことを目的としている。 最近のCRE研究では、将来の類似関係に対する堅牢性の欠如から破滅的な忘れが生じることが示されている。 この問題に対処するために,大規模言語モデル(LLM)によって生成された関係分類結果の説明をCREタスクに導入する。 具体的には、モデルが現在の関係を堅牢に学習できるように、マルチタスクの合理性チューニング戦略を設計する。 また,類似関係をさらに識別するために,対比的合理的なリプレイを行う。 2つの標準ベンチマーク実験の結果,本手法は最先端のCREモデルよりも優れていた。

Continual relation extraction (CRE) aims to solve the problem of catastrophic forgetting when learning a sequence of newly emerging relations. Recent CRE studies have found that catastrophic forgetting arises from the model's lack of robustness against future analogous relations. To address the issue, we introduce rationale, i.e., the explanations of relation classification results generated by large language models (LLM), into CRE task. Specifically, we design the multi-task rationale tuning strategy to help the model learn current relations robustly. We also conduct contrastive rationale replay to further distinguish analogous relations. Experimental results on two standard benchmarks demonstrate that our method outperforms the state-of-the-art CRE models.
翻訳日:2023-10-11 15:47:29 公開日:2023-10-10
# AutoCycle-VC: Bottleneck非依存型ゼロショット言語間音声変換を目指して

AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual Voice Conversion ( http://arxiv.org/abs/2310.06546v1 )

ライセンス: Link先を確認
Haeyun Choi, Jio Gim, Yuho Lee, Youngin Kim, and Young-Joo Suh(参考訳) 本稿では,サイクル構造とメルスペクトログラム前処理を備えた簡易でロバストなゼロショット音声変換システムを提案する。 以前の作品は、注意深く設計されたボトルネック構造に依存するため、情報損失と合成品質の低下に苦しんでいた。 さらに、自己再構成損失のみに依存するモデルは、異なる話者の声の再現に苦慮した。 これらの問題に対処するため,ターゲット話者とソース話者の相互変換を考慮したサイクル一貫性損失を提案する。 また,ゼロショット変換の鍵である音声から時間非依存なグローバル話者表現を抽出するために,話者エンコーダトレーニング中にスタック型ランダムシャッフルメルスペクトログラムとラベル平滑化法を用いる。 我々のモデルは, 主観的評価と客観的評価の両方において, 既存の最先端の成果を上回っている。 さらに、言語間変換が容易になり、合成音声の品質が向上する。

This paper proposes a simple and robust zero-shot voice conversion system with a cycle structure and mel-spectrogram pre-processing. Previous works suffer from information loss and poor synthesis quality due to their reliance on a carefully designed bottleneck structure. Moreover, models relying solely on self-reconstruction loss struggled with reproducing different speakers' voices. To address these issues, we suggested a cycle-consistency loss that considers conversion back and forth between target and source speakers. Additionally, stacked random-shuffled mel-spectrograms and a label smoothing method are utilized during speaker encoder training to extract a time-independent global speaker representation from speech, which is the key to a zero-shot conversion. Our model outperforms existing state-of-the-art results in both subjective and objective evaluations. Furthermore, it facilitates cross-lingual voice conversions and enhances the quality of synthesized speech.
翻訳日:2023-10-11 15:47:17 公開日:2023-10-10
# 巡回セールスマン問題に対するスケール不均衡データに基づくエッジアウェアグラフ自動エンコーダ

An Edge-Aware Graph Autoencoder Trained on Scale-Imbalanced Data for Travelling Salesman Problems ( http://arxiv.org/abs/2310.06543v1 )

ライセンス: Link先を確認
Shiqing Liu, Xueming Yan, Yaochu Jin(参考訳) 近年、機械学習による組合せ最適化の研究が急増している。これは学習に基づくアプローチが従来のヒューリスティックスよりも優れており、計算コストも低い。 しかしながら、教師付きニューラルコンビネータ最適化に関する既存の作業のほとんどは、一定の数の都市でtspインスタンスに焦点を当てており、優れたパフォーマンスを達成するために大量のトレーニングサンプルを必要とするため、現実的な最適化シナリオに適用するには実用的でない。 本研究の目的は,様々な都市でトラベリングセールスマン問題(TSP)を解くためのデータ駆動グラフ表現学習手法を開発することである。 そこで本稿では, エッジ対応グラフオートエンコーダ(EdgeGAE)モデルを提案する。 疎連結グラフ上でのリンク予測タスクとしてTSPを定式化する。 残留ゲートエンコーダは遅延エッジ埋め込みを学習するために訓練され、次いでエッジ中心のデコーダでリンク予測をエンドツーエンドに出力する。 大規模問題を解決するためのモデルの一般化能力を改善するため,トレーニングプロセスにアクティブサンプリング戦略を導入する。 さらに,50都市から500都市までの規模を持つ5万tspインスタンスを含むベンチマークデータセットを,非常に大規模にバランスの取れない分布に従って生成する。 本研究では,様々なスケールの異なるトレーニングデータを用いて実験を行い,提案手法がtspsの解法である最先端学習法において高い競合性能を達成できることを実証する。

Recent years have witnessed a surge in research on machine learning for combinatorial optimization since learning-based approaches can outperform traditional heuristics and approximate exact solvers at a lower computation cost. However, most existing work on supervised neural combinatorial optimization focuses on TSP instances with a fixed number of cities and requires large amounts of training samples to achieve a good performance, making them less practical to be applied to realistic optimization scenarios. This work aims to develop a data-driven graph representation learning method for solving travelling salesman problems (TSPs) with various numbers of cities. To this end, we propose an edge-aware graph autoencoder (EdgeGAE) model that can learn to solve TSPs after being trained on solution data of various sizes with an imbalanced distribution. We formulate the TSP as a link prediction task on sparse connected graphs. A residual gated encoder is trained to learn latent edge embeddings, followed by an edge-centered decoder to output link predictions in an end-to-end manner. To improve the model's generalization capability of solving large-scale problems, we introduce an active sampling strategy into the training process. In addition, we generate a benchmark dataset containing 50,000 TSP instances with a size from 50 to 500 cities, following an extremely scale-imbalanced distribution, making it ideal for investigating the model's performance for practical applications. We conduct experiments using different amounts of training data with various scales, and the experimental results demonstrate that the proposed data-driven approach achieves a highly competitive performance among state-of-the-art learning-based methods for solving TSPs.
翻訳日:2023-10-11 15:47:02 公開日:2023-10-10
# 計算限界再利用ロケットの安定着陸の実現:量子強化学習アプローチ

Realizing Stabilized Landing for Computation-Limited Reusable Rockets: A Quantum Reinforcement Learning Approach ( http://arxiv.org/abs/2310.06541v1 )

ライセンス: Link先を確認
Gyu Seon Kim, JaeHyun Chung, and Soohyun Park(参考訳) 再利用可能なロケットの出現は、宇宙探査の新しい時代を告げ、人工衛星の打ち上げコストを大幅に削減した。 従来のロケットは使い捨てだったが、再利用可能なロケットの設計は宇宙ミッションの経済的ダイナミクスに革命をもたらした。 再利用ロケットの最も重要なフェーズは着陸段階であり、安全回復のための膨大な速度と姿勢を管理する。 このタスクの複雑さは、特に精度と適応性の観点から、制御システムに新たな課題をもたらす。 PIDコントローラのような古典的な制御システムは、動的システムの変更に適応する柔軟性に欠けており、コントローラの再設計にはコストと時間を要する。 本稿では,再利用可能なロケットの制御系への量子強化学習の統合について検討する。 古典的な強化学習とは異なり、量子強化学習は重ね合わせに存在する量子ビットを使用し、より効率的な情報符号化と必要なパラメータ数の削減を可能にする。 これにより計算効率が向上し、メモリ要求が減少し、安定的で予測可能な性能が向上する。 軽量でなければならない再利用可能なロケットの性質から、重いコンピュータは搭載できない。 再利用可能なロケットシナリオでは、パラメータの少ないためメモリ要件が削減された量子強化学習がよい解決策である。

The advent of reusable rockets has heralded a new era in space exploration, reducing the costs of launching satellites by a significant factor. Traditional rockets were disposable, but the design of reusable rockets for repeated use has revolutionized the financial dynamics of space missions. The most critical phase of reusable rockets is the landing stage, which involves managing the tremendous speed and attitude for safe recovery. The complexity of this task presents new challenges for control systems, specifically in terms of precision and adaptability. Classical control systems like the proportional-integral-derivative (PID) controller lack the flexibility to adapt to dynamic system changes, making them costly and time-consuming to redesign of controller. This paper explores the integration of quantum reinforcement learning into the control systems of reusable rockets as a promising alternative. Unlike classical reinforcement learning, quantum reinforcement learning uses quantum bits that can exist in superposition, allowing for more efficient information encoding and reducing the number of parameters required. This leads to increased computational efficiency, reduced memory requirements, and more stable and predictable performance. Due to the nature of reusable rockets, which must be light, heavy computers cannot fit into them. In the reusable rocket scenario, quantum reinforcement learning, which has reduced memory requirements due to fewer parameters, is a good solution.
翻訳日:2023-10-11 15:46:34 公開日:2023-10-10
# RoCliCoにおけるクリックベイト検出のための新しいコントラスト学習法--ニュース記事のルーマニア語クリックベイトコーパス

A Novel Contrastive Learning Method for Clickbait Detection on RoCliCo: A Romanian Clickbait Corpus of News Articles ( http://arxiv.org/abs/2310.06540v1 )

ライセンス: Link先を確認
Daria-Mihaela Broscoteanu, Radu Tudor Ionescu(参考訳) 収入を増やすために、ニュースサイトはしばしば偽ニュースのタイトルを使い、ユーザーがタイトルをクリックして全ニュースを読むのを誘う。 クリックベイト検出は、このような偽の広告を自動的に検出し、オンラインユーザの貴重な時間を無駄にしないようにするタスクである。 タスクの重要性にもかかわらず、私たちの知る限りでは、ルーマニア語のクリックベイトコーパスは公開されていない。 この目的のために,クリックベイトラベルと非クリックベイトラベルを手作業で注釈付けした8,313のニュースサンプルからなるルーマニア語Clickbait Corpus (RoCliCo)を紹介した。 さらに,手作りモデルからリカレントおよびトランスフォーマーベースニューラルネットワークに至るまで,4つの機械学習手法を用いて実験を行い,競争力のあるベースラインを確立する。 また,重み付き投票アンサンブルによる実験も行った。 本研究では,非クリックベイトニュースのタイトルと内容がコサイン類似度が高く,クリックベイトニュースのタイトルと内容がコサイン類似度が低いような,深い距離空間にニュースタイトルとコンテンツをエンコードすることを学ぶ,bertに基づく新しいコントラスト学習モデルを提案する。 私たちのデータセットとベースラインを再現するコードは、https://github.com/dariabroscoteanu/RoCliCoでダウンロードできます。

To increase revenue, news websites often resort to using deceptive news titles, luring users into clicking on the title and reading the full news. Clickbait detection is the task that aims to automatically detect this form of false advertisement and avoid wasting the precious time of online users. Despite the importance of the task, to the best of our knowledge, there is no publicly available clickbait corpus for the Romanian language. To this end, we introduce a novel Romanian Clickbait Corpus (RoCliCo) comprising 8,313 news samples which are manually annotated with clickbait and non-clickbait labels. Furthermore, we conduct experiments with four machine learning methods, ranging from handcrafted models to recurrent and transformer-based neural networks, to establish a line-up of competitive baselines. We also carry out experiments with a weighted voting ensemble. Among the considered baselines, we propose a novel BERT-based contrastive learning model that learns to encode news titles and contents into a deep metric space such that titles and contents of non-clickbait news have high cosine similarity, while titles and contents of clickbait news have low cosine similarity. Our data set and code to reproduce the baselines are publicly available for download at https://github.com/dariabroscoteanu/RoCliCo.
翻訳日:2023-10-11 15:46:12 公開日:2023-10-10
# 多変量GANに基づくディスク故障予測モデルのデータレベルハイブリッド戦略選択

Data-level hybrid strategy selection for disk fault prediction model based on multivariate GAN ( http://arxiv.org/abs/2310.06537v1 )

ライセンス: Link先を確認
Shuangshuang Yuan, Peng Wu and Yuehui Chen(参考訳) データクラスの不均衡は分類問題において一般的な問題であり、マイノリティクラスのサンプルは分類タスクで誤分類するのがより重要でコストがかかることが多い。 したがって、データクラス不均衡分類問題を解くことは極めて重要である。 SMARTデータセットは、かなりの量の健康サンプルと比較的限られた数の欠陥サンプルからなる明らかなクラス不均衡を示す。 このデータセットは、ディスクの健康状態の信頼できる指標として機能する。 本稿では,多変量生成逆向ネットワーク(gan)で合成されたデータを混合統合し,データレベルでのディスクスマートデータセットのバランスをとることにより,特定の分類モデルに対して最適なバランスのとれたディスクスマートデータセットを得るとともに,遺伝的アルゴリズムと組み合わせて,特定の分類モデルにおいて高いディスク障害分類予測精度を得る。

Data class imbalance is a common problem in classification problems, where minority class samples are often more important and more costly to misclassify in a classification task. Therefore, it is very important to solve the data class imbalance classification problem. The SMART dataset exhibits an evident class imbalance, comprising a substantial quantity of healthy samples and a comparatively limited number of defective samples. This dataset serves as a reliable indicator of the disc's health status. In this paper, we obtain the best balanced disk SMART dataset for a specific classification model by mixing and integrating the data synthesised by multivariate generative adversarial networks (GAN) to balance the disk SMART dataset at the data level; and combine it with genetic algorithms to obtain higher disk fault classification prediction accuracy on a specific classification model.
翻訳日:2023-10-11 15:45:43 公開日:2023-10-10
# EmoTwiCS: オランダの顧客サービス対話における感情軌跡をモデル化するコーパス

EmoTwiCS: A Corpus for Modelling Emotion Trajectories in Dutch Customer Service Dialogues on Twitter ( http://arxiv.org/abs/2310.06536v1 )

ライセンス: Link先を確認
Sofie Labat and Thomas Demeester and V\'eronique Hoste(参考訳) ユーザー生成コンテンツの増加により、ソーシャルメディアは顧客サービスを提供するチャネルとしてますます採用されている。 これらのオンラインプラットフォームのパブリックな性格を考えると、感情の自動検出は顧客の満足度を監視し、否定的な口コミを防ぐ上で重要な応用となる。 本稿では、感情軌跡に注釈を付けた9,489件のオランダの顧客サービス対話コーパスであるEmoTwiCSを紹介する。 ビジネス指向のコーパスでは、会話の発声ごとに変化する顧客の動的属性として感情を捉えています。 感情軌跡」という用語は、顧客によって経験されるきめ細かい感情(28のラベルと有能な覚醒スコアが注釈付けされている)だけでなく、会話の前に起こる出来事や人間の操作者による反応(どちらも8つのカテゴリーに注釈付けされている)も指している。 結果として得られたデータセットに関するIAA(Inter-annotator Agreement)スコアは、その高品質を裏付ける、関連する研究に相当する。 注釈付き情報の異なる層間の相互作用を考慮し、詳細な分析を行って調査する。 (i)孤立したツイートにおける静的な感情 (二)動的な感情とその軌跡の変化、及び (iii)感情の軌跡における原因と反応戦略の役割 最後に、データセットの利点と限界をリストアップし、その後、さまざまな予測モデリングタスクと、emotwicsが適用可能なオープンリサーチの質問について提案します。 データセットは要求に応じて利用可能であり、論文の受理時に公開される予定だ。

Due to the rise of user-generated content, social media is increasingly adopted as a channel to deliver customer service. Given the public character of these online platforms, the automatic detection of emotions forms an important application in monitoring customer satisfaction and preventing negative word-of-mouth. This paper introduces EmoTwiCS, a corpus of 9,489 Dutch customer service dialogues on Twitter that are annotated for emotion trajectories. In our business-oriented corpus, we view emotions as dynamic attributes of the customer that can change at each utterance of the conversation. The term `emotion trajectory' refers therefore not only to the fine-grained emotions experienced by customers (annotated with 28 labels and valence-arousal-dominance scores), but also to the event happening prior to the conversation and the responses made by the human operator (both annotated with 8 categories). Inter-annotator agreement (IAA) scores on the resulting dataset are substantial and comparable with related research, underscoring its high quality. Given the interplay between the different layers of annotated information, we perform several in-depth analyses to investigate (i) static emotions in isolated tweets, (ii) dynamic emotions and their shifts in trajectory, and (iii) the role of causes and response strategies in emotion trajectories. We conclude by listing the advantages and limitations of our dataset, after which we give some suggestions on the different types of predictive modelling tasks and open research questions to which EmoTwiCS can be applied. The dataset is available upon request and will be made publicly available upon acceptance of the paper.
翻訳日:2023-10-11 15:45:28 公開日:2023-10-10
# 多層ドメイン適応学習に基づくディスク故障予測

Disk failure prediction based on multi-layer domain adaptive learning ( http://arxiv.org/abs/2310.06534v1 )

ライセンス: Link先を確認
Guangfu Gao, Peng Wu and Hussain Dawood(参考訳) 大規模なデータストレージは、障害の影響を受けやすい。 ディスクが損傷し、置き換えられるため、従来の機械学習モデルは、履歴データを頼りに予測するが、ディスク障害を正確に予測するのは難しい。 本稿では,多層ドメイン適応学習技術を活用したディスク故障予測手法を提案する。 まず、多数の障害を有するディスクデータをソースドメインとして選択し、障害が少ないディスクデータをターゲットドメインとして選択する。 特徴抽出ネットワークのトレーニングは、選択された原点と宛先領域で行う。 2つのドメイン間のコントラストは、ソースとターゲットのドメインから診断知識の転送を促進する。 実験結果によると,提案手法は信頼性の高い予測モデルを生成し,障害サンプルの少ないディスクデータ上での障害予測能力を向上させることが示されている。

Large scale data storage is susceptible to failure. As disks are damaged and replaced, traditional machine learning models, which rely on historical data to make predictions, struggle to accurately predict disk failures. This paper presents a novel method for predicting disk failures by leveraging multi-layer domain adaptive learning techniques. First, disk data with numerous faults is selected as the source domain, and disk data with fewer faults is selected as the target domain. A training of the feature extraction network is performed with the selected origin and destination domains. The contrast between the two domains facilitates the transfer of diagnostic knowledge from the domain of source and target. According to the experimental findings, it has been demonstrated that the proposed technique can generate a reliable prediction model and improve the ability to predict failures on disk data with few failure samples.
翻訳日:2023-10-11 15:45:01 公開日:2023-10-10
# SketchBodyNet: 3次元再構成のためのスケッチ駆動多面デコーダネットワーク

SketchBodyNet: A Sketch-Driven Multi-faceted Decoder Network for 3D Human Reconstruction ( http://arxiv.org/abs/2310.06577v1 )

ライセンス: Link先を確認
Fei Wang, Kongzhang Tang, Hefeng Wu, Baoquan Zhao, Hao Cai, Teng Zhou(参考訳) 2d画像からの3d形状復元は,高レベルな3dアプリケーションの多くに対する基礎的サポートにより,近年注目を集めている。 自然画像と比較すると、フリーハンドのスケッチは様々な形状を描くのにはるかに柔軟であり、人間の3D再構築に高い可能性と価値をもたらす。 しかし、そのような課題は非常に難しい。 スケッチのスパースな抽象的特徴は、2dから3dへの再構成の難解な問題に対して、任意性、不正確性、画像詳細の欠如といった深刻な困難をもたらす。 現在の手法は、単視点画像から3次元人体を再構築することに成功したが、フリーハンドスケッチではうまく機能していない。 本稿では,SketchBodyNetと呼ばれるスケッチ駆動型マルチフェイスデコーダネットワークを提案する。 具体的には、バックボーンと3つの別々のアテンションデコーダブランチで構成され、各デコーダにマルチヘッド自己アテンションモジュールを利用して機能強化を行い、その後にマルチ層パーセプトロンが続く。 多面デコーダは、それぞれカメラ、形状、ポーズパラメータを予測し、smplモデルに関連付けて対応する3d人間のメッシュを再構築することを目的としている。 学習では、既存の3Dメッシュはカメラパラメータを介して関節による2D合成スケッチに投影され、フリーハンドスケッチと組み合わせてモデルを最適化する。 提案手法を検証するため,約26kのフリーハンドスケッチの大規模データセットと,14種類の異なる角度から人体のさまざまなポーズを含む3Dメッシュを収集した。 広範な実験結果から,sketchbodynetはフリーハンドスケッチによる3次元メッシュの再構成において優れた性能を示す。

Reconstructing 3D human shapes from 2D images has received increasing attention recently due to its fundamental support for many high-level 3D applications. Compared with natural images, freehand sketches are much more flexible to depict various shapes, providing a high potential and valuable way for 3D human reconstruction. However, such a task is highly challenging. The sparse abstract characteristics of sketches add severe difficulties, such as arbitrariness, inaccuracy, and lacking image details, to the already badly ill-posed problem of 2D-to-3D reconstruction. Although current methods have achieved great success in reconstructing 3D human bodies from a single-view image, they do not work well on freehand sketches. In this paper, we propose a novel sketch-driven multi-faceted decoder network termed SketchBodyNet to address this task. Specifically, the network consists of a backbone and three separate attention decoder branches, where a multi-head self-attention module is exploited in each decoder to obtain enhanced features, followed by a multi-layer perceptron. The multi-faceted decoders aim to predict the camera, shape, and pose parameters, respectively, which are then associated with the SMPL model to reconstruct the corresponding 3D human mesh. In learning, existing 3D meshes are projected via the camera parameters into 2D synthetic sketches with joints, which are combined with the freehand sketches to optimize the model. To verify our method, we collect a large-scale dataset of about 26k freehand sketches and their corresponding 3D meshes containing various poses of human bodies from 14 different angles. Extensive experimental results demonstrate our SketchBodyNet achieves superior performance in reconstructing 3D human meshes from freehand sketches.
翻訳日:2023-10-11 15:40:39 公開日:2023-10-10
# 初期作物分類のためのXAI

XAI for Early Crop Classification ( http://arxiv.org/abs/2310.06574v1 )

ライセンス: Link先を確認
Ayshah Chan, Maja Schneider, and Marco K\"orner(参考訳) 我々は,eXplainable AI (XAI) 手法を用いて重要な時間ステップを同定し,初期作物分類のためのアプローチを提案する。 提案手法は,標準作物分類モデルを訓練して,階層的関連性伝播(LRP)を行い,その正味な時間ステップを同定する。 我々は、最短の分類時間枠の有界領域を作成するために、そのような重要な時間指標を選択した。 我々は、2019年4月21日から2019年8月9日までの期間を、正確さと知名度において最高のトレードオフであると特定した。 このタイムフレームはフルタイムに比べて精度が0.75%低下するだけである。 LRPに由来する重要な時間ステップは、異なるクラスと異なるクラスを区別する入力値の小さな詳細も強調する。

We propose an approach for early crop classification through identifying important timesteps with eXplainable AI (XAI) methods. Our approach consists of training a baseline crop classification model to carry out layer-wise relevance propagation (LRP) so that the salient time step can be identified. We chose a selected number of such important time indices to create the bounding region of the shortest possible classification timeframe. We identified the period 21st April 2019 to 9th August 2019 as having the best trade-off in terms of accuracy and earliness. This timeframe only suffers a 0.75% loss in accuracy as compared to using the full timeseries. We observed that the LRP-derived important timesteps also highlight small details in input values that differentiates between different classes and
翻訳日:2023-10-11 15:40:07 公開日:2023-10-10
# 距離に基づく完全合成データ生成法における統計特性とプライバシー保証

Statistical properties and privacy guarantees of an original distance-based fully synthetic data generation method ( http://arxiv.org/abs/2310.06571v1 )

ライセンス: Link先を確認
R\'emy Chapelle (CESP, EVDG), Bruno Falissard (CESP)(参考訳) はじめに: オリジナルの研究によって生成されたデータ量は指数関数的に増加している。 公開リリースはオープンサイエンスの原則に従うことが推奨されている。 しかしながら、人間の参加者から収集されたデータは、プライバシー上の懸念を生じさせることなく公開することはできない。 完全な合成データは、この挑戦に対する有望な答えである。 このアプローチは、分類木と回帰木に基づく合成データ生成フレームワークと、もともとの距離に基づくフィルタリングという形で、フランス人口調査センター(Central de Recherche en {\'E}pid{\'e}miologie et Sant{\'e} des Populations)によって調査されている。 この研究の目的は、このフレームワークの洗練されたバージョンを開発し、その評価のために開発された新しいツールを含む、経験的かつ形式的なツールでそのリスク利用性プロファイルを評価することである。 より豊かな疫学的データセットに2つ以上のステップを適用して評価を行った。 機械学習アプローチを用いてさらに評価された合成データセットのそれぞれに対して、プライバシとユーティリティのメトリクスが算出された。結果: 計算されたメトリクスは、合成データセットの属性開示攻撃に対する十分なレベルの保護、特に完全なフレームワークを使用した場合。 会員開示攻撃は、データに大きな変更を加えることなく正式に阻止された。 機械学習のアプローチは、シミュレートされたsingling outとlinkability攻撃の成功のリスクが低かった。 本研究は, 複数段階のフレームワークを用いて, 公開可能な合成データを生成する技術的実現可能性を示した。 このデモンストレーションのために特別に開発された形式的および実証的なツールは、この分野に貴重な貢献である。 結論: 新たな多段階合成データ生成フレームワークを用いて生成されたデータの品質を良好に評価することで、本格的実装に熟したと思われるopen-cespイニシアチブの技術的および概念的健全性を示した。

Introduction: The amount of data generated by original research is growing exponentially. Publicly releasing them is recommended to comply with the Open Science principles. However, data collected from human participants cannot be released as-is without raising privacy concerns. Fully synthetic data represent a promising answer to this challenge. This approach is explored by the French Centre de Recherche en {\'E}pid{\'e}miologie et Sant{\'e} des Populations in the form of a synthetic data generation framework based on Classification and Regression Trees and an original distance-based filtering. The goal of this work was to develop a refined version of this framework and to assess its risk-utility profile with empirical and formal tools, including novel ones developed for the purpose of this evaluation.Materials and Methods: Our synthesis framework consists of four successive steps, each of which is designed to prevent specific risks of disclosure. We assessed its performance by applying two or more of these steps to a rich epidemiological dataset. Privacy and utility metrics were computed for each of the resulting synthetic datasets, which were further assessed using machine learning approaches.Results: Computed metrics showed a satisfactory level of protection against attribute disclosure attacks for each synthetic dataset, especially when the full framework was used. Membership disclosure attacks were formally prevented without significantly altering the data. Machine learning approaches showed a low risk of success for simulated singling out and linkability attacks. Distributional and inferential similarity with the original data were high with all datasets.Discussion: This work showed the technical feasibility of generating publicly releasable synthetic data using a multi-step framework. Formal and empirical tools specifically developed for this demonstration are a valuable contribution to this field. Further research should focus on the extension and validation of these tools, in an effort to specify the intrinsic qualities of alternative data synthesis methods.Conclusion: By successfully assessing the quality of data produced using a novel multi-step synthetic data generation framework, we showed the technical and conceptual soundness of the Open-CESP initiative, which seems ripe for full-scale implementation.
翻訳日:2023-10-11 15:39:55 公開日:2023-10-10
# Hoeffding分解の一般化による依存入力によるブラックボックスモデルの理解

Understanding black-box models with dependent inputs through a generalization of Hoeffding's decomposition ( http://arxiv.org/abs/2310.06567v1 )

ライセンス: Link先を確認
Marouane Il Idrissi (EDF R&D PRISME, IMT, SINCLAIR AI Lab), Nicolas Bousquet (EDF R&D PRISME, SINCLAIR AI Lab, LPSM), Fabrice Gamboa (IMT), Bertrand Iooss (EDF R&D PRISME, IMT, SINCLAIR AI Lab, GdR MASCOT-NUM), Jean-Michel Loubes (IMT)(参考訳) ブラックボックスモデルを解釈する主な課題の1つは、非可換独立なランダム入力の平方可積分関数を変数のあらゆる部分集合の関数の和に一意的に分解する能力である。 しかし、入力間の依存関係を扱うのは複雑である。 本稿では, 確率論, 関数解析, コンビネータ論の3分野をリンクして, この問題を研究する新しい枠組みを提案する。 入力に対する2つの合理的な仮定(非完全機能依存と非退化確率依存)の下では、常にそのような関数を一意的に分解することができる。 この 'canonical decomposition' は比較的直感的であり、非線形依存入力の非線形関数の線型性を明らかにする。 この枠組みでは、特定の場合と見なすことができる、よく知られたホッフィング分解を効果的に一般化する。 ブラックボックスモデルの斜め射影は、評価と分散分解のための新しい解釈可能性指標を可能にする。 直感的な性質とは別に、これらの新しい指標の性質について研究・論じる。 この結果はより正確な不確実性定量化への道を示し、入力が依存するたびに感度分析と解釈可能性の研究に役立つ。 この分解を解析的に説明し、実際にこれらの結果を採用する上での課題について論じる。

One of the main challenges for interpreting black-box models is the ability to uniquely decompose square-integrable functions of non-mutually independent random inputs into a sum of functions of every possible subset of variables. However, dealing with dependencies among inputs can be complicated. We propose a novel framework to study this problem, linking three domains of mathematics: probability theory, functional analysis, and combinatorics. We show that, under two reasonable assumptions on the inputs (non-perfect functional dependence and non-degenerate stochastic dependence), it is always possible to decompose uniquely such a function. This ``canonical decomposition'' is relatively intuitive and unveils the linear nature of non-linear functions of non-linearly dependent inputs. In this framework, we effectively generalize the well-known Hoeffding decomposition, which can be seen as a particular case. Oblique projections of the black-box model allow for novel interpretability indices for evaluation and variance decomposition. Aside from their intuitive nature, the properties of these novel indices are studied and discussed. This result offers a path towards a more precise uncertainty quantification, which can benefit sensitivity analyses and interpretability studies, whenever the inputs are dependent. This decomposition is illustrated analytically, and the challenges to adopting these results in practice are discussed.
翻訳日:2023-10-11 15:39:23 公開日:2023-10-10
# 形態素解析による不規則パターン画像の効率的な検索:産業データと医療データへの応用

Efficient Retrieval of Images with Irregular Patterns using Morphological Image Analysis: Applications to Industrial and Healthcare datasets ( http://arxiv.org/abs/2310.06566v1 )

ライセンス: Link先を確認
Jiajun Zhang, Georgina Cosma, Sarah Bugby and Jason Watkins(参考訳) 画像検索は、画像の内容や特徴に基づいて、データベースから画像を検索し検索するプロセスである。 近年, 深部特徴, 色に基づく特徴, 形状に基づく特徴, 局所特徴などの特徴を抽出することにより, 産業画像や医用画像内の不規則なパターンの検索に多くの注意が向けられている。 これは、障害の検査、病気の診断、メンテナンスの予測など、さまざまな産業に適用できる。 本稿では,画像から形態的特徴(図柄)のセットを抽出し,類似した不規則パターンを含む画像を検索するための画像検索フレームワークを提案する。本論文で使用するデータセットには,欠陥のある風車ブレード画像,新型コロナウイルス感染による胸部コンピュータ断層撮影,欠陥のあるヒートシンク画像,湖氷画像が含まれる。 提案手法は,異なる特徴抽出手法 (DefChars, 再サイズ生画像, 局所バイナリパターン, スケール不変特徴変換) と距離メトリクスを用いて評価し, データセット間での検索性能の最も効率的なパラメータを決定する。 その結果,DefCharsとマンハッタン距離計を用いて提案したフレームワークは,不規則パターンのクラス間で平均80%,標準偏差0.09の平均精度を達成し,全てのデータセットにおける代替特徴量の組み合わせよりも優れていた。 さらに、クラス間の標準偏差は、クラス不均衡や小さなデータセットが存在する場合でも、信頼性の高い画像検索タスクに対するdefcharsの能力を強調している。

Image retrieval is the process of searching and retrieving images from a database based on their visual content and features. Recently, much attention has been directed towards the retrieval of irregular patterns within industrial or medical images by extracting features from the images, such as deep features, colour-based features, shape-based features and local features. This has applications across a spectrum of industries, including fault inspection, disease diagnosis, and maintenance prediction. This paper proposes an image retrieval framework to search for images containing similar irregular patterns by extracting a set of morphological features (DefChars) from images; the datasets employed in this paper contain wind turbine blade images with defects, chest computerised tomography scans with COVID-19 infection, heatsink images with defects, and lake ice images. The proposed framework was evaluated with different feature extraction methods (DefChars, resized raw image, local binary pattern, and scale-invariant feature transforms) and distance metrics to determine the most efficient parameters in terms of retrieval performance across datasets. The retrieval results show that the proposed framework using the DefChars and the Manhattan distance metric achieves a mean average precision of 80% and a low standard deviation of 0.09 across classes of irregular patterns, outperforming alternative feature-metric combinations across all datasets. Furthermore, the low standard deviation between each class highlights DefChars' capability for a reliable image retrieval task, even in the presence of class imbalances or small-sized datasets.
翻訳日:2023-10-11 15:39:04 公開日:2023-10-10
# 超伝導量子シミュレータ上のスピン流体力学の研究

Probing spin hydrodynamics on a superconducting quantum simulator ( http://arxiv.org/abs/2310.06565v1 )

ライセンス: Link先を確認
Yun-Hao Shi, Zheng-Hang Sun, Yong-Yi Wang, Zheng-An Wang, Yu-Ran Zhang, Wei-Guo Ma, Hao-Tian Liu, Kui Zhao, Jia-Cheng Song, Gui-Han Liang, Zheng-Yang Mei, Jia-Chi Zhang, Hao Li, Chi-Tong Chen, Xiaohui Song, Jieci Wang, Guangming Xue, Haifeng Yu, Kaixuan Huang, Zhongcheng Xiang, Kai Xu, Dongning Zheng, and Heng Fan(参考訳) 量子力学における流体輸送の性質を特徴付けることは、物質のエキゾチックな非平衡相の基本的な理解に対する貴重な洞察を与える。 大規模複素量子システムにおける無限温度輸送のシミュレーションは、いまだに優れた課題である。 ここでは、制御可能でコヒーレントな超伝導量子シミュレータを用いて、ハール乱数状態の効率的に作成できるアナログ量子回路を実験的に実現し、無限温度でのスピン輸送をプローブする。 エルゴード力学を用いたはしご型量子シミュレータのユニタリ進化における拡散スピン輸送の観察を行った。 さらに, 熱処理の破壊に伴う異常なサブ拡散の兆候を明らかにするとともに, 強い障害やタイトル電位を受けるシステムの輸送特性について検討した。 我々の研究は、アナログ量子シミュレーター上で無限温度のスピン輸送を探索するスケーラブルな方法を示し、輸送の観点から他の興味深い非平衡現象を研究する方法を示している。

Characterizing the nature of hydrodynamical transport properties in quantum dynamics provides valuable insights into the fundamental understanding of exotic non-equilibrium phases of matter. Simulating infinite-temperature transport on large-scale complex quantum systems remains an outstanding challenge. Here, using a controllable and coherent superconducting quantum simulator, we experimentally realize the analog quantum circuit, which can efficiently prepare the Haar-random states, and probe spin transport at infinite temperature. We observe diffusive spin transport during the unitary evolution of the ladder-type quantum simulator with ergodic dynamics. Moreover, we explore the transport properties of the systems subjected to strong disorder or a titled potential, revealing signatures of anomalous subdiffusion in accompany with the breakdown of thermalization. Our work demonstrates a scalable method of probing infinite-temperature spin transport on analog quantum simulators, which paves the way to study other intriguing out-of-equilibrium phenomena from the perspective of transport.
翻訳日:2023-10-11 15:38:34 公開日:2023-10-10
# 脳腫瘍セグメンテーションのための構成表現学習

Compositional Representation Learning for Brain Tumour Segmentation ( http://arxiv.org/abs/2310.06562v1 )

ライセンス: Link先を確認
Xiao Liu, Antanas Kascenas, Hannah Watson, Sotirios A. Tsaftaris and Alison Q. O'Neil(参考訳) 脳腫瘍のセグメンテーションでは、ディープラーニングモデルは大量のデータとピクセルレベルのアノテーションによって、人間のエキスパートレベルのパフォーマンスを達成することができる。 しかしながら、大量のデータに対してピクセルレベルのアノテーションを取得するという高価な作業は、必ずしも実現可能とは限らない。 この課題に取り組むため,我々は,非教師なし学習と弱い監督を用いてロバストな構成表現を学ぶために,混合監督フレームワークvmfnetを適応させた。 特に,画像中の腫瘍(または腫瘍亜領域)の有無を示す弱い画像レベルラベルが構築されるmriボリューム内の腫瘍(または腫瘍亜領域:peritumoural edema,gd-enhancing tumour,およびネクロティック/非enhancing tumour)の上下スライスを示す2点の専門家病理アノテーションのコレクションをブラッツデータセットを用いてシミュレートする。 次に、vMFNetは、画像の構造に関する情報をキャプチャする学習可能および構成可能なvMFカーネルを介して、von-Mises-Fisher(vMF)分布で符号化された画像特徴をモデル化する。 弱いラベル付きデータを少量の完全アノテートデータのみに限定して, 良好な腫瘍セグメンテーション性能が得られることを示す。 興味深いことに、解剖学的構造の創発的な学習は、病理学(腫瘍)に関してのみ監督されたとしても、構成的表現に現れる。

For brain tumour segmentation, deep learning models can achieve human expert-level performance given a large amount of data and pixel-level annotations. However, the expensive exercise of obtaining pixel-level annotations for large amounts of data is not always feasible, and performance is often heavily reduced in a low-annotated data regime. To tackle this challenge, we adapt a mixed supervision framework, vMFNet, to learn robust compositional representations using unsupervised learning and weak supervision alongside non-exhaustive pixel-level pathology labels. In particular, we use the BraTS dataset to simulate a collection of 2-point expert pathology annotations indicating the top and bottom slice of the tumour (or tumour sub-regions: peritumoural edema, GD-enhancing tumour, and the necrotic / non-enhancing tumour) in each MRI volume, from which weak image-level labels that indicate the presence or absence of the tumour (or the tumour sub-regions) in the image are constructed. Then, vMFNet models the encoded image features with von-Mises-Fisher (vMF) distributions, via learnable and compositional vMF kernels which capture information about structures in the images. We show that good tumour segmentation performance can be achieved with a large amount of weakly labelled data but only a small amount of fully-annotated data. Interestingly, emergent learning of anatomical structures occurs in the compositional representation even given only supervision relating to pathology (tumour).
翻訳日:2023-10-11 15:38:20 公開日:2023-10-10
# 医用画像解析のためのデータ効率のよいディープラーニング

Data efficient deep learning for medical image analysis: A survey ( http://arxiv.org/abs/2310.06557v1 )

ライセンス: Link先を確認
Suruchi Kumari and Pravendra Singh(参考訳) 深層学習の急速な進化は、医用画像解析の分野を大きく進歩させた。 しかし、これらの成果にもかかわらず、医用画像分析のためのディープラーニングモデルのさらなる拡張は、大きな注釈付きデータセットの不足のために大きな課題に直面している。 この問題に対処するため、近年はデータ効率のよいディープラーニング手法の開発に重点を置いている。 本稿では,医療画像解析のためのデータ効率の高い深層学習法について概説する。 この目的のために、これらの手法を、頼りになる監督のレベルに基づいて分類し、監督なし、不備監督、不完全な監督、不正確な監督、限られた監督のみを包含する。 これらのカテゴリをさらに細かなサブカテゴリに分割する。 例えば、不正確な監視を、弱いアノテーションで複数のインスタンス学習と学習に分類する。 同様に、不完全な監視を半教師付き学習、アクティブ学習、ドメイン適応学習等に分類する。 さらに,医療画像解析におけるデータ効率のよい深層学習のための一般的なデータセットを体系的に要約し,今後の研究の方向性について検討した。

The rapid evolution of deep learning has significantly advanced the field of medical image analysis. However, despite these achievements, the further enhancement of deep learning models for medical image analysis faces a significant challenge due to the scarcity of large, well-annotated datasets. To address this issue, recent years have witnessed a growing emphasis on the development of data-efficient deep learning methods. This paper conducts a thorough review of data-efficient deep learning methods for medical image analysis. To this end, we categorize these methods based on the level of supervision they rely on, encompassing categories such as no supervision, inexact supervision, incomplete supervision, inaccurate supervision, and only limited supervision. We further divide these categories into finer subcategories. For example, we categorize inexact supervision into multiple instance learning and learning with weak annotations. Similarly, we categorize incomplete supervision into semi-supervised learning, active learning, and domain-adaptive learning and so on. Furthermore, we systematically summarize commonly used datasets for data efficient deep learning in medical image analysis and investigate future research directions to conclude this survey.
翻訳日:2023-10-11 15:37:34 公開日:2023-10-10
# ジェンダー, 年齢, 技術教育がLLMの採用と活用に影響を及ぼす

Gender, Age, and Technology Education Influence the Adoption and Appropriation of LLMs ( http://arxiv.org/abs/2310.06556v1 )

ライセンス: Link先を確認
Fiona Draxler, Daniel Buschek, Mikke Tavast, Perttu H\"am\"al\"ainen, Albrecht Schmidt, Juhi Kulshrestha, Robin Welsch(参考訳) ChatGPTのような大規模言語モデル(LLM)は、日々の生活における重要な活動にますます統合され、多様な人口層における平等なアクセスと利用に関する懸念が高まっている。 本研究では,米国市民1,500人を対象に,llmの利用状況について調査した。 驚くべきことに、参加者の42%がllmの使用を報告している。 以上の結果から,LSM技術採用における男女差は,年齢に関する複雑な相互作用パターンがみられた。 テクノロジー関連の教育は、サンプルの男女格差を取り除きます。 さらに、専門家のユーザは、プロフェッショナルなタスクを典型的なアプリケーションシナリオとしてリストアップする初心者よりも、職場での効果的な利用の相違を示唆している。 これらの結果は、LLMの平等なアクセスと利益を促進するために、我々の技術主導型社会における人工知能の教育を提供することの重要性を強調している。 我々は、米国以外の国際的複製と、導入の経時的観察の両方を要請する。

Large Language Models (LLMs) such as ChatGPT have become increasingly integrated into critical activities of daily life, raising concerns about equitable access and utilization across diverse demographics. This study investigates the usage of LLMs among 1,500 representative US citizens. Remarkably, 42% of participants reported utilizing an LLM. Our findings reveal a gender gap in LLM technology adoption (more male users than female users) with complex interaction patterns regarding age. Technology-related education eliminates the gender gap in our sample. Moreover, expert users are more likely than novices to list professional tasks as typical application scenarios, suggesting discrepancies in effective usage at the workplace. These results underscore the importance of providing education in artificial intelligence in our technology-driven society to promote equitable access to and benefits from LLMs. We urge for both international replication beyond the US and longitudinal observation of adoption.
翻訳日:2023-10-11 15:36:36 公開日:2023-10-10
# 創発的コミュニケーションにおける時間的参照について

On Temporal References in Emergent Communication ( http://arxiv.org/abs/2310.06555v1 )

ライセンス: Link先を確認
Olaf Lipinski, Adam J. Sobey, Federico Cerutti, Timothy J. Norman(参考訳) 人間として、私たちは過去の経験や将来の予測を簡単に共有するために、前後などの時間を参照する言語要素を使用します。 この言語の時間的側面は計算言語学において検討されてきたが、創発的コミュニケーションの分野ではそのような調査は行われていない。 我々はこのギャップを調査し,創発的コミュニケーション文献の中で初めて報告された時間的語彙を提供する。 実験分析の結果,時間参照の自然発生には異なるエージェントアーキテクチャが十分であり,追加の損失は不要であることがわかった。 簡単に移行できるアーキテクチャ上の洞察は、時間的参照を他の創発的なコミュニケーション環境に組み込む基盤を提供する。

As humans, we use linguistic elements referencing time, such as before or tomorrow, to easily share past experiences and future predictions. While temporal aspects of the language have been considered in computational linguistics, no such exploration has been done within the field of emergent communication. We research this gap, providing the first reported temporal vocabulary within emergent communication literature. Our experimental analysis shows that a different agent architecture is sufficient for the natural emergence of temporal references, and that no additional losses are necessary. Our readily transferable architectural insights provide the basis for the incorporation of temporal referencing into other emergent communication environments.
翻訳日:2023-10-11 15:35:59 公開日:2023-10-10
# ロバスト性は分布シフトの異なる条件下で考えるよりも脆いかもしれない

Robustness May be More Brittle than We Think under Different Degrees of Distribution Shifts ( http://arxiv.org/abs/2310.06622v1 )

ライセンス: Link先を確認
Kaican Li, Yifan Zhang, Lanqing Hong, Zhenguo Li, Nevin L. Zhang(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、トレーニング領域とテスト領域の間の分布シフトの特異性のために複雑な問題である。 ほとんどのベンチマークでは、この問題に対処するためにさまざまなデータセットを使用しているが、トレーニングドメインと各データセットのテストドメイン間の分散シフトの程度は、大半が固定されている。 これはモデルの実際のood性能を過小評価または過大評価する偏った結論につながる可能性がある。 私たちの研究は、幅広いシフト度をカバーするよりニュアンス的な評価設定に落ち着きます。 分散シフトの度合いが異なる場合,モデルの堅牢性は極めて不安定で不整合であり,従って,限られた範囲で評価結果から結論を導出する場合は,より慎重であることが示唆された。 さらに,クリップなどの大規模事前学習モデルが,新しい下流タスクの分単位分布シフトにも敏感であることも観察した。 これは、事前訓練された表現は下流の分散性能を改善するのに役立つが、適切に使用しなければ下流のタスクの特定のoodシナリオの一般化に最小、あるいは悪影響を及ぼす可能性があることを示している。 これらの知見に照らして,我々は今後の研究において,可能な限り広い範囲のシフト度で評価を行うことを奨励する。

Out-of-distribution (OOD) generalization is a complicated problem due to the idiosyncrasies of possible distribution shifts between training and test domains. Most benchmarks employ diverse datasets to address this issue; however, the degree of the distribution shift between the training domains and the test domains of each dataset remains largely fixed. This may lead to biased conclusions that either underestimate or overestimate the actual OOD performance of a model. Our study delves into a more nuanced evaluation setting that covers a broad range of shift degrees. We show that the robustness of models can be quite brittle and inconsistent under different degrees of distribution shifts, and therefore one should be more cautious when drawing conclusions from evaluations under a limited range of degrees. In addition, we observe that large-scale pre-trained models, such as CLIP, are sensitive to even minute distribution shifts of novel downstream tasks. This indicates that while pre-trained representations may help improve downstream in-distribution performance, they could have minimal or even adverse effects on generalization in certain OOD scenarios of the downstream task if not used properly. In light of these findings, we encourage future research to conduct evaluations across a broader range of shift degrees whenever possible.
翻訳日:2023-10-11 15:28:59 公開日:2023-10-10
# 記号回帰と離散外積を用いた解釈可能な物理モデルの検出

Discovering Interpretable Physical Models Using Symbolic Regression and Discrete Exterior Calculus ( http://arxiv.org/abs/2310.06609v1 )

ライセンス: Link先を確認
Simone Manti and Alessandro Lucantonio(参考訳) 計算モデリングは、現代の科学研究と工学における物理システムに関する洞察を集めるための重要な資源である。 大量のデータへのアクセスは、実験から物理モデルを復元し、物理シミュレーションの精度を高めるために機械学習(ML)の利用を加速させているが、純粋にデータ駆動モデルは一般化と解釈可能性に制限がある。 これらの制約を克服するために、実験データから始まる物理モデルの自動発見のために、シンボリック回帰(SR)と離散エクター計算(DEC)を組み合わせたフレームワークを提案する。 これらのモデルは数学的表現から成り立っているため、解析に解釈可能であり、物理学に自然で汎用的な離散数学言語を使うことは、限られた入力データによる一般化を好む。 重要なことに、DECは、SRの物理問題への最先端の応用を超える分野理論の離散的な類似に対して、ビルディングブロックを提供する。 さらに,decは,復元したモデルの数学的一貫性を保証し,記号表現の探索空間を減少させる強型sr手順を実装可能であることを示す。 最後に, ポアソン方程式, オイラーの弾性方程式, 線形弾性方程式の3つのモデルを再発見することにより, 提案手法の有効性を実証する。 汎用的な性質から,本論文で開発された手法は,物理モデリングの多様な文脈に適用できる。

Computational modeling is a key resource to gather insight into physical systems in modern scientific research and engineering. While access to large amount of data has fueled the use of Machine Learning (ML) to recover physical models from experiments and increase the accuracy of physical simulations, purely data-driven models have limited generalization and interpretability. To overcome these limitations, we propose a framework that combines Symbolic Regression (SR) and Discrete Exterior Calculus (DEC) for the automated discovery of physical models starting from experimental data. Since these models consist of mathematical expressions, they are interpretable and amenable to analysis, and the use of a natural, general-purpose discrete mathematical language for physics favors generalization with limited input data. Importantly, DEC provides building blocks for the discrete analogue of field theories, which are beyond the state-of-the-art applications of SR to physical problems. Further, we show that DEC allows to implement a strongly-typed SR procedure that guarantees the mathematical consistency of the recovered models and reduces the search space of symbolic expressions. Finally, we prove the effectiveness of our methodology by re-discovering three models of Continuum Physics from synthetic experimental data: Poisson equation, the Euler's Elastica and the equations of Linear Elasticity. Thanks to their general-purpose nature, the methods developed in this paper may be applied to diverse contexts of physical modeling.
翻訳日:2023-10-11 15:28:38 公開日:2023-10-10
# v2x-ahd:不斉異種蒸留ネットワークによる車両間協調認識

V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric Heterogenous Distillation Network ( http://arxiv.org/abs/2310.06603v1 )

ライセンス: Link先を確認
Caizhen He, Hai Wang, and Long Chen, Tong Luo, and Yingfeng Cai(参考訳) 物体検出はインテリジェントな交通システムの中心的な課題であり、近年の車載ライダーによる3D検出の進歩は、インテリジェントなエージェントが意思決定や計画を行うための正確な位置情報を提供できることを示している。 単一車両の知覚と比較すると、多視点車道協調知覚は盲点の排除や広い範囲の知覚といった根本的な利点があり、研究のホットスポットとなっている。 しかし,現在の協力意識は,単一視点アウトラインの欠如による根本的な問題を無視しつつ,融合の複雑さの向上に焦点をあてている。 本稿では,車両形状予測のための識別能力の向上を目的として,多視点車道協調認識システムであるv2x-ahdを提案する。 まず,不斉不均質蒸留網に異なる訓練データを与え,輪郭認識の精度を向上させることを提案する。 ポイントクラウドデータは少ないが、パラメータの数を減らし、特徴抽出機能を改善し、強化するため、予備的な畳み込みベースのプラグイン機能抽出バックボーンであるSpara Pillarを提案する。 さらに、マルチヘッド自己注意(MSA)を利用して単一ビュー機能を融合し、軽量設計により融合機能をスムーズな表現にする。 大規模オープンデータセット V2Xset にアルゴリズムを適用した結果,本手法が最先端の結果を達成することを示す。 この研究によれば、v2x-ahdは3次元物体検出の精度を効果的に向上させ、ネットワークパラメータの数を減らすことができる。 この記事のコードはhttps://github.com/feeling0414-lab/v2x-ahdで入手できる。

Object detection is the central issue of intelligent traffic systems, and recent advancements in single-vehicle lidar-based 3D detection indicate that it can provide accurate position information for intelligent agents to make decisions and plan. Compared with single-vehicle perception, multi-view vehicle-road cooperation perception has fundamental advantages, such as the elimination of blind spots and a broader range of perception, and has become a research hotspot. However, the current perception of cooperation focuses on improving the complexity of fusion while ignoring the fundamental problems caused by the absence of single-view outlines. We propose a multi-view vehicle-road cooperation perception system, vehicle-to-everything cooperative perception (V2X-AHD), in order to enhance the identification capability, particularly for predicting the vehicle's shape. At first, we propose an asymmetric heterogeneous distillation network fed with different training data to improve the accuracy of contour recognition, with multi-view teacher features transferring to single-view student features. While the point cloud data are sparse, we propose Spara Pillar, a spare convolutional-based plug-in feature extraction backbone, to reduce the number of parameters and improve and enhance feature extraction capabilities. Moreover, we leverage the multi-head self-attention (MSA) to fuse the single-view feature, and the lightweight design makes the fusion feature a smooth expression. The results of applying our algorithm to the massive open dataset V2Xset demonstrate that our method achieves the state-of-the-art result. The V2X-AHD can effectively improve the accuracy of 3D object detection and reduce the number of network parameters, according to this study, which serves as a benchmark for cooperative perception. The code for this article is available at https://github.com/feeling0414-lab/V2X-AHD.
翻訳日:2023-10-11 15:28:13 公開日:2023-10-10
# pi-dual: ノイズラベルとクリーンを区別するために特権情報を使用する

Pi-DUAL: Using Privileged Information to Distinguish Clean from Noisy Labels ( http://arxiv.org/abs/2310.06600v1 )

ライセンス: Link先を確認
Ke Wang, Guillermo Ortiz-Jimenez, Rodolphe Jenatton, Mark Collier, Efi Kokiopoulou, Pascal Frossard(参考訳) ラベルノイズはディープラーニングの広範な問題であり、トレーニングされたモデルの一般化性能を損なうことが多い。 最近、特権情報(pi)の活用 -- トレーニング中にのみ利用できるが、テスト時間ではない情報 -- が、この問題を緩和するための効果的なアプローチとして登場している。 しかし、既存のPIベースの手法は、ラベルのノイズへの過度な適合を防ぐという点で、PIなしの手法を一貫して上回らなかった。 この欠陥に対処するために, PI を利用した間違ったラベルとクリーンなラベルを区別するアーキテクチャ Pi-DUAL を導入する。 Pi-DUALは、従来の入力特徴に基づいて出力ログを予測項に分解し、PIにのみ影響されるノイズ適合項を生成する。 PIによって操縦されるゲーティング機構は、これらの用語間の焦点を適応的にシフトし、モデルがクリーンなラベルと間違ったラベルの学習パスを暗黙的に分離できるようにする。 実証的には、Pi-DUALは主要なPIベンチマーク(例えばImageNet-PIの+6.8%)で大幅なパフォーマンス向上を実現し、新しい最先端のテストセットの精度を確立している。 さらに、Pi-DUALは、トレーニング後のノイズの多いサンプルを識別する強力な方法であり、このタスクで他の強力なメソッドよりも優れている。 全体として、Pi-DUALは、PIを用いた様々な現実シナリオにおけるラベルノイズの影響を軽減するための、シンプルでスケーラブルで実用的なアプローチである。

Label noise is a pervasive problem in deep learning that often compromises the generalization performance of trained models. Recently, leveraging privileged information (PI) -- information available only during training but not at test time -- has emerged as an effective approach to mitigate this issue. Yet, existing PI-based methods have failed to consistently outperform their no-PI counterparts in terms of preventing overfitting to label noise. To address this deficiency, we introduce Pi-DUAL, an architecture designed to harness PI to distinguish clean from wrong labels. Pi-DUAL decomposes the output logits into a prediction term, based on conventional input features, and a noise-fitting term influenced solely by PI. A gating mechanism steered by PI adaptively shifts focus between these terms, allowing the model to implicitly separate the learning paths of clean and wrong labels. Empirically, Pi-DUAL achieves significant performance improvements on key PI benchmarks (e.g., +6.8% on ImageNet-PI), establishing a new state-of-the-art test set accuracy. Additionally, Pi-DUAL is a potent method for identifying noisy samples post-training, outperforming other strong methods at this task. Overall, Pi-DUAL is a simple, scalable and practical approach for mitigating the effects of label noise in a variety of real-world scenarios with PI.
翻訳日:2023-10-11 15:27:40 公開日:2023-10-10
# revo-lion: 視覚言語インストラクションチューニングデータセットの評価と改良

REVO-LION: Evaluating and Refining Vision-Language Instruction Tuning Datasets ( http://arxiv.org/abs/2310.06594v1 )

ライセンス: Link先を確認
Ning Liao, Shaofeng Zhang, Renqiu Xia, Bo Zhang, Min Cao, Yu Qiao, Junchi Yan(参考訳) 近年,マルチモーダル・インストラクション・チューニングの研究が進み,これらのモデルを評価するためのベンチマークが提案されている。 本稿では、モデルを直接評価する代わりに、ビジョン・ランゲージ・インストラクション・チューニング(VLIT)データセット自体を評価し、VLITモデルをベンチマークするための基盤となるプロトコルを確立する上でも有用であると考える全パワーVLITモデルを開発するためのデータセットを構築する方法を模索する。 未解決の課題であるVLITデータセットを効果的に分析するために,1つのデータセットをチューニングし,他のデータセットを順に評価するチューニング横断評価パラダイムを提案する。 各音質評価実験セットに対して,メタ品質(MQ)をBLEU, METEOR, ROUGE-Lといった一連のキャプション指標の平均値として定義し, 特定のデータセットやサンプルの品質を定量化する。 本研究では,データセットの包括性を評価するために,すべてのチューン評価セットをカバーするデータセット品質(dq)を開発する。 包括的データセットの構築と実用アプリケーションのための全能モデル開発の基礎を築くため、サンプル品質(SQ)をさらに定義し、各サンプルの全側面品質を定量化する。 大規模実験は提案した評価パラダイムの合理性を検証する。 総合評価に基づいて,各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LION(Refining VisiOn-Language InstructiOn tuNing)を構築した。 完全なデータの半分で、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができる。 全能モデルの開発に加えて、REVO-LIONは将来の研究に便利な評価ベンチマークとして期待されている評価セットも含んでいる。

There is an emerging line of research on multimodal instruction tuning, and a line of benchmarks have been proposed for evaluating these models recently. Instead of evaluating the models directly, in this paper we try to evaluate the Vision-Language Instruction-Tuning (VLIT) datasets themselves and further seek the way of building a dataset for developing an all-powerful VLIT model, which we believe could also be of utility for establishing a grounded protocol for benchmarking VLIT models. For effective analysis of VLIT datasets that remains an open question, we propose a tune-cross-evaluation paradigm: tuning on one dataset and evaluating on the others in turn. For each single tune-evaluation experiment set, we define the Meta Quality (MQ) as the mean score measured by a series of caption metrics including BLEU, METEOR, and ROUGE-L to quantify the quality of a certain dataset or a sample. On this basis, to evaluate the comprehensiveness of a dataset, we develop the Dataset Quality (DQ) covering all tune-evaluation sets. To lay the foundation for building a comprehensive dataset and developing an all-powerful model for practical applications, we further define the Sample Quality (SQ) to quantify the all-sided quality of each sample. Extensive experiments validate the rationality of the proposed evaluation paradigm. Based on the holistic evaluation, we build a new dataset, REVO-LION (REfining VisiOn-Language InstructiOn tuNing), by collecting samples with higher SQ from each dataset. With only half of the full data, the model trained on REVO-LION can achieve performance comparable to simply adding all VLIT datasets up. In addition to developing an all-powerful model, REVO-LION also includes an evaluation set, which is expected to serve as a convenient evaluation benchmark for future research.
翻訳日:2023-10-11 15:27:15 公開日:2023-10-10
# ピッチが残っていない:ピッチ操作による自動音声認識における男女不均衡の解消

No Pitch Left Behind: Addressing Gender Unbalance in Automatic Speech Recognition through Pitch Manipulation ( http://arxiv.org/abs/2310.06590v1 )

ライセンス: Link先を確認
Dennis Fucci, Marco Gaido, Matteo Negri, Mauro Cettolo, Luisa Bentivogli(参考訳) 自動音声認識(asr)システムは、性別が重要な役割を果たす音声データの社会言語学的変動に敏感であることが知られている。 これは、主に訓練データにおける後者のグループの表現不足のため、男性と女性の話者間の認識精度の差をもたらす可能性がある。 ハイブリッドASRモデルのコンテキストでは、いくつかのソリューションが提案されているが、ジェンダーバイアス問題はエンドツーエンドのニューラルアーキテクチャでは明示的に解決されていない。 このギャップを埋めるために,基本周波数(f0)とホルマントを操作するデータ拡張手法を提案する。 この手法は、未表現の女性話者の声をシミュレートすることで、性別間のデータ不均衡を低減し、各性別グループにおける変動性を高める。 自発性英語音声に対する実験の結果,女性話者の発話に対するWERの相対的な改善は9.87%となり,表現の少ないf0範囲では大きな利得が得られた。

Automatic speech recognition (ASR) systems are known to be sensitive to the sociolinguistic variability of speech data, in which gender plays a crucial role. This can result in disparities in recognition accuracy between male and female speakers, primarily due to the under-representation of the latter group in the training data. While in the context of hybrid ASR models several solutions have been proposed, the gender bias issue has not been explicitly addressed in end-to-end neural architectures. To fill this gap, we propose a data augmentation technique that manipulates the fundamental frequency (f0) and formants. This technique reduces the data unbalance among genders by simulating voices of the under-represented female speakers and increases the variability within each gender group. Experiments on spontaneous English speech show that our technique yields a relative WER improvement up to 9.87% for utterances by female speakers, with larger gains for the least-represented f0 ranges.
翻訳日:2023-10-11 15:26:40 公開日:2023-10-10
# FTFT:TransFerringトレーニングダイナミクスによる効率的で堅牢な微調整

FTFT: efficient and robust Fine-Tuning by transFerring Training dynamics ( http://arxiv.org/abs/2310.06588v1 )

ライセンス: Link先を確認
Yupei Du, Albert Gatt, Dong Nguyen(参考訳) 広範囲の自然言語処理(nlp)タスクで、事前学習された大規模言語モデル(plm)を微調整することで大きな成功を収めたにもかかわらず、それらは分散(ood)と逆のインプットに影響を受けやすいままである。 データマップ(dm)は、元のトレーニングセット(すなわち参照モデル)上でモデルを微調整し、参照モデルのトレーニングダイナミクスに従って重要なトレーニング例の特定部分を選択し、選択した例(メインモデル)で同じモデルを微調整することを含む、微調整されたplmの堅牢性を高める、単純かつ効果的なデュアルモデルアプローチである。 しかし、同じモデルを2回微調整する必要があるという欠点があり、これは大きなモデルには計算コストがかかる。 本稿ではまず,そのことを述べる。 1) トレーニングダイナミクスは, 異なるモデルサイズ, 異なる事前学習方法において高い移動性を有する。 2)従来の経験的リスク最小化(Empirical Risk Minimization,ERM)に比べて,DMを用いて微調整したモデルの方が学習が早い。 これらの観測結果に基づいて, DM法に基づく新しい微調整手法, TransFerring Training dynamics (FTFT) を提案する。 DMと比較すると、FTFTはより効率的な参照モデルを使用し、より少ないステップでより優れたメインモデルを微調整する。 実験の結果,ftftはermよりも一般化の堅牢性が向上し,トレーニングコストの半分以下を要した。

Despite the massive success of fine-tuning large Pre-trained Language Models (PLMs) on a wide range of Natural Language Processing (NLP) tasks, they remain susceptible to out-of-distribution (OOD) and adversarial inputs. Data map (DM) is a simple yet effective dual-model approach that enhances the robustness of fine-tuned PLMs, which involves fine-tuning a model on the original training set (i.e. reference model), selecting a specified fraction of important training examples according to the training dynamics of the reference model, and fine-tuning the same model on these selected examples (i.e. main model). However, it suffers from the drawback of requiring fine-tuning the same model twice, which is computationally expensive for large models. In this paper, we first show that 1) training dynamics are highly transferable across different model sizes and different pre-training methods, and that 2) main models fine-tuned using DM learn faster than when using conventional Empirical Risk Minimization (ERM). Building on these observations, we propose a novel fine-tuning approach based on the DM method: Fine-Tuning by transFerring Training dynamics (FTFT). Compared with DM, FTFT uses more efficient reference models and then fine-tunes more capable main models for fewer steps. Our experiments show that FTFT achieves better generalization robustness than ERM while spending less than half of the training cost.
翻訳日:2023-10-11 15:26:23 公開日:2023-10-10
# ロボット逆ダイナミクス同定のためのガウス過程回帰に基づくブラックボックス物理インフォームド推定器

A Black-Box Physics-Informed Estimator based on Gaussian Process Regression for Robot Inverse Dynamics Identification ( http://arxiv.org/abs/2310.06585v1 )

ライセンス: Link先を確認
Giulio Giacomuzzo, Alberto Dalla Libera, Diego Romeres, Ruggero Carli(参考訳) 本稿では,ロボットマニピュレータの逆ダイナミクスの同定のためのガウス過程回帰に基づくブラックボックスモデルを提案する。 提案したモデルは、新しい多次元カーネルである \textit{Lagrangian Inspired Polynomial} (\kernelInitials{}) に依存する。 \kernelInitials{}カーネルは2つの主要なアイデアに基づいている。 まず、逆ダイナミクスコンポーネントを直接モデル化するのではなく、システムの速度とポテンシャルエネルギーをgpsとしてモデル化します。 逆動力学成分に先立つGPは、線形作用素の下でのGPの性質を適用することでエネルギー上の成分から導かれる。 第二に、エネルギーの事前定義に関して、運動量およびポテンシャルエネルギーの多項式構造を証明し、この性質を符号化する多項式核を導出する。 その結果,提案モデルでは,これらの量にラベルを付けることなく,運動量とポテンシャルエネルギーを推定できる。 7 DOFのフランカ・エミカ・パンダと6 DOFのMELFA RV4FLという2つの実際のロボットマニピュレータのシミュレーション結果から、提案モデルはガウス過程とニューラルネットワークの両方に基づく最先端のブラックボックス推定器よりも精度、一般性、データ効率において優れていることが示された。 また,MELFAロボットを用いた実験により,事前情報が少ないにもかかわらず,精度の高いモデルベース推定器に匹敵する性能が得られた。

In this paper, we propose a black-box model based on Gaussian process regression for the identification of the inverse dynamics of robotic manipulators. The proposed model relies on a novel multidimensional kernel, called \textit{Lagrangian Inspired Polynomial} (\kernelInitials{}) kernel. The \kernelInitials{} kernel is based on two main ideas. First, instead of directly modeling the inverse dynamics components, we model as GPs the kinetic and potential energy of the system. The GP prior on the inverse dynamics components is derived from those on the energies by applying the properties of GPs under linear operators. Second, as regards the energy prior definition, we prove a polynomial structure of the kinetic and potential energy, and we derive a polynomial kernel that encodes this property. As a consequence, the proposed model allows also to estimate the kinetic and potential energy without requiring any label on these quantities. Results on simulation and on two real robotic manipulators, namely a 7 DOF Franka Emika Panda and a 6 DOF MELFA RV4FL, show that the proposed model outperforms state-of-the-art black-box estimators based both on Gaussian Processes and Neural Networks in terms of accuracy, generality and data efficiency. The experiments on the MELFA robot also demonstrate that our approach achieves performance comparable to fine-tuned model-based estimators, despite requiring less prior information.
翻訳日:2023-10-11 15:25:55 公開日:2023-10-10
# 階層型mask2former:作物,雑草,葉のパンオプティカルセグメンテーション

Hierarchical Mask2Former: Panoptic Segmentation of Crops, Weeds and Leaves ( http://arxiv.org/abs/2310.06582v1 )

ライセンス: Link先を確認
Madeleine Darbyshire, Elizabeth Sklar, Simon Parsons(参考訳) 画像から詳細な推論を可能にするマシンビジョンの進歩は、農業を含む多くの分野を変革する可能性がある。 データ分析が介入を正確にターゲットにできる精密農業には、多くの応用がある。 例えば、精密散布は雑草に対する除草剤の施用を制限することができるし、畑全体に散布するのではなく、不栄養な作物にのみ施すことができる。 このアプローチは収穫量を最大化し、資源使用を最小化し、周囲の環境に害を与える。 そこで本研究では,植物成長の指標を同時に同定し,雑草を画像内に配置する階層的パノプティックセグメンテーション手法を提案する。 mask2formerはパンオプティカルセグメンテーションのための最先端のアーキテクチャで、作物、雑草、葉のマスクを予測する。 PQ{\dag} は 75.99 である。 さらに、アーキテクチャをよりコンパクトにするため、時間や制約のあるアプリケーションに適合するアプローチについても検討する。 よりコンパクトなアーキテクチャでは、推論は最大60%高速で、PQ{\dag} の減少は1%未満である。

Advancements in machine vision that enable detailed inferences to be made from images have the potential to transform many sectors including agriculture. Precision agriculture, where data analysis enables interventions to be precisely targeted, has many possible applications. Precision spraying, for example, can limit the application of herbicide only to weeds, or limit the application of fertiliser only to undernourished crops, instead of spraying the entire field. The approach promises to maximise yields, whilst minimising resource use and harms to the surrounding environment. To this end, we propose a hierarchical panoptic segmentation method to simultaneously identify indicators of plant growth and locate weeds within an image. We adapt Mask2Former, a state-of-the-art architecture for panoptic segmentation, to predict crop, weed and leaf masks. We achieve a PQ{\dag} of 75.99. Additionally, we explore approaches to make the architecture more compact and therefore more suitable for time and compute constrained applications. With our more compact architecture, inference is up to 60% faster and the reduction in PQ{\dag} is less than 1%.
翻訳日:2023-10-11 15:25:28 公開日:2023-10-10
# 眼球運動と低遅延スパイクニューラルネットワークによるエネルギー効率の高い視覚探索

Energy-Efficient Visual Search by Eye Movement and Low-Latency Spiking Neural Network ( http://arxiv.org/abs/2310.06578v1 )

ライセンス: Link先を確認
Yunhui Zhou, Dongqi Han, Yuguo Yu(参考訳) human visionには、不均一解像度網膜、効率的な眼球運動戦略、およびスパイキングニューラルネットワーク(snn)が組み込まれており、視野サイズ、視覚解像度、エネルギーコスト、推論レイテンシの要件のバランスがとられている。 これらの特性は、人間のようなコンピュータビジョンの開発に興味を引いた。 しかし、既存のモデルは人間の視覚の3つの特徴を完全に組み込んでおらず、その学習された眼の動き戦略は人間の戦略と比べられておらず、モデルの動作を解釈することが困難になっている。 そこで我々は,人間の視覚的探索行動を調べる実験を行い,最初のSNNに基づく視覚的探索モデルを確立する。 このモデルは、人工網膜とスパイキング機能抽出、メモリ、およびsaccade決定モジュールを組み合わせることで、高速かつ効率的なsaccade決定に人口コーディングを使用する。 このモデルでは,人間に近い,あるいは準最適の固定戦略を学習し,探索速度と精度で人間より優れ,短時間のササード決定遅延とスパースアクティベーションによって高いエネルギー効率を達成することができる。 また,検索速度の面では,人間の検索戦略が最適以下であることが示唆された。 我々の研究は神経科学と機械学習における視覚のモデリングを結びつけ、よりエネルギー効率の良いコンピュータビジョンアルゴリズムの開発に光を当てています。

Human vision incorporates non-uniform resolution retina, efficient eye movement strategy, and spiking neural network (SNN) to balance the requirements in visual field size, visual resolution, energy cost, and inference latency. These properties have inspired interest in developing human-like computer vision. However, existing models haven't fully incorporated the three features of human vision, and their learned eye movement strategies haven't been compared with human's strategy, making the models' behavior difficult to interpret. Here, we carry out experiments to examine human visual search behaviors and establish the first SNN-based visual search model. The model combines an artificial retina with spiking feature extraction, memory, and saccade decision modules, and it employs population coding for fast and efficient saccade decisions. The model can learn either a human-like or a near-optimal fixation strategy, outperform humans in search speed and accuracy, and achieve high energy efficiency through short saccade decision latency and sparse activation. It also suggests that the human search strategy is suboptimal in terms of search speed. Our work connects modeling of vision in neuroscience and machine learning and sheds light on developing more energy-efficient computer vision algorithms.
翻訳日:2023-10-11 15:25:08 公開日:2023-10-10
# 高次元後肢に対する暗黙的変分法

Implicit Variational Inference for High-Dimensional Posteriors ( http://arxiv.org/abs/2310.06643v1 )

ライセンス: Link先を確認
Anshuk Uppal, Kristoffer Stensbo-Smidt, Wouter K. Boomsma, and Jes Frellsen(参考訳) 変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。 高次元空間における複素マルチモーダルおよび相関後方の近似に適した暗黙的分布を規定するニューラル・サンプラーを用いる。 提案手法は,ニューラルネットワークの局所線形化によって生じる新しい境界を導入することで,暗黙分布を用いた推論を推し進める。 これは、追加の識別器ネットワークと不安定な敵対的目的に依存する既存の方法とは異なる。 さらに, 微分可能な数値近似を用いて計算上の問題に対処するために, 数百万の潜在変数に対する暗黙的分布を初めて可能とした新しいサンプリング器アーキテクチャを提案する。 実験結果から,本手法は,大規模ベイズ型ニューラルネットワークにおいて層間相関を回復できることを示す。 我々の知る限りでは、このような大規模なモデルでこの課題を達成する方法は他にない。 下流タスクの実験を通して、表現的後部は最先端の不確実性定量化手法より優れており、トレーニングアルゴリズムの有効性と学習された暗黙近似の品質を検証する。

In variational inference, the benefits of Bayesian models rely on accurately capturing the true posterior distribution. We propose using neural samplers that specify implicit distributions, which are well-suited for approximating complex multimodal and correlated posteriors in high-dimensional spaces. Our approach advances inference using implicit distributions by introducing novel bounds that come about by locally linearising the neural sampler. This is distinct from existing methods that rely on additional discriminator networks and unstable adversarial objectives. Furthermore, we present a new sampler architecture that, for the first time, enables implicit distributions over millions of latent variables, addressing computational concerns by using differentiable numerical approximations. Our empirical analysis indicates our method is capable of recovering correlations across layers in large Bayesian neural networks, a property that is crucial for a network's performance but notoriously challenging to achieve. To the best of our knowledge, no other method has been shown to accomplish this task for such large models. Through experiments in downstream tasks, we demonstrate that our expressive posteriors outperform state-of-the-art uncertainty quantification methods, validating the effectiveness of our training algorithm and the quality of the learned implicit approximation.
翻訳日:2023-10-11 15:18:40 公開日:2023-10-10
# VQAのためのLVLMのアンサンブル方法

How (not) to ensemble LVLMs for VQA ( http://arxiv.org/abs/2310.06641v1 )

ライセンス: Link先を確認
Lisa Alazraki, Lluis Castrejon, Mostafa Dehghani, Fantine Huot, Jasper Uijlings, Thomas Mensink(参考訳) 本稿では,LVLM(Large Vision-Language Models)時代のエンハンブルについて述べる。 ensemblingは、さまざまなモデルを組み合わせてパフォーマンスを向上させる古典的な方法だ。 著者らは最近の百科事典-vqaの研究において、バニラlvlmsから追加の文脈としてキャプションを含むモデル、wikipediaページをレンズベースで検索するモデルまで、様々なモデルを調査した。 直感的にはこれらのモデルは極めて相補的であり、センシングに理想的である。 実際、oracleの実験では、48.8%の精度(最高のシングルモデル)から67%(最高のアンサンブル)までの潜在的な利益が示されている。 つまり、実質的な利益をもたらすアンサンブルを作るのは簡単な運動です。 それとも?

This paper studies ensembling in the era of Large Vision-Language Models (LVLMs). Ensembling is a classical method to combine different models to get increased performance. In the recent work on Encyclopedic-VQA the authors examine a wide variety of models to solve their task: from vanilla LVLMs, to models including the caption as extra context, to models augmented with Lens-based retrieval of Wikipedia pages. Intuitively these models are highly complementary, which should make them ideal for ensembling. Indeed, an oracle experiment shows potential gains from 48.8% accuracy (the best single model) all the way up to 67% (best possible ensemble). So it is a trivial exercise to create an ensemble with substantial real gains. Or is it?
翻訳日:2023-10-11 15:18:20 公開日:2023-10-10
# 格子演算子の機械学習のための格子過度パラメータ

The Lattice Overparametrization Paradigm for the Machine Learning of Lattice Operators ( http://arxiv.org/abs/2310.06639v1 )

ライセンス: Link先を確認
Diego Marcondes and Junior Barrera(参考訳) 格子演算子の機械学習には3つのボトルネックがある。 統計的観点からは、バイアスが低く、サンプルサイズに対する複雑さが低い事前情報に基づいて、制約のある演算子のクラスを設計する必要がある。 計算の観点からは、クラス上で経験的エラーを最小化する効率的なアルゴリズムが存在するべきである。 理解の観点からは、学習した作用素の性質を導出する必要があるので、その振る舞いは理論的に理解することができる。 統計的ボトルネックは、格子作用素の表現に関する豊富な文献によって克服できるが、それらの一般的な学習アルゴリズムは存在しない。 本稿では,格子内の要素を介してクラスを過度にパラメータ化することで,格子内の関数を最小化するアルゴリズムを適用した学習パラダイムについて述べる。 確率的格子勾配降下アルゴリズムを一般のアルゴリズムとして提示し,その格子過パラメータ化が固定されている限り作用素の制約付きクラスについて学習し,その概念を証明した先行研究について考察する。 さらに、演算子の基礎を過度なパラメータ化から計算するアルゴリズムが存在する場合、その特性を推定することができ、理解ボトルネックも克服される。 この学習パラダイムには、ニューラルネットワークに基づく現代的な手法に欠けている3つの特性がある。 今日ではこれらの特徴を持つ手法の需要が高まっており、数学的形態学はそれらを供給するためのユニークな立場にあると考えている。 lattice overparametrizationパラダイムは、現代の機械学習においてその潜在能力を最大限に発揮する上で欠落している部分かもしれない。

The machine learning of lattice operators has three possible bottlenecks. From a statistical standpoint, it is necessary to design a constrained class of operators based on prior information with low bias, and low complexity relative to the sample size. From a computational perspective, there should be an efficient algorithm to minimize an empirical error over the class. From an understanding point of view, the properties of the learned operator need to be derived, so its behavior can be theoretically understood. The statistical bottleneck can be overcome due to the rich literature about the representation of lattice operators, but there is no general learning algorithm for them. In this paper, we discuss a learning paradigm in which, by overparametrizing a class via elements in a lattice, an algorithm for minimizing functions in a lattice is applied to learn. We present the stochastic lattice gradient descent algorithm as a general algorithm to learn on constrained classes of operators as long as a lattice overparametrization of it is fixed, and we discuss previous works which are proves of concept. Moreover, if there are algorithms to compute the basis of an operator from its overparametrization, then its properties can be deduced and the understanding bottleneck is also overcome. This learning paradigm has three properties that modern methods based on neural networks lack: control, transparency and interpretability. Nowadays, there is an increasing demand for methods with these characteristics, and we believe that mathematical morphology is in a unique position to supply them. The lattice overparametrization paradigm could be a missing piece for it to achieve its full potential within modern machine learning.
翻訳日:2023-10-11 15:18:09 公開日:2023-10-10
# 盲目の日付:歴史写真における時間性表現の検討

Blind Dates: Examining the Expression of Temporality in Historical Photographs ( http://arxiv.org/abs/2310.06633v1 )

ライセンス: Link先を確認
Alexandra Barancov\'a, Melvin Wevers, Nanne van Noord(参考訳) 本稿では,コンピュータビジョンモデルの時間的情報を視覚的に識別する能力について検討し,特に歴史的写真に着目した。 マルチモーダル言語とビジョンモデルであるCLIPのオープンソース実装であるOpenCLIPを用いて,画像の日付を決定する。 実験は,ゼロショット分類,微調整,視覚コンテンツの分析の3段階からなる。 1950年から1999年にかけて、39,866枚のグレースケールの歴史的報道写真を含む \textit{de boer scene detection}データセットを使用する。 その結果,ゼロショット分類は画像年代測定に比較的有効ではなく,過去の日付予測に偏っていることがわかった。 ロジスティックな分類器を備えた微調整OpenCLIPは、性能を改善し、バイアスを取り除く。 また, バス, 車, 猫, 犬, 人などの画像はより正確な年代推定が可能であり, 時間マーカーの存在が示唆された。 この研究は、デート画像におけるOpenCLIPのような機械学習モデルの可能性を強調し、正確な時間解析のための微調整の重要性を強調している。 今後の研究は、これらの発見をカラー写真や多様なデータセットに適用することを検討する。

This paper explores the capacity of computer vision models to discern temporal information in visual content, focusing specifically on historical photographs. We investigate the dating of images using OpenCLIP, an open-source implementation of CLIP, a multi-modal language and vision model. Our experiment consists of three steps: zero-shot classification, fine-tuning, and analysis of visual content. We use the \textit{De Boer Scene Detection} dataset, containing 39,866 gray-scale historical press photographs from 1950 to 1999. The results show that zero-shot classification is relatively ineffective for image dating, with a bias towards predicting dates in the past. Fine-tuning OpenCLIP with a logistic classifier improves performance and eliminates the bias. Additionally, our analysis reveals that images featuring buses, cars, cats, dogs, and people are more accurately dated, suggesting the presence of temporal markers. The study highlights the potential of machine learning models like OpenCLIP in dating images and emphasizes the importance of fine-tuning for accurate temporal analysis. Future research should explore the application of these findings to color photographs and diverse datasets.
翻訳日:2023-10-11 15:17:45 公開日:2023-10-10
# EViT:バイフォア自己認識型イーグルビジョントランス

EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention ( http://arxiv.org/abs/2310.06629v1 )

ライセンス: Link先を確認
Yulong Shi, Mingwei Sun, Yongshuai Wang, Rui Wang, Hui Sun, Zengqiang Chen(参考訳) 深層学習技術の進歩により、視覚変換器は様々なコンピュータビジョンタスクにおいて競争性能を示した。 残念ながら、視覚変換器は高い計算複雑性や望ましい帰納バイアスの欠如など、いくつかの課題に直面している。 これらの問題を緩和するために, ワシ眼における両眼視の生理的構造と特徴に触発された新しいBFSA(Bi-Fovea Self-Attention)を提案する。 このbfsaはeagle visionの浅いfovea関数と深いfovea関数をシミュレートし、ネットワークが粗いものから細かいものまでの特徴表現を抽出し、マルチスケールな特徴表現の相互作用を容易にする。 さらに本研究は,bfsaとcnnに基づくビオニオンイーグルビジョン(bev)ブロックの設計を行った。 CNNとVision Transformerを組み合わせて、ターゲットに対するネットワークのローカルおよびグローバルな表現能力を向上する。 さらに,BEVブロックを積み重ねることで,Eagle Vision Transformers (EViTs) と呼ばれる,統一的で効率的な汎用ピラミッドバックボーンネットワークファミリーを開発する。 画像分類,オブジェクト検出,インスタンスセグメンテーション,その他の移動学習タスクを含む様々なコンピュータビジョンタスクの実験結果から,提案したEViTは,類似のモデルサイズでのベースラインよりも大幅に性能が向上し,他のモデルと比較してグラフィックス処理ユニットの高速化が図られた。 コードはhttps://github.com/nkusylでリリースされる。

Because of the advancement of deep learning technology, vision transformer has demonstrated competitive performance in various computer vision tasks. Unfortunately, vision transformer still faces some challenges such as high computational complexity and absence of desirable inductive bias. To alleviate these problems, this study proposes a novel Bi-Fovea Self-Attention (BFSA) inspired by the physiological structure and characteristics of bi-fovea vision in eagle eyes. This BFSA can simulate the shallow fovea and deep fovea functions of eagle vision, enabling the network to extract feature representations of targets from coarse to fine, facilitating the interaction of multi-scale feature representations. Additionally, this study designs a Bionic Eagle Vision (BEV) block based on BFSA and CNN. It combines CNN and Vision Transformer, to enhance the network's local and global representation ability for targets. Furthermore, this study develops a unified and efficient general pyramid backbone network family, named Eagle Vision Transformers (EViTs) by stacking the BEV blocks. Experimental results on various computer vision tasks including image classification, object detection, instance segmentation and other transfer learning tasks show that the proposed EViTs perform significantly better than the baselines under similar model sizes, which exhibits faster speed on graphics processing unit compared to other models. Code will be released at https://github.com/nkusyl.
翻訳日:2023-10-11 15:17:29 公開日:2023-10-10
# テレビがオフになったら? マルチモーダル言語モデルの反事実推論能力の検討

What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models ( http://arxiv.org/abs/2310.06627v1 )

ライセンス: Link先を確認
Letian Zhang, Xiaotong Zhai, Zhongkai Zhao, Xin Wen, Yongshuo Zong, Bingchen Zhao(参考訳) 擬似推論能力は人間の知能の中核的な能力の1つである。 この推論プロセスには、観測された状態や過去の出来事に対する代替案の処理が含まれており、このプロセスは計画と意思決定の能力を改善することができます。 本研究では,マルチモーダル大規模言語モデルの反事実推論能力のベンチマークに注目する。 VQAv2データセットから質問と回答のペアを取り、質問に1つの反実的前提を追加し、回答をそれに応じて修正する。 chatgptを使って偽の質問と回答を生成した後、生成された全ての質問と回答を手作業で調べ、正確性を保証する。 この方法で2k以上の反事実的質問と回答ペアが収集される。 新たに収集したテストデータセット上で,最近の視覚言語モデルを評価した結果,反事実的前提条件のない質問に対して,すべてのモデルが大きなパフォーマンス低下を示すことが分かった。 この結果は、視覚言語モデルを開発するための空間が存在することを示している。 ビジョン言語モデルとは別に,提案したデータセットは,コード生成LLMの能力を評価するためのベンチマークとしても機能し,その結果,GPT-4と現在のオープンソースモデルとの間に大きなギャップがあることが示されている。 コードとデータセットは \url{https://github.com/Letian2003/C-VQA} で公開されている。

Counterfactual reasoning ability is one of the core abilities of human intelligence. This reasoning process involves the processing of alternatives to observed states or past events, and this process can improve our ability for planning and decision-making. In this work, we focus on benchmarking the counterfactual reasoning ability of multi-modal large language models. We take the question and answer pairs from the VQAv2 dataset and add one counterfactual presupposition to the questions, with the answer being modified accordingly. After generating counterfactual questions and answers using ChatGPT, we manually examine all generated questions and answers to ensure correctness. Over 2k counterfactual question and answer pairs are collected this way. We evaluate recent vision language models on our newly collected test dataset and found that all models exhibit a large performance drop compared to the results tested on questions without the counterfactual presupposition. This result indicates that there still exists space for developing vision language models. Apart from the vision language models, our proposed dataset can also serves as a benchmark for evaluating the ability of code generation LLMs, results demonstrate a large gap between GPT-4 and current open-source models. Our code and dataset are available at \url{https://github.com/Letian2003/C-VQA}.
翻訳日:2023-10-11 15:17:02 公開日:2023-10-10
# Topic-DPR:Dense Passage Retrievalのためのトピックベースのプロンプト

Topic-DPR: Topic-based Prompts for Dense Passage Retrieval ( http://arxiv.org/abs/2310.06626v1 )

ライセンス: Link先を確認
Qingfa Xiao, Shuangyin Li, Lei Chen(参考訳) 多くの自然言語処理タスクにまたがるプロンプトに基づく学習の有効性は、高密度経路探索への統合につながった。 先行研究は主に、単一のベクトルを連続的なプロンプトとして最適化することで、事前学習された言語モデルのセマンティック理解を強化することに重点を置いている。 しかし、このアプローチは意味空間が崩壊し、同じ意味情報がすべての表現に反映され、その分布が制限された領域に収束する。 これにより、密検索中の関連通路と関連しない通路の区別が妨げられる。 そこで,本稿では,トピックに基づくプロンプトを用いた高密度パス検索モデルである topic-dpr を提案する。 単一プロンプト法とは異なり、確率的単純度の上に複数のトピックベースのプロンプトを確立し、対照的な学習を通じて同時に最適化する。 これにより、表現はトピックの分布と整合し、空間の均一性を改善する。 さらに, 半構造化データを利用して検索効率を高める, 新たな正負のサンプリング戦略を提案する。 2つのデータセットによる実験結果から,本手法が従来の最先端検索技術を上回ることを確認した。

Prompt-based learning's efficacy across numerous natural language processing tasks has led to its integration into dense passage retrieval. Prior research has mainly focused on enhancing the semantic understanding of pre-trained language models by optimizing a single vector as a continuous prompt. This approach, however, leads to a semantic space collapse; identical semantic information seeps into all representations, causing their distributions to converge in a restricted region. This hinders differentiation between relevant and irrelevant passages during dense retrieval. To tackle this issue, we present Topic-DPR, a dense passage retrieval model that uses topic-based prompts. Unlike the single prompt method, multiple topic-based prompts are established over a probabilistic simplex and optimized simultaneously through contrastive learning. This encourages representations to align with their topic distributions, improving space uniformity. Furthermore, we introduce a novel positive and negative sampling strategy, leveraging semi-structured data to boost dense retrieval efficiency. Experimental results from two datasets affirm that our method surpasses previous state-of-the-art retrieval techniques.
翻訳日:2023-10-11 15:16:43 公開日:2023-10-10
# itransformer: 逆変換器は時系列予測に有効である

iTransformer: Inverted Transformers Are Effective for Time Series Forecasting ( http://arxiv.org/abs/2310.06625v1 )

ライセンス: Link先を確認
Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long(参考訳) 線形予測モデルの最近のブームは、トランスフォーマーベースの予測器のアーキテクチャ変更に対する継続的な情熱に疑問を呈している。 これらの予測器はTransformerを利用して時系列の時間的トークンに対するグローバルな依存関係をモデル化し、各トークンは同じタイムスタンプの複数の変数によって形成される。 しかし、Transformerは、性能劣化と計算の爆発により、見返り窓が大きいシリーズの予測に挑戦している。 さらに、各時間トークンに対する統一的な埋め込みは、複数の変数を、潜在的に一致しないタイムスタンプと異なる物理的測定で融合させる。 本研究では,Transformer コンポーネントの能力的責務を反映し,基本コンポーネントに適応することなく Transformer アーキテクチャを再利用する。 本稿では,注意機構とフィードフォワードネットワークの責務を単純に逆転するitransformerを提案する。 具体的には、個々の時系列の時間ポイントを多変量トークンに埋め込み、注意機構によって多変量相関を捉え、一方、各変量トークンに対してフィードフォワードネットワークを適用して非線形表現を学習する。 itransformerモデルは、いくつかの実世界のデータセットで一貫性のある最先端を実現し、パフォーマンスの向上、さまざまな変数の一般化、任意のルックバックウィンドウの利用の改善により、transformerファミリにさらに力を与え、時系列予測の基本的なバックボーンとして優れた代替手段となる。

The recent boom of linear forecasting models questions the ongoing passion for architectural modifications of Transformer-based forecasters. These forecasters leverage Transformers to model the global dependencies over temporal tokens of time series, with each token formed by multiple variates of the same timestamp. However, Transformer is challenged in forecasting series with larger lookback windows due to performance degradation and computation explosion. Besides, the unified embedding for each temporal token fuses multiple variates with potentially unaligned timestamps and distinct physical measurements, which may fail in learning variate-centric representations and result in meaningless attention maps. In this work, we reflect on the competent duties of Transformer components and repurpose the Transformer architecture without any adaptation on the basic components. We propose iTransformer that simply inverts the duties of the attention mechanism and the feed-forward network. Specifically, the time points of individual series are embedded into variate tokens which are utilized by the attention mechanism to capture multivariate correlations; meanwhile, the feed-forward network is applied for each variate token to learn nonlinear representations. The iTransformer model achieves consistent state-of-the-art on several real-world datasets, which further empowers the Transformer family with promoted performance, generalization ability across different variates, and better utilization of arbitrary lookback windows, making it a nice alternative as the fundamental backbone of time series forecasting.
翻訳日:2023-10-11 15:16:26 公開日:2023-10-10
# BridgeHand2Vec ブリッジハンド表現

BridgeHand2Vec Bridge Hand Representation ( http://arxiv.org/abs/2310.06624v1 )

ライセンス: Link先を確認
Anna Sztyber-Betley, Filip Ko{\l}odziej, Jan Betley, Piotr Duszak(参考訳) コントラクトブリッジは不完全な情報によって特徴づけられるゲームであり、人工知能の手法にとってエキサイティングな挑戦となる。 本稿では,ブリッジプレーヤの手(13枚のカードからなる)をベクトル空間に埋め込むためにニューラルネットワークを利用するBridgeHand2Vecアプローチを提案する。 結果として得られる表現は、ゲームの手の強さを反映し、解釈可能な距離を異なる手で決定することができる。 この表現は、ニューラルネットワークをトレーニングして、一対のプレーヤーが取ることのできるトリックの数を見積もることによって導かれる。 本論文の残りの部分では,得られたベクトル空間の性質を解析し,その強化学習への応用例と入札分類の開放について述べる。 これは私たちの主な目標ではなかったが、ベクトル化に使用されるニューラルネットワークは、DDBP2問題(与えられた両手のトリック数を推定する)でSOTA結果を達成する。

Contract bridge is a game characterized by incomplete information, posing an exciting challenge for artificial intelligence methods. This paper proposes the BridgeHand2Vec approach, which leverages a neural network to embed a bridge player's hand (consisting of 13 cards) into a vector space. The resulting representation reflects the strength of the hand in the game and enables interpretable distances to be determined between different hands. This representation is derived by training a neural network to estimate the number of tricks that a pair of players can take. In the remainder of this paper, we analyze the properties of the resulting vector space and provide examples of its application in reinforcement learning, and opening bid classification. Although this was not our main goal, the neural network used for the vectorization achieves SOTA results on the DDBP2 problem (estimating the number of tricks for two given hands).
翻訳日:2023-10-11 15:15:59 公開日:2023-10-10
# 0-1 Knapsack問題の解に対する量子アルゴリズム

A quantum algorithm for the solution of the 0-1 Knapsack problem ( http://arxiv.org/abs/2310.06623v1 )

ライセンス: Link先を確認
S\"oren Wilkening, Andreea-Iulia Lefterovici, Lennart Binkowski, Michael Perk, S\'andor Fekete, and Tobias J. Osborne(参考訳) ここでは, 理論上と予測可能な双方において, 難解な最適化問題を解く上で, 量子優位を達成するための2つの新しい貢献を示す。 1) 与えられたインスタンスのすべての実現可能な解を重畳して生成する手法である'Quantum Tree Generator'を導入し、0$-$1-Knapsack問題に対して最適な解を振幅増幅する。 QTGは指数的メモリセーブを提供し、600変数のインスタンスに対して最先端のKnapsackソルバCOMBOと比較して競合ランタイムを可能にする。 2)コンボからのロギングデータを活用するハイレベルなシミュレーション戦略を導入することで,1600変数までの様々なベンチマークインスタンスに対して,既存の量子プラットフォームやシミュレータの範囲を超えて,提案手法のランタイムを予測できる。 これら2つのイノベーションを組み合わせることで,大規模問題に対するqtgの潜在的優位性を実証し,組合せ最適化問題に対する効果的なアプローチを示す。

Here we present two novel contributions for achieving quantum advantage in solving difficult optimisation problems, both in theory and foreseeable practice. (1) We introduce the ''Quantum Tree Generator'', an approach to generate in superposition all feasible solutions of a given instance, yielding together with amplitude amplification the optimal solutions for $0$-$1$-Knapsack problems. The QTG offers exponential memory savings and enables competitive runtimes compared to the state-of-the-art Knapsack solver COMBO for instances involving as few as 600 variables. (2) By introducing a high-level simulation strategy that exploits logging data from COMBO, we can predict the runtime of our method way beyond the range of existing quantum platforms and simulators, for various benchmark instances with up to 1600 variables. Combining both of these innovations, we demonstrate the QTG's potential advantage for large-scale problems, indicating an effective approach for combinatorial optimisation problems.
翻訳日:2023-10-11 15:15:45 公開日:2023-10-10
# 知識グラフ補完における大規模言語モデルの性能向上

Making Large Language Models Perform Better in Knowledge Graph Completion ( http://arxiv.org/abs/2310.06671v1 )

ライセンス: Link先を確認
Yichi Zhang, Zhuo Chen, Wen Zhang, Huajun Chen(参考訳) 大規模言語モデル(llm)ベースの知識グラフ補完(kgc)は、llmによるkgsの欠落トリプルの予測と、より優れたwebインフラストラクチャとなるためのkgsの強化を目的としている。 しかし、LLMに基づくKGCの研究は限られており、KGにおける重要な構造情報を無視し、LLMが正確な事実知識を得るのを防ぐLLMの推論能力の有効利用が欠如している。 本稿では,LLMにおける構造認識推論の実現を目的とした,有用なKG構造情報をLLMに組み込む方法について論じる。 まず、既存のLLMパラダイムを構造認識設定に転送し、さらにこの目標を達成するための知識プレフィックスアダプタ(KoPA)を提案する。 KoPAは、KGの実体と関係の構造情報を取得するために、構造的な埋め込み事前訓練を採用している。 そして、kopaは、構造埋め込みをテキスト空間に投影する知識プレフィックスアダプタのllmsを通知し、入力プロンプトのプレフィックスとして仮想知識トークンを取得する。 構造情報の導入がLLMの知識推論能力にどう影響するかを, 構造情報に基づくKGC手法の総合的な実験を行い, 詳細な分析を行った。 私たちのコードはhttps://github.com/zjukg/kopaでリリースしています。

Large language model (LLM) based knowledge graph completion (KGC) aims to predict the missing triples in the KGs with LLMs and enrich the KGs to become better web infrastructure, which can benefit a lot of web-based automatic services. However, research about LLM-based KGC is limited and lacks effective utilization of LLM's inference capabilities, which ignores the important structural information in KGs and prevents LLMs from acquiring accurate factual knowledge. In this paper, we discuss how to incorporate the helpful KG structural information into the LLMs, aiming to achieve structrual-aware reasoning in the LLMs. We first transfer the existing LLM paradigms to structural-aware settings and further propose a knowledge prefix adapter (KoPA) to fulfill this stated goal. KoPA employs structural embedding pre-training to capture the structural information of entities and relations in the KG. Then KoPA informs the LLMs of the knowledge prefix adapter which projects the structural embeddings into the textual space and obtains virtual knowledge tokens as a prefix of the input prompt. We conduct comprehensive experiments on these structural-aware LLM-based KGC methods and provide an in-depth analysis comparing how the introduction of structural information would be better for LLM's knowledge reasoning ability. Our code is released at https://github.com/zjukg/KoPA.
翻訳日:2023-10-11 15:08:24 公開日:2023-10-10
# 極端拡張を拒絶するドメイン一般化

Domain Generalization by Rejecting Extreme Augmentations ( http://arxiv.org/abs/2310.06670v1 )

ライセンス: Link先を確認
Masih Aminbeidokhti, Fidel A. Guerrero Pe\~na, Heitor Rapela Medeiros, Thomas Dubail, Eric Granger, Marco Pedersoli(参考訳) データ拡張は、ディープラーニングモデルを規則化し、さまざまなタスクやドメインにおける認識性能を改善するための最も効果的な手法の1つである。 しかし、これは標準のドメイン内設定であり、トレーニングデータとテストデータが同じディストリビューションに従う。 テストデータが異なる未知の分布に従うドメイン外の場合、データ拡張のための最良のレシピは不明確である。 本稿では、ドメイン外およびドメイン一般化設定において、データ拡張が目立たず、堅牢なパフォーマンス改善をもたらすことを示す。 そこで我々は,簡単な訓練手順を提案する。 (i)標準データ拡張変換について一様サンプリングを使用する。 (二)ドメイン外作業時に期待される高いデータ分散を考慮した強度変換の増加、及び (iii)訓練を損なうような極端な変化を拒絶する新たな報酬関数を考案する。 この手法により、我々のデータ拡張方式は、ベンチマーク領域の一般化データセットにおける最先端の手法に匹敵する精度を達成できる。 コード: \url{https://github.com/Masseeh/DCAug}

Data augmentation is one of the most effective techniques for regularizing deep learning models and improving their recognition performance in a variety of tasks and domains. However, this holds for standard in-domain settings, in which the training and test data follow the same distribution. For the out-of-domain case, where the test data follow a different and unknown distribution, the best recipe for data augmentation is unclear. In this paper, we show that for out-of-domain and domain generalization settings, data augmentation can provide a conspicuous and robust improvement in performance. To do that, we propose a simple training procedure: (i) use uniform sampling on standard data augmentation transformations; (ii) increase the strength transformations to account for the higher data variance expected when working out-of-domain, and (iii) devise a new reward function to reject extreme transformations that can harm the training. With this procedure, our data augmentation scheme achieves a level of accuracy that is comparable to or better than state-of-the-art methods on benchmark domain generalization datasets. Code: \url{https://github.com/Masseeh/DCAug}
翻訳日:2023-10-11 15:07:58 公開日:2023-10-10
# 潜時拡散対実説明

Latent Diffusion Counterfactual Explanations ( http://arxiv.org/abs/2310.06668v1 )

ライセンス: Link先を確認
Karim Farid, Simon Schrodi, Max Argus, Thomas Brox(参考訳) 反事実的説明は、不透明なブラックボックスモデルの振る舞いを解明するための有望な方法として現れてきた。 近年,ピクセル空間拡散モデルを用いた反事実生成手法がいくつか提案されている。 ノイズに対処するためには、非現実的なアーチファクトや単なる逆方向の摂動を引き起こし、補助的な逆方向の頑健なモデルや計算集約的なガイダンススキームを必要とした。 しかし、そのような要件は、例えばモデルのトレーニングデータへのアクセスが制限されたシナリオにおいて、適用性を制限する。 これらの制約に対処するため,我々はLDCE(Latent Diffusion Counterfactual Explanations)を導入する。 LDCEは、最近のクラスまたはテキスト条件の潜在拡散モデルを利用して、反ファクト生成を迅速化し、データの重要でセマンティックな部分に焦点を当てる。 さらに,拡散モデルの暗黙的分類器と不整合な雑音,逆勾配をフィルタリングするコンセンサス誘導機構を提案する。 学習パラダイムの異なる多様なデータセットでトレーニングされた多種多様なモデルに対して,LDCEの汎用性を示す。 最後に、LDCEがモデルエラーに対する洞察を提供し、ブラックボックスモデル行動の理解を深める方法について説明する。

Counterfactual explanations have emerged as a promising method for elucidating the behavior of opaque black-box models. Recently, several works leveraged pixel-space diffusion models for counterfactual generation. To handle noisy, adversarial gradients during counterfactual generation -- causing unrealistic artifacts or mere adversarial perturbations -- they required either auxiliary adversarially robust models or computationally intensive guidance schemes. However, such requirements limit their applicability, e.g., in scenarios with restricted access to the model's training data. To address these limitations, we introduce Latent Diffusion Counterfactual Explanations (LDCE). LDCE harnesses the capabilities of recent class- or text-conditional foundation latent diffusion models to expedite counterfactual generation and focus on the important, semantic parts of the data. Furthermore, we propose a novel consensus guidance mechanism to filter out noisy, adversarial gradients that are misaligned with the diffusion model's implicit classifier. We demonstrate the versatility of LDCE across a wide spectrum of models trained on diverse datasets with different learning paradigms. Finally, we showcase how LDCE can provide insights into model errors, enhancing our understanding of black-box model behavior.
翻訳日:2023-10-11 15:07:43 公開日:2023-10-10
# SC2GAN:自己修正関連GAN空間による絡み合いの再考

SC2GAN: Rethinking Entanglement by Self-correcting Correlated GAN Space ( http://arxiv.org/abs/2310.06667v1 )

ライセンス: Link先を確認
Zikun Chen, Han Zhao, Parham Aarabi, Ruowei Jiang(参考訳) Generative Adversarial Networks (GAN) は、様々な解釈可能な方向でリッチな意味情報をエンコードするために学習された潜在空間を用いて現実的な画像を合成することができる。 しかし、学習された潜伏空間の非構造性のため、因果関係のない視覚特性の特定のグループが一緒に現れる傾向にある訓練データからバイアスを継承する(例えば、年齢や眼鏡、女性や口紅など)。 その結果、学習された分布はしばしば欠落した例の適切なモデリングを欠いている。 ある属性に対する編集方向の補間は、他の属性と絡み合った変更をもたらす可能性がある。 この問題に対処するために、従来の作業では、学習した方向を調整して、他の属性の変更を最小限にするが、強い相関のある機能では失敗する。 本研究では,StyleGAN2-FFHQモデルのトレーニングデータと学習潜在空間の絡み合い問題について検討する。 本稿では,低密度の潜伏コードサンプルを元の潜伏空間に再投影し,高密度領域と低密度領域の両方に基づいて編集方向を補正することにより,歪みを解消する新しいフレームワークSC$^2$GANを提案する。 本来の意味のある方向とセマンティックな領域固有のレイヤを利用することで、フレームワークは、元の潜在コードを補間して、不規則に現れる属性の組み合わせでイメージを生成し、それらのサンプルを元の潜在空間に戻します。 筆者らのフレームワークは,有意な潜伏方向を学習する既存手法に適用し,その特性を少量の低密度領域サンプルで切り離す強力な能力を示す。

Generative Adversarial Networks (GANs) can synthesize realistic images, with the learned latent space shown to encode rich semantic information with various interpretable directions. However, due to the unstructured nature of the learned latent space, it inherits the bias from the training data where specific groups of visual attributes that are not causally related tend to appear together, a phenomenon also known as spurious correlations, e.g., age and eyeglasses or women and lipsticks. Consequently, the learned distribution often lacks the proper modelling of the missing examples. The interpolation following editing directions for one attribute could result in entangled changes with other attributes. To address this problem, previous works typically adjust the learned directions to minimize the changes in other attributes, yet they still fail on strongly correlated features. In this work, we study the entanglement issue in both the training data and the learned latent space for the StyleGAN2-FFHQ model. We propose a novel framework SC$^2$GAN that achieves disentanglement by re-projecting low-density latent code samples in the original latent space and correcting the editing directions based on both the high-density and low-density regions. By leveraging the original meaningful directions and semantic region-specific layers, our framework interpolates the original latent codes to generate images with attribute combination that appears infrequently, then inverts these samples back to the original latent space. We apply our framework to pre-existing methods that learn meaningful latent directions and showcase its strong capability to disentangle the attributes with small amounts of low-density region samples added.
翻訳日:2023-10-11 15:07:23 公開日:2023-10-10
# Out-Of-Distribution Generalizationにおける非実効的データの可能性

Unlock the Potential of Counterfactually-Augmented Data in Out-Of-Distribution Generalization ( http://arxiv.org/abs/2310.06666v1 )

ライセンス: Link先を確認
Caoyun Fan, Wenqing Chen, Jidong Tian, Yitian Li, Hao He, Yaohui Jin(参考訳) Counterfactually-Augmented Data (CAD) -- 文の最小限の編集で対応するラベルを反転させる -- は、言語モデルのout-Of-Distribution(OOD)一般化能力を改善する可能性がある。 しかしCADのOOD一般化の実証結果は,期待したほど効率的ではない。 本研究では,cadによるマイオピア現象の非効率性について,言語モデルでは拡張操作で編集された因果的特徴のみに注目し,他の非編集因果的特徴を除外する。 したがってCADのポテンシャルは十分に活用されていない。 この問題に対処するために、フィッシャーの線形判別の観点から特徴空間におけるミオピア現象を分析し、CADの構造的特性(データセットレベルと文レベル)に基づく2つの制約を導入し、言語モデルがCADのより完全な因果的特徴を抽出し、ミオピア現象を緩和し、OOD一般化能力を向上させる。 本手法は感情分析と自然言語推論の2つのタスクで評価し,本手法がcadの可能性を解き放ち,言語モデルのood一般化性能を1.0%から5.9%向上できることを示した。

Counterfactually-Augmented Data (CAD) -- minimal editing of sentences to flip the corresponding labels -- has the potential to improve the Out-Of-Distribution (OOD) generalization capability of language models, as CAD induces language models to exploit domain-independent causal features and exclude spurious correlations. However, the empirical results of CAD's OOD generalization are not as efficient as anticipated. In this study, we attribute the inefficiency to the myopia phenomenon caused by CAD: language models only focus on causal features that are edited in the augmentation operation and exclude other non-edited causal features. Therefore, the potential of CAD is not fully exploited. To address this issue, we analyze the myopia phenomenon in feature space from the perspective of Fisher's Linear Discriminant, then we introduce two additional constraints based on CAD's structural properties (dataset-level and sentence-level) to help language models extract more complete causal features in CAD, thereby mitigating the myopia phenomenon and improving OOD generalization capability. We evaluate our method on two tasks: Sentiment Analysis and Natural Language Inference, and the experimental results demonstrate that our method could unlock the potential of CAD and improve the OOD generalization performance of language models by 1.0% to 5.9%.
翻訳日:2023-10-11 15:06:54 公開日:2023-10-10
# グラフベース拡散による第三次リンパ構造の生成

Tertiary Lymphoid Structures Generation through Graph-based Diffusion ( http://arxiv.org/abs/2310.06661v1 )

ライセンス: Link先を確認
Manuel Madeira, Dorina Thanou, Pascal Frossard(参考訳) グラフに基づく表現アプローチは、腫瘍組織内の異なる細胞タイプの空間構造のような生物学的実体間の複雑な依存関係を捉える能力から、生体医学データの解析に成功していることが証明されている。 しかし, 基礎となる生物機構の理解を深めるためには, 複雑なデータの実際の分布を正確に把握することが重要である。 グラフベースの深層生成モデルは、それを達成するのに特に適している。 本研究では,最先端のグラフベース拡散モデルを用いて生物学的に有意義な細胞グラフを生成する。 特に, 腫瘍学研究におけるがん進展を評価するバイオマーカーとして確立された第3次リンパ構造(tls)含量を用いて, 細胞分布を正確に学習できることを示す。 さらに,tls分類タスクにおけるデータ拡張のための学習生成モデルの有用性についても述べる。 我々の知る限りでは、これは有意義な生物学的細胞構造を生成するためにグラフ拡散モデルの力を利用する最初の研究である。

Graph-based representation approaches have been proven to be successful in the analysis of biomedical data, due to their capability of capturing intricate dependencies between biological entities, such as the spatial organization of different cell types in a tumor tissue. However, to further enhance our understanding of the underlying governing biological mechanisms, it is important to accurately capture the actual distributions of such complex data. Graph-based deep generative models are specifically tailored to accomplish that. In this work, we leverage state-of-the-art graph-based diffusion models to generate biologically meaningful cell-graphs. In particular, we show that the adopted graph diffusion model is able to accurately learn the distribution of cells in terms of their tertiary lymphoid structures (TLS) content, a well-established biomarker for evaluating the cancer progression in oncology research. Additionally, we further illustrate the utility of the learned generative models for data augmentation in a TLS classification task. To the best of our knowledge, this is the first work that leverages the power of graph diffusion models in generating meaningful biological cell structures.
翻訳日:2023-10-11 15:06:29 公開日:2023-10-10
# フローに基づくハイブリッドネットワーク異常検出における教師付き分類フィルタの影響評価

Assessing the Impact of a Supervised Classification Filter on Flow-based Hybrid Network Anomaly Detection ( http://arxiv.org/abs/2310.06656v1 )

ライセンス: Link先を確認
Dominik Macko, Patrik Goldschmidt, Peter Pi\v{s}tek, Daniela Chud\'a(参考訳) 絶え間ない進化と新たなサイバー攻撃の出現は、防衛のための高度な技術開発を必要とする。 本稿では,ネットワーク異常検出における教師付きフィルタ(分類器)の影響を測定することを目的とする。 ネットワークフローデータにおけるハイブリッド異常検出手法を用いて実験を行う。 そこで本研究では,異常検出器のプリフィルタとして機能するバイナリ分類器をプリコンパイルすることにより,最先端のオートエンコーダを用いた異常検出手法を拡張した。 この手法は、利用可能な実世界のデータセットUGR'16で評価された。 実験の結果, ハイブリッド手法は, ゼロデイ攻撃の検出能力を維持しつつ, 単独の異常検知器よりも, 既知の攻撃の検出率が高いことが示唆された。 教師付きバイナリプリフィルタを使用することで、AUCメトリックは11%以上増加し、偽陽性の数をほぼ同じに保ちながら、30%以上の攻撃を検出した。

Constant evolution and the emergence of new cyberattacks require the development of advanced techniques for defense. This paper aims to measure the impact of a supervised filter (classifier) in network anomaly detection. We perform our experiments by employing a hybrid anomaly detection approach in network flow data. For this purpose, we extended a state-of-the-art autoencoder-based anomaly detection method by prepending a binary classifier acting as a prefilter for the anomaly detector. The method was evaluated on the publicly available real-world dataset UGR'16. Our empirical results indicate that the hybrid approach does offer a higher detection rate of known attacks than a standalone anomaly detector while still retaining the ability to detect zero-day attacks. Employing a supervised binary prefilter has increased the AUC metric by over 11%, detecting 30% more attacks while keeping the number of false positives approximately the same.
翻訳日:2023-10-11 15:06:13 公開日:2023-10-10
# 視覚・言語ナビゲーションのための説明方法の評価

Evaluating Explanation Methods for Vision-and-Language Navigation ( http://arxiv.org/abs/2310.06654v1 )

ライセンス: Link先を確認
Guanqi Chen, Lei Yang, Guanhua Chen, Jia Pan(参考訳) 未知の環境で自然言語でロボットをナビゲートする能力は、具体的人工知能(AI)を実現するための重要なステップである。 視覚言語ナビゲーション(vln)の分野で提案された深層ニューラルモデルの性能向上により、モデルがナビゲーションタスクにおける意思決定にどのような情報を使用しているかを知るのも興味深い。 ディープニューラルモデルの内部動作を理解するために、説明可能なAI(XAI)を促進する様々な説明方法が開発されている。 しかし、主に画像やテキスト分類タスクのディープニューラルモデルに適用されており、VLNタスクのディープニューラルモデルを説明する作業はほとんど行われていない。 本稿では,VLNモデルの説明手法を忠実度の観点から評価するために,定量的なベンチマークを構築することで,これらの問題に対処する。 逐次決定設定における段階的テキスト記述を段階的に評価するための消去に基づく評価パイプラインを提案する。 2つの一般的なVLNデータセット上での2つの代表的VLNモデルのいくつかの説明法を評価し,実験により有意な結果が得られた。

The ability to navigate robots with natural language instructions in an unknown environment is a crucial step for achieving embodied artificial intelligence (AI). With the improving performance of deep neural models proposed in the field of vision-and-language navigation (VLN), it is equally interesting to know what information the models utilize for their decision-making in the navigation tasks. To understand the inner workings of deep neural models, various explanation methods have been developed for promoting explainable AI (XAI). But they are mostly applied to deep neural models for image or text classification tasks and little work has been done in explaining deep neural models for VLN tasks. In this paper, we address these problems by building quantitative benchmarks to evaluate explanation methods for VLN models in terms of faithfulness. We propose a new erasure-based evaluation pipeline to measure the step-wise textual explanation in the sequential decision-making setting. We evaluate several explanation methods for two representative VLN models on two popular VLN datasets and reveal valuable findings through our experiments.
翻訳日:2023-10-11 15:05:58 公開日:2023-10-10
# フィードバックからの多様性

Diversity from Human Feedback ( http://arxiv.org/abs/2310.06648v1 )

ライセンス: Link先を確認
Ren-Jian Wang, Ke Xue, Yutong Wang, Peng Yang, Haobo Fu, Qiang Fu, Chao Qian(参考訳) 多様性はアンサンブル学習、強化学習、組合せ最適化など多くの問題において重要な役割を果たす。 多様性の尺度を定義する方法は、長年にわたる問題である。 多くの手法は専門的な経験に基づいて適切な行動空間を定義し、多様性の測定値を得るが、多くのシナリオでは難しい。 本稿では,人間のフィードバックから行動空間を学習する問題を提案し,それを解決するために多様性(diversity from human feedback,divhf)と呼ばれる一般的な手法を提案する。 DivHFは、人間のフィードバックをクエリすることで、人間の好みと一致した行動記述子を学習する。 学習した行動記述子は、あらゆる距離測度と組み合わせて多様性測度を定義することができる。 本稿では,品質多様性最適化アルゴリズムmap-elitesと統合し,qdaxスイート上で実験を行い,divhfの有効性を示す。 結果は、DivHFが直接データ駆動アプローチよりも人間の要求に合う行動空間を学習し、人間の好みの下でより多様なソリューションをもたらすことを示している。 我々の貢献は、問題の定式化、DivHF法の提案、実験による効果の実証である。

Diversity plays a significant role in many problems, such as ensemble learning, reinforcement learning, and combinatorial optimization. How to define the diversity measure is a longstanding problem. Many methods rely on expert experience to define a proper behavior space and then obtain the diversity measure, which is, however, challenging in many scenarios. In this paper, we propose the problem of learning a behavior space from human feedback and present a general method called Diversity from Human Feedback (DivHF) to solve it. DivHF learns a behavior descriptor consistent with human preference by querying human feedback. The learned behavior descriptor can be combined with any distance measure to define a diversity measure. We demonstrate the effectiveness of DivHF by integrating it with the Quality-Diversity optimization algorithm MAP-Elites and conducting experiments on the QDax suite. The results show that DivHF learns a behavior space that aligns better with human requirements compared to direct data-driven approaches and leads to more diverse solutions under human preference. Our contributions include formulating the problem, proposing the DivHF method, and demonstrating its effectiveness through experiments.
翻訳日:2023-10-11 15:05:39 公開日:2023-10-10
# オンライン手書きテキスト分類のための自己教師付き表現学習

Self-Supervised Representation Learning for Online Handwriting Text Classification ( http://arxiv.org/abs/2310.06645v1 )

ライセンス: Link先を確認
Pouya Mehralian, Bagher BabaAli, Ashena Gorgan Mohammadi(参考訳) 自己教師付き学習は、大規模データセットの注釈付けコストを回避しつつ、さまざまな種類のラベル付けされていないデータからリッチな表現を抽出する効率的な方法を提供する。 これは、データのモダリティとドメインに関して擬似ラベルを形成するプリテキストタスクを設計することで達成できる。 本研究は、オンライン手書きテキストの進化的応用を踏まえ、英語と中国語の個人によるオンライン手書きテキストから情報表現を抽出する事前学習用モデルとして、事前訓練されたモデルの微調整のための2つのパイプラインとともに、新しいストロークマスキング(POSM)を提案する。 抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。 事前学習されたモデルは、著者の識別、性別の分類、手話の分類などのタスクで最新の結果を達成するために微調整され、スクラッチから訓練されたモデルよりも事前訓練されたモデルを活用することの優位性が強調される。

Self-supervised learning offers an efficient way of extracting rich representations from various types of unlabeled data while avoiding the cost of annotating large-scale datasets. This is achievable by designing a pretext task to form pseudo labels with respect to the modality and domain of the data. Given the evolving applications of online handwritten texts, in this study, we propose the novel Part of Stroke Masking (POSM) as a pretext task for pretraining models to extract informative representations from the online handwriting of individuals in English and Chinese languages, along with two suggested pipelines for fine-tuning the pretrained models. To evaluate the quality of the extracted representations, we use both intrinsic and extrinsic evaluation methods. The pretrained models are fine-tuned to achieve state-of-the-art results in tasks such as writer identification, gender classification, and handedness classification, also highlighting the superiority of utilizing the pretrained models over the models trained from scratch.
翻訳日:2023-10-11 15:05:22 公開日:2023-10-10
# DeepLSH: 高速かつ高効率に近いクラッシュレポート検出のための深部局所感性ハッシュ学習

DeepLSH: Deep Locality-Sensitive Hash Learning for Fast and Efficient Near-Duplicate Crash Report Detection ( http://arxiv.org/abs/2310.06703v1 )

ライセンス: Link先を確認
Youcef Remil and Anes Bendimerad and Romain Mathonat and Chedy Raissi and Mehdi Kaytoue(参考訳) 自動クラッシュバケットは、バグレポートを効率的にトリガするソフトウェア開発プロセスにおいて重要なフェーズである。 一般的には、クラスタリング技術を通じて同様のレポートをグループ化する。 しかし、リアルタイムストリーミングのバグ収集では、システムはすぐに質問に答える必要がある。 すなわち、近接重複を効率的に発見する。 したがって、この問題に取り組むために最寄りの近傍探索を考えることは自然であり、特によく知られた局所性に敏感なハッシュ(lsh)は、そのサブリニアな性能と類似性の検索精度に関する理論的保証のため、大きなデータセットを扱う。 驚いたことに、LSHはクラッシュバケットの文献では考慮されていない。 実際、最も高度なクラッシュバケットメトリクスのいわゆる局所性に敏感な特性を満たすハッシュ関数を導出するのは簡単ではない。 そこで本稿では,この課題にLSHを活用する方法について検討する。 文献で使用される最も関連性の高いメトリクスを考察するために,本論文では,正確なLSHソリューションが存在する Jaccard と Cosine のメトリクスであっても,局所性感度特性を完璧に近似する,シームズDNN アーキテクチャである DeepLSH を紹介する。 私たちはこの主張を,オリジナルデータセットに関する一連の実験でサポートしています。

Automatic crash bucketing is a crucial phase in the software development process for efficiently triaging bug reports. It generally consists in grouping similar reports through clustering techniques. However, with real-time streaming bug collection, systems are needed to quickly answer the question: What are the most similar bugs to a new one?, that is, efficiently find near-duplicates. It is thus natural to consider nearest neighbors search to tackle this problem and especially the well-known locality-sensitive hashing (LSH) to deal with large datasets due to its sublinear performance and theoretical guarantees on the similarity search accuracy. Surprisingly, LSH has not been considered in the crash bucketing literature. It is indeed not trivial to derive hash functions that satisfy the so-called locality-sensitive property for the most advanced crash bucketing metrics. Consequently, we study in this paper how to leverage LSH for this task. To be able to consider the most relevant metrics used in the literature, we introduce DeepLSH, a Siamese DNN architecture with an original loss function, that perfectly approximates the locality-sensitivity property even for Jaccard and Cosine metrics for which exact LSH solutions exist. We support this claim with a series of experiments on an original dataset, which we make available.
翻訳日:2023-10-11 14:59:32 公開日:2023-10-10
# 長い音声インタビューと質問の時間的整合:マルチモーダルデータ統合を事例として

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration ( http://arxiv.org/abs/2310.06702v1 )

ライセンス: Link先を確認
Piyush Singh Pasi, Karthikeya Battepati, Preethi Jyothi, Ganesh Ramakrishnan, Tanmay Mahapatra, Manoj Singh(参考訳) 音声とテキストのアライメントの問題は、トレーニング中に完全な監督を用いてかなりの量の研究が行われた。 しかし、これは通常、長いオーディオ記録の文脈でではなく、クエリされるテキストはオーディオファイル内で冗長に表示されない。 この研究は、インドのビハールの農村部に住む若い母親から長いオーディオヘルス調査を収集する、care indiaという非政府組織と協力している。 これらの調査を案内するために使用されるアンケートから抽出された質問に対し、長い音声記録の中で質問される場所を特定することを目的としている。 これはアフリカやアジアの組織にとって大きな価値であり、興味のある質問(と回答)を見つけるために、長く騒がしいオーディオ録音を辛抱強く通らなければならない。 提案するフレームワークであるINDENTは,文の時間的順序付けに関する事前情報を用いて,下層の音声テキストのセマンティクスをキャプチャする音声埋め込みを学習する。 これらの学習埋め込みは、推論時にテキストクエリに基づいて対応する音声セグメントを取得するために使用される。 テキストベースヒューリスティックスを用いて得られたモデルに対する有効性(約3%のR-avgの改善)を実証的に示す。 また、インドの言語に対する最先端のASRモデルを用いて生成される雑音性ASRは、音声の代わりに使用する場合、より良い結果が得られることを示す。 indent, training on hindi dataは、(理論上)共有テキスト空間でサポートされているすべての言語に対応できる。 11のindic言語で経験的に説明します。

The problem of audio-to-text alignment has seen significant amount of research using complete supervision during training. However, this is typically not in the context of long audio recordings wherein the text being queried does not appear verbatim within the audio file. This work is a collaboration with a non-governmental organization called CARE India that collects long audio health surveys from young mothers residing in rural parts of Bihar, India. Given a question drawn from a questionnaire that is used to guide these surveys, we aim to locate where the question is asked within a long audio recording. This is of great value to African and Asian organizations that would otherwise have to painstakingly go through long and noisy audio recordings to locate questions (and answers) of interest. Our proposed framework, INDENT, uses a cross-attention-based model and prior information on the temporal ordering of sentences to learn speech embeddings that capture the semantics of the underlying spoken text. These learnt embeddings are used to retrieve the corresponding audio segment based on text queries at inference time. We empirically demonstrate the significant effectiveness (improvement in R-avg of about 3%) of our model over those obtained using text-based heuristics. We also show how noisy ASR, generated using state-of-the-art ASR models for Indian languages, yields better results when used in place of speech. INDENT, trained only on Hindi data is able to cater to all languages supported by the (semantically) shared text space. We illustrate this empirically on 11 Indic languages.
翻訳日:2023-10-11 14:59:09 公開日:2023-10-10
# せん断LLaMA:構造化プルーニングによる言語モデル事前学習の高速化

Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning ( http://arxiv.org/abs/2310.06694v1 )

ライセンス: Link先を確認
Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen(参考訳) LLaMA (Touvron et al., 2023a;b) や最近登場した中等サイズの大規模言語モデル (LLM) の人気は、小さいが強力なLLMを構築する可能性を強調している。 それでも、数兆のトークンをゼロからトレーニングするコストは高いままである。 本研究では,事前学習された大規模モデルからより小型のLCMを開発するための効果的な方法として,構造化プルーニングについて検討する。 提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。 我々は,LLaMA2-7Bモデルを1.3Bおよび2.7Bパラメータに抽出し,せん断-LLaMAシリーズを提示し,本手法の有効性を示す。 Sheared-LLaMAモデルは、Pythia、INCITE、OpenLLaMAモデルのような同等サイズの最先端のオープンソースモデルよりも、幅広いダウンストリームおよび命令チューニング評価において、スクラッチからのトレーニングに比べて計算の3%しか必要としない。 この研究は、既存のLLMを構造化プルーニングで活用することは、より小さなLLMを構築する上で、はるかにコスト効率の良いアプローチである、という説得力のある証拠を提供する。

The popularity of LLaMA (Touvron et al., 2023a;b) and other recently emerged moderate-sized large language models (LLMs) highlights the potential of building smaller yet powerful LLMs. Regardless, the cost of training such models from scratch on trillions of tokens remains high. In this work, we study structured pruning as an effective means to develop smaller LLMs from pre-trained, larger models. Our approach employs two key techniques: (1) targeted structured pruning, which prunes a larger model to a specified target shape by removing layers, heads, and intermediate and hidden dimensions in an end-to-end manner, and (2) dynamic batch loading, which dynamically updates the composition of sampled data in each training batch based on varying losses across different domains. We demonstrate the efficacy of our approach by presenting the Sheared-LLaMA series, pruning the LLaMA2-7B model down to 1.3B and 2.7B parameters. Sheared-LLaMA models outperform state-of-the-art open-source models of equivalent sizes, such as Pythia, INCITE, and OpenLLaMA models, on a wide range of downstream and instruction tuning evaluations, while requiring only 3% of compute compared to training such models from scratch. This work provides compelling evidence that leveraging existing LLMs with structured pruning is a far more cost-effective approach for building smaller LLMs.
翻訳日:2023-10-11 14:58:43 公開日:2023-10-10
# メタCoT:大規模言語モデルを用いた混合タスクシナリオにおける一般化可能なチェーン・オブ・サート・プロンプト

Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models ( http://arxiv.org/abs/2310.06692v1 )

ライセンス: Link先を確認
Anni Zou, Zhuosheng Zhang, Hai Zhao, Xiangru Tang(参考訳) 大規模言語モデル (LLM) は、中間的推論連鎖が解を導出する根拠となるように、チェーン・オブ・シンクレット (CoT) のプロンプトを活用することで、顕著な推論能力を示した。 しかし、現在のCoTメソッドは単に一歩ずつ考えるような一般的なプロンプトを使うか、あるいは手作りのタスク固有のデモに強く依存して、パフォーマンスと一般化の間に不可避のギャップを埋める。 このギャップを埋めるために,入力のタイプが不明な混合タスクシナリオにおいて,一般化可能なCoTプロンプト手法であるMeta-CoTを提案する。 Meta-CoTはまず、入力された質問に基づいてシナリオを分類し、その後、対応するデータプールから様々なデモを自動パターンで構築する。 meta-cotは10のベンチマーク推論タスクと優れた一般化能力を同時に享受する。 特にMeta-CoTはSVAMP(93.7%)の最先端の結果を、追加のプログラム支援手法なしで達成している。 5つの分散データセットに関するさらなる実験は、meta-cotの安定性と汎用性を検証する。

Large language models (LLMs) have unveiled remarkable reasoning capabilities by exploiting chain-of-thought (CoT) prompting, which generates intermediate reasoning chains to serve as the rationale for deriving the answer. However, current CoT methods either simply employ general prompts such as Let's think step by step, or heavily rely on handcrafted task-specific demonstrations to attain preferable performances, thereby engendering an inescapable gap between performance and generalization. To bridge this gap, we propose Meta-CoT, a generalizable CoT prompting method in mixed-task scenarios where the type of input questions is unknown. Meta-CoT firstly categorizes the scenario based on the input question and subsequently constructs diverse demonstrations from the corresponding data pool in an automatic pattern. Meta-CoT simultaneously enjoys remarkable performances on ten public benchmark reasoning tasks and superior generalization capabilities. Notably, Meta-CoT achieves the state-of-the-art result on SVAMP (93.7%) without any additional program-aided methods. Our further experiments on five out-of-distribution datasets verify the stability and generality of Meta-CoT.
翻訳日:2023-10-11 14:58:06 公開日:2023-10-10
# テキストエンコーダを用いたテキストリッチネットワーク上での多重化埋め込み学習

Learning Multiplex Embeddings on Text-rich Networks with One Text Encoder ( http://arxiv.org/abs/2310.06684v1 )

ライセンス: Link先を確認
Bowen Jin, Wentao Zhang, Yu Zhang, Yu Meng, Han Zhao, Jiawei Han(参考訳) 実世界のシナリオでは、ネットワーク内のテキストは、しばしば複数の意味関係(例えば、学術ネットワーク内の論文は、他の出版物によって参照され、同じ著者によって書かれたり、同じ会場で公開されたりする)によってリンクされる。 主流のテキスト表現学習手法では、事前学習された言語モデル(plm)を使用して、各テキストユニットに1つの埋め込みを生成する。 しかし、この仮定は、特に多重テキストリッチネットワークでは当てはまらない。 別の作業として、multiplex graph neural networks(gnns)はノード属性をノード表現学習の機能ベクトルとして直接初期化するが、ノードの関連テキストの意味を完全に捉えることはできない。 これらのギャップを埋めるため,TExt-Rich ネットワーク上での多重埋め込み学習のための新しいフレームワーク METERN を提案する。 既存の手法とは対照的に、METERNは1つのテキストエンコーダを使用して、関係をまたいだ共有知識をモデル化し、関係性固有の表現を導出するために、関係ごとに少数のパラメータを利用する。 これにより、エンコーダはパラメータ効率を保ちながら、ネットワーク内の多重構造を効果的にキャプチャできる。 学術分野とeコマース分野の5つのネットワークにおいて、9つの下流タスクの実験を行い、METERNはベースラインを著しく、一貫して上回ります。 コードはhttps://github.com/PeterGriffinJin/METERN-submitで入手できる。

In real-world scenarios, texts in a network are often linked by multiple semantic relations (e.g., papers in an academic network are referenced by other publications, written by the same author, or published in the same venue), where text documents and their relations form a multiplex text-rich network. Mainstream text representation learning methods use pretrained language models (PLMs) to generate one embedding for each text unit, expecting that all types of relations between texts can be captured by these single-view embeddings. However, this presumption does not hold particularly in multiplex text-rich networks. Along another line of work, multiplex graph neural networks (GNNs) directly initialize node attributes as a feature vector for node representation learning, but they cannot fully capture the semantics of the nodes' associated texts. To bridge these gaps, we propose METERN, a new framework for learning Multiplex Embeddings on TExt-Rich Networks. In contrast to existing methods, METERN uses one text encoder to model the shared knowledge across relations and leverages a small number of parameters per relation to derive relation-specific representations. This allows the encoder to effectively capture the multiplex structures in the network while also preserving parameter efficiency. We conduct experiments on nine downstream tasks in five networks from both academic and e-commerce domains, where METERN outperforms baselines significantly and consistently. The code is available at https://github.com/PeterGriffinJin/METERN-submit.
翻訳日:2023-10-11 14:57:45 公開日:2023-10-10
# 緩和エネルギー予測における触媒吸着3次元相互作用の重要性について

On the importance of catalyst-adsorbate 3D interactions for relaxed energy predictions ( http://arxiv.org/abs/2310.06682v1 )

ライセンス: Link先を確認
Alvaro Carbonero, Alexandre Duval, Victor Schmidt, Santiago Miret, Alex Hernandez-Garcia, Yoshua Bengio, David Rolnick(参考訳) 物質的特性の予測と発見に機械学習を用いることは、伝統的に全ての原子の幾何学的構成を含むグラフニューラルネットワークに重点を置いてきた。 しかし実際には、触媒への吸着の潜在的に未知の結合を評価するなど、これらの情報が容易に利用できるわけではない。 本稿では, 吸着剤の電気触媒に対する相対位置を無視しつつ, oc20データセットにおけるシステムの緩和エネルギーを予測できるかどうかについて検討する。 我々はSchNet, DimeNet++, FAENetを基本アーキテクチャとみなし,入力グラフのエッジの除去,独立した表現のプール,バックボーン重みの共有,非幾何学的相対情報を伝搬するアテンション機構の4つの変更の影響を測定する。 結合サイト情報の削除は,期待通りに精度を低下させるが,修正モデルは極めて良好なMAEで緩和エネルギーを予測することができる。 本研究は, 反応体構成に関する情報を削減したり, 完全に省略したりできる加速材料発見の今後の研究方向を示唆する。

The use of machine learning for material property prediction and discovery has traditionally centered on graph neural networks that incorporate the geometric configuration of all atoms. However, in practice not all this information may be readily available, e.g.~when evaluating the potentially unknown binding of adsorbates to catalyst. In this paper, we investigate whether it is possible to predict a system's relaxed energy in the OC20 dataset while ignoring the relative position of the adsorbate with respect to the electro-catalyst. We consider SchNet, DimeNet++ and FAENet as base architectures and measure the impact of four modifications on model performance: removing edges in the input graph, pooling independent representations, not sharing the backbone weights and using an attention mechanism to propagate non-geometric relative information. We find that while removing binding site information impairs accuracy as expected, modified models are able to predict relaxed energies with remarkably decent MAE. Our work suggests future research directions in accelerated materials discovery where information on reactant configurations can be reduced or altogether omitted.
翻訳日:2023-10-11 14:57:20 公開日:2023-10-10
# 大規模言語モデルに基づくコード生成のベンチマークと説明:因果論的アプローチ

Benchmarking and Explaining Large Language Model-based Code Generation: A Causality-Centric Approach ( http://arxiv.org/abs/2310.06680v1 )

ライセンス: Link先を確認
Zhenlan Ji, Pingchuan Ma, Zongjie Li, Shuai Wang(参考訳) コード生成は様々なソフトウェア開発シナリオで広く使われているが、生成されたコードの品質は保証されていない。 これは、大規模言語モデル(llms)ベースのコード生成の時代において特に関心事であり、llmsは複雑で強力なブラックボックスモデルと見なされ、高いレベルの自然言語仕様、すなわちプロンプトによってコードを生成するように指示されている。 それでも、LLMの複雑さと透明性の欠如を考えると、LLMのコード生成能力を効果的に評価し、説明することは本質的に困難である。 因果解析の最近の進歩とソフトウェア工学への応用に触発されて,LLM入力プロンプトと生成されたコード間の因果関係を系統的に解析する因果解析に基づくアプローチをローンチした。 本研究ではまず,入力プロンプトの細粒度,人間の理解可能な概念に基づいて構築された,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。 生成した因果グラフは、プロンプトと派生コードの間の因果関係を識別するために使用される。 我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。 本研究の結果は,LLMの有効性を把握し,エンドユーザによる予測理解を支援する技術の可能性を示すものである。 さらに,プロンプトを適切に調整することにより,llm生成コードの品質向上に有効な洞察を提供する方法を示す。

While code generation has been widely used in various software development scenarios, the quality of the generated code is not guaranteed. This has been a particular concern in the era of large language models (LLMs)- based code generation, where LLMs, deemed a complex and powerful black-box model, is instructed by a high-level natural language specification, namely a prompt, to generate code. Nevertheless, effectively evaluating and explaining the code generation capability of LLMs is inherently challenging, given the complexity of LLMs and the lack of transparency. Inspired by the recent progress in causality analysis and its application in software engineering, this paper launches a causality analysis-based approach to systematically analyze the causal relations between the LLM input prompts and the generated code. To handle various technical challenges in this study, we first propose a novel causal graph-based representation of the prompt and the generated code, which is established over the fine-grained, human-understandable concepts in the input prompts. The formed causal graph is then used to identify the causal relations between the prompt and the derived code. We illustrate the insights that our framework can provide by studying over 3 popular LLMs with over 12 prompt adjustment strategies. The results of these studies illustrate the potential of our technique to provide insights into LLM effectiveness, and aid end-users in understanding predictions. Additionally, we demonstrate that our approach provides actionable insights to improve the quality of the LLM-generated code by properly calibrating the prompt.
翻訳日:2023-10-11 14:57:02 公開日:2023-10-10
# 磁気pビットを用いた機械学習量子システム

Machine Learning Quantum Systems with Magnetic p-bits ( http://arxiv.org/abs/2310.06679v1 )

ライセンス: Link先を確認
Shuvro Chowdhury and Kerem Y. Camsari(参考訳) ムーアの法則の減速は、人工知能(AI)アルゴリズムの計算ワークロードが急上昇し続けるにつれ、危機に繋がった。 AIアルゴリズムとアプリケーションのユニークな要件に合わせて、スケーラブルでエネルギー効率のよいハードウェアが緊急に必要である。 この環境では、pビットを用いた確率計算はスケーラブルでドメイン固有でエネルギー効率のよい計算パラダイムとして登場し、特に確率的アプリケーションやアルゴリズムに有用であった。 特に、確率磁気トンネル接合(sMTJ)のようなスピントロニクスデバイスは、統合されたpコンピュータを設計する上で非常に有望である。 本稿では、このような磁気pビットを持つスケーラブルな確率コンピュータが、機械学習と量子物理学を組み合わせた新興分野にどのように役立つかを検討する。

The slowing down of Moore's Law has led to a crisis as the computing workloads of Artificial Intelligence (AI) algorithms continue skyrocketing. There is an urgent need for scalable and energy-efficient hardware catering to the unique requirements of AI algorithms and applications. In this environment, probabilistic computing with p-bits emerged as a scalable, domain-specific, and energy-efficient computing paradigm, particularly useful for probabilistic applications and algorithms. In particular, spintronic devices such as stochastic magnetic tunnel junctions (sMTJ) show great promise in designing integrated p-computers. Here, we examine how a scalable probabilistic computer with such magnetic p-bits can be useful for an emerging field combining machine learning and quantum physics.
翻訳日:2023-10-11 14:56:36 公開日:2023-10-10
# 反射対称性を持つ対角ユニタリ行列の最適回路合成

Optimized synthesis of circuits for diagonal unitary matrices with reflection symmetry ( http://arxiv.org/abs/2310.06676v1 )

ライセンス: Link先を確認
Xinchi Huang, Taichi Kosugi, Hirofumi Nishi, Yu-ichiro Matsushita(参考訳) ノイズの多い中間スケール量子(NISQ)時代には、回路深さとゲート数、特にCNOTゲートを含む絡み合ったゲートの量子回路を最適化することが重要な課題である。 全てのユニタリ作用素の中で、対角ユニタリ行列は、多くの量子アルゴリズム/サブルーチンにおいて重要な役割を果たす特別なクラスを形成する。 自然ゲートセット $\{\mathrm{cnot}, r_z\}$ に基づいて, 一般対角ユニタリ行列の量子回路をいくつかの先行研究で検討し, 最適合成アルゴリズムを提案する。 本稿では,量子回路による粒子の相互作用に対する第1量子化ハミルトニアンのリアルタイム進化問題を含む有望な応用を期待する,反射対称性を持つ対角ユニタリ行列の特定のクラスの実装に関心がある。 このような対称性のため、既存の作業における量子回路をさらに単純化できることを示し、技術的にはゲート数(絡み合い)を最適化する構成的アルゴリズムを提案する。 一般対角ユニタリ行列の以前の合成法と比較して,提案アルゴリズムによる量子回路はゲート数と回路深さのほぼ半分の低減を実現している。

During the noisy intermediate-scale quantum (NISQ) era, it is an important task to optimize the quantum circuits in circuit depth and gate count, especially entanglement gates including the CNOT gate. Among all unitary operators, diagonal unitary matrices form a special class which plays a crucial role in many quantum algorithms/subroutines. Based on a natural gate set $\{\mathrm{CNOT}, R_z\}$, the quantum circuits for general diagonal unitary matrices were discussed in several prior works and optimal synthesis algorithm was proposed in the sense of circuit depth. In this paper, we are interested in the implementation of a specific class of diagonal unitary matrices with reflection symmetry, which has promising applications including the problem of realizing the real-time evolution for first quantized Hamiltonians for interacting particles by quantum circuits. Owing to such a symmetric property, we show that the quantum circuit in the existing work could be further simplified and technically we propose a constructive algorithm which optimizes (entanglement) gate count. Comparing to the previous synthesis methods for general diagonal unitary matrices, the quantum circuit by our proposed algorithm achieves nearly half reduction in both gate count and circuit depth.
翻訳日:2023-10-11 14:56:26 公開日:2023-10-10
# seer: インコンテキストハイブリッドqaの例題選択のためのknapsackアプローチ

SEER: A Knapsack approach to Exemplar Selection for In-Context HybridQA ( http://arxiv.org/abs/2310.06675v1 )

ライセンス: Link先を確認
Jonathan Tonglet, Manon Reusens, Philipp Borchert, Bart Baesens(参考訳) ハイブリッドコンテキストに対する質問応答は複雑なタスクであり、構造化されていないテキストから抽出された情報と構造化されたテーブルを組み合わせる必要がある。 最近、In-Context Learningは推論タスクの大幅なパフォーマンス向上を示した。 このパラダイムでは、大きな言語モデルは、少数のサポート例に基づいて予測を実行する。 In-Context Learningのパフォーマンスは、特にHybridQAの場合において、推論チェーンの多様性とハイブリッドコンテキストの大規模化を考慮し、支援対象者の選択手順に大きく依存する。 本稿では,代表的かつ多様である例題の組を選択する新しい方法であるハイブリッド推論(seer)のための例題の選定について述べる。 SEER の重要な特徴は、Knapsack Integer Linear Program として典型的な選択を定式化することである。 Knapsackフレームワークは、望ましい属性を優先する多様性制約と、提供されたキャパシティ予算を即時サイズで尊重することを保証するキャパシティ制約を組み込む柔軟性を提供する。 seerの有効性は、hybridqaの2つの実世界のベンチマークであるfinqaとtat-qaで実証されている。

Question answering over hybrid contexts is a complex task, which requires the combination of information extracted from unstructured texts and structured tables in various ways. Recently, In-Context Learning demonstrated significant performance advances for reasoning tasks. In this paradigm, a large language model performs predictions based on a small set of supporting exemplars. The performance of In-Context Learning depends heavily on the selection procedure of the supporting exemplars, particularly in the case of HybridQA, where considering the diversity of reasoning chains and the large size of the hybrid contexts becomes crucial. In this work, we present Selection of ExEmplars for hybrid Reasoning (SEER), a novel method for selecting a set of exemplars that is both representative and diverse. The key novelty of SEER is that it formulates exemplar selection as a Knapsack Integer Linear Program. The Knapsack framework provides the flexibility to incorporate diversity constraints that prioritize exemplars with desirable attributes, and capacity constraints that ensure that the prompt size respects the provided capacity budgets. The effectiveness of SEER is demonstrated on FinQA and TAT-QA, two real-world benchmarks for HybridQA, where it outperforms previous exemplar selection methods.
翻訳日:2023-10-11 14:56:03 公開日:2023-10-10
# サードパーティEコマース統合における楕円曲線暗号パラメータ最適化のためのAIアルゴリズムの比較:前量子時代分析

Comparing AI Algorithms for Optimizing Elliptic Curve Cryptography Parameters in Third-Party E-Commerce Integrations: A Pre-Quantum Era Analysis ( http://arxiv.org/abs/2310.06752v1 )

ライセンス: Link先を確認
Felipe Tellez, Jorge Ortiz(参考訳) 本稿では,2つの重要な人工知能アルゴリズムである遺伝的アルゴリズム(GA)と粒子群最適化(PSO)の比較分析を行い,楕円曲線暗号(ECC)パラメータの最適化に着目した。 これらは楕円曲線係数、素数、生成点、群位数、余因子を包含する。 この研究は、どのバイオインスパイアされたアルゴリズムがECC設定に対してより良い最適化結果をもたらすかを洞察し、同じ適合関数の下でのパフォーマンスを調べる。 この関数は、特異曲線や異常曲線の評価、ポラードのローアタックやハッセの最適化精度の定理の適用など、堅牢なECCパラメータを保証する方法を含んでいる。 GAとPSOによって生成される最適化されたパラメータは、Elliptic Curve-Diffie Hellman (ECDH)とHashベースのMessage Authentication Code (HMAC)を使用して順序メッセージの送信中にsecp256k1のようなよく知られた曲線と対照的に、模擬eコマース環境でテストされる。 本研究は,ECC最適化におけるGAとPSOの有効性に注目し,サードパーティのeコマース統合におけるサイバーセキュリティの強化に寄与する。 量子コンピューティングの普及に先立って,これらの発見の即時検討を推奨する。

This paper presents a comparative analysis between the Genetic Algorithm (GA) and Particle Swarm Optimization (PSO), two vital artificial intelligence algorithms, focusing on optimizing Elliptic Curve Cryptography (ECC) parameters. These encompass the elliptic curve coefficients, prime number, generator point, group order, and cofactor. The study provides insights into which of the bio-inspired algorithms yields better optimization results for ECC configurations, examining performances under the same fitness function. This function incorporates methods to ensure robust ECC parameters, including assessing for singular or anomalous curves and applying Pollard's rho attack and Hasse's theorem for optimization precision. The optimized parameters generated by GA and PSO are tested in a simulated e-commerce environment, contrasting with well-known curves like secp256k1 during the transmission of order messages using Elliptic Curve-Diffie Hellman (ECDH) and Hash-based Message Authentication Code (HMAC). Focusing on traditional computing in the pre-quantum era, this research highlights the efficacy of GA and PSO in ECC optimization, with implications for enhancing cybersecurity in third-party e-commerce integrations. We recommend the immediate consideration of these findings before quantum computing's widespread adoption.
翻訳日:2023-10-11 14:48:17 公開日:2023-10-10
# 因果規則学習:重み付き因果規則による異種治療効果の理解の促進

Causal Rule Learning: Enhancing the Understanding of Heterogeneous Treatment Effect via Weighted Causal Rules ( http://arxiv.org/abs/2310.06746v1 )

ライセンス: Link先を確認
Ying Wu and Hanzhong Liu and Kai Ren and Xiangyu Chang(参考訳) 解釈可能性(英: Interpretability)は、機械学習手法を用いて不均一な治療効果を推定する上で重要な関心事である。 予測的・記述的・関連的な解釈可能性の枠組みから着想を得た因果規則学習法は,非均一な治療効果の予測と理解を高めるために,潜在的サブグループを特徴付ける因果規則の洗練された集合を見出す。 因果ルール学習は、ルール発見、ルール選択、ルール分析の3つのフェーズを含む。 ルール発見フェーズでは,因果樹林を用いて,対応するサブグループ平均治療効果を伴う因果ルールのプールを生成する。 選択相はD-ラーニング法を用いてこれらの規則のサブセットを選択し、サブグループレベルの効果の線形結合として個々のレベルの治療効果を分解する。 個人が同時に、平均的な治療効果の異なる複数のグループに属している場合はどうでしょう? ルール分析フェーズは、サブセット内の各ルールを複数の視点から分析するための詳細な手順を概説し、さらなる検証のための最も有望なルールを明らかにする。 規則そのもの、それに対応するサブグループ治療効果、および線形結合におけるそれらの重みは、不均一な治療効果に関するより深い洞察を与える。 シミュレーションと実世界のデータ分析は、基底真理が複雑でサンプルサイズが十分である場合、不均一な処理効果の解釈可能な推定における因果規則学習の優れた性能を示す。

Interpretability is a key concern in estimating heterogeneous treatment effects using machine learning methods, especially for healthcare applications where high-stake decisions are often made. Inspired by the Predictive, Descriptive, Relevant framework of interpretability, we propose causal rule learning which finds a refined set of causal rules characterizing potential subgroups to estimate and enhance our understanding of heterogeneous treatment effects. Causal rule learning involves three phases: rule discovery, rule selection, and rule analysis. In the rule discovery phase, we utilize a causal forest to generate a pool of causal rules with corresponding subgroup average treatment effects. The selection phase then employs a D-learning method to select a subset of these rules to deconstruct individual-level treatment effects as a linear combination of the subgroup-level effects. This helps to answer an ignored question by previous literature: what if an individual simultaneously belongs to multiple groups with different average treatment effects? The rule analysis phase outlines a detailed procedure to further analyze each rule in the subset from multiple perspectives, revealing the most promising rules for further validation. The rules themselves, their corresponding subgroup treatment effects, and their weights in the linear combination give us more insights into heterogeneous treatment effects. Simulation and real-world data analysis demonstrate the superior performance of causal rule learning on the interpretable estimation of heterogeneous treatment effect when the ground truth is complex and the sample size is sufficient.
翻訳日:2023-10-11 14:47:51 公開日:2023-10-10
# HiFi-123:高精細画像から3Dコンテンツ生成へ

HiFi-123: Towards High-fidelity One Image to 3D Content Generation ( http://arxiv.org/abs/2310.06744v1 )

ライセンス: Link先を確認
Wangbo Yu, Li Yuan, Yan-Pei Cao, Xiangjun Gao, Xiaoyu Li, Long Quan, Ying Shan, Yonghong Tian(参考訳) テキスト・画像拡散モデルの最近の進歩により、単一の画像から3次元生成が可能になった。 しかし、現在の画像から3Dへの手法は、ぼやけたテクスチャや参照画像からの逸脱を伴って、新しいビューのサブ最適結果を生成することが多い。 本稿では,高忠実かつ多視点で一貫した3次元生成が可能なHiFi-123を提案する。 まず, 合成ビューと参照ビュー間の品質ギャップを実質的に低減する, 参照ガイドによる新しいビュー拡張手法を提案する。 第2に, 新たな視点向上を活かして, 新たな基準誘導型蒸留損失を提示する。 最適化に基づく画像-3Dパイプラインに組み込むと、3D生成の品質が向上し、最先端の性能が向上する。 包括的評価は,既存手法に対するアプローチの有効性を質的,定量的に示すものである。

Recent advances in text-to-image diffusion models have enabled 3D generation from a single image. However, current image-to-3D methods often produce suboptimal results for novel views, with blurred textures and deviations from the reference image, limiting their practical applications. In this paper, we introduce HiFi-123, a method designed for high-fidelity and multi-view consistent 3D generation. Our contributions are twofold: First, we propose a reference-guided novel view enhancement technique that substantially reduces the quality gap between synthesized and reference views. Second, capitalizing on the novel view enhancement, we present a novel reference-guided state distillation loss. When incorporated into the optimization-based image-to-3D pipeline, our method significantly improves 3D generation quality, achieving state-of-the-art performance. Comprehensive evaluations demonstrate the effectiveness of our approach over existing methods, both qualitatively and quantitatively.
翻訳日:2023-10-11 14:47:25 公開日:2023-10-10
# 球面高調波と正弦波表現ネットワークを用いた地理的位置符号化

Geographic Location Encoding with Spherical Harmonics and Sinusoidal Representation Networks ( http://arxiv.org/abs/2310.06743v1 )

ライセンス: Link先を確認
Marc Ru{\ss}wurm, Konstantin Klemmer, Esther Rolf, Robin Zbinden, Devis Tuia(参考訳) 地理的空間の学習の特徴表現は、リモートセンシング、生態学、疫学といったアプリケーションドメインにまたがる地理的データを統合する機械学習モデルにとって不可欠である。 最近の研究では、主に二重フーリエ球面(dfs)機能に基づく正弦波とコサインの投影を用いた座標を埋め込みます -- これらの埋め込みは、大域的なデータでも長方形のデータ領域を前提としており、特に極でのアーティファクトに繋がる可能性があるのです。 同時に、これらの機能埋め込みが組み合わされるニューラルネットワークアーキテクチャの正確な設計には、比較的注意が払われていない。 本研究では,球面上にネイティブに定義された球面調和基底関数と,二重フーリエ球面埋め込みを学習できる正弦波表現ネットワーク(sirennets)を組み合わせた,グローバル分散地理データのための新しい位置エンコーダを提案する。 位置埋め込みとニューラルネットワークアーキテクチャの相互積を様々な分類・回帰ベンチマークと合成評価データセットで体系的に評価する。 位置符号化とニューラルネットワークを併用して意味のある表現を学習する従来の手法とは対照的に,球面調和と正弦波表現の双方が,タスク間での最先端性能を競い合っていることを示す。 私たちはwww.github.com/marccoru/locationencoderでソースコードを提供しています。

Learning feature representations of geographical space is vital for any machine learning model that integrates geolocated data, spanning application domains such as remote sensing, ecology, or epidemiology. Recent work mostly embeds coordinates using sine and cosine projections based on Double Fourier Sphere (DFS) features -- these embeddings assume a rectangular data domain even on global data, which can lead to artifacts, especially at the poles. At the same time, relatively little attention has been paid to the exact design of the neural network architectures these functional embeddings are combined with. This work proposes a novel location encoder for globally distributed geographic data that combines spherical harmonic basis functions, natively defined on spherical surfaces, with sinusoidal representation networks (SirenNets) that can be interpreted as learned Double Fourier Sphere embedding. We systematically evaluate the cross-product of positional embeddings and neural network architectures across various classification and regression benchmarks and synthetic evaluation datasets. In contrast to previous approaches that require the combination of both positional encoding and neural networks to learn meaningful representations, we show that both spherical harmonics and sinusoidal representation networks are competitive on their own but set state-of-the-art performances across tasks when combined. We provide source code at www.github.com/marccoru/locationencoder
翻訳日:2023-10-11 14:47:08 公開日:2023-10-10
# 医療画像解析のためのアウトオブディストリビューションとデータ制限シナリオのマルチドメイン化

Multi-domain improves out-of-distribution and data-limited scenarios for medical image analysis ( http://arxiv.org/abs/2310.06737v1 )

ライセンス: Link先を確認
Ece Ozkan and Xavier Boix(参考訳) 現在の医療画像解析のための機械学習手法は、ターゲット領域内のデータを利用して、特定のタスク用に調整されたモデルの開発に重点を置いている。 これらの特化モデルはデータ収集であり、しばしば配布外サンプルへの一般化の限界を示す。 近年,様々な領域のデータを組み合わせて,優れた一般化能力を示す基礎モデルが提案されている。 そこで本研究では, x線, mri, ct, 超音波画像などの様々な画像形態, 軸線, コロナ像, 矢状像などの様々な視点を含む, 多様な医用画像領域の組み込みについて紹介する。 我々は、このアプローチをマルチドメインモデルと呼び、その性能を特殊モデルのそれと比較する。 以上の知見は,マルチドメインモデルの優れた一般化能力,特に医療アプリケーションで頻繁に発生するデータ可用性とアウトオブディストリビューションの制限を特徴とするシナリオを裏付けるものである。 多様なデータの統合により、複数のドメインモデルがドメイン間で共有情報を利用することができ、全体的な結果が大幅に向上する。 臓器認識のためのマルチドメインモデルは,従来の特殊モデルと比較して最大10%精度を向上させることができる。

Current machine learning methods for medical image analysis primarily focus on developing models tailored for their specific tasks, utilizing data within their target domain. These specialized models tend to be data-hungry and often exhibit limitations in generalizing to out-of-distribution samples. Recently, foundation models have been proposed, which combine data from various domains and demonstrate excellent generalization capabilities. Building upon this, this work introduces the incorporation of diverse medical image domains, including different imaging modalities like X-ray, MRI, CT, and ultrasound images, as well as various viewpoints such as axial, coronal, and sagittal views. We refer to this approach as multi-domain model and compare its performance to that of specialized models. Our findings underscore the superior generalization capabilities of multi-domain models, particularly in scenarios characterized by limited data availability and out-of-distribution, frequently encountered in healthcare applications. The integration of diverse data allows multi-domain models to utilize shared information across domains, enhancing the overall outcomes significantly. To illustrate, for organ recognition, multi-domain model can enhance accuracy by up to 10% compared to conventional specialized models.
翻訳日:2023-10-11 14:46:44 公開日:2023-10-10
# S4Sleep:ディープラーニングベースの睡眠ステージ分類モデルの設計空間の解明

S4Sleep: Elucidating the design space of deep-learning-based sleep stage classification models ( http://arxiv.org/abs/2310.06715v1 )

ライセンス: Link先を確認
Tiezhi Wang and Nils Strodthoff(参考訳) ポリソムノグラフィ記録における睡眠ステージのスコア付けは、有意なレート間変動に苦しむ時間のかかる作業である。 したがって、機械学習アルゴリズムの適用によるメリットがあると考えられる。 この目的のために多くのアルゴリズムが提案されているが、特定の重要なアーキテクチャ決定は体系的な調査を受けていない。 本研究では,エンコーダ・予測アーキテクチャの幅広いカテゴリにおいて,これらの設計選択を慎重に検討する。 時系列およびスペクトログラム入力表現の両方に適用可能なロバストアーキテクチャを同定する。 これらのアーキテクチャは構造化状態空間モデルを積分成分として含み、広範なSHHSデータセットの性能が統計的に著しく向上する。 これらの改善は統計的および系統的な誤差推定によって評価される。 本研究から得られたアーキテクチャ的洞察は,今後の睡眠ステージング研究に有用であるだけでなく,他の時系列アノテーションタスクとの関連性も期待できる。

Scoring sleep stages in polysomnography recordings is a time-consuming task plagued by significant inter-rater variability. Therefore, it stands to benefit from the application of machine learning algorithms. While many algorithms have been proposed for this purpose, certain critical architectural decisions have not received systematic exploration. In this study, we meticulously investigate these design choices within the broad category of encoder-predictor architectures. We identify robust architectures applicable to both time series and spectrogram input representations. These architectures incorporate structured state space models as integral components, leading to statistically significant advancements in performance on the extensive SHHS dataset. These improvements are assessed through both statistical and systematic error estimations. We anticipate that the architectural insights gained from this study will not only prove valuable for future research in sleep staging but also hold relevance for other time series annotation tasks.
翻訳日:2023-10-11 14:46:24 公開日:2023-10-10
# 微調整言語モデルにおける記憶の探索

Exploring Memorization in Fine-tuned Language Models ( http://arxiv.org/abs/2310.06714v1 )

ライセンス: Link先を確認
Shenglai Zeng, Yaxin Li, Jie Ren, Yiding Liu, Han Xu, Pengfei He, Yue Xing, Shuaiqiang Wang, Jiliang Tang, Dawei Yin(参考訳) LLMは様々なタスクにおいて優れた能力を示してきたが、トレーニングデータの記憶も示しており、プライバシーと著作権の懸念を招いている。 事前学習中の記憶の研究は行われているが、微調整時の記憶の探索は限られている。 事前トレーニングと比較すると、微調整は通常、機密データとさまざまな目的を伴うため、ユニークな記憶行動と異なるプライバシリスクをもたらす可能性がある。 本稿では,タスク間の微調整時のlmsの記憶を探索する最初の包括的な解析を行う。 オープンソースと、さまざまなタスクにまたがる微調整LMによる研究は、微調整の暗記化がタスク間の大きな相違を示すことを示している。 我々は,この課題の差異をスパース符号化理論を通じて理解し,記憶力と注意スコア分布との間に強い相関関係を明らかにする。 その記憶挙動を調べることで、マルチタスク微調整舗装は微調整微調整記憶を緩和するための潜在的戦略となる。

LLMs have shown great capabilities in various tasks but also exhibited memorization of training data, thus raising tremendous privacy and copyright concerns. While prior work has studied memorization during pre-training, the exploration of memorization during fine-tuning is rather limited. Compared with pre-training, fine-tuning typically involves sensitive data and diverse objectives, thus may bring unique memorization behaviors and distinct privacy risks. In this work, we conduct the first comprehensive analysis to explore LMs' memorization during fine-tuning across tasks. Our studies with open-sourced and our own fine-tuned LMs across various tasks indicate that fine-tuned memorization presents a strong disparity among tasks. We provide an understanding of this task disparity via sparse coding theory and unveil a strong correlation between memorization and attention score distribution. By investigating its memorization behavior, multi-task fine-tuning paves a potential strategy to mitigate fine-tuned memorization.
翻訳日:2023-10-11 14:46:10 公開日:2023-10-10
# 模倣学習におけるゼロショット転送

Zero-Shot Transfer in Imitation Learning ( http://arxiv.org/abs/2310.06710v1 )

ライセンス: Link先を確認
Alvaro Cauderan, Gauthier Boeshertz, Florian Schwarb, Calvin Zhang(参考訳) 本稿では,専門家の行動の模倣を学習し,再訓練することなく,未発見の領域に移行できるアルゴリズムを提案する。 このようなアルゴリズムは、ロボット学習のような現実世界のアプリケーションと非常に関係がある。 1)報酬機能は設計が困難である。 2) あるドメインから学んだ方針を別のドメインに展開することは困難である。 3) セキュリティ上の懸念から,現実世界で直接学習することは高価か,あるいは実現不可能である。 このような制約を克服するために、AnnealedVAEを用いて非交叉状態表現を学習し、敵の訓練を避ける単一のQ-関数を学習して専門家を模倣することにより、Deep RLの最近の進歩を組み合わせる。 本手法の有効性を,難易度,要求される伝達知識の種類の3つの環境において実証する。

We present an algorithm that learns to imitate expert behavior and can transfer to previously unseen domains without retraining. Such an algorithm is extremely relevant in real-world applications such as robotic learning because 1) reward functions are difficult to design, 2) learned policies from one domain are difficult to deploy in another domain and 3) learning directly in the real world is either expensive or unfeasible due to security concerns. To overcome these constraints, we combine recent advances in Deep RL by using an AnnealedVAE to learn a disentangled state representation and imitate an expert by learning a single Q-function which avoids adversarial training. We demonstrate the effectiveness of our method in 3 environments ranging in difficulty and the type of transfer knowledge required.
翻訳日:2023-10-11 14:45:53 公開日:2023-10-10
# 指先での品質管理:品質を意識した翻訳モデル

Quality Control at Your Fingertips: Quality-Aware Translation Models ( http://arxiv.org/abs/2310.06707v1 )

ライセンス: Link先を確認
Christian Tomani, David Vilar, Markus Freitag, Colin Cherry, Subhajit Naskar, Mara Finkelstein and Daniel Cremers(参考訳) MAPデコーディングは、ニューラルネットワーク翻訳(NMT)モデルにおいて最も広く使われているデコーディング戦略である。 基礎となる前提は、モデル確率は人間の判断とよく相関し、より良い翻訳がよりありそうである。 しかし、この仮定が常に成り立つわけではなく、最小ベイズリスク(MBR)や品質認識復号といったユーティリティ機能を直接最適化する復号化戦略は、標準MAP復号よりも翻訳品質を著しく向上させることができる。 これらの手法の主な欠点は、実用性を予測するために追加のモデルが必要であり、デコード中に追加のステップが必要であることである。 本稿では,NMTモデル自体の品質を学習し,その品質を推定することで,NMTモデル自体を品質に適応させることを提案する。 復号の際には、モデル自身の品質推定値を用いて生成プロセスを導出し、可能な限り高品質な翻訳を作成できる。 本モデルでは,翻訳中の出力を自己評価し,別の品質推定モデルの必要性を排除できることを実証する。 さらに,地図デコード中のプロンプトとしてこの品質信号を用いることにより,翻訳品質が著しく向上することを示す。 内部品質推定を用いてmbr復号中に仮説空間を損なう場合, 翻訳品質をさらに向上させるだけでなく, 推定速度を2桁削減することができる。

Maximum-a-posteriori (MAP) decoding is the most widely used decoding strategy for neural machine translation (NMT) models. The underlying assumption is that model probability correlates well with human judgment, with better translations being more likely. However, research has shown that this assumption does not always hold, and decoding strategies which directly optimize a utility function, like Minimum Bayes Risk (MBR) or Quality-Aware decoding can significantly improve translation quality over standard MAP decoding. The main disadvantage of these methods is that they require an additional model to predict the utility, and additional steps during decoding, which makes the entire process computationally demanding. In this paper, we propose to make the NMT models themselves quality-aware by training them to estimate the quality of their own output. During decoding, we can use the model's own quality estimates to guide the generation process and produce the highest-quality translations possible. We demonstrate that the model can self-evaluate its own output during translation, eliminating the need for a separate quality estimation model. Moreover, we show that using this quality signal as a prompt during MAP decoding can significantly improve translation quality. When using the internal quality estimate to prune the hypothesis space during MBR decoding, we can not only further improve translation quality, but also reduce inference speed by two orders of magnitude.
翻訳日:2023-10-11 14:45:32 公開日:2023-10-10
# 超伝導デバイス上での繰り返し測定による量子貯水池計算

Quantum reservoir computing with repeated measurements on superconducting devices ( http://arxiv.org/abs/2310.06706v1 )

ライセンス: Link先を確認
Toshiki Yasuda, Yudai Suzuki, Tomoyuki Kubota, Kohei Nakajima, Qi Gao, Wenlong Zhang, Satoshi Shimono, Hendra I. Nurdin, Naoki Yamamoto(参考訳) 貯留層コンピューティングは、非線形性と動的システムのメモリ特性を用いて時系列データを予測するために、人工的または物理的散逸的ダイナミクスを使用する機械学習フレームワークである。 量子システムは有望な貯水池と見なされているが、従来の量子貯水池計算(QRC)モデルは実行時間に問題がある。 本稿では,繰り返し測定を利用して時系列を生成する量子貯水池(QR)システムを開発し,実行時間を効果的に短縮する。 我々は,提案したQRCをIBMの量子超伝導デバイス上で実験的に実装し,従来のQRC法よりも精度が高く,実行時間が短いことを示す。 さらに、提案したQRCの計算能力の定量化のために、時間情報処理能力について検討し、特に、この量を用いて、利用可能な情報量と消散強度とを最も相反する測定強度を同定する。 ソフトロボットによる実験実験も行われ、1000回以上の繰り返し測定が効果的に行われた。 最後に、120 qubitsデバイスによる予備結果について述べる。

Reservoir computing is a machine learning framework that uses artificial or physical dissipative dynamics to predict time-series data using nonlinearity and memory properties of dynamical systems. Quantum systems are considered as promising reservoirs, but the conventional quantum reservoir computing (QRC) models have problems in the execution time. In this paper, we develop a quantum reservoir (QR) system that exploits repeated measurement to generate a time-series, which can effectively reduce the execution time. We experimentally implement the proposed QRC on the IBM's quantum superconducting device and show that it achieves higher accuracy as well as shorter execution time than the conventional QRC method. Furthermore, we study the temporal information processing capacity to quantify the computational capability of the proposed QRC; in particular, we use this quantity to identify the measurement strength that best tradeoffs the amount of available information and the strength of dissipation. An experimental demonstration with soft robot is also provided, where the repeated measurement over 1000 timesteps was effectively applied. Finally, a preliminary result with 120 qubits device is discussed.
翻訳日:2023-10-11 14:44:50 公開日:2023-10-10
# 知識労働者はどのようにして生成AIが産業を変革するか

How Knowledge Workers Think Generative AI Will (Not) Transform Their Industries ( http://arxiv.org/abs/2310.06778v1 )

ライセンス: Link先を確認
Allison Woodruff and Renee Shelby and Patrick Gage Kelley and Steven Rousso-Schindler and Jamila Smith-Loud and Lauren Wilcox(参考訳) 生成AIは、複数の知識産業に変革をもたらすことが期待されている。 将来、知識労働者がaiが産業にどう影響するかをより深く理解するため、米国3都市で54人の参加者を含む7つの産業を対象とした参加型研究ワークショップを開催した。 我々は、集団の談話にまたがる支配的な物語を含む、生成的aiが与える影響に対する参加者の期待について述べる。 参加者は一般的に、メディアや学術的な物語に現在投影されている知識産業の破壊的な変化を期待していない。 しかし、参加者は、生成AIが現在産業を形作っている4つの社会勢力を増幅することを期待している。 これらの力について述べるとともに、特定の知識産業における態度に関するさらなる詳細を述べる。 我々は,HCIコミュニティの意義と研究課題について考察した。

Generative AI is expected to have transformative effects in multiple knowledge industries. To better understand how knowledge workers expect generative AI may affect their industries in the future, we conducted participatory research workshops for seven different industries, with a total of 54 participants across three US cities. We describe participants' expectations of generative AI's impact, including a dominant narrative that cut across the groups' discourse: participants largely envision generative AI as a tool to perform menial work, under human review. Participants do not generally anticipate the disruptive changes to knowledge industries currently projected in common media and academic narratives. Participants do however envision generative AI may amplify four social forces currently shaping their industries: deskilling, dehumanization, disconnection, and disinformation. We describe these forces, and then we provide additional detail regarding attitudes in specific knowledge industries. We conclude with a discussion of implications and research challenges for the HCI community.
翻訳日:2023-10-11 14:38:42 公開日:2023-10-10
# 情報コンテンツ探索

Information Content Exploration ( http://arxiv.org/abs/2310.06777v1 )

ライセンス: Link先を確認
Jacob Chmura, Hasham Burhani, Xiao Qi Shi(参考訳) スパース報酬環境は強化学習エージェントにとって困難であることが知られている。 このような環境では、効率的でスケーラブルな探索が重要である。 探索とは、エージェントが環境に関する情報を取得する手段である。 本稿では,探索的行動の体系的定量化と,エージェントが取得する軌道の情報内容の最大化による状態被覆の促進を目的とした,新たな内在的報酬を提案する。 本手法を,好奇心駆動学習とランダムネットワーク蒸留という,内在的報酬技術に基づく代替探索手法と比較した。 情報理論的報酬は,モンテズマ・リベンジ(モンテズマ・リベンジ)など,多種多様なゲームにおいて,効率的な探索と成果をもたらすことを示す。 最後に, 離散圧縮された潜在空間における情報内容を最大化し, サンプル効率を高め, 連続状態空間に一般化する拡張を提案する。

Sparse reward environments are known to be challenging for reinforcement learning agents. In such environments, efficient and scalable exploration is crucial. Exploration is a means by which an agent gains information about the environment. We expand on this topic and propose a new intrinsic reward that systemically quantifies exploratory behavior and promotes state coverage by maximizing the information content of a trajectory taken by an agent. We compare our method to alternative exploration based intrinsic reward techniques, namely Curiosity Driven Learning and Random Network Distillation. We show that our information theoretic reward induces efficient exploration and outperforms in various games, including Montezuma Revenge, a known difficult task for reinforcement learning. Finally, we propose an extension that maximizes information content in a discretely compressed latent space which boosts sample efficiency and generalizes to continuous state spaces.
翻訳日:2023-10-11 14:38:27 公開日:2023-10-10
# Uni3D: 大規模で統一された3D表現を探る

Uni3D: Exploring Unified 3D Representation at Scale ( http://arxiv.org/abs/2310.06773v1 )

ライセンス: Link先を確認
Junsheng Zhou, Jinsheng Wang, Baorui Ma, Yu-Shen Liu, Tiejun Huang, Xinlong Wang(参考訳) 画像やテキストの表現のスケールアップは、ここ数年で広範囲に研究され、ビジョンや言語の学習に革命をもたらした。 しかし、3dオブジェクトとシーンのスケーラブルな表現は、比較的未調査である。 そこで本研究では,大規模に統一された3次元表現を探索する3次元基礎モデル uni3d を提案する。 Uni3Dは、事前にトレーニングされた2D初期化ViTエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。 Uni3Dは、シンプルなアーキテクチャとプリテキストタスクによって、豊富な2D事前訓練されたモデルを初期化として、画像-テキスト整列モデルをターゲットとして活用し、2Dモデルの大きな可能性と3D世界へのスケーリング戦略を解き放つ。 我々は、Uni3Dを10億のパラメータに効率的にスケールアップし、ゼロショット分類、少数ショット分類、オープンワールド理解、部分セグメンテーションなど、幅広い3Dタスクに新しいレコードを設定する。 強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。 われわれは、Uni3Dが3Dドメインにおける表現のスケールアップと効率の両面での新しい方向性を提供すると考えている。

Scaling up representations for images or text has been extensively investigated in the past few years and has led to revolutions in learning vision and language. However, scalable representation for 3D objects and scenes is relatively unexplored. In this work, we present Uni3D, a 3D foundation model to explore the unified 3D representation at scale. Uni3D uses a 2D initialized ViT end-to-end pretrained to align the 3D point cloud features with the image-text aligned features. Via the simple architecture and pretext task, Uni3D can leverage abundant 2D pretrained models as initialization and image-text aligned models as the target, unlocking the great potential of 2D models and scaling-up strategies to the 3D world. We efficiently scale up Uni3D to one billion parameters, and set new records on a broad range of 3D tasks, such as zero-shot classification, few-shot classification, open-world understanding and part segmentation. We show that the strong Uni3D representation also enables applications such as 3D painting and retrieval in the wild. We believe that Uni3D provides a new direction for exploring both scaling up and efficiency of the representation in 3D domain.
翻訳日:2023-10-11 14:38:13 公開日:2023-10-10
# 離散的個人学習のための相関雑音が独立雑音を打ち負かす

Correlated Noise Provably Beats Independent Noise for Differentially Private Learning ( http://arxiv.org/abs/2310.06771v1 )

ライセンス: Link先を確認
Christopher A. Choquette-Choo, Krishnamurthy Dvijotham, Krishna Pillutla, Arun Ganesh, Thomas Steinke, Abhradeep Thakurta(参考訳) 異なるプライベート学習アルゴリズムは学習プロセスにノイズを注入する。 最も一般的なプライベート学習アルゴリズムであるDP-SGDは、各イテレーションに独立なガウス雑音を付加するが、近年の行列分解機構の研究は、ノイズに相関を導入することにより、その有用性を大幅に向上することを示した。 相関関数の任意の選択に対して漸近的学習ユーティリティを特徴付け、線形回帰の正確な解析的境界を与え、一般凸関数に対する凸プログラムの解として提供する。 これらの境界を用いて,実効次元や条件数などの問題パラメータの関数として,バニラDP-SGDの相関ノイズが向上することを示す。 さらに, 雑音相関行列の最適化に用いる半定値プログラムの立方体複雑性を回避し, 近最適相関関数の解析式を導出する。 我々は私的深層学習の実験で理論を検証する。 私たちの作業は、計算とメモリの両面で効率的でありながら、以前の作業にマッチするか、上回っています。

Differentially private learning algorithms inject noise into the learning process. While the most common private learning algorithm, DP-SGD, adds independent Gaussian noise in each iteration, recent work on matrix factorization mechanisms has shown empirically that introducing correlations in the noise can greatly improve their utility. We characterize the asymptotic learning utility for any choice of the correlation function, giving precise analytical bounds for linear regression and as the solution to a convex program for general convex functions. We show, using these bounds, how correlated noise provably improves upon vanilla DP-SGD as a function of problem parameters such as the effective dimension and condition number. Moreover, our analytical expression for the near-optimal correlation function circumvents the cubic complexity of the semi-definite program used to optimize the noise correlation matrix in previous work. We validate our theory with experiments on private deep learning. Our work matches or outperforms prior work while being efficient both in terms of compute and memory.
翻訳日:2023-10-11 14:37:54 公開日:2023-10-10
# SWE-bench: 言語モデルは現実のGitHubの問題を解決することができるか?

SWE-bench: Can Language Models Resolve Real-World GitHub Issues? ( http://arxiv.org/abs/2310.06770v1 )

ライセンス: Link先を確認
Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan(参考訳) 言語モデルは、効果的に評価する能力を上回っていますが、将来の発展には、その能力のフロンティアを研究することが不可欠です。 私たちは、現実世界のソフトウェアエンジニアリングは、次世代の言語モデルを評価するためのリッチで持続可能なテストベッドであると考えています。 SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、12ドルの人気のあるPythonリポジトリで対応するプルリクエストを含む、評価フレームワークである。 解決すべき問題の説明とともにコードベースが与えられると、言語モデルは、問題に対処するためにコードベースを編集するタスクを負う。 SWE-benchの問題を解決するには、複数の関数、クラス、ファイルの同時変更の理解と調整が必要で、実行環境と対話するためのモデルを要求し、非常に長いコンテキストを処理し、従来のコード生成以上の複雑な推論を実行する必要がある。 我々の評価は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題のみを解決可能であることを示している。 クロード2とGPT-4はそれぞれ4.8$%と1.7$%のインスタンスを解決している。 SWEベンチの進歩は、より実用的でインテリジェントで自律的なLMに向けたステップを表している。

Language models have outpaced our ability to evaluate them effectively, but for their future development it is essential to study the frontier of their capabilities. We consider real-world software engineering to be a rich, sustainable, and challenging testbed for evaluating the next generation of language models. We therefore introduce SWE-bench, an evaluation framework including $2,294$ software engineering problems drawn from real GitHub issues and corresponding pull requests across $12$ popular Python repositories. Given a codebase along with a description of an issue to be resolved, a language model is tasked with editing the codebase to address the issue. Resolving issues in SWE-bench frequently requires understanding and coordinating changes across multiple functions, classes, and even files simultaneously, calling for models to interact with execution environments, process extremely long contexts and perform complex reasoning that goes far beyond traditional code generation. Our evaluations show that both state-of-the-art proprietary models and our fine-tuned model SWE-Llama can resolve only the simplest issues. Claude 2 and GPT-4 solve a mere $4.8$% and $1.7$% of instances respectively, even when provided with an oracle retriever. Advances on SWE-bench represent steps towards LMs that are more practical, intelligent, and autonomous.
翻訳日:2023-10-11 14:37:36 公開日:2023-10-10
# OmniLingo:リスニングと発話に基づく言語学習

OmniLingo: Listening- and speaking-based language learning ( http://arxiv.org/abs/2310.06764v1 )

ライセンス: Link先を確認
Francis M. Tyers and Nicholas Howell(参考訳) 本稿では,リスニングおよび発話ベースの言語学習アプリケーションのためのデータ配信のためのアーキテクチャであるomnilingoと,このアーキテクチャを用いたデモンストレーションクライアントについて述べる。 アーキテクチャは惑星間ファイルシステム(IPFS)に基づいており、データに対するユーザー主権を最前線に置いている。

In this demo paper we present OmniLingo, an architecture for distributing data for listening- and speaking-based language learning applications and a demonstration client built using the architecture. The architecture is based on the Interplanetary Filesystem (IPFS) and puts at the forefront user sovereignty over data.
翻訳日:2023-10-11 14:37:10 公開日:2023-10-10
# FABind:高速かつ高精度なタンパク質-リガンド結合

FABind: Fast and Accurate Protein-Ligand Binding ( http://arxiv.org/abs/2310.06763v1 )

ライセンス: Link先を確認
Qizhi Pei, Kaiyuan Gao, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Kun He, Tie-Yan Liu, Rui Yan(参考訳) タンパク質とリガンド間の相互作用をモデル化し、その結合構造を正確に予測することは、薬物の発見において非常に難しい課題である。 ディープラーニングの最近の進歩は、サンプリングベースと回帰ベースの方法が2つの顕著なアプローチとして登場し、この問題に対処する上で有望であることを示している。 しかし、これらの方法には顕著な制限がある。 サンプリングベースの方法は、選択のために複数の候補構造を生成する必要があるため、しばしば効率が低下する。 一方,回帰法では予測速度は速いが,精度は低下する可能性がある。 さらに、タンパク質サイズの変化は、しばしば適切な結合ポケットを選択するために外部モジュールを必要とする。 そこで本研究では,ポケット予測とドッキングを組み合わせて,高精度かつ高速なタンパク質-リガンド結合を実現するエンド・ツー・エンドモデルである $\mathbf{FABind}$ を提案する。 $\mathbf{FABind}$にはユニークなリガンドインフォームドポケット予測モジュールが組み込まれており、ドッキングポーズ推定にも利用される。 このモデルは、予測されたポケットを統合してタンパク質-リガンド結合を最適化し、トレーニングと推論の相違を減らすことでドッキングをさらに強化する。 ベンチマークデータセットに関する広範な実験を通じて,提案した$\mathbf{FABind}$は,既存手法と比較して有効性や効率性に強い優位性を示す。 私たちのコードは$\href{https://github.com/QizhiPei/FABind}{Github}$で利用可能です。

Modeling the interaction between proteins and ligands and accurately predicting their binding structures is a critical yet challenging task in drug discovery. Recent advancements in deep learning have shown promise in addressing this challenge, with sampling-based and regression-based methods emerging as two prominent approaches. However, these methods have notable limitations. Sampling-based methods often suffer from low efficiency due to the need for generating multiple candidate structures for selection. On the other hand, regression-based methods offer fast predictions but may experience decreased accuracy. Additionally, the variation in protein sizes often requires external modules for selecting suitable binding pockets, further impacting efficiency. In this work, we propose $\mathbf{FABind}$, an end-to-end model that combines pocket prediction and docking to achieve accurate and fast protein-ligand binding. $\mathbf{FABind}$ incorporates a unique ligand-informed pocket prediction module, which is also leveraged for docking pose estimation. The model further enhances the docking process by incrementally integrating the predicted pocket to optimize protein-ligand binding, reducing discrepancies between training and inference. Through extensive experiments on benchmark datasets, our proposed $\mathbf{FABind}$ demonstrates strong advantages in terms of effectiveness and efficiency compared to existing methods. Our code is available at $\href{https://github.com/QizhiPei/FABind}{Github}$.
翻訳日:2023-10-11 14:37:03 公開日:2023-10-10
# TRACE:大規模言語モデルにおける継続的学習のための総合ベンチマーク

TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models ( http://arxiv.org/abs/2310.06762v1 )

ライセンス: Link先を確認
Xiao Wang, Yuansen Zhang, Tianze Chen, Songyang Gao, Senjie Jin, Xianjun Yang, Zhiheng Xi, Rui Zheng, Yicheng Zou, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 一致した大規模言語モデル(llm)は、タスク解決、従順命令、安全性の確保において例外的な能力を示している。 しかし、これらのLLMの継続的な学習の側面は概ね見過ごされている。 既存の連続学習ベンチマークは、命令チューニング中のモデルの単純さと潜在的な露出の両方のために、整列 LLM をリードするのに十分な課題を欠いている。 本稿では,LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。 TRACEはドメイン固有のタスク、多言語機能、コード生成、数学的推論など、困難なタスクにまたがる8つのデータセットで構成されている。 すべてのデータセットは統一フォーマットに標準化され、LCMの自動評価が可能となる。 実験の結果, TRACE の訓練後, 協調 LLM は汎用能力と命令追従能力の両方に有意な低下を示した。 例えば、gsm8kデータセット上のllama2-chat 13bの精度は、トレーニング後の28.8\%から2\%に低下した。 このことは、LLMの本来の長所を保ちながら、特定のタスクのパフォーマンスを達成するための適切なトレードオフを見つけるという課題を強調している。 実験結果から, 推論経路を本質的に備えたタスクは, 潜在的な低下に対するLLMの特定の能力維持に大きく寄与することが示唆された。 そこで我々は,Reasoning-augmented Continual Learning (RCL)アプローチを導入する。 RCLはタスク固有のキューをメタリレーショナルと統合し、新しいタスクへの収束を迅速化しつつ、LLMの破滅的な忘れを効果的に減少させる。

Aligned large language models (LLMs) demonstrate exceptional capabilities in task-solving, following instructions, and ensuring safety. However, the continual learning aspect of these aligned LLMs has been largely overlooked. Existing continual learning benchmarks lack sufficient challenge for leading aligned LLMs, owing to both their simplicity and the models' potential exposure during instruction tuning. In this paper, we introduce TRACE, a novel benchmark designed to evaluate continual learning in LLMs. TRACE consists of 8 distinct datasets spanning challenging tasks including domain-specific tasks, multilingual capabilities, code generation, and mathematical reasoning. All datasets are standardized into a unified format, allowing for effortless automatic evaluation of LLMs. Our experiments show that after training on TRACE, aligned LLMs exhibit significant declines in both general ability and instruction-following capabilities. For example, the accuracy of llama2-chat 13B on gsm8k dataset declined precipitously from 28.8\% to 2\% after training on our datasets. This highlights the challenge of finding a suitable tradeoff between achieving performance on specific tasks while preserving the original prowess of LLMs. Empirical findings suggest that tasks inherently equipped with reasoning paths contribute significantly to preserving certain capabilities of LLMs against potential declines. Motivated by this, we introduce the Reasoning-augmented Continual Learning (RCL) approach. RCL integrates task-specific cues with meta-rationales, effectively reducing catastrophic forgetting in LLMs while expediting convergence on novel tasks.
翻訳日:2023-10-11 14:36:40 公開日:2023-10-10
# ニューラルネットワークの特徴の類似性を超えて:ネットワークの特徴複雑性とそのカテゴリー理論による解釈

Going Beyond Neural Network Feature Similarity: The Network Feature Complexity and Its Interpretation Using Category Theory ( http://arxiv.org/abs/2310.06756v1 )

ライセンス: Link先を確認
Yiting Chen, Zhanpeng Zhou, Junchi Yan(参考訳) ニューラルネットワークの振舞いはいまだ不透明であり、最近広く知られる現象は、異なるランダムパラメータで初期化されると、ネットワークが同様のパフォーマンスを達成することである。 この現象は、異なるネットワークによって学習された特徴間の類似性を測定することに大きな注目を集めている。 しかし、同等の機能はほとんど存在しないため、同じ機能を記述することは曖昧である。 本稿では、等価機能の概念を拡張し、機能的に等価機能と呼ぶものの定義を提供する。 これらの特徴は特定の変換の下で等価な出力を生成する。 この定義を用いて、ニューラルネットワークが各層で学習した特徴の冗長性に関して、いわゆる特徴複雑性のより内在的な指標を導出することを目指している。 我々は、数学の発達した分野である圏論のレンズを通して、我々のアプローチの正式な解釈を提供する。 さらに,特徴量の定量化のために,Iterative Feature Mergingというアルゴリズムを提案する。 実験結果は、様々な観点から我々の考えと理論を検証した。 実験により、同じニューラルネットワークで学習された異なる特徴間で機能的等価性が広く存在し、性能に影響を与えずにネットワークのパラメータ数を削減できることを実証し、ifmはデータ非依存モデルプルーネ法として大きな可能性を示している。 定義された機能の複雑さに関する興味深い経験的な発見もいくつか出てきました。

The behavior of neural networks still remains opaque, and a recently widely noted phenomenon is that networks often achieve similar performance when initialized with different random parameters. This phenomenon has attracted significant attention in measuring the similarity between features learned by distinct networks. However, feature similarity could be vague in describing the same feature since equivalent features hardly exist. In this paper, we expand the concept of equivalent feature and provide the definition of what we call functionally equivalent features. These features produce equivalent output under certain transformations. Using this definition, we aim to derive a more intrinsic metric for the so-called feature complexity regarding the redundancy of features learned by a neural network at each layer. We offer a formal interpretation of our approach through the lens of category theory, a well-developed area in mathematics. To quantify the feature complexity, we further propose an efficient algorithm named Iterative Feature Merging. Our experimental results validate our ideas and theories from various perspectives. We empirically demonstrate that the functionally equivalence widely exists among different features learned by the same neural network and we could reduce the number of parameters of the network without affecting the performance.The IFM shows great potential as a data-agnostic model prune method. We have also drawn several interesting empirical findings regarding the defined feature complexity.
翻訳日:2023-10-11 14:36:16 公開日:2023-10-10
# topomlp:トポロジー推論を駆動するシンプルで強力なパイプライン

TopoMLP: An Simple yet Strong Pipeline for Driving Topology Reasoning ( http://arxiv.org/abs/2310.06753v1 )

ライセンス: Link先を確認
Dongming Wu, Jiahao Chang, Fan Jia, Yingfei Liu, Tiancai Wang, Jianbing Shen(参考訳) トポロジー推論は、道路シーンを包括的に理解し、自律運転における乾燥可能なルートを提示することを目的としている。 道路中心線(車線)と交通要素を検出し、さらにそのトポロジーの関係、すなわち車線-車線トポロジーと車線-交通トポロジーを推論する必要がある。 そこで本研究では,まずトポロジスコアが車線および交通要素の検知性能に大きく依存していることを示す。 そこで我々は, トポロジー性能の上限を延ばすために, 強力な3次元レーン検出器と改良された2次元トラヒック素子検出器を導入する。 さらに,トポロジ推論を駆動する単純な高性能パイプラインであるTopoMLPを提案する。 印象的な検出性能に基づいて、トポロジー生成のための2つの単純なMLPベースのヘッドを開発する。 TopoMLPはOpenLane-V2ベンチマーク、すなわちResNet-50バックボーンを持つ41.2%のOLSで最先端のパフォーマンスを達成する。 また、第1回OpenLane Topology in Autonomous Driving Challengeの1番目のソリューションでもある。 このようなシンプルで強力なパイプラインがコミュニティに新たな洞察を与えてくれることを願っています。 コードはhttps://github.com/wudongming97/TopoMLPにある。

Topology reasoning aims to comprehensively understand road scenes and present drivable routes in autonomous driving. It requires detecting road centerlines (lane) and traffic elements, further reasoning their topology relationship, i.e., lane-lane topology, and lane-traffic topology. In this work, we first present that the topology score relies heavily on detection performance on lane and traffic elements. Therefore, we introduce a powerful 3D lane detector and an improved 2D traffic element detector to extend the upper limit of topology performance. Further, we propose TopoMLP, a simple yet high-performance pipeline for driving topology reasoning. Based on the impressive detection performance, we develop two simple MLP-based heads for topology generation. TopoMLP achieves state-of-the-art performance on OpenLane-V2 benchmark, i.e., 41.2% OLS with ResNet-50 backbone. It is also the 1st solution for 1st OpenLane Topology in Autonomous Driving Challenge. We hope such simple and strong pipeline can provide some new insights to the community. Code is at https://github.com/wudongming97/TopoMLP.
翻訳日:2023-10-11 14:35:51 公開日:2023-10-10
# neco: 分布外検出に基づく神経崩壊

NECO: NEural Collapse Based Out-of-distribution detection ( http://arxiv.org/abs/2310.06823v1 )

ライセンス: Link先を確認
Mou\"in Ben Ammar, Nacim Belkhir, Sebastian Popescu, Antoine Manzanera, Gianni Franchi(参考訳) アウト・オブ・ディストリビューション(ood)データの検出は、モデル過信(model overconfidence)による機械学習における重要な課題である。 我々は、損失収束を超えて訓練されたモデルの分配データに影響を及ぼす現象である「神経崩壊」もOODデータに影響を与えると仮定する。 この相互作用を生かしたNECOは,「神経崩壊」や主成分空間の幾何学的特性を活用してOODデータを識別する新しいポストホックなOOD検出法である。 NECOは,大規模OOD検出タスクと大規模OOD検出タスクの両方において,異なるネットワークアーキテクチャにまたがる強力な一般化能力を示しながら,最先端の成果が得られることを示す。 さらに,OOD検出における本手法の有効性を理論的に説明する。 匿名期間終了後にコードを公開する予定です。

Detecting out-of-distribution (OOD) data is a critical challenge in machine learning due to model overconfidence, often without awareness of their epistemological limits. We hypothesize that ``neural collapse'', a phenomenon affecting in-distribution data for models trained beyond loss convergence, also influences OOD data. To benefit from this interplay, we introduce NECO, a novel post-hoc method for OOD detection, which leverages the geometric properties of ``neural collapse'' and of principal component spaces to identify OOD data. Our extensive experiments demonstrate that NECO achieves state-of-the-art results on both small and large-scale OOD detection tasks while exhibiting strong generalization capabilities across different network architectures. Furthermore, we provide a theoretical explanation for the effectiveness of our method in OOD detection. We plan to release the code after the anonymity period.
翻訳日:2023-10-11 14:27:14 公開日:2023-10-10
# ニューラルバウンディング

Neural Bounding ( http://arxiv.org/abs/2310.06822v1 )

ライセンス: Link先を確認
Wenxin Liu, Michael Fischer, Paul D. Yoo, Tobias Ritschel(参考訳) 境界ボリュームはコンピュータグラフィックスや視覚タスクにおいて確立された概念であるが、初期からほとんど変化していない。 本研究では,ニューラルネットワークを境界体積としての利用について検討する。 我々の重要な観察は、これまで計算幾何学の問題と見なされてきた境界づけは、空間を自由かつ空に分類する学習問題として再定義できるということである。 この学習に基づくアプローチは、ニューラルネットワークが優れていることが知られている複雑なクエリを持つアニメーションシーンのような、高次元空間において特に有利である。 しかし、神経境界の解錠にはツイストが必要である: 偽陽性を許容する一方で、偽陰性の数が厳密にゼロであることを保証する。 動的に重み付けられた非対称損失関数を用いて、そのような厳密で保守的な結果を実現する。 以上の結果から,我々の神経境界は従来の方法よりも桁違いに偽陽性を生じさせることがわかった。

Bounding volumes are an established concept in computer graphics and vision tasks but have seen little change since their early inception. In this work, we study the use of neural networks as bounding volumes. Our key observation is that bounding, which so far has primarily been considered a problem of computational geometry, can be redefined as a problem of learning to classify space into free and empty. This learning-based approach is particularly advantageous in high-dimensional spaces, such as animated scenes with complex queries, where neural networks are known to excel. However, unlocking neural bounding requires a twist: allowing -- but also limiting -- false positives, while ensuring that the number of false negatives is strictly zero. We enable such tight and conservative results using a dynamically-weighted asymmetric loss function. Our results show that our neural bounding produces up to an order of magnitude fewer false positives than traditional methods.
翻訳日:2023-10-11 14:26:58 公開日:2023-10-10
# テキスト埋め込みはテキストと同じくらい(ほとんど)明らかに

Text Embeddings Reveal (Almost) As Much As Text ( http://arxiv.org/abs/2310.06816v1 )

ライセンス: Link先を確認
John X. Morris, Volodymyr Kuleshov, Vitaly Shmatikov, Alexander M. Rush(参考訳) テキスト埋め込みは、原文についてどの程度の個人情報を明かしているのか? 本稿では, テキスト埋め込みに代表される全文を再構築し, テキスト埋め込みの問題点を考察する。 我々はこの問題を制御された生成として表現する: 再埋め込み時に潜在空間内の不動点に近いテキストを生成する。 埋め込みに条件付けされたna\\iveモデルは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドは、正確には$32\text{-token}$テキスト入力を9,2\%で回収できる。 2つの最先端の埋め込みモデルからテキスト埋め込みをデコードするようにトレーニングし、また、このモデルが臨床ノートのデータセットから重要な個人情報(フルネーム)を復元できることを示します。 我々のコードはgithubで入手できる。 \href{https://github.com/jxmorris12/vec2text}{github.com/jxmorris12/vec2text}。

How much private information do text embeddings reveal about the original text? We investigate the problem of embedding \textit{inversion}, reconstructing the full text represented in dense text embeddings. We frame the problem as controlled generation: generating text that, when reembedded, is close to a fixed point in latent space. We find that although a na\"ive model conditioned on the embedding performs poorly, a multi-step method that iteratively corrects and re-embeds text is able to recover $92\%$ of $32\text{-token}$ text inputs exactly. We train our model to decode text embeddings from two state-of-the-art embedding models, and also show that our model can recover important personal information (full names) from a dataset of clinical notes. Our code is available on Github: \href{https://github.com/jxmorris12/vec2text}{github.com/jxmorris12/vec2text}.
翻訳日:2023-10-11 14:26:39 公開日:2023-10-10
# 常識推論におけるトランスフォーマーの能力向上

Advancing Transformer's Capabilities in Commonsense Reasoning ( http://arxiv.org/abs/2310.06803v1 )

ライセンス: Link先を確認
Yu Zhou, Yunqiu Han, Hanyu Zhou, Yulun Wu(参考訳) 汎用事前学習言語モデルの最近の進歩は、常識推論において大きな可能性を示している。 しかし、現在の作業はCom2Sense Datasetを含む標準のコモンセンス推論ベンチマークではまだ不十分である。 これは現在の最先端の機械学習手法との切り離しによるものであると我々は主張する。 本研究では,コモンセンス推論のタスクにおいて,汎用の事前学習言語モデルを改善するため,現在のMLベースの手法を導入することでギャップを埋めることを目的とする。 具体的には、知識伝達、モデルアンサンブル、追加のペアワイズ対照目的の導入を含む手法を実験および体系的に評価する。 我々の最良のモデルは、Pairwise Accuracyの絶対ゲインが ~15 %、Standard Accuracyの絶対ゲインが ~8.7 % という最強の先行作品より優れています。

Recent advances in general purpose pre-trained language models have shown great potential in commonsense reasoning. However, current works still perform poorly on standard commonsense reasoning benchmarks including the Com2Sense Dataset. We argue that this is due to a disconnect with current cutting-edge machine learning methods. In this work, we aim to bridge the gap by introducing current ML-based methods to improve general purpose pre-trained language models in the task of commonsense reasoning. Specifically, we experiment with and systematically evaluate methods including knowledge transfer, model ensemble, and introducing an additional pairwise contrastive objective. Our best model outperforms the strongest previous works by ~15\% absolute gains in Pairwise Accuracy and ~8.7\% absolute gains in Standard Accuracy.
翻訳日:2023-10-11 14:26:21 公開日:2023-10-10
# $f$-policy Gradients:$f$-Divergencesを使ったゴール条件付きRLのための一般的なフレームワーク

$f$-Policy Gradients: A General Framework for Goal Conditioned RL using $f$-Divergences ( http://arxiv.org/abs/2310.06794v1 )

ライセンス: Link先を確認
Siddhant Agarwal, Ishan Durugkar, Peter Stone, Amy Zhang(参考訳) 目標条件強化学習(rl)問題はしばしば、エージェントが目標を達成したときのみ報酬信号を受信し、ポリシー最適化が困難な問題となる、スパース報酬にアクセスする。 いくつかの研究は、このスパース報酬を学習された高密度報酬関数で増強するが、報酬が不一致であれば、準最適ポリシーにつながる可能性がある。 さらに、近年の研究では、特定の問題に対する効果的な整形報酬は、基礎となる学習アルゴリズムに依存することが示されている。 本稿では,$f$-policygradients または $f$-pg と呼ばれる探索を促進する新しい方法を紹介する。 $f$-PG はエージェントの状態訪問分布と目標との f 分割を最小化します。 この目的を最適化するために、様々なf-divergencesの勾配を導出する。 我々の学習パラダイムは、スパース報酬設定での探索のための密集した学習信号を提供する。 さらに, エントロピー正規化ポリシー最適化の目的についても紹介し, 目的の特別な場合としてstate$-maxent rl (または$s$-maxent rl) と呼ぶ。 l2のようなメトリクスベースのシェーピング報酬のいくつかは$s$-maxent rlで使用することができ、効率的な探索でメトリクスベースのシェーピング報酬を研究するための共通の基盤を提供する。 問題のあるグリッドワールドやPoint Maze、FetchReach環境における標準ポリシー勾配メソッドと比較して、$f$-PGの方がパフォーマンスがよいことが分かりました。 詳細はhttps://agarwalsiddhant10.github.io/projects/fpg.htmlを参照。

Goal-Conditioned Reinforcement Learning (RL) problems often have access to sparse rewards where the agent receives a reward signal only when it has achieved the goal, making policy optimization a difficult problem. Several works augment this sparse reward with a learned dense reward function, but this can lead to sub-optimal policies if the reward is misaligned. Moreover, recent works have demonstrated that effective shaping rewards for a particular problem can depend on the underlying learning algorithm. This paper introduces a novel way to encourage exploration called $f$-Policy Gradients, or $f$-PG. $f$-PG minimizes the f-divergence between the agent's state visitation distribution and the goal, which we show can lead to an optimal policy. We derive gradients for various f-divergences to optimize this objective. Our learning paradigm provides dense learning signals for exploration in sparse reward settings. We further introduce an entropy-regularized policy optimization objective, that we call $state$-MaxEnt RL (or $s$-MaxEnt RL) as a special case of our objective. We show that several metric-based shaping rewards like L2 can be used with $s$-MaxEnt RL, providing a common ground to study such metric-based shaping rewards with efficient exploration. We find that $f$-PG has better performance compared to standard policy gradient methods on a challenging gridworld as well as the Point Maze and FetchReach environments. More information on our website https://agarwalsiddhant10.github.io/projects/fpg.html.
翻訳日:2023-10-11 14:26:07 公開日:2023-10-10
# 低ランク強化学習のためのスペクトル入射行列推定

Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning ( http://arxiv.org/abs/2310.06793v1 )

ライセンス: Link先を確認
Stefan Stojanovic, Yassir Jedra, Alexandre Proutiere(参考訳) 低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。 低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。 いずれの場合も,行列の各エントリは重要な情報を持ち,入力誤りの少ない推定方法を模索する。 重要なことに、これらの手法は利用可能なデータ(例えば、MDPでは、データはシステムトラジェクトリから構成される)に固有の相関に適合する必要がある。 簡単なスペクトルベースの行列推定手法の性能について検討し、行列の特異部分空間を効率よく回収し、ほぼ最小の入力誤差を示すことを示した。 低ランク行列推定におけるこれらの新しい結果は、下層の低ランク構造を完全に活用する強化学習アルゴリズムを考案することができる。 低ランク帯域問題に対する後悔最小化アルゴリズムと、低ランクMPPにおける報酬なしRLのための最良のポリシー識別アルゴリズムの2つの例を提供する。 どちらのアルゴリズムも最先端のパフォーマンス保証を提供する。

We study matrix estimation problems arising in reinforcement learning (RL) with low-rank structure. In low-rank bandits, the matrix to be recovered specifies the expected arm rewards, and for low-rank Markov Decision Processes (MDPs), it may for example characterize the transition kernel of the MDP. In both cases, each entry of the matrix carries important information, and we seek estimation methods with low entry-wise error. Importantly, these methods further need to accommodate for inherent correlations in the available data (e.g. for MDPs, the data consists of system trajectories). We investigate the performance of simple spectral-based matrix estimation approaches: we show that they efficiently recover the singular subspaces of the matrix and exhibit nearly-minimal entry-wise error. These new results on low-rank matrix estimation make it possible to devise reinforcement learning algorithms that fully exploit the underlying low-rank structure. We provide two examples of such algorithms: a regret minimization algorithm for low-rank bandit problems, and a best policy identification algorithm for reward-free RL in low-rank MDPs. Both algorithms yield state-of-the-art performance guarantees.
翻訳日:2023-10-11 14:25:41 公開日:2023-10-10
# 平面原子配列における強ラジカル状態

Strongly subradiant states in planar atomic arrays ( http://arxiv.org/abs/2310.06791v1 )

ライセンス: Link先を確認
Ilya Volkov, Nikita Ustimenko, Danil Kornovan, Roman Savelev, Alexandra Sheremet and Mihail Petrov(参考訳) 光トラップされた原子のアンサンブルは、量子情報の保存とコヒーレント操作のための汎用プラットフォームを提供する。 しかし、量子情報処理の効率的な実現には、例えば自然放出によってデコヒーレンスから保護される長期の量子状態が必要である。 ここでは、自由空間における量子エミッタの有限平面配列における集団双極子振動を理論的に研究し、強いサブラディアン状態の出現を管理するメカニズムを分析する。 アレイの対称性に関連する集合状態と対応する無限格子の準平坦分散との外部結合が、その放射寿命の促進に重要な役割を果たすことを実証する。 異なる規則的な原子配列の中で、正方形の原子配列は、合計原子数$N_{tot}$を$\propto N_{tot}^{-5}$としてスケールする最小の放射損失を持つ固有状態をサポートする。

The optically trapped ensembles of atoms provide a versatile platform for storing and coherent manipulation of quantum information. However, efficient realization of quantum information processing requires long-lived quantum states protected from the decoherence e.g. via spontaneous emission. Here, we theoretically study collective dipolar oscillations in finite planar arrays of quantum emitters in free space and analyze mechanisms that govern the emergence of strongly subradiant collective states. We demonstrate that the external coupling between the collective states associated with the symmetry of the array and with the quasi-flat dispersion of the corresponding infinite lattice plays a crucial role in the boost of their radiative lifetime. We show that among different regular arrangements of the atoms the square atomic arrays support eigenstates with minimal radiative losses that scale with the total number of atoms $N_{tot}$ as $\propto N_{tot}^{-5}$.
翻訳日:2023-10-11 14:25:20 公開日:2023-10-10
# 自動微分によるデータ駆動動的モデリングにおける予測能力の強化:クープマンとニューラルODEアプローチ

Enhancing Predictive Capabilities in Data-Driven Dynamical Modeling with Automatic Differentiation: Koopman and Neural ODE Approaches ( http://arxiv.org/abs/2310.06790v1 )

ライセンス: Link先を確認
C. Ricardo Constante-Amores and Alec J. Linot and Michael D. Graham(参考訳) コープマン作用素のデータ駆動近似は、複雑な力学によって特徴づけられるシステムの時間発展を予測することに有望である。 これらの手法の中で,辞書学習(EDMD-DL)を用いた拡張動的モード分解法が注目されている。 本稿では,可観測性の辞書と対応するクープマン作用素の近似を同時に決定するedmd-dlの修正について述べる。 この革新は、擬似逆数による勾配降下計算を容易にするために自動微分を利用する。 また、いくつかの代替手法の性能についても論じる。 観測可能空間内の力学を制御した線形高次元系の直接時間積分を含む「純粋」クープマンアプローチを評価する。 さらに、システムが各時間ステップで状態空間と可観測性の間で交互に交互に働くような修正されたアプローチを探求する -- このアプローチは、真のクープマン作用素表現の線型性を満たすものではない。 さらに比較するために、状態空間アプローチ (neural ODEs) を適用する。 定常,振動,カオスを特徴とする2次元および3次元の常微分方程式系と,より複雑で複雑な挙動を示す偏微分方程式を包含する系を考える。 我々のフレームワークはEDMD-DLを大きく上回る。 さらに、状態空間のアプローチは、観測可能な空間で全体の時間進化が起こる「純粋な」クープマンアプローチよりも優れたパフォーマンスを提供する。 しかし、koopmanアプローチの時間的発展が各時間ステップで状態と可観測性の間で交互に変化すると、その予測は状態空間アプローチと同等になる。

Data-driven approximations of the Koopman operator are promising for predicting the time evolution of systems characterized by complex dynamics. Among these methods, the approach known as extended dynamic mode decomposition with dictionary learning (EDMD-DL) has garnered significant attention. Here we present a modification of EDMD-DL that concurrently determines both the dictionary of observables and the corresponding approximation of the Koopman operator. This innovation leverages automatic differentiation to facilitate gradient descent computations through the pseudoinverse. We also address the performance of several alternative methodologies. We assess a 'pure' Koopman approach, which involves the direct time-integration of a linear, high-dimensional system governing the dynamics within the space of observables. Additionally, we explore a modified approach where the system alternates between spaces of states and observables at each time step -- this approach no longer satisfies the linearity of the true Koopman operator representation. For further comparisons, we also apply a state space approach (neural ODEs). We consider systems encompassing two and three-dimensional ordinary differential equation systems featuring steady, oscillatory, and chaotic attractors, as well as partial differential equations exhibiting increasingly complex and intricate behaviors. Our framework significantly outperforms EDMD-DL. Furthermore, the state space approach offers superior performance compared to the 'pure' Koopman approach where the entire time evolution occurs in the space of observables. When the temporal evolution of the Koopman approach alternates between states and observables at each time step, however, its predictions become comparable to those of the state space approach.
翻訳日:2023-10-11 14:25:04 公開日:2023-10-10
# OpenWebMath: 高品質な数学的Webテキストのオープンデータセット

OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text ( http://arxiv.org/abs/2310.06786v1 )

ライセンス: Link先を確認
Keiran Paster and Marco Dos Santos and Zhangir Azerbayev and Jimmy Ba(参考訳) コードや数学のような、高品質で慎重に考察されたトークンを事前訓練することが、大きな言語モデルの推論能力を改善する上で重要な役割を果たす証拠が増えている。 例えば、arXivやWebから数十億の数学的文書のトークンを微調整したPaLMモデルであるMinervaは、定量的推論を必要とする問題のパフォーマンスを劇的に改善したと報告している。 しかし、すべての既知のオープンソースWebデータセットは、数学的表記を忠実に保存しない事前処理を採用しているため、定量Webドキュメントに対する大規模なトレーニングの利点は研究コミュニティでは利用できない。 OpenWebMathは、Common Crawlの数学的Webページの14.7Bトークンを含む、これらの作品にインスパイアされたオープンデータセットである。 本稿では,HTML文書からテキストとLaTeXコンテンツを抽出し,ボイラプレートを除去する手法と,高品質なフィルタリングと復号化手法について詳述する。 さらに、OpenWebMath上で1.4Bパラメータ言語モデルをトレーニングし、データセットの14.7Bトークンでトレーニングされたモデルが、20倍以上の汎用言語データでトレーニングされたモデルのパフォーマンスを上回っていることを示す。 当社のデータセットがHugging Face Hubで公開され、大規模言語モデルの推論能力の進歩を加速することを期待しています。

There is growing evidence that pretraining on high quality, carefully thought-out tokens such as code or mathematics plays an important role in improving the reasoning abilities of large language models. For example, Minerva, a PaLM model finetuned on billions of tokens of mathematical documents from arXiv and the web, reported dramatically improved performance on problems that require quantitative reasoning. However, because all known open source web datasets employ preprocessing that does not faithfully preserve mathematical notation, the benefits of large scale training on quantitive web documents are unavailable to the research community. We introduce OpenWebMath, an open dataset inspired by these works containing 14.7B tokens of mathematical webpages from Common Crawl. We describe in detail our method for extracting text and LaTeX content and removing boilerplate from HTML documents, as well as our methods for quality filtering and deduplication. Additionally, we run small-scale experiments by training 1.4B parameter language models on OpenWebMath, showing that models trained on 14.7B tokens of our dataset surpass the performance of models trained on over 20x the amount of general language data. We hope that our dataset, openly released on the Hugging Face Hub, will help spur advances in the reasoning abilities of large language models.
翻訳日:2023-10-11 14:24:39 公開日:2023-10-10
# 移動ネットワーク故障の分類のための修正埋め込み・クラスタリング異常検出法

A Supervised Embedding and Clustering Anomaly Detection method for classification of Mobile Network Faults ( http://arxiv.org/abs/2310.06779v1 )

ライセンス: Link先を確認
R. Mosayebi, H. Kia, A. Kianpour Raki(参考訳) 本稿では,モバイルネットワークにおける異常アラームログを効率よく検出し,アラームログの増大に伴う手動監視の課題を軽減する手法であるSupervised Embedding and Clustering Anomaly Detection (SEMC-AD)を紹介する。 SEMC-ADは、ディープニューラルネットワークに基づく教師付き埋め込みアプローチを採用し、履歴アラームログとそのラベルを使用して、各ログの数値表現を抽出し、ワンホット符号化を使わずに、データセット内のわずかな異常による不均衡な分類の問題に効果的に対処する。 組込みの堅牢性は、組込みアラームログの2つの最も重要な原理成分をプロットすることによって評価され、異常が類似の組込みを伴う異なるクラスタを形成することが明らかになった。 多変量正規ガウスクラスタリングはこれらの成分に適用され、異常率の高いクラスターを正常なアラーム(90%以上)と同定し、それらのクラスターを異常群と分類する。 新しいアラームログを分類するために、組込みベクトルの2つの最も重要な原理成分が異常ラベル付きクラスタ内にあるかどうかを確認する。 もしそうなら、ログは異常に分類される。 SEMC-ADは埋没せずに従来のランダム林や勾配増進法よりも優れた性能を示す。 SEMC-ADは99%の異常検出を達成し、ランダム森林とXGBoostはそれぞれ86%と81%の異常を検知している。 教師付き分類法はラベル付きデータセットで優れているが,SEMC-ADは,多くの分類的特徴を持つデータセットの異常の分類,異常検出の大幅な向上,演算子負担の低減,ネットワークメンテナンスの改善に有効であることを示す。

The paper introduces Supervised Embedding and Clustering Anomaly Detection (SEMC-AD), a method designed to efficiently identify faulty alarm logs in a mobile network and alleviate the challenges of manual monitoring caused by the growing volume of alarm logs. SEMC-AD employs a supervised embedding approach based on deep neural networks, utilizing historical alarm logs and their labels to extract numerical representations for each log, effectively addressing the issue of imbalanced classification due to a small proportion of anomalies in the dataset without employing one-hot encoding. The robustness of the embedding is evaluated by plotting the two most significant principle components of the embedded alarm logs, revealing that anomalies form distinct clusters with similar embeddings. Multivariate normal Gaussian clustering is then applied to these components, identifying clusters with a high ratio of anomalies to normal alarms (above 90%) and labeling them as the anomaly group. To classify new alarm logs, we check if their embedded vectors' two most significant principle components fall within the anomaly-labeled clusters. If so, the log is classified as an anomaly. Performance evaluation demonstrates that SEMC-AD outperforms conventional random forest and gradient boosting methods without embedding. SEMC-AD achieves 99% anomaly detection, whereas random forest and XGBoost only detect 86% and 81% of anomalies, respectively. While supervised classification methods may excel in labeled datasets, the results demonstrate that SEMC-AD is more efficient in classifying anomalies in datasets with numerous categorical features, significantly enhancing anomaly detection, reducing operator burden, and improving network maintenance.
翻訳日:2023-10-11 14:24:18 公開日:2023-10-10
# LongLLMLingua: Prompt Compressionによる長期シナリオにおけるLCMの高速化と強化

LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression ( http://arxiv.org/abs/2310.06839v1 )

ライセンス: Link先を確認
Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu(参考訳) 長い文脈のシナリオでは、大きな言語モデル(llm)は、高い計算/財務コスト、長いレイテンシ、低いパフォーマンスという3つの大きな課題に直面している。 一部の研究では、LLMの性能は入力プロンプトにおけるキー情報(クエスト)の密度と位置に依存することが示されている。 そこで本研究では,これらの知見に触発されて,llmsの鍵情報の認識を改善するために,迅速な圧縮を行うためのlongllmlinguaを提案する。 我々は、シングル/マルチドキュメントqa、少数ショット学習、要約、合成タスク、コード補完を含む、幅広い長いコンテキストシナリオを評価します。 実験結果から,LongLLMLingua圧縮プロンプトは低コストで高い性能が得られることが示された。 エンドツーエンドシステムのレイテンシも削減される。 例えば、NaturalQuestionsベンチマークでは、LongLLMLinguaはGPT-3.5-Turboへの入力としてトークンを4倍に減らし、元のプロンプトよりも最大17.1%のパフォーマンス向上を実現している。 それぞれlongbenchベンチマークとzeroscrollsベンチマークから1,000サンプルあたり28.5ドルと27.4ドルを節約できる。 さらに、圧縮速度2x-10xで10kトークンのプロンプトを圧縮する場合、LongLLMLinguaはエンドツーエンドのレイテンシを1.4x-3.8x高速化することができる。 私たちのコードはhttps://aka.ms/LLMLingua.comで利用可能です。

In long context scenarios, large language models (LLMs) face three main challenges: higher computational/financial cost, longer latency, and inferior performance. Some studies reveal that the performance of LLMs depends on both the density and the position of the key information (question relevant) in the input prompt. Inspired by these findings, we propose LongLLMLingua for prompt compression towards improving LLMs' perception of the key information to simultaneously address the three challenges. We conduct evaluation on a wide range of long context scenarios including single-/multi-document QA, few-shot learning, summarization, synthetic tasks, and code completion. The experimental results show that LongLLMLingua compressed prompt can derive higher performance with much less cost. The latency of the end-to-end system is also reduced. For example, on NaturalQuestions benchmark, LongLLMLingua gains a performance boost of up to 17.1% over the original prompt with ~4x fewer tokens as input to GPT-3.5-Turbo. It can derive cost savings of \$28.5 and \$27.4 per 1,000 samples from the LongBench and ZeroScrolls benchmark, respectively. Additionally, when compressing prompts of ~10k tokens at a compression rate of 2x-10x, LongLLMLingua can speed up the end-to-end latency by 1.4x-3.8x. Our code is available at https://aka.ms/LLMLingua.
翻訳日:2023-10-11 14:18:09 公開日:2023-10-10
# AutoAD II: The Sequel -- 誰、いつ、何の映画オーディオ記述

AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description ( http://arxiv.org/abs/2310.06838v1 )

ライセンス: Link先を確認
Tengda Han, Max Bain, Arsha Nagrani, G\"ul Varol, Weidi Xie, Andrew Zisserman(参考訳) 音声記述(Audio Description、AD)は、視覚障害者の利益のために、適切な時間間隔で視覚コンテンツの記述を生成するタスクである。 映画の場合、これは注目すべき課題を示します -- 広告は、既存の対話の一時停止の間にのみ発生しなければならず、名前によるキャラクターを参照すべきであり、ストーリー全体の理解を支援するべきです。 そこで本研究では,映像広告を自動的に生成する新しいモデルを開発し,フレームの映像的特徴,キャストリスト,発話の時間的位置を抽出し,who,when,whatの3つの質問をすべて解決する。 i) 各映画の主キャストに対して、キャラクタの名前、役柄、顔のCLIP特徴からなるキャラクタバンクを導入し、生成されたADの命名を改善するためにどのように使用できるかを実証する。 (ii) 間隔とその近傍の視覚内容に基づいて、ある広告を時間間隔で生成すべきか否かを判断するための複数のモデルを調査した場合。 (iii)このタスクのために新しいビジョン言語モデルを実装し、文字バンクから提案を取り込みながら、クロスアテンションを使って視覚的特徴を条件付けし、AppleとApplesの比較においてADテキスト生成の以前のアーキテクチャよりもどのように改善されているかを実証する。

Audio Description (AD) is the task of generating descriptions of visual content, at suitable time intervals, for the benefit of visually impaired audiences. For movies, this presents notable challenges -- AD must occur only during existing pauses in dialogue, should refer to characters by name, and ought to aid understanding of the storyline as a whole. To this end, we develop a new model for automatically generating movie AD, given CLIP visual features of the frames, the cast list, and the temporal locations of the speech; addressing all three of the 'who', 'when', and 'what' questions: (i) who -- we introduce a character bank consisting of the character's name, the actor that played the part, and a CLIP feature of their face, for the principal cast of each movie, and demonstrate how this can be used to improve naming in the generated AD; (ii) when -- we investigate several models for determining whether an AD should be generated for a time interval or not, based on the visual content of the interval and its neighbours; and (iii) what -- we implement a new vision-language model for this task, that can ingest the proposals from the character bank, whilst conditioning on the visual features using cross-attention, and demonstrate how this improves over previous architectures for AD text generation in an apples-to-apples comparison.
翻訳日:2023-10-11 14:17:45 公開日:2023-10-10
# 言語モデルシミュレーションによるK-12学生の学習結果の生成と評価 : 文読解効率のケーススタディ

Generating and Evaluating Tests for K-12 Students with Language Model Simulations: A Case Study on Sentence Reading Efficiency ( http://arxiv.org/abs/2310.06837v1 )

ライセンス: Link先を確認
Eric Zelikman, Wanjing Anya Ma, Jasmine E. Tran, Diyi Yang, Jason D. Yeatman, Nick Haber(参考訳) 各項目は専門家によって記述され、数百人の学生の回答を収集して評価されなければならないため、教育テストの開発は高価で時間がかかります。 さらに、多くのテストは、並列テストとして知られる生徒の進捗を注意深く監視するために、学年を通して複数の異なる質問セットを必要とする。 本研究では,学生の読解能力の経時的評価に用いるサイレント文読解効率の試験に焦点をあてた。 高品質な並列テストを生成するために,従来の学生が目に見えない項目にどう反応したかをシミュレートする大規模言語モデル(LLM)を提案する。 これらのシミュレート応答により,各項目の難易度と曖昧さを推定できる。 まず, GPT-4を用いて, 専門家が開発したルールリストに従って新しいテスト項目を生成し, そして, 心理測定基準に基づいて細調整LCMを適用した。 また,並列テスト生成のための最適なトランスポートインスパイア手法を提案し,クラウドワーカー応答に基づく元のテストの難易度と信頼性に密接に対応していることを示す。 2年生から8年生の234名を対象に,人間専門家による標準テスト形式と高い相関(r=0.93)を示し,k-12学生数千名を対象に評価を行った。

Developing an educational test can be expensive and time-consuming, as each item must be written by experts and then evaluated by collecting hundreds of student responses. Moreover, many tests require multiple distinct sets of questions administered throughout the school year to closely monitor students' progress, known as parallel tests. In this study, we focus on tests of silent sentence reading efficiency, used to assess students' reading ability over time. To generate high-quality parallel tests, we propose to fine-tune large language models (LLMs) to simulate how previous students would have responded to unseen items. With these simulated responses, we can estimate each item's difficulty and ambiguity. We first use GPT-4 to generate new test items following a list of expert-developed rules and then apply a fine-tuned LLM to filter the items based on criteria from psychological measurements. We also propose an optimal-transport-inspired technique for generating parallel tests and show the generated tests closely correspond to the original test's difficulty and reliability based on crowdworker responses. Our evaluation of a generated test with 234 students from grades 2 to 8 produces test scores highly correlated (r=0.93) to those of a standard test form written by human experts and evaluated across thousands of K-12 students.
翻訳日:2023-10-11 14:17:19 公開日:2023-10-10
# 安定拡散は3Dシーンについて何を知っているのか?

What Does Stable Diffusion Know about the 3D Scene? ( http://arxiv.org/abs/2310.06836v1 )

ライセンス: Link先を確認
Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman(参考訳) 安定拡散のような生成モデルの最近の進歩は、高光写実画像の生成を可能にする。 本研究の目的は,拡散ネットワークを探索し,画像中の3次元シーンの異なる特性をどの程度「理解」するかを判断することである。 この目的のために、以下の貢献をしている。 i)これらの特性を表す明示的な特徴を探索することにより,ネットワークが3Dシーンの物理的な「プロパティ」を多数モデル化するかどうかを評価するプロトコルを導入する。 プローブはプロパティのアノテーションを備えた実際のイメージのデータセットに適用される。 (ii)このプロトコルをシーン幾何学,シーン素材,サポート関係,照明,ビュー依存測度を含む特性に適用する。 (iii) 安定拡散は, 場面形状, 支持関係, 影, 深さなど多くの特性に優れるが, 咬合性能は低下する。 (iv)ダイノやクリップなど,大規模に訓練された他のモデルにもプローブを応用し,安定拡散よりも性能が劣ることがわかった。

Recent advances in generative models like Stable Diffusion enable the generation of highly photo-realistic images. Our objective in this paper is to probe the diffusion network to determine to what extent it 'understands' different properties of the 3D scene depicted in an image. To this end, we make the following contributions: (i) We introduce a protocol to evaluate whether a network models a number of physical 'properties' of the 3D scene by probing for explicit features that represent these properties. The probes are applied on datasets of real images with annotations for the property. (ii) We apply this protocol to properties covering scene geometry, scene material, support relations, lighting, and view dependent measures. (iii) We find that Stable Diffusion is good at a number of properties including scene geometry, support relations, shadows and depth, but less performant for occlusion. (iv) We also apply the probes to other models trained at large-scale, including DINO and CLIP, and find their performance inferior to that of Stable Diffusion.
翻訳日:2023-10-11 14:16:54 公開日:2023-10-10
# 強化学習のためのスケーラブルなセマンティック非マルコフシミュレーションプロキシ

Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement Learning ( http://arxiv.org/abs/2310.06835v1 )

ライセンス: Link先を確認
Kaustuv Mukherji, Devendra Parkar, Lahari Pokala, Dyuman Aditya, Paulo Shakarian, Clark Dorman(参考訳) 近年の強化学習(RL)の進歩は,様々な応用において大きな可能性を秘めている。 しかしながら、スケーラビリティ、説明可能性、マルコフの仮定といった問題は、特定の領域での適用性を制限する。 これらの欠点の多くは、RLトレーニングアルゴリズム自体とは対照的に、シミュレータから発せられる。 そこで我々は,アノテーション付き論理への時間的拡張に基づくシミュレーションのセマンティックプロキシを提案する。 2つの高忠実度シミュレータと比較して、学習したポリシーの質を保ちながら最大3桁のスピードアップを示すとともに、非マルコフ力学と即時行動のモデル化と活用能力を示し、エージェントアクションの結果を説明する説明可能なトレースを提供する。

Recent advances in reinforcement learning (RL) have shown much promise across a variety of applications. However, issues such as scalability, explainability, and Markovian assumptions limit its applicability in certain domains. We observe that many of these shortcomings emanate from the simulator as opposed to the RL training algorithms themselves. As such, we propose a semantic proxy for simulation based on a temporal extension to annotated logic. In comparison with two high-fidelity simulators, we show up to three orders of magnitude speed-up while preserving the quality of policy learned in addition to showing the ability to model and leverage non-Markovian dynamics and instantaneous actions while providing an explainable trace describing the outcomes of the agent actions.
翻訳日:2023-10-11 14:16:37 公開日:2023-10-10
# リニア光学におけるフレキシブル絡み合い状態生成

Flexible entangled state generation in linear optics ( http://arxiv.org/abs/2310.06832v1 )

ライセンス: Link先を確認
Brendan Pankovich, Alex Neville, Angus Kan, Srikrishna Omkar, Kwok Ho Wan, Kamil Br\'adler(参考訳) フォールトトレラント量子計算は、定数サイズの絡み合ったリソース状態を生成し、それらのキュービットのサブセット上で絡み合った測定を行うことで達成できる。 線形光学量子コンピュータはこのアプローチに基づいて設計できるが、量子ビットレベルでの操作を絡めることはこのプラットフォームでは決定論的ではない。 絡み合った状態の確率的生成と測定は、スキームの最適化、冗長性の導入、補助的状態支援の組み合わせによって、要求しきい値を超えなければならない。 これらの各分野の進展を報告する。 デュアルレールフォトニック量子ビット上の多量子核融合測定とその測定に基づく資源状態生成における役割について検討し、光ニックGHZ状態解析装置の成功確率を単一の光子補助状態で向上させることができることを示す。 基本絡み合った「シード」状態の生成器を組み込むことにより、zxダイアグラムへのリンクを確立することにより、複雑で符号化されたリソース状態の生成器を設計および最適化するプロセスを簡素化する方法を提供する。

Fault-tolerant quantum computation can be achieved by creating constant-sized, entangled resource states and performing entangling measurements on subsets of their qubits. Linear optical quantum computers can be designed based on this approach, even though entangling operations at the qubit level are non-deterministic in this platform. Probabilistic generation and measurement of entangled states must be pushed beyond the required threshold by some combination of scheme optimisation, introduction of redundancy and auxiliary state assistance. We report progress in each of these areas. We explore multi-qubit fusion measurements on dual-rail photonic qubits and their role in measurement-based resource state generation, showing that it is possible to boost the success probability of photonic GHZ state analysers with single photon auxiliary states. By incorporating generators of basic entangled "seed" states, we provide a method that simplifies the process of designing and optimising generators of complex, encoded resource states by establishing links to ZX diagrams.
翻訳日:2023-10-11 14:16:27 公開日:2023-10-10
# Lemur: 自然言語の調和と言語エージェントのコード

Lemur: Harmonizing Natural Language and Code for Language Agents ( http://arxiv.org/abs/2310.06830v1 )

ライセンス: Link先を確認
Yiheng Xu, Hongjin Su, Chen Xing, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu(参考訳) 自然言語とコーディング機能の両方に最適化されたオープンアクセス型言語モデルであるLemurとLemur-Chatを紹介し,多言語エージェントのバックボーンとして機能する。 言語チャットモデルから関数型言語エージェントへの進化は、モデルが人間のインタラクション、推論、計画だけでなく、関連する環境における基盤を確保することを要求する。 これにより、モデルにおける言語とコーディング機能の調和が求められます。 Lemur と Lemur-Chat はこの必要性に対処するために提案され、両方の領域でバランスの取れた熟練度を示す。 コード集約コーパスとテキストとコードデータの微調整を巧妙に事前学習することにより,オープンソースモデル間の多様なテキストおよびコーディングベンチマークにおいて,最先端の平均性能を実現する。 総合的な実験は、ルムールが既存のオープンソースモデルよりも優れていること、そして人間のコミュニケーション、ツールの使用、完全に観察可能な環境下での相互作用を含む様々なエージェントタスクの能力を示している。 自然言語とプログラミング言語の調和により、Lemur-Chatはエージェント能力に関するプロプライエタリなモデルとのギャップを著しく狭め、推論、計画、環境間のシームレスな操作に適した高度なオープンソースエージェントの開発に関する重要な洞察を提供する。 https://github.com/OpenLemur/Lemur

We introduce Lemur and Lemur-Chat, openly accessible language models optimized for both natural language and coding capabilities to serve as the backbone of versatile language agents. The evolution from language chat models to functional language agents demands that models not only master human interaction, reasoning, and planning but also ensure grounding in the relevant environments. This calls for a harmonious blend of language and coding capabilities in the models. Lemur and Lemur-Chat are proposed to address this necessity, demonstrating balanced proficiencies in both domains, unlike existing open-source models that tend to specialize in either. Through meticulous pre-training using a code-intensive corpus and instruction fine-tuning on text and code data, our models achieve state-of-the-art averaged performance across diverse text and coding benchmarks among open-source models. Comprehensive experiments demonstrate Lemur's superiority over existing open-source models and its proficiency across various agent tasks involving human communication, tool usage, and interaction under fully- and partially- observable environments. The harmonization between natural and programming languages enables Lemur-Chat to significantly narrow the gap with proprietary models on agent abilities, providing key insights into developing advanced open-source agents adept at reasoning, planning, and operating seamlessly across environments. https://github.com/OpenLemur/Lemur
翻訳日:2023-10-11 14:16:08 公開日:2023-10-10
# 合成タスクでより少ない幻覚を与えるための言語モデルを教える

Teaching Language Models to Hallucinate Less with Synthetic Tasks ( http://arxiv.org/abs/2310.06827v1 )

ライセンス: Link先を確認
Erik Jones, Hamid Palangi, Clarisse Sim\~oes, Varun Chandrasekaran, Subhabrata Mukherjee, Arindam Mitra, Ahmed Awadallah, Ece Kamar(参考訳) 大規模言語モデル(llm)は、すべての必要な情報がコンテキストに含まれるにもかかわらず、文書ベースの質問応答、ミーティングの要約、臨床レポート生成などの抽象的な要約タスクをしばしば紹介する。 しかし、各最適化ステップにおいて幻覚を効果的に評価することは困難であるため、これらのタスクの割礼を減らすためのllmの最適化は困難である。 本研究では,合成作業における幻覚の低減が,現実世界の下流作業における幻覚の低減につながることを示す。 提案手法であるsyntraは, 幻覚の誘発と測定が容易な合成タスクを最初に設計する。 次に、合成タスクのプレフィックスチューニングを通じてllmのシステムメッセージを最適化し、最終的にシステムメッセージを現実的な最適化タスクに転送する。 3つの現実的な抽象的要約タスクの中で、SynTraは2つの13BパラメータLLMに対する幻覚を減らす。 また,モデル重みよりもシステムメッセージの最適化が重要であり,モデル全体を合成タスクで微調整することは幻覚を直観的に増加させる可能性がある。 全体としてsyntraは、合成データを扱う余分な柔軟性が、実際には望ましくない振る舞いを軽減できることを実証している。

Large language models (LLMs) frequently hallucinate on abstractive summarization tasks such as document-based question-answering, meeting summarization, and clinical report generation, even though all necessary information is included in context. However, optimizing LLMs to hallucinate less on these tasks is challenging, as hallucination is hard to efficiently evaluate at each optimization step. In this work, we show that reducing hallucination on a synthetic task can also reduce hallucination on real-world downstream tasks. Our method, SynTra, first designs a synthetic task where hallucinations are easy to elicit and measure. It next optimizes the LLM's system message via prefix-tuning on the synthetic task, and finally transfers the system message to realistic, hard-to-optimize tasks. Across three realistic abstractive summarization tasks, SynTra reduces hallucination for two 13B-parameter LLMs using only a synthetic retrieval task for supervision. We also find that optimizing the system message rather than the model weights can be critical; fine-tuning the entire model on the synthetic task can counterintuitively increase hallucination. Overall, SynTra demonstrates that the extra flexibility of working with synthetic data can help mitigate undesired behaviors in practice.
翻訳日:2023-10-11 14:15:42 公開日:2023-10-10
# ミストラル7B

Mistral 7B ( http://arxiv.org/abs/2310.06825v1 )

ライセンス: Link先を確認
Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, L\'elio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timoth\'ee Lacroix, William El Sayed(参考訳) 性能と効率性に優れた7ビリオンパラメータ言語モデルであるMistral 7B v0.1を紹介する。 Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。 我々のモデルは高速な推論のためにグループクエリアテンション(GQA)を利用し、スライディングウィンドウアテンション(SWA)と組み合わせて、任意の長さのシーケンスを推論コストの削減で効果的に処理する。 また、命令に従うように微調整されたモデル、Mistral 7B -- Instruct -- Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供しています。 私たちのモデルはApache 2.0ライセンスでリリースされています。

We introduce Mistral 7B v0.1, a 7-billion-parameter language model engineered for superior performance and efficiency. Mistral 7B outperforms Llama 2 13B across all evaluated benchmarks, and Llama 1 34B in reasoning, mathematics, and code generation. Our model leverages grouped-query attention (GQA) for faster inference, coupled with sliding window attention (SWA) to effectively handle sequences of arbitrary length with a reduced inference cost. We also provide a model fine-tuned to follow instructions, Mistral 7B -- Instruct, that surpasses the Llama 2 13B -- Chat model both on human and automated benchmarks. Our models are released under the Apache 2.0 license.
翻訳日:2023-10-11 14:15:21 公開日:2023-10-10
# 真実の幾何学:真偽データセットの大規模言語モデルにおける創発的線形構造

The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets ( http://arxiv.org/abs/2310.06824v1 )

ライセンス: Link先を確認
Samuel Marks and Max Tegmark(参考訳) 大規模言語モデル(llm)は印象的な能力を持つが、偽りを出力しやすい。 近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。 しかし、この一連の研究は議論の余地があり、いくつかの著者は、これらのプローブの失敗が基本的な方法で一般化することを指摘している。 本研究では、真偽文の高品質なデータセットをキュレートし、それらを用いて真理のLLM表現の構造を詳細に研究し、3行のエビデンスに基づく。 1. 明快な線形構造を示す LLM true/false 文表現の可視化 2. 1つのデータセットで訓練されたプローブを異なるデータセットに一般化する転送実験。 3 LLMの前方パスに外科的に介入して得た因果証拠により、虚偽の陳述を真実として、その逆として扱うことができる。 全体として、言語モデルが事実文の真偽を線形に表現する証拠を示す。 また,より一般化し,他の探索手法よりも因果的にモデル出力に影響を及ぼす新しい手法である質量平均探索を導入する。

Large Language Models (LLMs) have impressive capabilities, but are also prone to outputting falsehoods. Recent work has developed techniques for inferring whether a LLM is telling the truth by training probes on the LLM's internal activations. However, this line of work is controversial, with some authors pointing out failures of these probes to generalize in basic ways, among other conceptual issues. In this work, we curate high-quality datasets of true/false statements and use them to study in detail the structure of LLM representations of truth, drawing on three lines of evidence: 1. Visualizations of LLM true/false statement representations, which reveal clear linear structure. 2. Transfer experiments in which probes trained on one dataset generalize to different datasets. 3. Causal evidence obtained by surgically intervening in a LLM's forward pass, causing it to treat false statements as true and vice versa. Overall, we present evidence that language models linearly represent the truth or falsehood of factual statements. We also introduce a novel technique, mass-mean probing, which generalizes better and is more causally implicated in model outputs than other probing techniques.
翻訳日:2023-10-11 14:15:06 公開日:2023-10-10