このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231019となっている論文です。

PDF登録状況(公開日: 20231019)

TitleAuthorsAbstract論文公表日・翻訳日
# 暗号化データによるプライバシー保護階層匿名化フレームワーク

Privacy-Preserving Hierarchical Anonymization Framework over Encrypted Data ( http://arxiv.org/abs/2310.12401v1 )

ライセンス: Link先を確認
Jing Jia, Kenta Saito, Hiroaki Nishi, (参考訳) スマートシティは、現実世界を監視し、さまざまな分野でスマートサービスを提供し、都市化が加速するにつれて人々の生活水準を改善している。 しかし、スマートシティアプリケーションは、人々とその社会的サークルから大量のプライバシーに敏感な情報を収集するため、セキュリティとプライバシに関する懸念がある。 データを一般化し、データのユニークさを低減する匿名化は、機密情報のプライバシーを維持するための重要なステップである。 しかし、匿名化手法は大規模なデータセットを必要とすることが多く、特にクラウド環境では信頼できないサードパーティがデータを収集・管理する。 この場合、プライベートなデータ漏洩は依然として重大な問題であり、ユーザーはデータの共有を妨げ、スマートシティサービスの進歩を妨げる。 この問題は、計算エンティティが元のプレーンテキストを得ることなく匿名化処理を実行できる場合に解決できる。 本研究では、同型暗号と2種類のドメインからなる秘密共有を用いた階層的k匿名化フレームワークを提案する。 異なる計算方法が柔軟に選択され、2つのドメインが階層的に連結され、より高い匿名化が得られる。 実験により、2つのドメインを接続することで匿名化プロセスが促進され、提案したセキュア階層型アーキテクチャが実用的かつ効率的であることが示唆された。

Smart cities, which can monitor the real world and provide smart services in a variety of fields, have improved people's living standards as urbanization has accelerated. However, there are security and privacy concerns because smart city applications collect large amounts of privacy-sensitive information from people and their social circles. Anonymization, which generalizes data and reduces data uniqueness is an important step in preserving the privacy of sensitive information. However, anonymization methods frequently require large datasets and rely on untrusted third parties to collect and manage data, particularly in a cloud environment. In this case, private data leakage remains a critical issue, discouraging users from sharing their data and impeding the advancement of smart city services. This problem can be solved if the computational entity can perform the anonymization process without obtaining the original plain text. This study proposed a hierarchical k-anonymization framework using homomorphic encryption and secret sharing composed of two types of domains. Different computing methods are selected flexibly, and two domains are connected hierarchically to obtain higher-level anonymization results in an efficient manner. The experimental results show that connecting two domains can accelerate the anonymization process, indicating that the proposed secure hierarchical architecture is practical and efficient.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-19
# 経路の多様性を考慮した無バイアス多目的ファジィ化に向けて

Toward Unbiased Multiple-Target Fuzzing with Path Diversity ( http://arxiv.org/abs/2310.12419v1 )

ライセンス: Link先を確認
Huanyao Rong, Wei You, Xiaofeng Wang, Tianhao Mao, (参考訳) 本稿では,目標経路の多様性と非バイアスエネルギーの割り当てを特徴とするAFLRunというファジリング手法を提案する。 まず, 対象とする種子の被覆状況を追跡するために, 対象対象ごとの余分なヴァージンマップを維持することで, 新たなカバレッジ指標を開発する。 このアプローチにより、興味深いパスを通じてターゲットにヒットするコーパスへのウェイポイントの格納が可能になり、各ターゲットに対するパスの多様性が強化される。 さらに,各目標に対する公平性を保証するコーパスレベルのエネルギー割り当て戦略を提案する。 AFLRunは、均一な目標重量から始まり、この重量を種子に伝播させ、所望の種子重量分布を得る。 コーパス内の各種にそのような所望の分布に従ってエネルギーを割り当てることにより、精密で偏りのないエネルギー割り当てが達成される。 我々は,プロトタイプシステムを構築し,その性能を標準ベンチマークと広範囲にファジドされた実世界のアプリケーションを用いて評価した。 その結果, AFLRunは, 脆弱性検出において, 量, 速度ともに, 最先端のファズーよりも優れていた。 さらに、AFLRunは4つの異なるプログラムにまたがる8つのCVEを含む29の未確認脆弱性を明らかにした。

In this paper, we propose a novel directed fuzzing solution named AFLRun, which features target path-diversity metric and unbiased energy assignment. Firstly, we develop a new coverage metric by maintaining extra virgin map for each covered target to track the coverage status of seeds that hit the target. This approach enables the storage of waypoints into the corpus that hit a target through interesting path, thus enriching the path diversity for each target. Additionally, we propose a corpus-level energy assignment strategy that guarantees fairness for each target. AFLRun starts with uniform target weight and propagates this weight to seeds to get a desired seed weight distribution. By assigning energy to each seed in the corpus according to such desired distribution, a precise and unbiased energy assignment can be achieved. We built a prototype system and assessed its performance using a standard benchmark and several extensively fuzzed real-world applications. The evaluation results demonstrate that AFLRun outperforms state-of-the-art fuzzers in terms of vulnerability detection, both in quantity and speed. Moreover, AFLRun uncovers 29 previously unidentified vulnerabilities, including 8 CVEs, across four distinct programs.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-19
# 小型ブートストラップキーを用いたFHEにおける大文字機能ブートストラップ

Large-Plaintext Functional Bootstrapping in FHE with Small Bootstrapping Keys ( http://arxiv.org/abs/2310.12441v1 )

ライセンス: Link先を確認
Dengfa Liu, Hongbo Li, (参考訳) 機能的ブートストラッピングは、フルホモモルフィック暗号化(FHE)のコア技術である。 大規模な平文の場合、FHEW/TFHEアプローチでは、テスト多項式の係数にルックアップテーブル形式の関数が符号化されているため、一般関数を暗号文上で同型的に評価するためには、多項式の次数はテーブル全体を保持するのに十分高くなければならない。 これによりブートストラップ時間の複雑さとメモリコストが増加し、ブートストラップキーとキースイッチングキーのサイズが大きくなる必要がある。 本稿では,係数がより多くのデータを保持する多項式ベクトルの任意の関数のルックアップテーブルを符号化する。 RGSWベースのブートストラップで用いられる加法群 Zq の対応する表現は、2014年にアルペリン・シェリフとピーカルトによって用いられた置換行列表現と、FHEW/TFHEスキームで用いられるモニック単相表現を統合するモニック単相行列群である。 本稿では,新しい表現を包括的に検討し,それに基づくブートストラップアルゴリズムを提案する。 新しいアルゴリズムは、キーサイズが小さく、キースイッチングのキーサイズが小さいことで、キーサイズが多項式的に改善され、実行時のコストが一定に向上する。

Functional bootstrapping is a core technique in Fully Homomorphic Encryption (FHE). For large plaintext, to evaluate a general function homomorphically over a ciphertext, in the FHEW/TFHE approach, since the function in look-up table form is encoded in the coefficients of a test polynomial, the degree of the polynomial must be high enough to hold the entire table. This increases the bootstrapping time complexity and memory cost, as the size of bootstrapping keys and keyswitching keys need to be large accordingly. In this paper, we propose to encode the look-up table of any function in a polynomial vector, whose coefficients can hold more data. The corresponding representation of the additive group Zq used in the RGSW-based bootstrapping is the group of monic monomial permutation matrices, which integrates the permutation matrix representation used by Alperin-Sheriff and Peikert in 2014, and the monic monomial representation used in the FHEW/TFHE scheme. We make comprehensive investigation of the new representation, and propose a new bootstrapping algorithm based on it. The new algorithm has the prominent benefit of small bootstrapping key size and small key-switching key size, which leads to polynomial factor improvement in key size, in addition to constant factor improvement in run-time cost.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-19
# 置換多項式の高次完全性

Higher Level Completeness for Permutation Polynomials ( http://arxiv.org/abs/2310.12466v1 )

ライセンス: Link先を確認
S. Rajagopal, P. Vanchinathan, (参考訳) 有限体上の完全置換多項式の概念を一般化し、奇標数体における次数$k$ for $k\ge1$に対する完備性を定義する。 我々は、すべての有限体に対して高次完全性の条件を満たす多項式の2つの族を構築し、さらに2つの族は、有限体の大規模な集合に対して最大レベルに完備である。 函数の構成のバイナリ演算の下では、多項式の族の一つは加法群に同型なアーベル群であり、もう一方は乗法群に同型である。

Generalising the concept of a complete permutation polynomial over a finite field, we define completness to level $k$ for $k\ge1$ in fields of odd characteristic. We construct two families of polynomials that satisfy the condition of high level completeness for all finite fields, and two more families complete to the maximum level a possible for large collection of finite fields. Under the binary operation of composition of functions one family of polynomials is an abelian group isomorphic to the additive group, while the other is isomorphic to the multiplicative group.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-19
# 大規模言語モデルを保存するプライバシ: ビジョンとフレームワークに基づくChatGPTケーススタディ

Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework ( http://arxiv.org/abs/2310.12523v1 )

ライセンス: Link先を確認
Imdad Ullah, Najm Hassan, Sukhpal Singh Gill, Basem Suleiman, Tariq Ahamed Ahanger, Zawar Shah, Junaid Qadir, Salil S. Kanhere, (参考訳) 大規模言語モデル(LLM)に基づく生成人工知能(AI)ツールは、数十億のパラメータを使用して、大規模なデータセットを広範囲に分析し、コンテキスト、特定の詳細、情報の識別など重要なプライベート情報を抽出する。 これにより、ユーザのプライバシやそのようなツールの使用を嫌う、深刻な脅威が生まれました。 本稿では,LLMのプライバシ保護モデルであるPrivChatGPTという概念モデルを提案する。 適用性を示すために,ユーザプライバシを保護するためにLLMをトレーニングするための既存のモデルにプライベートメカニズムを組み込む方法を示し,特にReinforcement Learning (RL) を用いた差分プライバシとプライベートトレーニングを採用した。 差分プライバシーを適用すると、プライバシー損失を測定し、不確実性やランダム性の尺度を評価する。 さらに、トレーニング目的に新たな情報が追加された場合の更新毎に、プライバシ保証のレベルと、公開データベースとリソースの不確実性の尺度を再帰的に評価する。 個人LLMにおける差分プライバシーの利用を批判的に評価するため,他のメカニズムeを仮説的に比較した。 例えば、ブロックチェーン、プライベート情報検索、ランダム化、モデルパフォーマンスと精度、計算複雑性、プライバシ対ユーティリティなど、さまざまなパフォーマンス対策。 異なるプライバシ、ランダム化、難読化は、トレーニングされたモデルの実用性とパフォーマンスに影響を与える可能性があると結論付け、逆にToR、Blockchain、PIRの使用は、さらなる計算複雑性と高いトレーニング遅延をもたらす可能性がある。 提案モデルは,ジェネレーティブAIツールのLLMをプライバシ保護するためのベンチマークとして使用できると考えている。

The generative Artificial Intelligence (AI) tools based on Large Language Models (LLMs) use billions of parameters to extensively analyse large datasets and extract critical private information such as, context, specific details, identifying information etc. This have raised serious threats to user privacy and reluctance to use such tools. This article proposes the conceptual model called PrivChatGPT, a privacy-preserving model for LLMs that consists of two main components i.e., preserving user privacy during the data curation/pre-processing together with preserving private context and the private training process for large-scale data. To demonstrate its applicability, we show how a private mechanism could be integrated into the existing model for training LLMs to protect user privacy; specifically, we employed differential privacy and private training using Reinforcement Learning (RL). We measure the privacy loss and evaluate the measure of uncertainty or randomness once differential privacy is applied. It further recursively evaluates the level of privacy guarantees and the measure of uncertainty of public database and resources, during each update when new information is added for training purposes. To critically evaluate the use of differential privacy for private LLMs, we hypothetically compared other mechanisms e..g, Blockchain, private information retrieval, randomisation, for various performance measures such as the model performance and accuracy, computational complexity, privacy vs. utility etc. We conclude that differential privacy, randomisation, and obfuscation can impact utility and performance of trained models, conversely, the use of ToR, Blockchain, and PIR may introduce additional computational complexity and high training latency. We believe that the proposed model could be used as a benchmark for proposing privacy preserving LLMs for generative AI tools.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-19
# 総理大臣就任記念号に寄せて

Notes on Small Private Key Attacks on Common Prime RSA ( http://arxiv.org/abs/2310.12572v1 )

ライセンス: Link先を確認
Mengce Zheng, (参考訳) Information Sciences, 538 (2020) 54--68] [ Information Sciences, 538 (2020) 54--68] [ 'Remarks on the cryptanalysis of Common Prime RSA for IoT constrained Low Power Device' で示された共通素RSAの格子型暗号解析における重要な欠陥を指摘した。 これらの欠陥を正すため、特定の三変数整数多項式方程式の解法において、解析にかかわる関連するパラメータを慎重に精査する。 さらに、我々は、共通素数RSAに対する小さな秘密鍵攻撃の合成攻撃図を提供する。

We point out critical deficiencies in lattice-based cryptanalysis of common prime RSA presented in ``Remarks on the cryptanalysis of common prime RSA for IoT constrained low power devices'' [Information Sciences, 538 (2020) 54--68]. To rectify these flaws, we carefully scrutinize the relevant parameters involved in the analysis during solving a specific trivariate integer polynomial equation. Additionally, we offer a synthesized attack illustration of small private key attacks on common prime RSA.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-19
# knowCC:CS/非CS大学生間のコンピュータとサイバー倫理に関する知識・認識

knowCC: Knowledge, awareness of computer & cyber ethics between CS/non-CS university students ( http://arxiv.org/abs/2310.12684v1 )

ライセンス: Link先を確認
Naresh Kshetri, Vasudha, Denisa Hoxha, (参考訳) 技術はここ数年で飛躍的に進歩した。 サイバー攻撃もある。 サイバー攻撃は情報セキュリティと一般大衆に危険をもたらす可能性がある。 データ実践とインターネット消費率が上昇し続けており、サイバー認知は徐々に重要になっている。 さらに、企業がモバイルデバイス、クラウドサービス、コミュニティブメディア、モノのインターネットといったサービスにデジタルトランスフォーメーションをペースするにつれ、サイバーセキュリティは企業のリスク管理において重要な問題となっている。 本研究は、一般学生におけるサイバーセキュリティ意識、サイバー知識、コンピュータ倫理、サイバー倫理、サイバー行動、および保護ツールとの関係に焦点を当てている。 調査結果は、インターネット利用者はサイバー脅威の警告を受けているが、最も初歩的で簡単に実施できる予防措置しか取っていないことを示している。 サイバーセキュリティの問題をノブするために、いくつかの知識と認識が提案されている。 また、サイバー世界における個人情報の保護に関する構造、労働力、証拠に関して、サイバーセキュリティの原則を付与している。 最初のステップは、人々がインターネットのネガティブな側面について自分自身を教育し、サイバー脅威についてもっと学び、攻撃が起きたときに気づくようにすることです。 CSと非CSの大学生を対象に提案した分析の効率性を検証するため,ケーススタディといくつかの比較を行った。

Technology has advanced dramatically in the previous several years. There are also cyber assaults. Cyberattacks pose a possible danger to information security and the general public. Since data practice and internet consumption rates continue to upswing, cyber awareness has become progressively important. Furthermore, as businesses pace their digital transformation with mobile devices, cloud services, communal media, and Internet of Things services, cybersecurity has appeared as a critical issue in corporate risk management. This research focuses on the relations between cybersecurity awareness, cyber knowledge, computer ethics, cyber ethics, and cyber behavior, as well as protective tools, across university students in general. The findings express that while internet users are alert of cyber threats, they only take the most elementary and easy-to-implement precautions. Several knowledge and awareness have been proposed to knob the issue of cyber security. It also grants the principles of cybersecurity in terms of its structure, workforces, and evidence pertaining to the shield of personal information in the cyber world. The first step is for people to educate themselves about the negative aspects of the internet and to learn more about cyber threats so that they can notice when an attack is taking place. To validate the efficiency of the suggested analysis between CS and non-CS university students, case study along with several comparisons are provided.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-19
# RANDGENER:検証遅延関数からの分散ランダム性ビーコン

RANDGENER: Distributed Randomness Beacon from Verifiable Delay Function ( http://arxiv.org/abs/2310.12693v1 )

ライセンス: Link先を確認
Arup Mondal, Ruthu Hulikal Rooparaghunath, Debayan Gupta, (参考訳) セキュアな分散アプリケーションに関する興奮に満ちた過去数十年間、分散ランダムネスビーコン(DRB)とユースケースが数多く構築されてきたが、セキュアなDRB(多くのバリエーション)は未解決の問題のままである。 さらに、ランダムネスビーコンの値を評価する時間とエネルギーを費やす参加者に何らかの報酬を求めるのは自然なことです -- これは分散プロトコルですでに一般的です。 本稿では、RandGenerを紹介します。これは、新しい報酬とペナルティメカニズムと、現実的な保証のセットを備えた、新規な$n$のコミット-Reveal-Recover(または協調的な)DRBプロトコルです。 我々は,RSAグループ設定におけるトラップドア透かし検証可能な遅延関数を用いてプロトコルを設計する(信頼できるディーラーや分散鍵生成を必要としない)。

Buoyed by the excitement around secure decentralized applications, the last few decades have seen numerous constructions of distributed randomness beacons (DRB) along with use cases; however, a secure DRB (in many variations) remains an open problem. We further note that it is natural to want some kind of reward for participants who spend time and energy evaluating the randomness beacon value -- this is already common in distributed protocols. In this work, we present RandGener, a novel $n$-party commit-reveal-recover (or collaborative) DRB protocol with a novel reward and penalty mechanism along with a set of realistic guarantees. We design our protocol using trapdoor watermarkable verifiable delay functions in the RSA group setting (without requiring a trusted dealer or distributed key generation).
翻訳日:2024-03-19 01:54:08 公開日:2023-10-19
# Trenchcoat: パスワード生成のための人間計算可能なハッシュアルゴリズム

Trenchcoat: Human-Computable Hashing Algorithms for Password Generation ( http://arxiv.org/abs/2310.12706v1 )

ライセンス: Link先を確認
Ruthu Hulikal Rooparaghunath, T. S. Harikrishnan, Debayan Gupta, (参考訳) 平均的なユーザーは90~130のオンラインアカウントを持っている。 ほとんどの人は「ランダム」パスワードを覚えるのが苦手なので、予測可能な単語、数字、シンボルの組み合わせを使って、似たようなパスワードを再利用したり、作成したりします。 従来のパスワード生成や管理プロトコルは、非常に大きな認知的負荷を課しているため、ユーザは、安全でシンプルな方法(例えば、それらを書き留めたり、マイナーな変種を再利用したり)を好んで、それらを放棄している。 パスワードジェネレータとして使用するのに適した候補となる「ハッシュ」機能について述べる。人間(教育の前提が最小限である)が単一の「マスター」秘密を保持できる限り、効果的なセキュリティを含む様々な指標で評価する。 F_R($s$, w) \longrightarrow y$, ウェブサイト$w$を受け取り、パスワード$y$を生成し、マスターシークレット$s$によってパラメータ化される。 我々は、各ユーザの連想的暗黙的メモリ(第2節で詳述)のユニークな設定$R$を利用して、各マスターシークレット$F_R$に、各ユーザ固有のランダム性ソースが存在することを保証します。 その意味では、我々のハッシュ関数は物理的に拘束不能な関数に類似している。 提案するアルゴリズムでは,追加や空間ナビゲーション,探索といった,完全な原始的な操作しか必要としない。 批判的に言えば、我々の方法の多くは、神経多様性や認知的にも身体的にも異なる人にもアクセスできます。 我々は,これらの手法の実際の使用状況と現在のパスワードの取得方法に関する調査 (n=134人) の結果を報告するとともに,現在のパスワードアドバイスを照合するために400のウェブサイトを調査した。

The average user has between 90-130 online accounts, and around $3 \times 10^{11}$ passwords are in use this year. Most people are terrible at remembering "random" passwords, so they reuse or create similar passwords using a combination of predictable words, numbers, and symbols. Previous password-generation or management protocols have imposed so large a cognitive load that users have abandoned them in favor of insecure yet simpler methods (e.g., writing them down or reusing minor variants). We describe a range of candidate human-computable "hash" functions suitable for use as password generators - as long as the human (with minimal education assumptions) keeps a single, easily-memorizable "master" secret - and rate them by various metrics, including effective security. These functions hash master-secrets with user accounts to produce sub-secrets that can be used as passwords; $F_R($s$, w) \longrightarrow y$, takes a website $w$, produces a password $y$, parameterized by master secret $s$, which may or may not be a string. We exploit the unique configuration $R$ of each user's associative and implicit memory (detailed in section 2) to ensure that sources of randomness unique to each user are present in each master-secret $F_R$. An adversary cannot compute or verify $F_R$ efficiently since $R$ is unique to each individual; in that sense, our hash function is similar to a physically unclonable function. For the algorithms we propose, the user need only complete primitive operations such as addition, spatial navigation or searching. Critically, most of our methods are also accessible to neurodiverse, or cognitively or physically differently-abled persons. We present results from a survey (n=134 individuals) investigating real-world usage of these methods and how people currently come up with their passwords, we also survey 400 websites to collate current password advice.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-19
# Tight Short-Lived Signatures

Tight Short-Lived Signatures ( http://arxiv.org/abs/2310.12723v1 )

ライセンス: Link先を確認
Arup Mondal, Ruthu Hulikal Rooparaghunath, Debayan Gupta, (参考訳) タイムロックパズル(TLP)は、情報を未来へ送信する: 並列化にかかわらず、情報を取得するために、所定の数の逐次計算(すなわち、所定時間経過)を行う必要がある。 セキュアな分散アプリケーションと暗号通貨に関する興奮に満ちたこの10年で、TLPの変種と関連するアプリケーション(コスト効率のよいブロックチェーン設計、ランダムネスビーコン、電子投票など)が数多く構築されている。 本稿では,まずTLPの概念を拡張し,TLPKE(time-lock public key encryption)方式を正式に定義する。 次に, TLPKE を用いた "tight short-lived signatures" スキームを導入, 構築する。 さらに,提案手法の有効性を検証するため,概念実証を行い,詳細なシミュレーションを行う。

A Time-lock puzzle (TLP) sends information into the future: a predetermined number of sequential computations must occur (i.e., a predetermined amount of time must pass) to retrieve the information, regardless of parallelization. Buoyed by the excitement around secure decentralized applications and cryptocurrencies, the last decade has witnessed numerous constructions of TLP variants and related applications (e.g., cost-efficient blockchain designs, randomness beacons, e-voting, etc.). In this poster, we first extend the notion of TLP by formally defining the "time-lock public key encryption" (TLPKE) scheme. Next, we introduce and construct a "tight short-lived signatures" scheme using our TLPKE. Furthermore, to test the validity of our proposed schemes, we do a proof-of-concept implementation and run detailed simulations.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-19
# 個人差分プライバシによるスキューデータに対するクエリの回答

Privately Answering Queries on Skewed Data via Per Record Differential Privacy ( http://arxiv.org/abs/2310.12827v1 )

ライセンス: Link先を確認
Jeremy Seeman, William Sexton, David Pujol, Ashwin Machanavajjhala, (参考訳) 少数の大集団による貢献を維持することが重要となる統計(集計給与など)の個人的公開の問題を考える。 本稿では、各レコードに関連付けられたプライバシー損失が、そのレコードの価値の公的な機能であるような、記録ごとの0集中差分プライバシー(PzCDP)を提案する。 異なるレコードに対して異なるプライバシ損失を提供する他の形式主義とは異なり、PzCDPのプライバシ損失は機密データに明示的に依存する。 我々は、我々の定式化を定義し、その性質を導出し、スクイードまたはヘビーテール統計の発行に特に適しているPzCDPを満たすメカニズムを提案し、少数のレコードがクエリー応答に大きく寄与する。 この緩和は、これらのデータ製品に標準DPを適用することの難しさを克服するのに役立つ。

We consider the problem of the private release of statistics (like aggregate payrolls) where it is critical to preserve the contribution made by a small number of outlying large entities. We propose a privacy formalism, per-record zero concentrated differential privacy (PzCDP), where the privacy loss associated with each record is a public function of that record's value. Unlike other formalisms which provide different privacy losses to different records, PzCDP's privacy loss depends explicitly on the confidential data. We define our formalism, derive its properties, and propose mechanisms which satisfy PzCDP that are uniquely suited to publishing skewed or heavy-tailed statistics, where a small number of records contribute substantially to query answers. This targeted relaxation helps overcome the difficulties of applying standard DP to these data products.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-19
# アラート駆動アタックグラフのためのクリティカルパス優先順位付けダッシュボード

Critical Path Prioritization Dashboard for Alert-driven Attack Graphs ( http://arxiv.org/abs/2310.13079v1 )

ライセンス: Link先を確認
Sònia Leal Díaz, Sergio Pastrana, Azqa Nadeem, (参考訳) 侵入警報は攻撃戦略に関する脅威情報を提供することができるが、既存のツールを介してそのような情報を抽出することは高価で時間を要する。 SAGEは、教師なしシーケンシャル機械学習を使用して侵入警告から攻撃グラフを生成する。 本稿では、SAGEのためのクエリと優先順位付けが可能なビジュアル分析ダッシュボードを提案する。 ダッシュボードには3つの主要コンポーネントがある。 (i)すべての攻撃戦略のグローバルビューを表示するグラフエクスプローラー。 (ii)攻撃行為を時系列的に関連づけるタイムラインビューア、及び (iii)MITRE ATT&CKにインスパイアされたアタックステージマトリックスを介して、一般的なクリティカルアラートをハイライトするRecommender Matrix。 分散マルチステージチームベースのアタックシナリオから収集した侵入警報を用いて,提案したダッシュボードの有用性について述べる。 ユーザスタディを通じて,ダッシュボードの有用性を評価した。 少数のセキュリティ実践者の回答に基づいて、ダッシュボードは攻撃戦略や攻撃進行を描写するのに有用であるが、ユーザビリティの観点からは改善可能である。

Although intrusion alerts can provide threat intelligence regarding attacker strategies, extracting such intelligence via existing tools is expensive and time-consuming. Earlier work has proposed SAGE, which generates attack graphs from intrusion alerts using unsupervised sequential machine learning. This paper proposes a querying and prioritization-enabled visual analytics dashboard for SAGE. The dashboard has three main components: (i) a Graph Explorer that presents a global view of all attacker strategies, (ii) a Timeline Viewer that correlates attacker actions chronologically, and (iii) a Recommender Matrix that highlights prevalent critical alerts via a MITRE ATT&CK-inspired attack stage matrix. We describe the utility of the proposed dashboard using intrusion alerts collected from a distributed multi-stage team-based attack scenario. We evaluate the utility of the dashboard through a user study. Based on the responses of a small set of security practitioners, we find that the dashboard is useful in depicting attacker strategies and attack progression, but can be improved in terms of usability.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-19
# 第3回法領域における鉱業・学習ワークショップ(MLLD-23)の開催報告

Proceedings of the 3rd International Workshop on Mining and Learning in the Legal Domain (MLLD-23) ( http://arxiv.org/abs/2311.10733v1 )

ライセンス: Link先を確認
Masoud Makrehchi, Dell Zhang, Alina Petrova, John Armour(参考訳) 2023年10月22日、バーミンガムのバーミンガム大学で第32回acm国際情報・知識管理会議(cikm-2023)と共に開催された第3回法領域における鉱業・学習ワークショップ(mlld-23)の議事録である。

This is the Proceedings of the 3rd International Workshop on Mining and Learning in the Legal Domain (MLLD-23) which took place in conjunction with the 32nd ACM International Conference on Information and Knowledge Management (CIKM-2023) at the University of Birmingham, Birmingham, UK on Sunday 22nd October 2023.
翻訳日:2023-11-27 01:00:14 公開日:2023-10-19
# トレーニング前のデータセットの1%を慎重に選択! セマンティクスクエリを用いた差分プライベート画像データの生成

Meticulously Selecting 1% of the Dataset for Pre-training! Generating Differentially Private Images Data with Semantics Query ( http://arxiv.org/abs/2311.12850v1 )

ライセンス: Link先を確認
Kecen Li, Chen Gong, Zhixiang Li, Yuzhong Zhao, Xinwen Hou, Tianhao Wang(参考訳) 差分プライバシー(DP)画像データ合成(DP)は、DP技術を活用して、機密データを置き換える合成データを生成する。 従来の手法では、生成モデルの高度な技術と、公開データセット上で事前トレーニングを行い、例外的なDP画像データを生成するが、不安定なトレーニングや膨大な計算リソース要求の問題がある。 本稿では,プリトレーニングデータを細心の注意を払って選択し,高忠実度かつ実用性の高いdpデータセットの効率的な作成を促進する,新しいdp画像合成手法であるprivimageを提案する。 PRIVIMAGEはまず、公開データセットを使用してセマンティッククエリ関数を確立する。 そして、この機能はセンシティブなデータセットのセマンティクス分布の問い合わせを支援し、事前トレーニングのための類似のセマンティクスを持つ公開データセットからのデータの選択を容易にする。 最後に,選択したデータを用いて画像生成モデルを事前学習し,そのデータをDP-SGD(differially Private Stochastic Gradient Descent)を用いてセンシティブなデータセット上で微調整する。 PRIVIMAGE は,DP-SGD トレーニング中の勾配の雑音を低減し,学習安定性の向上を図る。 広範な実験により、privimageは事前学習のために公開データセットの1%しか使用せず、生成モデルのパラメータの7.6%が最先端の手法よりも優れた合成性能を達成し、より多くの計算資源を保存できることが示されている。 PRIVIMAGEは平均30.1%低いFIDと12.6%高い分類精度を達成した。 レプリケーションパッケージとデータセットはオンラインでアクセス可能だ。

Differential Privacy (DP) image data synthesis, which leverages the DP technique to generate synthetic data to replace the sensitive data, allowing organizations to share and utilize synthetic images without privacy concerns. Previous methods incorporate the advanced techniques of generative models and pre-training on a public dataset to produce exceptional DP image data, but suffer from problems of unstable training and massive computational resource demands. This paper proposes a novel DP image synthesis method, termed PRIVIMAGE, which meticulously selects pre-training data, promoting the efficient creation of DP datasets with high fidelity and utility. PRIVIMAGE first establishes a semantic query function using a public dataset. Then, this function assists in querying the semantic distribution of the sensitive dataset, facilitating the selection of data from the public dataset with analogous semantics for pre-training. Finally, we pre-train an image generative model using the selected data and then fine-tune this model on the sensitive dataset using Differentially Private Stochastic Gradient Descent (DP-SGD). PRIVIMAGE allows us to train a lightly parameterized generative model, reducing the noise in the gradient during DP-SGD training and enhancing training stability. Extensive experiments demonstrate that PRIVIMAGE uses only 1% of the public dataset for pre-training and 7.6% of the parameters in the generative model compared to the state-of-the-art method, whereas achieves superior synthetic performance and conserves more computational resources. On average, PRIVIMAGE achieves 30.1% lower FID and 12.6% higher Classification Accuracy than the state-of-the-art method. The replication package and datasets can be accessed online.
翻訳日:2023-11-27 00:35:48 公開日:2023-10-19
# ロボットの常識知識の源泉としての大規模言語モデルの探索

Exploring Large Language Models as a Source of Common-Sense Knowledge for Robots ( http://arxiv.org/abs/2311.08412v1 )

ライセンス: Link先を確認
Felix Ocker and J\"org Deigm\"oller and Julian Eggert(参考訳) サービスロボットは、日常の状況で人間が行動の文脈を理解するのを助けるために、常識的な知識を必要とする。 しかし、常識的な知識はしばしば暗黙的であり、人間には明白であるが明示されていないため、オントロジーを使うアプローチは課題に直面している。 本稿では,Large Language Models (LLM) がこのギャップを埋めるかどうかを検討する。 実験の結果, 文脈行動知識の選択的抽出において, LLMは単独では不十分である可能性が示唆された。 しかし, ロボットのオントロジーを効率的に作成する上で, LLMが適切なツールであることを示すため, 汎用的, 行動可能な知識を大規模に抽出することは潜在的に有益である。 本稿では, 知識抽出に用いる手法が, 正規知識表現とシナジーにおけるLLMの可能性を示すミニマリストオントロジーに応用可能であることを示す。

Service robots need common-sense knowledge to help humans in everyday situations as it enables them to understand the context of their actions. However, approaches that use ontologies face a challenge because common-sense knowledge is often implicit, i.e., it is obvious to humans but not explicitly stated. This paper investigates if Large Language Models (LLMs) can fill this gap. Our experiments reveal limited effectiveness in the selective extraction of contextual action knowledge, suggesting that LLMs may not be sufficient on their own. However, the large-scale extraction of general, actionable knowledge shows potential, indicating that LLMs can be a suitable tool for efficiently creating ontologies for robots. This paper shows that the technique used for knowledge extraction can be applied to populate a minimalist ontology, showcasing the potential of LLMs in synergy with formal knowledge representation.
翻訳日:2023-11-19 14:03:29 公開日:2023-10-19
# RTNH+:CFARによる2段階前処理と垂直符号化を組み合わせた4次元レーダ物体検出ネットワーク

RTNH+: Enhanced 4D Radar Object Detection Network using Combined CFAR-based Two-level Preprocessing and Vertical Encoding ( http://arxiv.org/abs/2310.17659v1 )

ライセンス: Link先を確認
Seung-Hyun Kong, Dong-Hee Paek, Sangjae Cho(参考訳) 4次元レーダー(4d radar)は、様々な気象条件下での3次元物体検出および周辺物体の相対ラジアル速度推定に有用なセンサである。 しかし、レーダー計測はノイズ、干渉、クラッタなどの不正な成分で分解されるため、ニューラルネットワークによる3次元物体検出の前に前処理アルゴリズムを用いる必要がある。 本稿では,2つの新しいアルゴリズムによる4次元レーダ物体検出ネットワークRTNHの強化版であるRTNH+を提案する。 第1のアルゴリズムは、cfar(constant false alarm rate)ベースの2レベルプリプロセッシング(cctp)アルゴリズムであり、同じ4次元レーダー計測を用いて異なる特性の2つのフィルタ計測を生成し、4次元レーダー物体検出ネットワークへの入力の情報を強化する。 2つ目は、cctp出力からロードオブジェクトの垂直特性を効果的にエンコードするvertical encoding (ve)アルゴリズムである。 我々はRTNH+の詳細を述べ、RTNH+が${AP}_{3D}^{IoU=0.3}}$と${AP}_{3D}^{IoU=0.5}}$で10.14\%の大幅な性能向上を達成することを示した。

Four-dimensional (4D) Radar is a useful sensor for 3D object detection and the relative radial speed estimation of surrounding objects under various weather conditions. However, since Radar measurements are corrupted with invalid components such as noise, interference, and clutter, it is necessary to employ a preprocessing algorithm before the 3D object detection with neural networks. In this paper, we propose RTNH+ that is an enhanced version of RTNH, a 4D Radar object detection network, by two novel algorithms. The first algorithm is the combined constant false alarm rate (CFAR)-based two-level preprocessing (CCTP) algorithm that generates two filtered measurements of different characteristics using the same 4D Radar measurements, which can enrich the information of the input to the 4D Radar object detection network. The second is the vertical encoding (VE) algorithm that effectively encodes vertical features of the road objects from the CCTP outputs. We provide details of the RTNH+, and demonstrate that RTNH+ achieves significant performance improvement of 10.14\% in ${{AP}_{3D}^{IoU=0.3}}$ and 16.12\% in ${{AP}_{3D}^{IoU=0.5}}$ over RTNH.
翻訳日:2023-11-05 14:14:22 公開日:2023-10-19
# 深層学習におけるエネルギー効率の解放:エッジデバイス間の計測・予測・スコーリング

Unveiling Energy Efficiency in Deep Learning: Measurement, Prediction, and Scoring across Edge Devices ( http://arxiv.org/abs/2310.18329v1 )

ライセンス: Link先を確認
Xiaolong Tu, Anik Mallik, Dawei Chen, Kyungtae Han, Onur Altintas, Haoxin Wang, Jiang Xie(参考訳) 今日、ディープラーニングの最適化は主に、高い推論精度とレイテンシの低減に焦点をあてた研究によって進められている。 しかし、エネルギー効率の側面はしばしば見過ごされ、分野における持続可能性マインドセットの欠如と総合的なエネルギーデータセットの欠如が原因である可能性がある。 本稿では,様々なエッジデバイスを用いた深層学習におけるエネルギー・エネルギー消費の透明性向上を目的として,エネルギー測定,予測,効率評価を含む3つの研究を行った。 まず,デバイス上での深層学習のエネルギー消費特性を明らかにするための,第1種測定方法を提案する。 この研究により、エッジデバイス用の3つの広範なエネルギーデータセットが作成され、幅広いカーネル、最先端のDNNモデル、一般的なAIアプリケーションをカバーする。 次に、カーネルレベルのエネルギーデータセットに基づいてエッジデバイスのための最初のカーネルレベルのエネルギー予測器を設計し実装する。 評価結果は,予測器が未知のDNNモデルに対して一貫した正確なエネルギー推定を行う能力を示す。 最後に,エッジデバイスの複雑な電力・エネルギー消費データを,エッジデバイスエンドユーザにとって容易に理解可能な方法で変換する,pcsとiecsという2つのスコア指標を導入する。 私たちの研究は、エンドユーザと研究コミュニティの両方の考え方を、エッジコンピューティングの持続可能性へとシフトさせたいと思っています。 データ、コード、さらに最新の情報はhttps://amai-gsu.github.io/DeepEn2023.comで見つける。

Today, deep learning optimization is primarily driven by research focused on achieving high inference accuracy and reducing latency. However, the energy efficiency aspect is often overlooked, possibly due to a lack of sustainability mindset in the field and the absence of a holistic energy dataset. In this paper, we conduct a threefold study, including energy measurement, prediction, and efficiency scoring, with an objective to foster transparency in power and energy consumption within deep learning across various edge devices. Firstly, we present a detailed, first-of-its-kind measurement study that uncovers the energy consumption characteristics of on-device deep learning. This study results in the creation of three extensive energy datasets for edge devices, covering a wide range of kernels, state-of-the-art DNN models, and popular AI applications. Secondly, we design and implement the first kernel-level energy predictors for edge devices based on our kernel-level energy dataset. Evaluation results demonstrate the ability of our predictors to provide consistent and accurate energy estimations on unseen DNN models. Lastly, we introduce two scoring metrics, PCS and IECS, developed to convert complex power and energy consumption data of an edge device into an easily understandable manner for edge device end-users. We hope our work can help shift the mindset of both end-users and the research community towards sustainability in edge computing, a principle that drives our research. Find data, code, and more up-to-date information at https://amai-gsu.github.io/DeepEn2023.
翻訳日:2023-11-05 14:07:09 公開日:2023-10-19
# SVBRDFエクストラクタモデルによるベンチマークGPU

Benchmarking GPUs on SVBRDF Extractor Model ( http://arxiv.org/abs/2310.19816v1 )

ライセンス: Link先を確認
Narayan Kandel, Melanie Lambert(参考訳) ディープラーニングの成熟により、その利用はあらゆる分野に現れている。 また、さまざまなタイプのGPUが市場で利用可能になりつつあるため、ユーザにとって難しい決定を下すことになる。 特定のタスクに対して最適なパフォーマンスを実現するために、GPUをどのように選択すればよいのか? gpuアーキテクチャの分析はよく研究されているが、ベンチマークgpuが大幅に大きな入力を持つネットワークのタスクを研究していない。 本研究では,より大きな入力画像(256x256)で動作するニューラルネットワークモデルにおいて,異なるGPUの性能の区別を試みた。

With the maturity of deep learning, its use is emerging in every field. Also, as different types of GPUs are becoming more available in the markets, it creates a difficult decision for users. How can users select GPUs to achieve optimal performance for a specific task? Analysis of GPU architecture is well studied, but existing works that benchmark GPUs do not study tasks for networks with significantly larger input. In this work, we tried to differentiate the performance of different GPUs on neural network models that operate on bigger input images (256x256).
翻訳日:2023-11-05 13:27:29 公開日:2023-10-19
# 浮動小数点精度のないバイナリニューラルネットワークのトレーニング

Training binary neural networks without floating point precision ( http://arxiv.org/abs/2310.19815v1 )

ライセンス: Link先を確認
Federico Fontana(参考訳) この研究の主な目標は、低レイテンシで低エネルギーのネットワークであるバイナリニューラルネットワークのトレーニング効率を改善することである。 この研究の主な貢献は、トポロジの変化と戦略トレーニングからなる2つのソリューションの提案である。 トレーニングに必要な時間とプロセスに必要なメモリは、効率的なトレーニングに寄与する2つの要因である。

The main goal of this work is to improve the efficiency of training binary neural networks, which are low latency and low energy networks. The main contribution of this work is the proposal of two solutions comprised of topology changes and strategy training that allow the network to achieve near the state-of-the-art performance and efficient training. The time required for training and the memory required in the process are two factors that contribute to efficient training.
翻訳日:2023-11-05 13:27:22 公開日:2023-10-19
# 海面上昇予測における不確かさの低減 : 空間変動を考慮したアプローチ

Reducing Uncertainty in Sea-level Rise Prediction: A Spatial-variability-aware Approach ( http://arxiv.org/abs/2310.15179v1 )

ライセンス: Link先を確認
Subhankar Ghosh, Shuai An, Arun Sharma, Jayant Gupta, Shashi Shekhar, Aneesh Subramanian(参考訳) マルチモデルアンサンブルの気候予測を考えると、目標は不確実性を下げつつ、将来の海面上昇を正確にかつ確実に予測することである。 この問題は、海面上昇が海岸地域の何百万人もの人々に影響を及ぼし、気候変動が北極氷床や海に与える影響から重要である。 この問題は、空間的な変動や、チップポイント(グリーンランドや西南極棚氷の崩壊など)、気候フィードバックループ(雲、永久凍土の融解など)、将来の政策決定、人間の行動など、未知の問題によって困難である。 既存の気候モデリングのアプローチのほとんどは、異なる気候予測を組み合わせるために回帰またはディープラーニングのいずれにおいても、世界中の同じ重みのセットを使用する。 このようなアプローチは、正確で信頼性の高い海面上昇予測のための異なる重み付けスキームを必要とする場合、不十分である。 本稿では,空間変動とモデル相互依存を扱うゾナル回帰モデルを提案する。 実験結果は,このアプローチで得られた重みを地域規模で予測することで,より信頼性の高い予測を示す。

Given multi-model ensemble climate projections, the goal is to accurately and reliably predict future sea-level rise while lowering the uncertainty. This problem is important because sea-level rise affects millions of people in coastal communities and beyond due to climate change's impacts on polar ice sheets and the ocean. This problem is challenging due to spatial variability and unknowns such as possible tipping points (e.g., collapse of Greenland or West Antarctic ice-shelf), climate feedback loops (e.g., clouds, permafrost thawing), future policy decisions, and human actions. Most existing climate modeling approaches use the same set of weights globally, during either regression or deep learning to combine different climate projections. Such approaches are inadequate when different regions require different weighting schemes for accurate and reliable sea-level rise predictions. This paper proposes a zonal regression model which addresses spatial variability and model inter-dependency. Experimental results show more reliable predictions using the weights learned via this approach on a regional scale.
翻訳日:2023-10-29 15:59:45 公開日:2023-10-19
# Habitat 3.0:人間、アバター、ロボットのためのコ・ハビタット

Habitat 3.0: A Co-Habitat for Humans, Avatars and Robots ( http://arxiv.org/abs/2310.13724v1 )

ライセンス: Link先を確認
Xavier Puig, Eric Undersander, Andrew Szot, Mikael Dallaire Cote, Tsung-Yen Yang, Ruslan Partsey, Ruta Desai, Alexander William Clegg, Michal Hlavac, So Yeon Min, Vladim\'ir Vondru\v{s}, Theophile Gervet, Vincent-Pierre Berges, John M. Turner, Oleksandr Maksymets, Zsolt Kira, Mrinal Kalakrishnan, Jitendra Malik, Devendra Singh Chaplot, Unnat Jain, Dhruv Batra, Akshara Rai, Roozbeh Mottaghi(参考訳) 本研究では,家庭環境における協調ロボットタスクのシミュレーションプラットフォームHabitat 3.0を提案する。 habitat 3.0は、3次元にわたる貢献を提供している: (1) 正確なヒューマノイドシミュレーション: 複雑な変形可能な物体のモデリングにおける課題と、外観と動きの多様性に対処する。 2)ヒューマン・イン・ザ・ループ(Human-in-the-loop)インフラ:マウス/キーボードまたはVRインターフェースを介してシミュレーションロボットとのリアルなヒューマンインタラクションを可能にし、ロボットポリシーと人間の入力の評価を容易にする。 (3)共同作業:ソーシャルナビゲーションとソーシャルリアレンジメントという2つの共同作業の研究。 ソーシャルナビゲーションは、見えない環境でヒューマノイドアバターを発見・追跡するロボットの能力を調査する一方、ソーシャルリアレンジメントはシーンを再構成しながらヒューマノイドとロボットの協調に対処する。 これらの貢献により、人間とロボットのコラボレーションを深く研究するエンドツーエンドの学習とヒューリスティックなベースラインの研究や、ループ内の人間による評価が可能になる。 実験では,ロボットがこれまで見たことのない行動を呈する可能性のある,未発見のヒューマノイドエージェントや人間パートナーとのコラボレーションにおいて,学習したロボットの方針が効率的なタスク完了に繋がることを示す。 さらに,ロボットがヒューマノイドエージェントを妨害する際の空間を譲るなど,協調作業実行中の創発的挙動を観察することにより,ヒューマノイドエージェントによるタスクの効果的完了を可能にする。 さらに,本ツールを用いた実験により,人体を用いた自動評価により,実際の人体協力者による評価において,異なる政策の相対順序を示すことができることが示された。 habitat 3.0は、具体化されたaiのためのシミュレータの興味深い新機能を解き放ち、具体化された人間とaiのインタラクション機能の新しいフロンティアへの道を開くことを願っている。

We present Habitat 3.0: a simulation platform for studying collaborative human-robot tasks in home environments. Habitat 3.0 offers contributions across three dimensions: (1) Accurate humanoid simulation: addressing challenges in modeling complex deformable bodies and diversity in appearance and motion, all while ensuring high simulation speed. (2) Human-in-the-loop infrastructure: enabling real human interaction with simulated robots via mouse/keyboard or a VR interface, facilitating evaluation of robot policies with human input. (3) Collaborative tasks: studying two collaborative tasks, Social Navigation and Social Rearrangement. Social Navigation investigates a robot's ability to locate and follow humanoid avatars in unseen environments, whereas Social Rearrangement addresses collaboration between a humanoid and robot while rearranging a scene. These contributions allow us to study end-to-end learned and heuristic baselines for human-robot collaboration in-depth, as well as evaluate them with humans in the loop. Our experiments demonstrate that learned robot policies lead to efficient task completion when collaborating with unseen humanoid agents and human partners that might exhibit behaviors that the robot has not seen before. Additionally, we observe emergent behaviors during collaborative task execution, such as the robot yielding space when obstructing a humanoid agent, thereby allowing the effective completion of the task by the humanoid agent. Furthermore, our experiments using the human-in-the-loop tool demonstrate that our automated evaluation with humanoids can provide an indication of the relative ordering of different policies when evaluated with real human collaborators. Habitat 3.0 unlocks interesting new features in simulators for Embodied AI, and we hope it paves the way for a new frontier of embodied human-AI interaction capabilities.
翻訳日:2023-10-25 05:48:29 公開日:2023-10-19
# 未知クラスに対する耐性向上のための特徴規則化によるオープンワールド細菌ラマンスペクトルの同定

Enhancing Open-World Bacterial Raman Spectra Identification by Feature Regularization for Improved Resilience against Unknown Classes ( http://arxiv.org/abs/2310.13723v1 )

ライセンス: Link先を確認
Yaroslav Balytskyi, Nataliia Kalashnyk, Inna Hubenko, Alina Balytska, Kelly McNear(参考訳) ディープラーニング技術とラマン分光法の組み合わせは、臨床現場で病原細菌を正確かつ迅速に同定する大きな可能性を示している。 しかしながら、従来のクローズドセット分類アプローチでは、すべてのテストサンプルは既知の病原体に属しており、臨床環境は本質的に予測不能であり、動的で未知、または新興の病原体は利用可能なカタログに含まれない可能性があるため、その適用性は限られている。 ラマンスペクトルを通じて病原体を特定する現在の最先端のニューラルネットワークは、未知の入力に対して脆弱であり、制御不能な偽陽性率をもたらすことを実証する。 この問題に対処するため、我々はResNetアーキテクチャの新たなアンサンブルと既存のクローズドワールドメソッドよりも優れたアテンション機構を組み合わさり、最高のモデルでは8,6.7 pm 0.4 % の精度で8,7 pm 0.1 % の精度を達成した。 第2に, 対象球損失関数による特徴正規化の統合により, 既知の病原体をカタログから同定する精度が向上し, 未知のサンプルを効果的に分離し, 偽陽性率を大幅に低減する。 最後に, 学習中の特徴正規化手法により, 未知クラス検出の信頼性が向上し, 推定段階での分散検出性能が大幅に向上する。 提案するラマン分光法のアルゴリズムは, 将来の病原体に適応する柔軟性を提供する未知, 非触媒, 新興の病原体の検出を可能にし, 公共の安全利用など, 精度が重要な動的運用環境において, ラマン系ソリューションの信頼性を向上させる可能性を秘めている。

The combination of Deep Learning techniques and Raman spectroscopy shows great potential offering precise and prompt identification of pathogenic bacteria in clinical settings. However, the traditional closed-set classification approaches assume that all test samples belong to one of the known pathogens, and their applicability is limited since the clinical environment is inherently unpredictable and dynamic, unknown or emerging pathogens may not be included in the available catalogs. We demonstrate that the current state-of-the-art Neural Networks identifying pathogens through Raman spectra are vulnerable to unknown inputs, resulting in an uncontrollable false positive rate. To address this issue, first, we developed a novel ensemble of ResNet architectures combined with the attention mechanism which outperforms existing closed-world methods, achieving an accuracy of $87.8 \pm 0.1\%$ compared to the best available model's accuracy of $86.7 \pm 0.4\%$. Second, through the integration of feature regularization by the Objectosphere loss function, our model achieves both high accuracy in identifying known pathogens from the catalog and effectively separates unknown samples drastically reducing the false positive rate. Finally, the proposed feature regularization method during training significantly enhances the performance of out-of-distribution detectors during the inference phase improving the reliability of the detection of unknown classes. Our novel algorithm for Raman spectroscopy enables the detection of unknown, uncatalogued, and emerging pathogens providing the flexibility to adapt to future pathogens that may emerge, and has the potential to improve the reliability of Raman-based solutions in dynamic operating environments where accuracy is critical, such as public safety applications.
翻訳日:2023-10-25 05:47:56 公開日:2023-10-19
# 機械学習システム設計のためのフェミニスト認識論

Feminist epistemology for machine learning systems design ( http://arxiv.org/abs/2310.13721v1 )

ライセンス: Link先を確認
Goda Klumbyte, Hannah Piehl, Claude Draude(参考訳) 本稿では, フェミニストの認識論的概念を, 批判的, 説明的, 文脈的アプローチによる機械学習システム設計のためのツールとして提示する。 具体的には, 機械学習システム設計の分野において, 位置知識や位置, フィギュレーション, フィギュレーション, 回折, 回折, および批判的ファブリレーションや推測の方法が生産的に実現可能であることを示唆する。 我々はまた、この現実化を行うためのメタメソッドは、翻訳だけでなくトランスポジション(機械学習の文脈に話すための創造的で批判的な適応)も必要だと提案する。

This paper presents a series of feminist epistemological concepts as tools for developing critical, more accountable, and contextualised approaches to machine learning systems design. Namely, we suggest that the methods of situated knowledges or situating, figurations or figuring, diffraction or diffracting, and critical fabulation or speculation can be productively actualised in the field of machine learning systems design. We also suggest that the meta-method for doing this actualisation requires not so much translation but transposition - a creative and critical adaptation to speak to machine learning contexts.
翻訳日:2023-10-25 05:47:22 公開日:2023-10-19
# AI分類器に対する対向ロバストネス尺度の存在, 独自性, 拡張性について

On existence, uniqueness and scalability of adversarial robustness measures for AI classifiers ( http://arxiv.org/abs/2310.14421v1 )

ライセンス: Link先を確認
Illia Horenko(参考訳) 一般化線形モデル(GLM)およびエントロピーAI(EAI)に対して、(局所的に)一意的に可逆な分類器に対する最小逆経路(MAP)と最小逆距離(MAD)の単純な検証可能な数学的条件を定式化し、証明する。 MAPとMADの実際的な計算、そして、様々な種類のAIツールの比較と解釈(神経ネットワーク、強化ランダムフォレスト、GLM、EAI)は、一般的な合成ベンチマーク(二重スイスロールスパイラルとその拡張、および2つのバイオメディカルデータ問題(健康保険請求の予測、心臓発作の致死性分類)で示される。 生体医学的応用において、MAPは、アクセス可能な制御変数の予め定義されたサブセットにおいて、患者固有のリスク軽減のユニークな介入を提供する。

Simply-verifiable mathematical conditions for existence, uniqueness and explicit analytical computation of minimal adversarial paths (MAP) and minimal adversarial distances (MAD) for (locally) uniquely-invertible classifiers, for generalized linear models (GLM), and for entropic AI (EAI) are formulated and proven. Practical computation of MAP and MAD, their comparison and interpretations for various classes of AI tools (for neuronal networks, boosted random forests, GLM and EAI) are demonstrated on the common synthetic benchmarks: on a double Swiss roll spiral and its extensions, as well as on the two biomedical data problems (for the health insurance claim predictions, and for the heart attack lethality classification). On biomedical applications it is demonstrated how MAP provides unique minimal patient-specific risk-mitigating interventions in the predefined subsets of accessible control variables.
翻訳日:2023-10-24 23:49:21 公開日:2023-10-19
# バックプロパゲーションにおけるReLU'(0)の数値解析効果

Numerical influence of ReLU'(0) on backpropagation ( http://arxiv.org/abs/2106.12915v3 )

ライセンス: Link先を確認
David Bertoin (ISAE-SUPAERO), J\'er\^ome Bolte (TSE), S\'ebastien Gerchinovitz (IMT), Edouard Pauwels (IRIT-ADRIA)(参考訳) 理論上、ニューラルネットワークの[0, 1]におけるrelu'(0)の選択は、バックプロパゲーションとトレーニングの両方に無視できない影響を与える。 しかし、現実世界では、32ビットのデフォルト精度とディープラーニングの問題のサイズが組み合わさって、トレーニング手法のハイパーパラメータとなる。 本稿では,様々なネットワーク(全接続,VGG,ResNet)とデータセット(MNIST,CIFAR10,SVHN)において,複数の精度レベル(16, 32, 64ビット)に対するReLU'(0)の値の重要性を検討する。 約半分の時間で32ビット精度で発生するバックプロパゲーション出力のかなりの変動を観測する。 この効果は倍精度で消失するが、16ビットで体系化される。 バニラSGDトレーニングでは、ReLU'(0) = 0 の選択が最も効率的と思われる。 また、バッチノルムやADAMのようなリコンディショニングアプローチは、ReLU(0)値の影響を緩衝する傾向にあることを示す。 全体として、我々が伝えたいメッセージは、非滑らかな問題のアルゴリズム的微分が、有利に調整できるパラメータを隠蔽する可能性があるということだ。

In theory, the choice of ReLU'(0) in [0, 1] for a neural network has a negligible influence both on backpropagation and training. Yet, in the real world, 32 bits default precision combined with the size of deep learning problems makes it a hyperparameter of training methods. We investigate the importance of the value of ReLU'(0) for several precision levels (16, 32, 64 bits), on various networks (fully connected, VGG, ResNet) and datasets (MNIST, CIFAR10, SVHN). We observe considerable variations of backpropagation outputs which occur around half of the time in 32 bits precision. The effect disappears with double precision, while it is systematic at 16 bits. For vanilla SGD training, the choice ReLU'(0) = 0 seems to be the most efficient. We also evidence that reconditioning approaches as batch-norm or ADAM tend to buffer the influence of ReLU'(0)'s value. Overall, the message we want to convey is that algorithmic differentiation of nonsmooth problems potentially hides parameters that could be tuned advantageously.
翻訳日:2023-10-24 16:01:31 公開日:2023-10-19
# 接続度と極性:人工言語学習研究

Connecting degree and polarity: An artificial language learning study ( http://arxiv.org/abs/2109.06333v2 )

ライセンス: Link先を確認
Lisa Bylinina, Alexey Tikhonov, Ekaterina Garmash(参考訳) 事前学習された言語モデルにおける新しい言語一般化(bert(devlin et al., 2019)を事例として検討する。 次数修飾器(わずかに、非常に、極端に表現する)に焦点を当て、修飾器で表される次数(低、中、高次)が文極性に対する修飾器の感度(肯定的あるいは否定的な文の好みを示すかどうか)に関係しているという仮説をテストする。 この関係を調べるために,心理言語学からニューラルネットワークモデルへの人工言語学習実験パラダイムを適用する。 実験の結果,BERTは,次数意味論と極性感度を関連づける既存の言語学的観察と一致し,低次意味論は正の極性への嗜好と結びついていることが示唆された。

We investigate a new linguistic generalization in pre-trained language models (taking BERT (Devlin et al., 2019) as a case study). We focus on degree modifiers (expressions like slightly, very, rather, extremely) and test the hypothesis that the degree expressed by a modifier (low, medium or high degree) is related to the modifier's sensitivity to sentence polarity (whether it shows preference for affirmative or negative sentences or neither). To probe this connection, we apply the Artificial Language Learning experimental paradigm from psycholinguistics to a neural language model. Our experimental results suggest that BERT generalizes in line with existing linguistic observations that relate degree semantics to polarity sensitivity, including the main one: low degree semantics is associated with preference towards positive polarity.
翻訳日:2023-10-24 15:47:45 公開日:2023-10-19
# テキスト生成のための一様複雑性

Uniform Complexity for Text Generation ( http://arxiv.org/abs/2204.05185v3 )

ライセンス: Link先を確認
Joseph Marvin Imperial, Harish Tayyar Madabushi(参考訳) 大規模言語モデル(LLM)は、要約や機械翻訳など、幅広い生成NLPタスクにおいて有望な結果を示している。 しかし、物語生成の文脈では、既存のモデルはまだ一貫したテキストの生成に寄与する要因を捉えていない。 例えば、テキストやストーリーが一様に読まれるべきであり、この形式の複雑さは制御可能であるべきだと論理的である。 したがって、Flesch Reading Easeテストにおいて入力テキストプロンプトの複雑さが第1級の読み込みレベルと評価されている場合、プロットを継続する生成されたテキストも、この範囲の複雑さに該当する。 そこで本研究では,テキスト生成のための一様複雑性(uctg)を導入する。このベンチマークテストは,プロンプトに対して生成モデルが一様言語特性を観測する課題を提起するものだ。 我々は、150以上の言語的・認知的動機づけのある特徴を実験し、人間のテキスト複雑性と生成モデルを評価する。 この結果から, GPT-2のようなモデルでは, プロフェッショナルなテキストを微調整しても, 代々使用される入力プロンプトの複雑さの維持に苦慮していることがわかった。

Large language models (LLMs) have shown promising results in a wide array of generative NLP tasks, such as summarization and machine translation. In the context of narrative generation, however, existing models still do not capture factors that contribute to producing consistent text. For instance, it is logical that a piece of text or a story should be uniformly readable throughout and that this form of complexity should be controllable. As such, if the complexity of an input text prompt is rated first-grade reading level in the Flesch Reading Ease test, then the generated text continuing the plot should also be within this range of complexity. With this in mind, we introduce Uniform Complexity for Text Generation (UCTG), a new benchmark test which raises the challenge of making generative models observe uniform linguistic properties with respect to prompts. We experiment with over 150+ linguistically and cognitively motivated features for evaluating text complexity in humans and generative models. From our results, we find that models such as GPT-2 struggle to preserve the complexity of input prompts used in its generations, even if finetuned with professionally written texts.
翻訳日:2023-10-24 15:40:41 公開日:2023-10-19
# ニューラルネットワーク間のマップ学習のための離散化不変ネットワーク

Discretization Invariant Networks for Learning Maps between Neural Fields ( http://arxiv.org/abs/2206.01178v4 )

ライセンス: Link先を確認
Clinton J. Wang and Polina Golland(参考訳) 連続データの強力な表現が神経場として出現するにつれて、離散化不変学習が必要である:関数のサンプル化方法に敏感なことなく、連続領域上の関数間の写像を学習するアプローチ。 本稿では、畳み込みニューラルネットワークやニューラルネットワークのような連続的なネットワークを一般化する、離散化不変ニューラルネットワーク(DI-Net)の理解と設計のための新しいフレームワークを提案する。 本解析は,有限離散化の異なるモデル出力の偏差の上限を定式化し,そのような境界を特徴付ける点集合の偏差の中心的役割を強調する。 この洞察は、低差の離散化を伴う準モンテカルロサンプリングによる数値積分によって駆動されるニューラルネットワークファミリーの設計につながる。 構成により、DI-Netは可積分函数空間間の大規模な写像のクラスを普遍的に近似し、離散化不変性もそのようなモデルによる逆伝播を記述することを示す。 畳み込み型di-netは、様々な離散化の下で視覚データを分類し、セグメンテーションし、テスト時に新しいタイプの離散化に一般化することができる。 コード:https://github.com/clintonjwang/DI-net

With the emergence of powerful representations of continuous data in the form of neural fields, there is a need for discretization invariant learning: an approach for learning maps between functions on continuous domains without being sensitive to how the function is sampled. We present a new framework for understanding and designing discretization invariant neural networks (DI-Nets), which generalizes many discrete networks such as convolutional neural networks as well as continuous networks such as neural operators. Our analysis establishes upper bounds on the deviation in model outputs under different finite discretizations, and highlights the central role of point set discrepancy in characterizing such bounds. This insight leads to the design of a family of neural networks driven by numerical integration via quasi-Monte Carlo sampling with discretizations of low discrepancy. We prove by construction that DI-Nets universally approximate a large class of maps between integrable function spaces, and show that discretization invariance also describes backpropagation through such models. Applied to neural fields, convolutional DI-Nets can learn to classify and segment visual data under various discretizations, and sometimes generalize to new types of discretizations at test time. Code: https://github.com/clintonjwang/DI-net.
翻訳日:2023-10-24 15:26:53 公開日:2023-10-19
# イベントトリガー時変ベイズ最適化

Event-Triggered Time-Varying Bayesian Optimization ( http://arxiv.org/abs/2208.10790v4 )

ライセンス: Link先を確認
Paul Brunzema, Alexander von Rohr, Friedrich Solowjow, Sebastian Trimpe(参考訳) 時変ベイズ最適化(tvbo)を用いた時変目的関数の逐次最適化の問題を考える。 時間変化から生じる不安定なデータに対処するために、現在のtvboへのアプローチでは、変化率の一定な事前知識が必要である。 しかし、実際には変化の度合いは通常不明である。 本稿では,目的関数のオンライン変更を検知してデータセットをリセットするまで,最適化問題を静的に扱うイベントトリガーアルゴリズムet-gp-ucbを提案する。 これにより、アルゴリズムは事前知識を必要とせずに、実現可能な時間変化に適応することができる。 イベントトリガーは、ガウス過程の回帰で使われる確率的一様誤差境界に基づいている。 ET-GP-UCBは,合成および実世界のデータに対して最先端のアルゴリズムよりも優れており,提案アルゴリズムに後悔の意を与えることを示す。 その結果,ET-GP-UCBは変化率の事前知識なしで容易に適用可能であることがわかった。

We consider the problem of sequentially optimizing a time-varying objective function using time-varying Bayesian optimization (TVBO). To cope with stale data arising from time variations, current approaches to TVBO require prior knowledge of a constant rate of change. However, in practice, the rate of change is usually unknown. We propose an event-triggered algorithm, ET-GP-UCB, that treats the optimization problem as static until it detects changes in the objective function online and then resets the dataset. This allows the algorithm to adapt to realized temporal changes without the need for prior knowledge. The event-trigger is based on probabilistic uniform error bounds used in Gaussian process regression. We show in numerical experiments that ET-GP-UCB outperforms state-of-the-art algorithms on synthetic and real-world data and provide regret bounds for the proposed algorithm. The results demonstrate that ET-GP-UCB is readily applicable without prior knowledge on the rate of change.
翻訳日:2023-10-24 15:05:32 公開日:2023-10-19
# Gemino:ビデオ会議のための実用的でロバストなニューラル圧縮

Gemino: Practical and Robust Neural Compression for Video Conferencing ( http://arxiv.org/abs/2209.10507v4 )

ライセンス: Link先を確認
Vibhaalakshmi Sivaraman, Pantea Karimi, Vedantha Venkatapathy, Mehrdad Khani, Sadjad Fouladi, Mohammad Alizadeh, Fr\'edo Durand, Vivienne Sze(参考訳) ビデオ会議システムは、現在のビデオコーデックが極端に低ビットレートで動作できないため、ネットワーク状態が悪化するとユーザエクスペリエンスが低下する。 近年,顔のランドマーク情報などの各フレームのスパース表現を用いて,非常に低ビットレートでの音声ヘッドビデオの再構成が提案されている。 しかし、これらの手法は、呼び出しの途中で大きな動きや閉塞を伴うシナリオにおいて貧弱な再構成をもたらし、より高い解像度にスケールしない。 我々は,新しい高周波数条件超解像パイプラインに基づくビデオ会議用ニューラル圧縮システムgeminoを設計した。 Geminoは、単一の高解像度参照画像から抽出された情報に基づいて、高周波の詳細(皮膚のテクスチャ、毛髪など)を高めながら、ターゲットフレームの非常に低解像度バージョンをアップサンプリングする。 私たちは、異なる解像度でモデルの異なるコンポーネントを実行し、720pに匹敵する解像度にスケールできるマルチスケールアーキテクチャを使用し、モデルをパーソナライズして各人の特定の詳細を学習し、低ビットレートでより優れた忠実度を実現します。 我々は、WebRTCのオープンソースPython実装であるaiortc上にGeminoを実装し、Titan X GPU上で1024x1024の動画をリアルタイムで実行し、同じ知覚品質で従来のビデオコーデックよりも2.2-5倍低いビットレートを達成することを示す。

Video conferencing systems suffer from poor user experience when network conditions deteriorate because current video codecs simply cannot operate at extremely low bitrates. Recently, several neural alternatives have been proposed that reconstruct talking head videos at very low bitrates using sparse representations of each frame such as facial landmark information. However, these approaches produce poor reconstructions in scenarios with major movement or occlusions over the course of a call, and do not scale to higher resolutions. We design Gemino, a new neural compression system for video conferencing based on a novel high-frequency-conditional super-resolution pipeline. Gemino upsamples a very low-resolution version of each target frame while enhancing high-frequency details (e.g., skin texture, hair, etc.) based on information extracted from a single high-resolution reference image. We use a multi-scale architecture that runs different components of the model at different resolutions, allowing it to scale to resolutions comparable to 720p, and we personalize the model to learn specific details of each person, achieving much better fidelity at low bitrates. We implement Gemino atop aiortc, an open-source Python implementation of WebRTC, and show that it operates on 1024x1024 videos in real-time on a Titan X GPU, and achieves 2.2-5x lower bitrate than traditional video codecs for the same perceptual quality.
翻訳日:2023-10-24 14:56:10 公開日:2023-10-19
# 単語埋め込みの周波数歪みとそのバイアスメトリクスへの影響の検討

Investigating the Frequency Distortion of Word Embeddings and Its Impact on Bias Metrics ( http://arxiv.org/abs/2211.08203v2 )

ライセンス: Link先を確認
Francisco Valentini, Juan Cruz Sosa, Diego Fernandez Slezak, Edgar Altszyler(参考訳) 近年の研究では、静的な単語埋め込みが単語の頻度情報をエンコードできることが示されている。 しかし、この現象とその下流タスクへの影響についてはほとんど研究されていない。 本研究では,いくつかの静的単語埋め込みにおける頻度と意味的類似性の関係を体系的に研究する。 スキップグラムやグローブ、ファストテキスト埋め込みは、他の周波数の組み合わせよりも高周波の単語間の意味的類似性が高い傾向がある。 単語がランダムにシャッフルされると、周波数と類似度の関係も現れる。 これは、見つかったパターンがテキストに存在する実際の意味関係によるものではなく、単語埋め込みによって生成された人工物であることを示している。 最後に、単語の頻度が、埋め込みベースのメトリクスによる性別バイアスの測定にどのように影響するかを示す。 特に, 単語の周波数を操作することで, バイアスが符号を変えたり, 順序を変えたりできることを示す制御実験を行った。

Recent research has shown that static word embeddings can encode word frequency information. However, little has been studied about this phenomenon and its effects on downstream tasks. In the present work, we systematically study the association between frequency and semantic similarity in several static word embeddings. We find that Skip-gram, GloVe and FastText embeddings tend to produce higher semantic similarity between high-frequency words than between other frequency combinations. We show that the association between frequency and similarity also appears when words are randomly shuffled. This proves that the patterns found are not due to real semantic associations present in the texts, but are an artifact produced by the word embeddings. Finally, we provide an example of how word frequency can strongly impact the measurement of gender bias with embedding-based metrics. In particular, we carry out a controlled experiment that shows that biases can even change sign or reverse their order by manipulating word frequencies.
翻訳日:2023-10-24 14:18:43 公開日:2023-10-19
# LAMASSU:ニューラルトランスデューサを用いた言語非依存多言語音声認識と翻訳

LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers ( http://arxiv.org/abs/2211.02809v3 )

ライセンス: Link先を確認
Peidong Wang, Eric Sun, Jian Xue, Yu Wu, Long Zhou, Yashesh Gaur, Shujie Liu, Jinyu Li(参考訳) 自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。 したがって、両方のタスクを実行するために単一のトランスデューサモデルを使用することができる。 現実のアプリケーションでは、asrとstのジョイントモデルがストリーミングである必要があり、ソース言語識別(すなわち言語に依存しない)を必要としない。 本稿では,ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。 トランスデューサモデル構造に基づき,多言語出力のための統合結合予測ネットワーク,クラスタ化された多言語エンコーダ,エンコーダのターゲット言語識別,コネクショニスト時間分類規則化という4つの手法を提案する。 実験の結果,lamassuはモデルサイズを大幅に削減するだけでなく,単言語asrおよび両言語stモデルの性能も向上した。

Automatic speech recognition (ASR) and speech translation (ST) can both use neural transducers as the model structure. It is thus possible to use a single transducer model to perform both tasks. In real-world applications, such joint ASR and ST models may need to be streaming and do not require source language identification (i.e. language-agnostic). In this paper, we propose LAMASSU, a streaming language-agnostic multilingual speech recognition and translation model using neural transducers. Based on the transducer model structure, we propose four methods, a unified joint and prediction network for multilingual output, a clustered multilingual encoder, target language identification for encoder, and connectionist temporal classification regularization. Experimental results show that LAMASSU not only drastically reduces the model size but also reaches the performances of monolingual ASR and bilingual ST models.
翻訳日:2023-10-24 14:18:28 公開日:2023-10-19
# 密度汎関数理論に基づく量子回路の効率的な平均場シミュレーション

Efficient Mean-Field Simulation of Quantum Circuits Inspired by Density Functional Theory ( http://arxiv.org/abs/2210.16465v3 )

ライセンス: Link先を確認
Marco Bernardi(参考訳) 量子回路(QC)の厳密なシミュレーションは、QC波動関数を指数関数的に量子ビット数で格納するために必要なメモリと計算コストが、現在$\sim$50キュービットに制限されている。 したがって、近似QCシミュレーションのための効率的なスキームの開発が現在研究の焦点となっている。 本稿では、多電子系の研究に広く用いられている密度汎関数理論(DFT)にヒントを得たQCのシミュレーションを示す。 我々の計算では,SQPの形式的な指数コストにもかかわらず,量子ビット数で線形なメモリと計算資源を用いて,共通ゲートセットを持つ複数のQCのクラスにおいて,限界単一量子ビット確率(SQP)を90%以上精度で予測することができる。 これはQCの平均場記述を開発し、QC波動関数を計算せずにSQPを進化させるために DFT $-$ の交換相関関数のアナログを定式化することで達成される。 この形式主義の現在の限界と将来の拡張について論じる。

Exact simulations of quantum circuits (QCs) are currently limited to $\sim$50 qubits because the memory and computational cost required to store the QC wave function scale exponentially with qubit number. Therefore, developing efficient schemes for approximate QC simulations is a current research focus. Here we show simulations of QCs with a method inspired by density functional theory (DFT), a widely used approach to study many-electron systems. Our calculations can predict marginal single-qubit probabilities (SQPs) with over 90% accuracy in several classes of QCs with universal gate sets, using memory and computational resources linear in qubit number despite the formal exponential cost of the SQPs. This is achieved by developing a mean-field description of QCs and formulating optimal single- and two-qubit gate functionals $-$ analogs of exchange-correlation functionals in DFT $-$ to evolve the SQPs without computing the QC wave function. Current limitations and future extensions of this formalism are discussed.
翻訳日:2023-10-24 14:17:53 公開日:2023-10-19
# Adaptive Recursive MCMC を用いたオンライン確率モデル同定

Online Probabilistic Model Identification using Adaptive Recursive MCMC ( http://arxiv.org/abs/2210.12595v2 )

ライセンス: Link先を確認
Pedram Agand, Mo Chen, and Hamid D. Taghirad(参考訳) ベイズパラダイムは、不確実なパラメータよりも確率分布全体を推定するための正式なフレームワークを提供するが、そのオンライン実装は高い計算コストのために困難である。 適応再帰的マルコフ連鎖モンテカルロ法 (armcmc) を提案し, モデルパラメータの確率密度関数全体を計算しながら, 従来のオンライン手法の欠点を解消した。 ガウス雑音に対する制限、パラメータ(LIP)系における線形性のみの適用、そして持続励起(PE)の必要性は、これらの欠点のいくつかである。 ARMCMCでは、時間的忘れ因子(TFF)に基づく可変ジャンプ分布を提案する。 多くの力学系における TFF を定数ハイパーパラメータの代替として用いて、その分解係数を適応的に表すことができる。 搾取と探索の間のトレードオフを提供することで、特定のジャンプ分布はモード間の推論を許可するハイブリッド/マルチモーダルシステムに最適化されている。 これらのトレードオフはパラメータの進化率に基づいて調整される。 同じ精度と信頼性を実現するために,従来のMCMC法に比べ,ARMCMCではサンプルが少ないことが実証された。 本稿では,2つのハイブリッド/マルチモーダルベンチマークであるHunt-Crossley動的モデルと軟屈曲アクチュエータを用いたパラメータ推定手法を提案する。 さらに,本手法を最小二乗法と粒子フィルタと比較し,提案手法がより精度の高い点推定値を持つとともに,関心値の追跡誤差の低減を図った。

Although the Bayesian paradigm offers a formal framework for estimating the entire probability distribution over uncertain parameters, its online implementation can be challenging due to high computational costs. We suggest the Adaptive Recursive Markov Chain Monte Carlo (ARMCMC) method, which eliminates the shortcomings of conventional online techniques while computing the entire probability density function of model parameters. The limitations to Gaussian noise, the application to only linear in the parameters (LIP) systems, and the persistent excitation (PE) needs are some of these drawbacks. In ARMCMC, a temporal forgetting factor (TFF)-based variable jump distribution is proposed. The forgetting factor can be presented adaptively using the TFF in many dynamical systems as an alternative to a constant hyperparameter. By offering a trade-off between exploitation and exploration, the specific jump distribution has been optimised towards hybrid/multi-modal systems that permit inferences among modes. These trade-off are adjusted based on parameter evolution rate. We demonstrate that ARMCMC requires fewer samples than conventional MCMC methods to achieve the same precision and reliability. We demonstrate our approach using parameter estimation in a soft bending actuator and the Hunt-Crossley dynamic model, two challenging hybrid/multi-modal benchmarks. Additionally, we compare our method with recursive least squares and the particle filter, and show that our technique has significantly more accurate point estimates as well as a decrease in tracking error of the value of interest.
翻訳日:2023-10-24 14:17:03 公開日:2023-10-19
# KRLS:強化キーワード学習によるタスク指向対話におけるエンドツーエンド応答生成の改善

KRLS: Improving End-to-End Response Generation in Task Oriented Dialog with Reinforced Keywords Learning ( http://arxiv.org/abs/2211.16773v5 )

ライセンス: Link先を確認
Xiao Yu, Qingyang Wu, Kun Qian, Zhou Yu(参考訳) タスク指向ダイアログ(TOD)では、強化学習(RL)アルゴリズムがタスク関連メトリクスの応答を直接最適化するためにモデルを訓練する。 しかし、RLは、遅い自己回帰シーケンス生成プロセスのために、時間を要する探索を行う必要がある。 オフライン環境でのTOD性能を改善するために,より効率的なRLベースのアルゴリズムを提案する。 まず、教師付き学習で言語モデル(LM)を訓練した後、独立した単語分布から抽出する高速な生成手順を用いる。 次に,生成したトークンの重要度と意味的近さを測定することにより,モデルがダイアログ内の重要な情報を学ぶことに集中するのに役立つ細粒度報酬関数を導入する。 また,MultiWoZデータセットを用いた実験では,提案する学習アルゴリズムであるKRLS(Keywords Reinforcement Learning with Next-word Smpling)が,自動回帰生成を用いた標準RLアルゴリズムと比較して15%のトレーニング時間を短縮した。

In task-oriented dialogs (TOD), reinforcement learning (RL) algorithms train a model to directly optimize response for task-related metrics. However, RL needs to perform exploration, which can be time-consuming due to the slow auto-regressive sequence generation process. We investigate an approach to create a more efficient RL-based algorithm to improve TOD performance in an offline setting. First, we use a faster generation procedure that samples from independent next-word distributions after training the language model (LM) with supervised learning. We then introduce a fine-grained reward function to help the model focus on learning key information in a dialog, by measuring the importance and semantic closeness of each generated token. Experiments on the MultiWoZ dataset show our new training algorithm, Keywords Reinforcement Learning with Next-word Sampling (KRLS), achieves state-of-the-art performance on the end-to-end response generation task, with a 15% training time reduction compared to a standard RL algorithm using auto-regressive generation.
翻訳日:2023-10-24 14:09:43 公開日:2023-10-19
# 精密腫瘍学のための核型AI

Karyotype AI for Precision Oncology ( http://arxiv.org/abs/2211.14312v3 )

ライセンス: Link先を確認
Zahra Shamsi, Drew Bryant, Jacob Wilson, Xiaoyu Qu, Avinava Dubey, Konik Kothari, Mostafa Dehghani, Mariya Chavarha, Valerii Likhosherstov, Brian Williams, Michael Frumkin, Fred Appelbaum, Krzysztof Choromanski, Ali Bashir, Min Fang(参考訳) 染色体解析は遺伝疾患の診断に不可欠である。 造血器腫瘍については, 核型分析による体性クローン異常の同定が基本である。 しかし、大半が手作業であり、収差の特定や注釈に要する専門知識のため、加量タイピングは高価で時間を要する。 核型分析を今日まで自動化する試みは、収差検出に不足していた。 フレッド・ハッチンソン癌センターから5年以上経過した約10k検体と約50k検体を用いて,各染色体のラベル付き画像群を作成した。 これらの染色体は、24個のヒト染色体の分類と染色体異常の同定のための深層学習モデルの訓練と評価に使用された。 最近導入されたトポロジカルビジョントランスフォーマ(topvits)と2レベルブロックトエプリッツマスキング(toeplitz masking)を用いたtop-accuracyモデルは、構造的インダクティブバイアスを取り入れている。 TopViTはCNN(インセプション)モデルで99.3%の精度で染色体同定を行い、ほとんどの収差における収差検出の精度は99%であった。 特に、"ファウショット"学習シナリオでも、高品質のパフォーマンスを示すことができました。 クローン性の定義を取り入れることで、精度とリコール(感度)を大きく改善した。 ゼロショット」のシナリオに適用すると、モデルはトレーニングなしで、50%以上のリコールで完全な精度で収差を捉えた。 これらの結果から,最新の深層学習モデルが染色体収差検出のエキスパートレベルの性能にアプローチできることが示唆された。 われわれの知る限り、TopViTの下流効果を示す最初の研究である。 これらの結果は、患者結果の迅速化だけでなく、低吸収染色体病変の早期スクリーニングのためのスケーラブルな技術を提供するエキサイティングな機会を開く。

Chromosome analysis is essential for diagnosing genetic disorders. For hematologic malignancies, identification of somatic clonal aberrations by karyotype analysis remains the standard of care. However, karyotyping is costly and time-consuming because of the largely manual process and the expertise required in identifying and annotating aberrations. Efforts to automate karyotype analysis to date fell short in aberration detection. Using a training set of ~10k patient specimens and ~50k karyograms from over 5 years from the Fred Hutchinson Cancer Center, we created a labeled set of images representing individual chromosomes. These individual chromosomes were used to train and assess deep learning models for classifying the 24 human chromosomes and identifying chromosomal aberrations. The top-accuracy models utilized the recently introduced Topological Vision Transformers (TopViTs) with 2-level-block-Toeplitz masking, to incorporate structural inductive bias. TopViT outperformed CNN (Inception) models with >99.3% accuracy for chromosome identification, and exhibited accuracies >99% for aberration detection in most aberrations. Notably, we were able to show high-quality performance even in "few shot" learning scenarios. Incorporating the definition of clonality substantially improved both precision and recall (sensitivity). When applied to "zero shot" scenarios, the model captured aberrations without training, with perfect precision at >50% recall. Together these results show that modern deep learning models can approach expert-level performance for chromosome aberration detection. To our knowledge, this is the first study demonstrating the downstream effectiveness of TopViTs. These results open up exciting opportunities for not only expediting patient results but providing a scalable technology for early screening of low-abundance chromosomal lesions.
翻訳日:2023-10-24 14:07:55 公開日:2023-10-19
# ドメイン制約による弱改善学習のためのスケーラブルな手法

A Scalable Technique for Weak-Supervised Learning with Domain Constraints ( http://arxiv.org/abs/2301.05253v2 )

ライセンス: Link先を確認
Sudhir Agarwal, Anu Sreepathy, Lalla Mouatadid(参考訳) 本稿では,ニューラルネットワークを学習するための制約として,記号的ドメイン知識を用いたスケーラブルなエンドツーエンドパイプラインを提案する。 このアプローチは,クラスタリングにやさしい表現学習に適した異なるグループ(クラス)で構成されたデータ構成に特に適しており,複数のトレーニング例を同時に考慮して効率的な数学的最適化手法を用いて,ドメイン制約を再構成することができる。 本手法は,画像列と数列で表される数の総和からなる学習例を用いて,mnist画像分類問題の変種に対するアプローチを評価し,各訓練例の組合せを満たした全ての制約を計算することに依存する従来のアプローチよりも大幅にスケールすることを示す。

We propose a novel scalable end-to-end pipeline that uses symbolic domain knowledge as constraints for learning a neural network for classifying unlabeled data in a weak-supervised manner. Our approach is particularly well-suited for settings where the data consists of distinct groups (classes) that lends itself to clustering-friendly representation learning and the domain constraints can be reformulated for use of efficient mathematical optimization techniques by considering multiple training examples at once. We evaluate our approach on a variant of the MNIST image classification problem where a training example consists of image sequences and the sum of the numbers represented by the sequences, and show that our approach scales significantly better than previous approaches that rely on computing all constraint satisfying combinations for each training example.
翻訳日:2023-10-24 13:36:22 公開日:2023-10-19
# 機械的解釈可能性によるグラッキングの進展対策

Progress measures for grokking via mechanistic interpretability ( http://arxiv.org/abs/2301.05217v3 )

ライセンス: Link先を確認
Neel Nanda and Lawrence Chan and Tom Lieberum and Jess Smith and Jacob Steinhardt(参考訳) ニューラルネットワークは、パラメータの量、トレーニングデータ、トレーニングステップのスケールアップから、定性的に新しい能力が生まれる、創発的な振る舞いを示すことが多い。 出現を理解する一つのアプローチは、一見不連続な質的変化を裏付ける連続的な \textit{progress measures} を見つけることである。 我々は、学習した振る舞いを個々のコンポーネントにリバースエンジニアリングすることで、メカニスティックな解釈可能性を通じて進捗測定を見出すことができると論じる。 そこで本研究では,モジュール付加タスクを訓練した小型変圧器による'grokking'現象について検討した。 離散フーリエ変換と三角比を用いて円周まわりの回転への付加を変換するアルゴリズムを,これらのネットワークで学習したアルゴリズムを完全にリバースエンジニアリングする。 本アルゴリズムは,アクティベーションと重みを解析し,フーリエ空間でアブレーションを行うことで検証する。 この理解に基づいて、トレーニングのダイナミクスを学習し、トレーニングを3つの連続フェーズ(記憶、回路形成、クリーンアップ)に分割するための進捗対策を定義する。 以上の結果から,突然のシフトではなく,重みに符号化された構造機構の段階的な増幅と,その後の記憶成分の除去が示唆された。

Neural networks often exhibit emergent behavior, where qualitatively new capabilities arise from scaling up the amount of parameters, training data, or training steps. One approach to understanding emergence is to find continuous \textit{progress measures} that underlie the seemingly discontinuous qualitative changes. We argue that progress measures can be found via mechanistic interpretability: reverse-engineering learned behaviors into their individual components. As a case study, we investigate the recently-discovered phenomenon of ``grokking'' exhibited by small transformers trained on modular addition tasks. We fully reverse engineer the algorithm learned by these networks, which uses discrete Fourier transforms and trigonometric identities to convert addition to rotation about a circle. We confirm the algorithm by analyzing the activations and weights and by performing ablations in Fourier space. Based on this understanding, we define progress measures that allow us to study the dynamics of training and split training into three continuous phases: memorization, circuit formation, and cleanup. Our results show that grokking, rather than being a sudden shift, arises from the gradual amplification of structured mechanisms encoded in the weights, followed by the later removal of memorizing components.
翻訳日:2023-10-24 13:36:08 公開日:2023-10-19
# カーネルリッジ回帰推論

Kernel Ridge Regression Inference ( http://arxiv.org/abs/2302.06578v2 )

ライセンス: Link先を確認
Rahul Singh and Suhas Vijaykumar(参考訳) kernel ridge regression(krr)は、ランキング、画像、グラフを含む一般的なデータ型に対して広く使われている非パラメトリック回帰推定器である。 これらのデータ(例えば、学校の割り当てにおけるランク付けされた選好リスト)が普及しているにもかかわらず、KRRの推論理論は完全には知られていない。 我々は、KRRに対して、一般回帰器に対して、ほぼミニマックス速度で縮小するシャープで均一な信頼セットを構築する。 推定を行うために,バイアスのキャンセルと計算オーバーヘッドの制限に対称性を用いた効率的なブートストラップ手法を開発した。 この手順を正当化するために、再生カーネルヒルベルト空間(RKHS)における部分和に対する有限サンプル、一様ガウスおよびブートストラップ結合を導出する。 これらの強い近似は、カバー数に対数依存を持つRKHS単位球によってインデックス付けされた経験過程に対する強い近似である。 シミュレーションはカバレッジを検証する。 我々は,学校選考改革の結果としての教育経済学における重要な課題である,学校課題におけるマッチング効果の新しいテストを構築するために,我々の手順を利用する。

We provide uniform inference and confidence bands for kernel ridge regression (KRR), a widely-used non-parametric regression estimator for general data types including rankings, images, and graphs. Despite the prevalence of these data -- e.g., ranked preference lists in school assignment -- the inferential theory of KRR is not fully known, limiting its role in economics and other scientific domains. We construct sharp, uniform confidence sets for KRR, which shrink at nearly the minimax rate, for general regressors. To conduct inference, we develop an efficient bootstrap procedure that uses symmetrization to cancel bias and limit computational overhead. To justify the procedure, we derive finite-sample, uniform Gaussian and bootstrap couplings for partial sums in a reproducing kernel Hilbert space (RKHS). These imply strong approximation for empirical processes indexed by the RKHS unit ball with logarithmic dependence on the covering number. Simulations verify coverage. We use our procedure to construct a novel test for match effects in school assignment, an important question in education economics with consequences for school choice reforms.
翻訳日:2023-10-24 13:15:23 公開日:2023-10-19
# chill: 大きな言語モデルを用いた臨床ノートからのゼロショットカスタム解釈可能な特徴抽出

CHiLL: Zero-shot Custom Interpretable Feature Extraction from Clinical Notes with Large Language Models ( http://arxiv.org/abs/2302.12343v2 )

ライセンス: Link先を確認
Denis Jered McInerney, Geoffrey Young, Jan-Willem van de Meent, Byron C. Wallace(参考訳) 線形モデルの特徴を自然言語で記述する手法としてCHiLL(Crafting High-Level Latents)を提案する。 CHiLLは、専門家が作成したクエリでLLMにプロンプトして、ヘルスレコードから解釈可能な機能を生成する。 結果として生じるノイズラベルは、単純な線形分類器を訓練するために使用される。 llmへのクエリに基づいて機能を生成することで、医師は自身のドメインの専門知識を使って、興味のある下流のタスクに臨床的に意味のある機能を開発できるようになる。 我々は、現実世界のリスク予測タスクに動機付けられているが、再現可能なプロキシとして、MIMIC-IIIとMIMIC-CXRデータと標準予測タスク(例:30日読み出し)を用いてこのアプローチを評価する。 自動抽出された特徴を用いた線形モデルは参照特徴を用いたモデルと互換性があり、"Bag-of-Words"特徴を用いた線形モデルよりも高い解釈性が得られる。 学習した機能重みが臨床上の期待に合致していることを確認する。

We propose CHiLL (Crafting High-Level Latents), an approach for natural-language specification of features for linear models. CHiLL prompts LLMs with expert-crafted queries to generate interpretable features from health records. The resulting noisy labels are then used to train a simple linear classifier. Generating features based on queries to an LLM can empower physicians to use their domain expertise to craft features that are clinically meaningful for a downstream task of interest, without having to manually extract these from raw EHR. We are motivated by a real-world risk prediction task, but as a reproducible proxy, we use MIMIC-III and MIMIC-CXR data and standard predictive tasks (e.g., 30-day readmission) to evaluate this approach. We find that linear models using automatically extracted features are comparably performant to models using reference features, and provide greater interpretability than linear models using "Bag-of-Words" features. We verify that learned feature weights align well with clinical expectations.
翻訳日:2023-10-24 13:06:13 公開日:2023-10-19
# Anti-DreamBooth: パーソナライズされたテキストと画像の合成からユーザを保護する

Anti-DreamBooth: Protecting users from personalized text-to-image synthesis ( http://arxiv.org/abs/2303.15433v2 )

ライセンス: Link先を確認
Thanh Van Le, Hao Phung, Thuan Hoang Nguyen, Quan Dao, Ngoc Tran, Anh Tran(参考訳) テキストから画像への拡散モデルは革命に過ぎず、デザインスキルがなくても誰でも簡単なテキスト入力からリアルなイメージを作成できる。 dreamboothのような強力なパーソナライズツールを使えば、少数の参照画像から学ぶだけで特定の人物の画像を生成できる。 しかし、悪用された場合、そのような強力で便利なツールは、偽ニュースや個々の被害者をターゲットにしたコンテンツを妨害し、深刻な社会的影響をもたらす可能性がある。 本稿では,このような悪質なDreamBoothの使用に対するアンチドリームBoothと呼ばれる防衛システムについて検討する。 このシステムは,各ユーザの画像に微妙なノイズ摂動を加えることで,これらの摂動画像に基づいてトレーニングされたドリームブースモデルの生成品質を損なうことを目的としている。 摂動最適化のための幅広いアルゴリズムを調査し、様々なテキストから画像へのモデルバージョンで2つの顔データセット上で広範囲に評価した。 dreambooth と diffusion-based text-to-image モデルの複雑な定式化にもかかわらず,これらのモデルの悪意のある利用からユーザを効果的に保護する手法である。 その効果は、モデルやトレーニングとテストの間の迅速/短期のミスマッチなど、悪条件にも耐えうる。 私たちのコードはhttps://github.com/VinAIResearch/Anti-DreamBooth.gitで公開されます。

Text-to-image diffusion models are nothing but a revolution, allowing anyone, even without design skills, to create realistic images from simple text inputs. With powerful personalization tools like DreamBooth, they can generate images of a specific person just by learning from his/her few reference images. However, when misused, such a powerful and convenient tool can produce fake news or disturbing content targeting any individual victim, posing a severe negative social impact. In this paper, we explore a defense system called Anti-DreamBooth against such malicious use of DreamBooth. The system aims to add subtle noise perturbation to each user's image before publishing in order to disrupt the generation quality of any DreamBooth model trained on these perturbed images. We investigate a wide range of algorithms for perturbation optimization and extensively evaluate them on two facial datasets over various text-to-image model versions. Despite the complicated formulation of DreamBooth and Diffusion-based text-to-image models, our methods effectively defend users from the malicious use of those models. Their effectiveness withstands even adverse conditions, such as model or prompt/term mismatching between training and testing. Our code will be available at https://github.com/VinAIResearch/Anti-DreamBooth.git.
翻訳日:2023-10-24 12:55:50 公開日:2023-10-19
# マカク皮質における個体群動態の推定

Inferring Population Dynamics in Macaque Cortex ( http://arxiv.org/abs/2304.06040v2 )

ライセンス: Link先を確認
Ganga Meghanath, Bryan Jimenez, Joseph G. Makin(参考訳) 過去20年間の多単位皮質記録、特にマカクや運動制御タスクにおける増殖は、神経活動の時間的進化である神経の「人口動態」への関心を生んでいる。 これらのダイナミクスのよいモデルは、将来同じ集団内の観察されていないニューロンと観測されたニューロンの活動を推測できるはずである。 そのため、Pandarinath氏と同僚らは、この2つの(および関連する)基準のモデルを評価するためのベンチマークを導入した。 ここでは、リカレントニューラルネットワーク(RNN)に基づく単純で汎用的なアーキテクチャが、より多くの"bespoke"モデルより優れており、実際にベンチマークの4つのデータセットすべてで公開されたモデルよりも優れていることを示す。 トランスフォーマーネットワークのように、RNNを自己注意で強化する新しいハイブリッドアーキテクチャによって、パフォーマンスをさらに改善することができる。 しかし、純粋なトランスフォーマーモデルは、私たちの仕事でも他のグループでも、このレベルのパフォーマンスを達成できません。 我々は、RNNが課す自己回帰バイアスが最高レベルのパフォーマンスを達成するために重要であると論じる。 しかし、本報告で提案するような識別モデルよりも生成的を好む潜在力学の代替評価をベンチマークで拡張することを提案することで結論づける。

The proliferation of multi-unit cortical recordings over the last two decades, especially in macaques and during motor-control tasks, has generated interest in neural "population dynamics": the time evolution of neural activity across a group of neurons working together. A good model of these dynamics should be able to infer the activity of unobserved neurons within the same population and of the observed neurons at future times. Accordingly, Pandarinath and colleagues have introduced a benchmark to evaluate models on these two (and related) criteria: four data sets, each consisting of firing rates from a population of neurons, recorded from macaque cortex during movement-related tasks. Here we show that simple, general-purpose architectures based on recurrent neural networks (RNNs) outperform more "bespoke" models, and indeed outperform all published models on all four data sets in the benchmark. Performance can be improved further still with a novel, hybrid architecture that augments the RNN with self-attention, as in transformer networks. But pure transformer models fail to achieve this level of performance, either in our work or that of other groups. We argue that the autoregressive bias imposed by RNNs is critical for achieving the highest levels of performance. We conclude, however, by proposing that the benchmark be augmented with an alternative evaluation of latent dynamics that favors generative over discriminative models like the ones we propose in this report.
翻訳日:2023-10-24 12:46:33 公開日:2023-10-19
# 偏りのある政策ルールによるQラーニング

Q-learning with biased policy rules ( http://arxiv.org/abs/2304.12647v2 )

ライセンス: Link先を確認
Olivier Compte (Paris School of Economics)(参考訳) 動的環境では、q-learningはオートマトンです i) 利用可能な各行動に関連する継続値の見積(Q値)を提供し、 (ii) は、q値が最も高い行為をほぼ常に選択するナイーブな方針に従う。 私たちは、q値に基づいているが、そのポリシーは、例えば協力を好むバイアスを通じて、他のアクションよりも体系的に好まれるかもしれないオートマタのファミリーを考える。 compte と postlewaite [2018] の精神では、この q ベースのオートマトンファミリー内の均衡バイアスを求める。 様々なモニタリング技術の下でクラシックゲームを調べ,均衡バイアスが結束を強く促進する可能性を見出した。

In dynamic environments, Q-learning is an automaton that (i) provides estimates (Q-values) of the continuation values associated with each available action; and (ii) follows the naive policy of almost always choosing the action with highest Q-value. We consider a family of automata that are based on Q-values but whose policy may systematically favor some actions over others, for example through a bias that favors cooperation. In the spirit of Compte and Postlewaite [2018], we look for equilibrium biases within this family of Q-based automata. We examine classic games under various monitoring technologies and find that equilibrium biases may strongly foster collusion.
翻訳日:2023-10-24 12:37:08 公開日:2023-10-19
# ディラックの自由場の量子論

Quantum theory of Dirac's free field ( http://arxiv.org/abs/2304.12182v6 )

ライセンス: Link先を確認
Ion I. Cotaescu(参考訳) 自由質量フェルミオンのディラック理論は、新しい保存されたスピン作用素とその対応する位置について、Pryceが昔から提案し、最近は適切なスペクトル表現を用いて再定義している。 I. Cot\u aescu, Eur Phys J.C (2022) 82:1073。 このアプローチは、運動量表現において粒子と反粒子波スピノルに作用する一対の積分作用素の構成表現において任意の積分作用素と関連付けられる。 これにより、粒子と反粒子の中心に対して別々に定義された等距離発生器や位置演算子を含む、様々な一粒子演算子によって形成される可観測物の集合全体を与える効果的な量子化過程が得られる。 このアプローチではスピン作用素は保存されるが、プライスは当初質量中心作用素として提案し、保存電流である保存速度とともに線形に進化する双極子作用素を量子化する。 真の質量中心作用素は、単に双極子作用素の反粒子項の相対記号を変更して定義される。 粒子と反粒子のセクタを混合するオペレーターには特に注意が払われる。 通常の座標演算子を含むこのタイプの主演算子は、ここで初めて導出される。 応用として、これらの新しい観測装置を計測する装置が1粒子波束を準備して検出すると、これらが一様に動き、正常に時間内に広がることを示す。

The Dirac theory of free massive fermions is reconstructed around the new conserved spin operator and its corresponding position one proposed initially by Pryce long time ago and re-defined recently by using suitable spectral representations [I. I. Cot\u aescu, Eur. Phys. J. C (2022) 82:1073]. This approach is generalized here associating to any integral operator in configuration representation a pair of integral operators acting on particle and antiparticle wave spinors in momentum representation. Hereby it results an effective quantization procedure giving the entire set of observables formed by various one-particle operators, including the isometry generators and position operators defined separately for the centers of particles and antiparticles. In this approach the spin operator is conserved while the associated position one, proposed initially by Pryce as mass-center operator, becomes after quantization the dipole operator evolving linearly in time with a conserved velocity which is in fact the conserved current. The genuine mass-center operator is defined simply by changing the relative sign of antiparticle term of the dipole operator. A special attention is paid to the operators which mix the particle and antiparticle sectors whose off-diagonal associated operators have oscillating terms producing zitterbevegung. The principal operators of this type including, the usual coordinate operator, are derived here for the first time. As an application, it is shown that when an apparatus which measures these new observables prepares and detects the one-particle wave-packets then these appear as moving uniformly, spreading in time normally.
翻訳日:2023-10-24 12:36:35 公開日:2023-10-19
# コンセプト中心のソフトウェア開発

Concept-centric Software Development ( http://arxiv.org/abs/2304.14975v3 )

ライセンス: Link先を確認
Peter Wilczynski, Taylor Gregoire-Wright, Daniel Jackson(参考訳) 開発者は長い間、構築するシステムの基礎となるコンセプトの重要性と、ユーザエクスペリエンスを形成する上で重要なコンセプトが果たす役割を認識してきました。 しかし、これまで、概念はソフトウェア設計においてのみ暗黙的であり、開発はより具体的なアーティファクト(ワイヤーフレームやコードモジュールなど)を中心に組織化されている。 データ分析製品が大企業で広く使用されているソフトウェア企業であるpalantirは、先日、そのソフトウェア開発プロセスの内部表現を改訂して、コンセプトを前面に持ち込み、製品の基盤となるコンセプト、クラスタ化方法、アプリケーション内およびアプリケーション間における使用方法、チームによる統治などを明確にした。 コンセプトの集中リポジトリにより、Palantirのエンジニアは、共有コンセプトに基づいて製品をより緊密に調整し、ユーザニーズに応じてコンセプトを進化させ、社内の非エンジニアリンググループとより効果的にコミュニケーションすることができる。 本稿では、Palantirのこれまでの経験について報告し、成功と課題の両方を分析し、ソフトウェア開発にコンセプト中心のアプローチを採用することを検討する他の組織にアドバイスを提供する。

Developers have long recognized the importance of the concepts underlying the systems they build, and the primary role concepts play in shaping user experience. To date, however, concepts have tended to be only implicit in software design with development being organized instead around more concrete artifacts (such as wireframes and code modules). Palantir, a software company whose data analytics products are widely used by major corporations, recently reworked its internal representation of its software development process to bring concepts to the fore, making explicit the concepts underlying its products, how they are clustered, used within and across applications, and governed by teams. With a centralized repository of concepts, Palantir engineers are able to align products more closely based on shared concepts, evolve concepts in response to user needs, and communicate more effectively with non-engineering groups within the company. This paper reports on Palantir's experiences to date, analyzing both successes and challenges, and offers advice to other organizations considering adopting a concept-centric approach to software development
翻訳日:2023-10-24 12:26:53 公開日:2023-10-19
# 自動要約における政治的バイアスのエンティティベース評価

Entity-Based Evaluation of Political Bias in Automatic Summarization ( http://arxiv.org/abs/2305.02321v2 )

ライセンス: Link先を確認
Karen Zhou and Chenhao Tan(参考訳) 成長する文献によると、NLPシステムは社会的バイアスを符号化する可能性があるが、要約モデルの政治的バイアスは比較的知られていない。 本研究では,ニュース記事の自動生成要約における政治家の描写を調査するために,エンティティ置換手法を用いる。 我々は、ドナルド・トランプやジョー・バイデンに対する抽出的、抽象的な要約者の感性を評価するためのエンティティベースの計算フレームワークを開発する。 例えば、同じ記事の文脈におけるトランプの存在を強調することの軽減や、集団的な米国政府(すなわち政権)に対するトランプのより個人主義的な表現などである。 これらの要約の相違は、エンティティがソース記事に大きく取り上げられているときに最も顕著である。 我々の特徴は、要約におけるバイアスの研究と自動要約の理想的な性質に関する規範的な議論の基礎となる。

Growing literature has shown that NLP systems may encode social biases; however, the political bias of summarization models remains relatively unknown. In this work, we use an entity replacement method to investigate the portrayal of politicians in automatically generated summaries of news articles. We develop an entity-based computational framework to assess the sensitivities of several extractive and abstractive summarizers to the politicians Donald Trump and Joe Biden. We find consistent differences in these summaries upon entity replacement, such as reduced emphasis of Trump's presence in the context of the same article and a more individualistic representation of Trump with respect to the collective US government (i.e., administration). These summary dissimilarities are most prominent when the entity is heavily featured in the source article. Our characterization provides a foundation for future studies of bias in summarization and for normative discussions on the ideal qualities of automatic summaries.
翻訳日:2023-10-24 12:12:51 公開日:2023-10-19
# マンモグラフィにおける人工知能モデルの性能ギャップの多変量解析

Multivariate Analysis on Performance Gaps of Artificial Intelligence Models in Screening Mammography ( http://arxiv.org/abs/2305.04422v3 )

ライセンス: Link先を確認
Linglin Zhang, Beatrice Brown-Mulry, Vineela Nalla, InChan Hwang, Judy Wawira Gichoya, Aimilia Gastounioti, Imon Banerjee, Laleh Seyyed-Kalantari, MinJae Woo, Hari Trivedi(参考訳) 異常分類のための深層学習モデルはマンモグラフィーのスクリーニングにおいて良好に機能するが, モデル故障のリスクの増加に伴う人口動態, 画像, 臨床特性はいまだ不明である。 本研究は,2013-2020年にエモリー・ヘルスケアで画像化された115931例のマンモグラムを含むエモリーBrEast Imaging Dataset(EMBED)を用いて,BI-RADS評価,異常,画像の特徴,病理学的結果,患者の人口動態について検討した。 複数のディープラーニングモデルは、異常組織パッチとランダムに選択された正常組織パッチとスクリーニングマンモグラムを区別するために訓練された。 年齢, 人種, 病理結果, 組織密度, 画像特性で定義されたサブグループによるモデル性能を評価し, 偽陰性 (fn) と偽陽性 (fp) との関連について検討した。 また,部分群間の結合のために多変量ロジスティック回帰を行った。 最高性能のResNet152V2は92.6%(95%CI=92.0-93.2%)、AUC 0.975(95%CI=0.972-0.978)の精度を達成した。 コンバウンディングの制御前, ほぼすべてのサブグループは, モデル性能に統計的に有意な差を示した。 しかし,fnリスクの低下は他の人種(rr=0.828;p=.050),生検による良性病変(rr=0.927;p=.011),質量(rr=0.921;p=.010),非対称性(rr=0.854;p=.040)と相関し,高いfnリスクは建築的歪み(rr=1.037;p<.001)と関連していることがわかった。 より高いFPリスクはBI-RADS密度C(RR=1.891;p<.001)とD(RR=2.486;p<.001)に関連付けられる。 本研究は, マンモグラム分類器の性能評価において, サブグループ解析が重要であることを示すとともに, モデル故障と変数の真の関連を解明する。 これらの結果は、将来の乳癌検出モデルの開発に役立つ。

Although deep learning models for abnormality classification can perform well in screening mammography, the demographic, imaging, and clinical characteristics associated with increased risk of model failure remain unclear. This retrospective study uses the Emory BrEast Imaging Dataset(EMBED) containing mammograms from 115931 patients imaged at Emory Healthcare between 2013-2020, with BI-RADS assessment, region of interest coordinates for abnormalities, imaging features, pathologic outcomes, and patient demographics. Multiple deep learning models were trained to distinguish between abnormal tissue patches and randomly selected normal tissue patches from screening mammograms. We assessed model performance by subgroups defined by age, race, pathologic outcome, tissue density, and imaging characteristics and investigated their associations with false negatives (FN) and false positives (FP). We also performed multivariate logistic regression to control for confounding between subgroups. The top-performing model, ResNet152V2, achieved accuracy of 92.6%(95%CI=92.0-93.2%), and AUC 0.975(95%CI=0.972-0.978). Before controlling for confounding, nearly all subgroups showed statistically significant differences in model performance. However, after controlling for confounding, we found lower FN risk associates with Other race(RR=0.828;p=.050), biopsy-proven benign lesions(RR=0.927;p=.011), and mass(RR=0.921;p=.010) or asymmetry(RR=0.854;p=.040); higher FN risk associates with architectural distortion (RR=1.037;p<.001). Higher FP risk associates to BI-RADS density C(RR=1.891;p<.001) and D(RR=2.486;p<.001). Our results demonstrate subgroup analysis is important in mammogram classifier performance evaluation, and controlling for confounding between subgroups elucidates the true associations between variables and model failure. These results can help guide developing future breast cancer detection models.
翻訳日:2023-10-24 11:52:04 公開日:2023-10-19
# Ingenious: 言語モデルの効率的な事前学習のためのインフォーマティブデータセットの利用

INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of Language Models ( http://arxiv.org/abs/2305.06677v2 )

ライセンス: Link先を確認
H S V N S Kowndinya Renduchintala, Krishnateja Killamsetty, Sumit Bhatia, Milan Aggarwal, Ganesh Ramakrishnan, Rishabh Iyer, Balaji Krishnamurthy(参考訳) 事前学習言語モデル(PTLM)の顕著な特徴は、その一般化能力と、モデルキャパシティと事前学習データセットサイズの増加による新機能の出現において顕著な改善である。 その結果、私たちは最先端を推し進める巨大なモデルの開発を目撃しています。 しかし、このことが必然的に長時間のトレーニング時間、強要の計算コスト、有害な環境影響をもたらすことを認識することが不可欠である。 PTLMトレーニングをモデルアーキテクチャ、トレーニングパイプライン、損失関数設計の革新を通じて効率化するための重要な取り組みが進行中であり、トレーニングデータの有用性の最適化に注意が払われている。 重要な疑問は、下流のパフォーマンスを維持しながら、トレーニングデータの高情報サブセットのみを利用することでPTLMをトレーニングできるかどうかである。 情報的データサブセット選択の最近の進歩を踏まえ、トレーニングコーパスの高度に代表的なサブセットを選択するためにサブモジュール最適化をいかに活用できるかを示し、提案手法を適用して複数のPTLM(BERT, BioBERT, GPT-2)を少数のデータで効率的に訓練することができることを示す。 さらに,得られたモデルが完全学習モデルの性能の最大$\sim99\%を達成できることを示すため,厳密な実験的な評価を行う。 私たちはフレームワークをhttps://github.com/Efficient-AI/ingenious.comで公開しました。

A salient characteristic of pre-trained language models (PTLMs) is a remarkable improvement in their generalization capability and emergence of new capabilities with increasing model capacity and pre-training dataset size. Consequently, we are witnessing the development of enormous models pushing the state-of-the-art. It is, however, imperative to realize that this inevitably leads to prohibitively long training times, extortionate computing costs, and a detrimental environmental impact. Significant efforts are underway to make PTLM training more efficient through innovations in model architectures, training pipelines, and loss function design, with scant attention being paid to optimizing the utility of training data. The key question that we ask is whether it is possible to train PTLMs by employing only highly informative subsets of the training data while maintaining downstream performance? Building upon the recent progress in informative data subset selection, we show how we can employ submodular optimization to select highly representative subsets of the training corpora and demonstrate that the proposed framework can be applied to efficiently train multiple PTLMs (BERT, BioBERT, GPT-2) using only a fraction of data. Further, we perform a rigorous empirical evaluation to show that the resulting models achieve up to $\sim99\%$ of the performance of the fully-trained models. We made our framework publicly available at https://github.com/Efficient-AI/ingenious.
翻訳日:2023-10-24 09:04:43 公開日:2023-10-19
# 発展途上国におけるCOVID-19パンデミック時の移動行動の社会経済格差

Socioeconomic disparities in mobility behavior during the COVID-19 pandemic in developing countries ( http://arxiv.org/abs/2305.06888v2 )

ライセンス: Link先を確認
Lorenzo Lucchini, Ollin Langle-Chimal, Lorenzo Candeago, Lucio Melito, Alex Chunet, Aleister Montfort, Bruno Lepri, Nancy Lozano-Gracia, and Samuel P. Fraiberger(参考訳) 新型コロナウイルスのパンデミックの間、携帯電話のデータは人間のモビリティの定量化に重要な役割を果たしてきた。 モビリティ・パターンに関するこれまでの研究は主に高所得国における地域集積に焦点を合わせており、パンデミックによる最も脆弱な人口への影響が強調されている。 2020年3月から12月にかけて、携帯電話の位置情報データと3大陸中所得国6カ国の人口調査を組み合わせることで、パンデミックに対する社会経済集団の行動応答の共通性を明らかにした。 パンデミックが流行すると、低湿地に住む都市部の利用者は、自宅での自己隔離や農村への移住、通勤を控えるなどして対応しがちだった。 社会経済集団間の行動応答の差は観察期間を通じて持続した。 低湿地では、パンデミック前の高湿地で通勤していた人々は特に危険に晒され、高湿地での活動が減少し、また通勤時間が長かったために公共交通機関の閉鎖によって影響を受ける可能性が高かった。 監禁政策は、主に国全体で行われていたが、これらの結果は、最も脆弱な人への援助を目標として、移動データから情報を得た場所に基づく政策の役割を示唆している。

Mobile phone data have played a key role in quantifying human mobility during the COVID-19 pandemic. Existing studies on mobility patterns have primarily focused on regional aggregates in high-income countries, obfuscating the accentuated impact of the pandemic on the most vulnerable populations. By combining geolocation data from mobile phones and population census for 6 middle-income countries across 3 continents between March and December 2020, we uncovered common disparities in the behavioral response to the pandemic across socioeconomic groups. When the pandemic hit, urban users living in low-wealth neighborhoods were less likely to respond by self-isolating at home, relocating to rural areas, or refraining from commuting to work. The gap in the behavioral responses between socioeconomic groups persisted during the entire observation period. Among low-wealth users, those who used to commute to work in high-wealth neighborhoods pre-pandemic were particularly at risk, facing both the reduction in activity in high-wealth neighborhood and being more likely to be affected by public transport closures due to their longer commute. While confinement policies were predominantly country-wide, these results suggest a role for place-based policies informed by mobility data to target aid to the most vulnerable.
翻訳日:2023-10-24 08:53:11 公開日:2023-10-19
# chatgpt:インテント分類のためのパラフレーズのクラウドソーシングを置き換える: 高い多様性と比較モデルロバスト性

ChatGPT to Replace Crowdsourcing of Paraphrases for Intent Classification: Higher Diversity and Comparable Model Robustness ( http://arxiv.org/abs/2305.12947v2 )

ライセンス: Link先を確認
Jan Cegin, Jakub Simko and Peter Brusilovsky(参考訳) 生成型大規模言語モデル(LLM)の出現は、クラウドソーシングにどのような影響を与えるのか? 伝統的に、クラウドソーシングは、テキスト生成、修正、評価を含む、さまざまなヒューマンインテリジェンスタスクのソリューションを取得するために使われてきた。 これらのタスクのいくつかでは、ChatGPTのようなモデルが人間の労働者を置き換える可能性がある。 本研究では,インテント分類におけるパラフレーズ生成の課題であるかどうかについて検討する。 chatgptとfalcon-40bを用いて,既存のクラウドソーシング研究(スケール,プロンプト,シードデータなど)のデータ収集手法を適用した。 また,ChatGPTで生成したパラフレーズはより多様であり,少なくともロバストなモデルであることを示す。

The emergence of generative large language models (LLMs) raises the question: what will be its impact on crowdsourcing? Traditionally, crowdsourcing has been used for acquiring solutions to a wide variety of human-intelligence tasks, including ones involving text generation, modification or evaluation. For some of these tasks, models like ChatGPT can potentially substitute human workers. In this study, we investigate whether this is the case for the task of paraphrase generation for intent classification. We apply data collection methodology of an existing crowdsourcing study (similar scale, prompts and seed data) using ChatGPT and Falcon-40B. We show that ChatGPT-created paraphrases are more diverse and lead to at least as robust models.
翻訳日:2023-10-24 08:02:55 公開日:2023-10-19
# SCITAB:科学表の合成推論とクレーム検証のためのベンチマーク

SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables ( http://arxiv.org/abs/2305.13186v2 )

ライセンス: Link先を確認
Xinyuan Lu, Liangming Pan, Qian Liu, Preslav Nakov, Min-Yen Kan(参考訳) 現在の科学的事実チェックベンチマークでは、クラウドソースによる主張によるバイアスや、テキストベースの証拠への過度な依存など、いくつかの欠点が示されている。 SCITABは、専門家による1.2Kの科学的主張からなる挑戦的評価データセットである。 1)真正な科学論文から派生し、 2) 検証には構成的推論が必要である。 この主張は、ラベルが付された証拠を含む科学的な表と組み合わせられている。 広範な評価を通じて、SCITABはテーブルベースの事前学習モデルや大規模言語モデルを含む最先端のモデルに重大な課題をもたらすことを示した。 GPT-4を除く全てのモデルは、ランダムな推測以上の性能を達成した。 Chain-of-Thoughtのような一般的なプロンプト技術はSCITABではあまり性能が向上しない。 SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。 私たちのコードとデータはhttps://github.com/XinyuanLu00/SciTab.comで公開されています。

Current scientific fact-checking benchmarks exhibit several shortcomings, such as biases arising from crowd-sourced claims and an over-reliance on text-based evidence. We present SCITAB, a challenging evaluation dataset consisting of 1.2K expert-verified scientific claims that 1) originate from authentic scientific publications and 2) require compositional reasoning for verification. The claims are paired with evidence-containing scientific tables annotated with labels. Through extensive evaluations, we demonstrate that SCITAB poses a significant challenge to state-of-the-art models, including table-based pretraining models and large language models. All models except GPT-4 achieved performance barely above random guessing. Popular prompting techniques, such as Chain-of-Thought, do not achieve much performance gains on SCITAB. Our analysis uncovers several unique challenges posed by SCITAB, including table grounding, claim ambiguity, and compositional reasoning. Our codes and data are publicly available at https://github.com/XinyuanLu00/SciTab.
翻訳日:2023-10-24 07:52:02 公開日:2023-10-19
# 目標指向対話政策計画のためのプロンプト型モンテカルロ木探索

Prompt-Based Monte-Carlo Tree Search for Goal-Oriented Dialogue Policy Planning ( http://arxiv.org/abs/2305.13660v2 )

ライセンス: Link先を確認
Xiao Yu, Maximillian Chen, Zhou Yu(参考訳) 目標指向対話の計画には、しばしば将来の対話のシミュレーションとタスクの進捗推定が必要である。 したがって、A*検索やMCTS(Monte Carlo Tree Search)のようなルックアヘッド検索アルゴリズムを実行するためのニューラルネットワークのトレーニングを検討する。 しかし、このトレーニングには豊富な注釈データが必要であり、ノイズの多いアノテーションや低リソース設定に直面すると課題が発生する。 GDP-Zeroは、オープンループMCTSを用いて、モデルトレーニングなしで目標指向の対話ポリシー計画を実行するアプローチである。 GDP-Zeroは、ツリー検索中にポリシープライド、値関数、ユーザシミュレータ、システムモデルとして機能するよう、大きな言語モデルに促す。 目標指向タスクであるPersuasionForGoodでGDP-Zeroを評価し、その応答がChatGPTよりも59.32%好まれ、対話的評価においてChatGPTよりも説得力が高いと評価した。

Planning for goal-oriented dialogue often requires simulating future dialogue interactions and estimating task progress. Many approaches thus consider training neural networks to perform look-ahead search algorithms such as A* search and Monte Carlo Tree Search (MCTS). However, this training often requires abundant annotated data, which creates challenges when faced with noisy annotations or low-resource settings. We introduce GDP-Zero, an approach using Open-Loop MCTS to perform goal-oriented dialogue policy planning without any model training. GDP-Zero prompts a large language model to act as a policy prior, value function, user simulator, and system model during the tree search. We evaluate GDP-Zero on the goal-oriented task PersuasionForGood, and find that its responses are preferred over ChatGPT up to 59.32% of the time, and are rated more persuasive than ChatGPT during interactive evaluations.
翻訳日:2023-10-24 07:39:07 公開日:2023-10-19
# 適合ラベル配列から意味的役割ラベルを学習する

Learning Semantic Role Labeling from Compatible Label Sequences ( http://arxiv.org/abs/2305.14600v3 )

ライセンス: Link先を確認
Tao Li, Ghazaleh Kazeminejad, Susan W. Brown, Martha Palmer, Vivek Srikumar(参考訳) 意味的役割ラベリング (srl) は複数の異なるラベルセット(例えば verbnet や propbank)を持っている。 これらのデータセットの作成は難しいため、互いにどのように助け合うかという自然な疑問がある。 以前の研究では、クロスタスクインタラクションは役に立つが、これまではマルチタスク学習のみを探求している。 マルチタスク設定の一般的な問題は、引数シーケンスが別々にデコードされていることであり、構造的に一貫性のないラベルシーケンスを生成するリスクがある(semlinkのようなレキシコン)。 本稿では,VerbNetとPropBankのラベルを1つのシーケンスとしてモデル化するフレームワークを用いて,このような問題を解消する。 この設定では、デコード中のSemlink制約の強制は、F1全体を改善する。 特別な入力構成により,99 f1以上のpropbank引数から動詞引数を推測する。 学習のために,Semlinkで定義された知識を用いて学習し,PropBankのみの膨大なデータからさらに恩恵を受ける制約付き限界モデルを提案する。 conll05に基づくジョイントベンチマークでは,最先端のf1モデルを実現し,従来の最良ドメインモデルである3.5 (verbnet) と0.8 (propbank) を上回った。 ドメイン外一般化では、当社のモデルは以前の3.4(VerbNet)と0.2(PropBank)を上回ります。

Semantic role labeling (SRL) has multiple disjoint label sets, e.g., VerbNet and PropBank. Creating these datasets is challenging, therefore a natural question is how to use each one to help the other. Prior work has shown that cross-task interaction helps, but only explored multitask learning so far. A common issue with multi-task setup is that argument sequences are still separately decoded, running the risk of generating structurally inconsistent label sequences (as per lexicons like Semlink). In this paper, we eliminate such issue with a framework that jointly models VerbNet and PropBank labels as one sequence. In this setup, we show that enforcing Semlink constraints during decoding constantly improves the overall F1. With special input constructions, our joint model infers VerbNet arguments from given PropBank arguments with over 99 F1. For learning, we propose a constrained marginal model that learns with knowledge defined in Semlink to further benefit from the large amounts of PropBank-only data. On the joint benchmark based on CoNLL05, our models achieve state-of-the-art F1's, outperforming the prior best in-domain model by 3.5 (VerbNet) and 0.8 (PropBank). For out-of-domain generalization, our models surpass the prior best by 3.4 (VerbNet) and 0.2 (PropBank).
翻訳日:2023-10-24 05:56:55 公開日:2023-10-19
# Unbiased Compressionは分散最適化におけるコミュニケーションを省く: いつ、どのくらいか?

Unbiased Compression Saves Communication in Distributed Optimization: When and How Much? ( http://arxiv.org/abs/2305.16297v2 )

ライセンス: Link先を確認
Yutong He, Xinmeng Huang, Kun Yuan(参考訳) 通信圧縮は、圧縮勾配とモデルパラメータを伝達することで通信オーバーヘッドを軽減する分散最適化において一般的な手法である。 しかし、圧縮は情報歪みを導入し、収束を遅くし、より多くの通信ラウンドを発生させ、望ましいソリューションを実現する。 ラウンド単位の通信コストの低減と追加の通信ラウンドのトレードオフを考えると,通信圧縮によって通信コストが削減されるかどうかは不明である。 本稿では,広範に使用される圧縮形式である非バイアス圧縮が,通信コストを低減し,その程度を低減できる条件について検討する。 そこで本研究では,通信圧縮を伴う分散最適化における通信コストを特徴付ける最初の理論的定式化を行う。 非バイアス圧縮だけでは通信コストを節約できるわけではないが、全作業員が使用する圧縮機を独立と仮定すれば、この結果が得られる。 独立な非バイアス圧縮機を用いたアルゴリズムが要求する通信ラウンドの下位境界を確立し、滑らかな凸関数を最小化し、これらの下位境界がADIANAの分析を精査することによってきついことを示す。 独立な非バイアス圧縮を用いることで、すべての局所滑らか度定数が共通の上限によって制約されている場合、最大$\Theta(\sqrt{\min\{n, \kappa\}})$で通信コストを削減でき、$n$は労働者数、$\kappa$は最小化される関数の条件数である。 これらの理論的知見は実験結果によって裏付けられている。

Communication compression is a common technique in distributed optimization that can alleviate communication overhead by transmitting compressed gradients and model parameters. However, compression can introduce information distortion, which slows down convergence and incurs more communication rounds to achieve desired solutions. Given the trade-off between lower per-round communication costs and additional rounds of communication, it is unclear whether communication compression reduces the total communication cost. This paper explores the conditions under which unbiased compression, a widely used form of compression, can reduce the total communication cost, as well as the extent to which it can do so. To this end, we present the first theoretical formulation for characterizing the total communication cost in distributed optimization with communication compression. We demonstrate that unbiased compression alone does not necessarily save the total communication cost, but this outcome can be achieved if the compressors used by all workers are further assumed independent. We establish lower bounds on the communication rounds required by algorithms using independent unbiased compressors to minimize smooth convex functions and show that these lower bounds are tight by refining the analysis for ADIANA. Our results reveal that using independent unbiased compression can reduce the total communication cost by a factor of up to $\Theta(\sqrt{\min\{n, \kappa\}})$ when all local smoothness constants are constrained by a common upper bound, where $n$ is the number of workers and $\kappa$ is the condition number of the functions being minimized. These theoretical findings are supported by experimental results.
翻訳日:2023-10-24 05:37:07 公開日:2023-10-19
# オフライン制約強化学習のための最小二項臨界アルゴリズム

A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement Learning ( http://arxiv.org/abs/2306.07818v2 )

ライセンス: Link先を確認
Kihyuk Hong, Yuhang Li, Ambuj Tewari(参考訳) オフライン制約強化学習(RL)は、既存のデータセットを用いて予測累積コストの制約を受ける累積報酬を最大化する政策を学ぶことを目的としている。 本稿では,一般関数近似を用いたオフライン制約付きRLの新しいアルゴリズムであるPrimal-Dual-Critic Algorithm (PDCA)を提案する。 PDCAは批判者によって推定されるラグランジュ関数上の原始双対アルゴリズムを実行する。 プライマリプレイヤーはラグランジアン推定を最大化するために非回帰ポリシー最適化オラクルを使用し、デュアルプレイヤーはラグランジアン推定を最小化するために優雅に行動する。 PDCAがラグランジアン近傍のサドル点を見つけることは、制約されたRL問題に対してほぼ最適であることを示す。 集中性とベルマン完全性仮定を必要とする以前の研究とは異なり、PDCAはサンプル効率の学習にのみ集中性と実現可能性仮定を必要とする。

Offline constrained reinforcement learning (RL) aims to learn a policy that maximizes the expected cumulative reward subject to constraints on expected cumulative cost using an existing dataset. In this paper, we propose Primal-Dual-Critic Algorithm (PDCA), a novel algorithm for offline constrained RL with general function approximation. PDCA runs a primal-dual algorithm on the Lagrangian function estimated by critics. The primal player employs a no-regret policy optimization oracle to maximize the Lagrangian estimate and the dual player acts greedily to minimize the Lagrangian estimate. We show that PDCA can successfully find a near saddle point of the Lagrangian, which is nearly optimal for the constrained RL problem. Unlike previous work that requires concentrability and a strong Bellman completeness assumption, PDCA only requires concentrability and realizability assumptions for sample-efficient learning.
翻訳日:2023-10-24 03:43:13 公開日:2023-10-19
# act3d:マルチタスクロボット操作のための3次元特徴場トランスフォーマー

Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation ( http://arxiv.org/abs/2306.17817v2 )

ライセンス: Link先を確認
Theophile Gervet, Zhou Xian, Nikolaos Gkanatsios, Katerina Fragkiadaki(参考訳) 3d知覚表現は、オクルージョンをエンコードし、空間的推論を簡単にするため、ロボット操作に適している。 多くの操作タスクは、エンドエフェクタのポーズ予測において高い空間精度を必要とし、通常は計算コストが高い高解像度の3d特徴格子を必要とする。 その結果、ほとんどの操作ポリシーは2Dで直接動作し、3D誘導バイアスを先導する。 本稿では,ロボットの作業空間を表現する3次元特徴量を用いた操作ポリシートランス act3d について紹介する。 モデルでは、感覚深度を用いて2D事前訓練された特徴を3Dに持ち上げ、3Dのサンプルポイントの特徴を計算する。 3dポイントグリッドを粗く細かい方法でサンプリングし、相対位置の注意力を使ってそれらを実現し、次のポイントサンプリングの焦点を合わせる場所を選択する。 このようにして、高空間解像度の3次元アクションマップを効率的に計算する。 Act3Dは、確立された操作ベンチマークであるRL-Benchにおいて、74のRLBenchタスクに対する以前のSOTA 2Dマルチビューポリシーに対して10%の絶対的な改善を達成し、以前のSOTA 3Dポリシーよりも3倍少ない計算で22%の絶対的な改善を達成している。 本研究では, 相対的空間的注意, 大規模視覚言語で事前訓練された2Dバックボーン, および, 粗い注意から細い注意への重み付けの重要性を, アブレーション実験で定量化する。 コードとビデオはプロジェクトのWebサイトで公開されている。

3D perceptual representations are well suited for robot manipulation as they easily encode occlusions and simplify spatial reasoning. Many manipulation tasks require high spatial precision in end-effector pose prediction, which typically demands high-resolution 3D feature grids that are computationally expensive to process. As a result, most manipulation policies operate directly in 2D, foregoing 3D inductive biases. In this paper, we introduce Act3D, a manipulation policy transformer that represents the robot's workspace using a 3D feature field with adaptive resolutions dependent on the task at hand. The model lifts 2D pre-trained features to 3D using sensed depth, and attends to them to compute features for sampled 3D points. It samples 3D point grids in a coarse to fine manner, featurizes them using relative-position attention, and selects where to focus the next round of point sampling. In this way, it efficiently computes 3D action maps of high spatial resolution. Act3D sets a new state-of-the-art in RL-Bench, an established manipulation benchmark, where it achieves 10% absolute improvement over the previous SOTA 2D multi-view policy on 74 RLBench tasks and 22% absolute improvement with 3x less compute over the previous SOTA 3D policy. We quantify the importance of relative spatial attention, large-scale vision-language pre-trained 2D backbones, and weight tying across coarse-to-fine attentions in ablative experiments. Code and videos are available on our project website: https://act3d.github.io/.
翻訳日:2023-10-24 03:35:22 公開日:2023-10-19
# CoarsenConf:分子コンフォーマ生成のための凝集注意による等変粗大化

CoarsenConf: Equivariant Coarsening with Aggregated Attention for Molecular Conformer Generation ( http://arxiv.org/abs/2306.14852v2 )

ライセンス: Link先を確認
Danny Reidenbach, Aditi S. Krishnapriyan(参考訳) 分子コンホメータ生成(MCG)は、化学情報学と薬物発見において重要な課題である。 低エネルギーの3D構造を効率的に生成する能力は、高価な量子力学シミュレーションを回避し、仮想スクリーニングの高速化と構造探索の強化につながる。 MCG向けにいくつかの生成モデルが開発されているが、高品質なコンバータを一貫して作るのに多くの困難がある。 これらの問題に対処するために、CoarsenConfを導入し、これは分子グラフをねじれ角に基づいて粗く解析し、SE(3)等式な階層的変分オートエンコーダに統合する。 等変粗粒化により、回転可能な結合を介して連結された部分グラフの微細な原子座標を集約し、可変長粗粒化潜在表現を生成する。 本モデルでは, 粗粒の潜在表現から細粒度座標を復元する新しいアグリゲートアテンション機構を用いて, 正確なコンフォメータを効率よく生成する。 さらに,複数の下流アプリケーションにおいて生成したコンフォメータの化学的および生化学的品質を,プロパティ予測やoracleベースのタンパク質ドッキングを含む評価した。 全体として、CoarsenConfは以前の生成モデルよりも正確なコンフォメータアンサンブルを生成する。

Molecular conformer generation (MCG) is an important task in cheminformatics and drug discovery. The ability to efficiently generate low-energy 3D structures can avoid expensive quantum mechanical simulations, leading to accelerated virtual screenings and enhanced structural exploration. Several generative models have been developed for MCG, but many struggle to consistently produce high-quality conformers. To address these issues, we introduce CoarsenConf, which coarse-grains molecular graphs based on torsional angles and integrates them into an SE(3)-equivariant hierarchical variational autoencoder. Through equivariant coarse-graining, we aggregate the fine-grained atomic coordinates of subgraphs connected via rotatable bonds, creating a variable-length coarse-grained latent representation. Our model uses a novel aggregated attention mechanism to restore fine-grained coordinates from the coarse-grained latent representation, enabling efficient generation of accurate conformers. Furthermore, we evaluate the chemical and biochemical quality of our generated conformers on multiple downstream applications, including property prediction and oracle-based protein docking. Overall, CoarsenConf generates more accurate conformer ensembles compared to prior generative models.
翻訳日:2023-10-24 03:34:31 公開日:2023-10-19
# Otter-Knowledge:薬物発見のための異なるソースから学習したマルチモーダル知識グラフのベンチマーク

Otter-Knowledge: benchmarks of multimodal knowledge graph representation learning from different sources for drug discovery ( http://arxiv.org/abs/2306.12802v3 )

ライセンス: Link先を確認
Hoang Thanh Lam, Marco Luca Sbodio, Marcos Mart\'inez Galindo, Mykhaylo Zayats, Ra\'ul Fern\'andez-D\'iaz, V\'ictor Valls, Gabriele Picco, Cesar Berrospi Ramis, Vanessa L\'opez(参考訳) 薬物分子とタンパク質の結合親和性を予測するための最近の研究は、SMILESとタンパク質配列の大規模データベースから、教師なし学習技術を通じて学習した表現を用いている。 これらの表現は予測を著しく強化しているが、通常は限定的なモダリティに基づいており、分子やタンパク質間の既存の関係についての知識を利用できない。 本研究では,多種多様なソースやモダリティの知識グラフをシーケンスやスマイル表現に組み込むことにより,確立された治療データコモンズ(tdc)ベンチマークにおいて,薬物標的結合親和性予測のための表現をさらに豊かにし,最先端の結果が得られることを示す。 マルチモーダルな知識グラフを公開し、7つの公開データソースからのデータを統合し、3000万以上のトリプルを含む。 本研究の目的は,タンパク質/分子埋め込みのマルチモーダル知識が,結合親和性の予測を含む予測タスクをいかに改善できるかを検討するための追加研究を促進することである。 また、当社のマルチモーダルナレッジグラフから学んだ事前学習モデルと、入札アフィニティ予測のための標準ベンチマークタスクを実行するためのソースコードもリリースしています。

Recent research on predicting the binding affinity between drug molecules and proteins use representations learned, through unsupervised learning techniques, from large databases of molecule SMILES and protein sequences. While these representations have significantly enhanced the predictions, they are usually based on a limited set of modalities, and they do not exploit available knowledge about existing relations among molecules and proteins. In this study, we demonstrate that by incorporating knowledge graphs from diverse sources and modalities into the sequences or SMILES representation, we can further enrich the representation and achieve state-of-the-art results for drug-target binding affinity prediction in the established Therapeutic Data Commons (TDC) benchmarks. We release a set of multimodal knowledge graphs, integrating data from seven public data sources, and containing over 30 million triples. Our intention is to foster additional research to explore how multimodal knowledge enhanced protein/molecule embeddings can improve prediction tasks, including prediction of binding affinity. We also release some pretrained models learned from our multimodal knowledge graphs, along with source code for running standard benchmark tasks for prediction of biding affinity.
翻訳日:2023-10-24 03:33:16 公開日:2023-10-19
# 学習したトランスフォーマーは文脈内で線形モデルを学ぶ

Trained Transformers Learn Linear Models In-Context ( http://arxiv.org/abs/2306.09927v3 )

ライセンス: Link先を確認
Ruiqi Zhang, Spencer Frei, Peter L. Bartlett(参考訳) 意図しないタスクからトークンの短いプロンプトシーケンスを与えられたら、パラメータを更新することなく、関連するトーケンと次のトーケンの予測を定式化できます。 ラベル付きトレーニングデータとラベルなしテストデータをプロンプトとして組み込むことで、トランスフォーマーは教師付き学習アルゴリズムのように振る舞うことができる。 実際、最近の研究は、線形回帰問題のランダムなインスタンス上でトランスフォーマーアーキテクチャを訓練する場合、これらのモデルの予測は通常の最小二乗のアーキテクチャを模倣することを示している。 この現象のメカニズムを理解するために,線形回帰タスクにおける勾配流によって訓練された1つの線形自己アテンション層を持つ変圧器のICLのダイナミクスについて検討する。 非凸性にもかかわらず、適切なランダム初期化を伴う勾配流は目的関数の最大の最小値を求める。 このグローバル最小では、新しい予測タスクからラベル付きサンプルのテストプロンプトが与えられると、テストプロンプト分布よりも最適な線形予測器と競合する予測エラーが達成される。 さらに,訓練された変圧器のロバスト性を様々な分布シフトに特徴付け,多くのシフトが許容されるが,プロンプトの共変量分布のシフトはそうではないことを示す。 この動機付けにより,共変量分布がプロンプトによって変化する一般化icl設定を考える。 グラデーションフローはこの設定でグローバル最小値を求めるのに成功しているが、訓練されたトランスフォーマーは穏やかな共変量シフトの下でも不安定である。 この発見を、共変量シフトの下でより堅牢であることを示す大きな非線形トランスフォーマーアーキテクチャの実験で補完する。

Attention-based neural networks such as transformers have demonstrated a remarkable ability to exhibit in-context learning (ICL): Given a short prompt sequence of tokens from an unseen task, they can formulate relevant per-token and next-token predictions without any parameter updates. By embedding a sequence of labeled training data and unlabeled test data as a prompt, this allows for transformers to behave like supervised learning algorithms. Indeed, recent work has shown that when training transformer architectures over random instances of linear regression problems, these models' predictions mimic those of ordinary least squares. Towards understanding the mechanisms underlying this phenomenon, we investigate the dynamics of ICL in transformers with a single linear self-attention layer trained by gradient flow on linear regression tasks. We show that despite non-convexity, gradient flow with a suitable random initialization finds a global minimum of the objective function. At this global minimum, when given a test prompt of labeled examples from a new prediction task, the transformer achieves prediction error competitive with the best linear predictor over the test prompt distribution. We additionally characterize the robustness of the trained transformer to a variety of distribution shifts and show that although a number of shifts are tolerated, shifts in the covariate distribution of the prompts are not. Motivated by this, we consider a generalized ICL setting where the covariate distributions can vary across prompts. We show that although gradient flow succeeds at finding a global minimum in this setting, the trained transformer is still brittle under mild covariate shifts. We complement this finding with experiments on large, nonlinear transformer architectures which we show are more robust under covariate shifts.
翻訳日:2023-10-24 03:32:52 公開日:2023-10-19
# The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models

The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models ( http://arxiv.org/abs/2308.00245v2 )

ライセンス: Link先を確認
Haonan Li, Yu Hao, Yizhuo Zhai, Zhiyun Qian(参考訳) 静的分析は、バグを特定し緩和するためのソフトウェア工学で広く使われているテクニックである。 しかし、大きなハードルは、精度とスケーラビリティの微妙なバランスを達成することである。 大規模言語モデル(LLM)は将来的な代替手段を提供する。最近の進歩は、コードを解釈、生成、デバッグする素晴らしい機能を示している。 しかし、バグのロジックは複雑で、洗練された推論と複数の関数にまたがる大きな分析範囲を必要とする。 したがって、この時点では、LLMは静的解析を補完する補助役としてよりよく使われる。 本稿では,LUM支援静的解析のオープンスペースを深く掘り下げ,Use-before-initialization (UBI) バグをケーススタディとして用いた。 この目的のために,静的解析ツールとLLMを併用した完全自動化フレームワークLLiftを開発した。 フレームワークとプロンプトを慎重に設計することで、バグ固有のモデリング、大きな問題の範囲、LLMの非決定論的性質など、多くの課題を克服できます。 実世界のシナリオでテストされ、静的解析によって生成された1,000近い潜在的なUBIバグを分析し、LLiftは強力な能力を示し、合理的な精度(50%)を示し、欠陥がないように見える。 また、Linuxカーネルの13のUBIバグも特定している。 本研究は,LLMを用いた広範囲な実世界のデータセットにおけるバグ発見のための新たな機会と方法論の道を開くものである。

Static analysis is a widely used technique in software engineering for identifying and mitigating bugs. However, a significant hurdle lies in achieving a delicate balance between precision and scalability. Large Language Models (LLMs) offer a promising alternative, as recent advances demonstrate remarkable capabilities in comprehending, generating, and even debugging code. Yet, the logic of bugs can be complex and require sophisticated reasoning and a large analysis scope spanning multiple functions. Therefore, at this point, LLMs are better used in an assistive role to complement static analysis. In this paper, we take a deep dive into the open space of LLM-assisted static analysis, using use-before-initialization (UBI) bugs as a case study. To this end, we develop LLift, a fully automated framework that interfaces with both a static analysis tool and an LLM. By carefully designing the framework and the prompts, we are able to overcome a number of challenges, including bug-specific modeling, the large problem scope, the non-deterministic nature of LLMs, etc. Tested in a real-world scenario analyzing nearly a thousand potential UBI bugs produced by static analysis, LLift demonstrates a potent capability, showcasing a reasonable precision (50%) and appearing to have no missing bugs. It even identified 13 previously unknown UBI bugs in the Linux kernel. This research paves the way for new opportunities and methodologies in using LLMs for bug discovery in extensive, real-world datasets.
翻訳日:2023-10-24 03:23:37 公開日:2023-10-19
# 薬物発見におけるChatGPT : チャットボットを用いた抗コカイン添加薬開発を事例として

ChatGPT in Drug Discovery: A Case Study on Anti-Cocaine Addiction Drug Development with Chatbots ( http://arxiv.org/abs/2308.06920v2 )

ライセンス: Link先を確認
Rui Wang, Hongsong Feng, Guo-Wei Wei(参考訳) OpenAIが開発した最先端の言語モデルベースのチャットボットであるChatGPTの誕生は、AIの新しい時代の幕開けとなった。 しかし、潜在的な落とし穴のため、厳格な科学研究における役割はまだ明らかになっていない。 本稿では,創薬分野におけるその革新的応用を鮮明に紹介する。 抗コカイン中毒薬の開発に特化して研究は、GPT-4を仮想ガイドとして採用し、薬物候補の生成モデルに取り組んでいる研究者に戦略的および方法論的な洞察を提供する。 主な目的は、望ましい性質を持つ最適な薬物様分子を作ることである。 ChatGPTの能力を活用することで、この研究は薬物発見プロセスに新しいアプローチを導入する。 このaiと研究者の共生パートナーシップは、薬物開発へのアプローチを変える。 チャットボットはファシリテーターとなり、研究者を革新的方法論や効果的な薬物候補を作るための生産的な道へと導いた。 この研究は、人間の専門知識とAI支援の協調的な相乗効果に光を当て、ChatGPTの認知能力は、潜在的な医薬品ソリューションの設計と開発を促進する。 本稿では、薬物発見における高度なAIの統合を探求するだけでなく、治療革新に革命をもたらすために、AIを動力とするチャットボットをトレイルブラザーとして推奨することで、景観を再構築する。

The birth of ChatGPT, a cutting-edge language model-based chatbot developed by OpenAI, ushered in a new era in AI. However, due to potential pitfalls, its role in rigorous scientific research is not clear yet. This paper vividly showcases its innovative application within the field of drug discovery. Focused specifically on developing anti-cocaine addiction drugs, the study employs GPT-4 as a virtual guide, offering strategic and methodological insights to researchers working on generative models for drug candidates. The primary objective is to generate optimal drug-like molecules with desired properties. By leveraging the capabilities of ChatGPT, the study introduces a novel approach to the drug discovery process. This symbiotic partnership between AI and researchers transforms how drug development is approached. Chatbots become facilitators, steering researchers towards innovative methodologies and productive paths for creating effective drug candidates. This research sheds light on the collaborative synergy between human expertise and AI assistance, wherein ChatGPT's cognitive abilities enhance the design and development of potential pharmaceutical solutions. This paper not only explores the integration of advanced AI in drug discovery but also reimagines the landscape by advocating for AI-powered chatbots as trailblazers in revolutionizing therapeutic innovation.
翻訳日:2023-10-24 03:13:45 公開日:2023-10-19
# ビッグバンや低バー、公共の場におけるリスク評価

Big Bang, Low Bar -- Risk Assessment in the Public Arena ( http://arxiv.org/abs/2308.04440v2 )

ライセンス: Link先を確認
Huw Price(参考訳) リスク管理の基本的な原則の1つは、たとえありそうにないとしても、物事がひどい目に遭う可能性のある方法に常に目を向けるべきであるということです。 潜在的な失敗を悲惨なものにすればするほど、それを無視するより前に、その可能性は高くなります。 この原則は明白に思えるかもしれないが、リスクについて公の場での議論では容易に見過ごされ、確実によく知るべき適格なコメンテーターでさえも見過ごされる。 本論文は,人工知能の潜在的存在リスクに関する最近の議論において,この原則を無視することによるものである。 失敗はこのケースに特有のものではないが、近年の議論は、この原則がいかに容易に見落とされ得るかを示す、特に顕著な例を提供している。

One of the basic principles of risk management is that we should always keep an eye on ways that things could go badly wrong, even if they seem unlikely. The more disastrous a potential failure, the more improbable it needs to be, before we can safely ignore it. This principle may seem obvious, but it is easily overlooked in public discourse about risk, even by well-qualified commentators who should certainly know better. The present piece is prompted by neglect of the principle in recent discussions about the potential existential risks of artificial intelligence. The failing is not peculiar to this case, but recent debates in this area provide some particularly stark examples of how easily the principle can be overlooked.
翻訳日:2023-10-24 03:12:48 公開日:2023-10-19
# 医用画像分割におけるアウトオブディストリビューション検出の改善のための次元縮小法

Dimensionality Reduction for Improving Out-of-Distribution Detection in Medical Image Segmentation ( http://arxiv.org/abs/2308.03723v2 )

ライセンス: Link先を確認
McKell Woodland, Nihil Patel, Mais Al Taie, Joshua P. Yung, Tucker J. Netherton, Ankit B. Patel, and Kristy K. Brock(参考訳) 臨床的にデプロイされたセグメンテーションモデルは、トレーニングディストリビューション外のデータで失敗することが知られている。 これらのモデルがほとんどのケースでうまく機能するため、自動化バイアスから保護するために推論時にout-of-distribution (ood)イメージを検出することが不可欠である。 本研究は,t1強調磁気共鳴画像で肝臓を分割するswin unetrモデルのボトルネック特性に,hoc後のマハラノビス距離を適用する。 主成分分析によりボトルネック特性の次元を小さくすることで,OOD画像は高速かつ最小の計算負荷で検出された。

Clinically deployed segmentation models are known to fail on data outside of their training distribution. As these models perform well on most cases, it is imperative to detect out-of-distribution (OOD) images at inference to protect against automation bias. This work applies the Mahalanobis distance post hoc to the bottleneck features of a Swin UNETR model that segments the liver on T1-weighted magnetic resonance imaging. By reducing the dimensions of the bottleneck features with principal component analysis, OOD images were detected with high performance and minimal computational load.
翻訳日:2023-10-24 03:12:33 公開日:2023-10-19
# SE(3)-Stochastic Flow Matching for protein Backbone Generation (特集 バイオサイバネティックスとバイオサイバネティックス)

SE(3)-Stochastic Flow Matching for Protein Backbone Generation ( http://arxiv.org/abs/2310.02391v2 )

ライセンス: Link先を確認
Avishek Joey Bose, Tara Akhound-Sadegh, Kilian Fatras, Guillaume Huguet, Jarrid Rector-Brooks, Cheng-Hao Liu, Andrei Cristian Nica, Maksym Korablyov, Michael Bronstein, and Alexander Tong(参考訳) 新規タンパク質構造の計算設計は、多くの科学分野に大きな影響を与える可能性がある。 この目的に向けて、$\text{foldflow}$という3ドルの厳格な動き(つまり、$\text{se(3)}$ --)よりもフローマッチングパラダイムに基づくモデリング能力を向上させる一連の新しい生成モデルを紹介します。 最初に$\text{foldflow-base}$を導入し、決定論的連続時間ダイナミクスを学習し、$\text{se(3)}$の不変目標分布をマッチングするためのシミュレーションフリーなアプローチを導入する。 次に、$\text{foldflow-ot}$を作成するためにリーマン最適トランスポートを組み込むことでトレーニングを加速し、より単純で安定したフローを構築する。 最後に、Riemannian OTとシミュレーションなしのトレーニングの両方を結合して$\text{FoldFlow-SFM}$を設計し、$\text{SE(3)}$上で確率的連続時間力学を学習する。 我々の生成モデルは、拡散ベースのアプローチよりも安定で訓練が速い、そして我々のモデルは、任意の不変なソース分布を$\text{SE(3)}$上の不変なターゲット分布にマッピングする能力を持っている。 実験により、FoldFlowモデルを用いて、最大300ドルのアミノ酸のタンパク質のバックボーン生成を検証し、高品質で多種多様で斬新なサンプルを作成しました。

The computational design of novel protein structures has the potential to impact numerous scientific disciplines greatly. Toward this goal, we introduce $\text{FoldFlow}$ a series of novel generative models of increasing modeling power based on the flow-matching paradigm over $3\text{D}$ rigid motions -- i.e. the group $\text{SE(3)}$ -- enabling accurate modeling of protein backbones. We first introduce $\text{FoldFlow-Base}$, a simulation-free approach to learning deterministic continuous-time dynamics and matching invariant target distributions on $\text{SE(3)}$. We next accelerate training by incorporating Riemannian optimal transport to create $\text{FoldFlow-OT}$, leading to the construction of both more simple and stable flows. Finally, we design $\text{FoldFlow-SFM}$ coupling both Riemannian OT and simulation-free training to learn stochastic continuous-time dynamics over $\text{SE(3)}$. Our family of $\text{FoldFlow}$ generative models offer several key advantages over previous approaches to the generative modeling of proteins: they are more stable and faster to train than diffusion-based approaches, and our models enjoy the ability to map any invariant source distribution to any invariant target distribution over $\text{SE(3)}$. Empirically, we validate our FoldFlow models on protein backbone generation of up to $300$ amino acids leading to high-quality designable, diverse, and novel samples.
翻訳日:2023-10-24 02:54:00 公開日:2023-10-19
# NLPにおける毒性の定義について

On the definition of toxicity in NLP ( http://arxiv.org/abs/2310.02357v3 )

ライセンス: Link先を確認
Sergey Berezin, Reza Farahbakhsh, Noel Crespi(参考訳) 毒性検出タスクの根本的な問題は、毒性が不定義であるという事実にある。 これにより、モデルトレーニングで主観的およびあいまいなデータに依存するようになり、それが非ロバストおよび非正確な結果になる: ガベージイン - ガベージアウト。 この研究は、客観的かつ文脈に配慮した新しいストレスレベルに基づく毒性の定義を示唆している。 それと同等に、この新たな定義をデータセットの作成とモデルトレーニングに適用する可能性についても説明します。

The fundamental problem in toxicity detection task lies in the fact that the toxicity is ill-defined. This causes us to rely on subjective and vague data in models' training, which results in non-robust and non-accurate results: garbage in - garbage out. This work suggests a new, stress-level-based definition of toxicity designed to be objective and context-aware. On par with it, we also describe possible ways of applying this new definition to dataset creation and model training.
翻訳日:2023-10-24 02:53:30 公開日:2023-10-19
# デノジング拡散橋モデル

Denoising Diffusion Bridge Models ( http://arxiv.org/abs/2309.16948v2 )

ライセンス: Link先を確認
Linqi Zhou, Aaron Lou, Samar Khanna, Stefano Ermon(参考訳) 拡散モデルは、確率過程を用いてデータにノイズをマッピングする強力な生成モデルである。 しかし、画像編集などの多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来ている。 このように、拡散モデルは、生成プロセスにこの情報を組み込むために、ガイダンスや投影サンプリングのような厄介な方法に依存する必要がある。 本研究では,2つの相対分布をエンドポイントとして補間する拡散ブリッジ群に基づく,このパラダイムの自然な代替として,ddbms(denoising diffusion bridge models)を提案する。 本手法は,データから拡散橋のスコアを学習し,学習したスコアに基づいて(統計的)微分方程式を解いて,一方のエンドポイント分布から他方へマップする。 本手法は,スコアベース拡散モデルやOTフローマッチングなどの生成モデルのクラスを自然に統一することで,既存の設計とアーキテクチャの選択をより一般的な問題に適応させることができる。 経験的に、ピクセルと潜在空間の両方の画像データセットにddbmsを適用する。 標準画像変換問題において、DDBMはベースライン法よりも大幅に改善され、ソース分布をランダムノイズに設定することで画像生成の問題を減らすと、DDBMはより一般的なタスクのために構築されているにもかかわらず、最先端のFIDスコアに匹敵する結果が得られる。

Diffusion models are powerful generative models that map noise to data using stochastic processes. However, for many applications such as image editing, the model input comes from a distribution that is not random noise. As such, diffusion models must rely on cumbersome methods like guidance or projected sampling to incorporate this information in the generative process. In our work, we propose Denoising Diffusion Bridge Models (DDBMs), a natural alternative to this paradigm based on diffusion bridges, a family of processes that interpolate between two paired distributions given as endpoints. Our method learns the score of the diffusion bridge from data and maps from one endpoint distribution to the other by solving a (stochastic) differential equation based on the learned score. Our method naturally unifies several classes of generative models, such as score-based diffusion models and OT-Flow-Matching, allowing us to adapt existing design and architectural choices to our more general problem. Empirically, we apply DDBMs to challenging image datasets in both pixel and latent space. On standard image translation problems, DDBMs achieve significant improvement over baseline methods, and, when we reduce the problem to image generation by setting the source distribution to random noise, DDBMs achieve comparable FID scores to state-of-the-art methods despite being built for a more general task.
翻訳日:2023-10-24 02:52:18 公開日:2023-10-19
# 音響コントラストに基づくファインチューニング

Audio Contrastive based Fine-tuning ( http://arxiv.org/abs/2309.11895v3 )

ライセンス: Link先を確認
Yang Wang, Qibin Liang, Chenghao Xiao, Yizhi Li, Noura Al Moubayed, Chenghua Lin(参考訳) 音声分類は幅広い用途で音声処理や音声処理において重要な役割を担っている。 モデルのトレーニングデータへの適合(オーバーフィッティングの回避)と、新たなドメインへの一般化との適切なバランスを打つという課題はまだ残っている。 コントラスト学習の伝達可能性を活用して,頑健な一般性に特徴付けられる効率的なアプローチであるオーディオコントラストベースファインチューニング(AudioConFit)を導入する。 様々な音声分類タスクにおける経験的実験により,様々な設定で最新の結果を得る手法の有効性と頑健性が示された。

Audio classification plays a crucial role in speech and sound processing tasks with a wide range of applications. There still remains a challenge of striking the right balance between fitting the model to the training data (avoiding overfitting) and enabling it to generalise well to a new domain. Leveraging the transferability of contrastive learning, we introduce Audio Contrastive-based Fine-tuning (AudioConFit), an efficient approach characterised by robust generalisability. Empirical experiments on a variety of audio classification tasks demonstrate the effectiveness and robustness of our approach, which achieves state-of-the-art results in various settings.
翻訳日:2023-10-24 02:50:47 公開日:2023-10-19
# オートフォーマライゼーションに向けた新しいアプローチ

A New Approach Towards Autoformalization ( http://arxiv.org/abs/2310.07957v2 )

ライセンス: Link先を確認
Nilay Patel and Rahul Saha and Jeffrey Flanigan(参考訳) 数学的証明の検証は難しいが、コンピュータの助けを借りて自動化できる。 自動形式化(autoformalization)は、自然言語数学をプログラムによって検証可能な形式言語に自動翻訳するタスクである。 これは難しい課題であり、特に研究論文に見られる高水準の数学では問題となる。 研究論文は大量の背景と文脈を必要とする。 本稿では,非リンク形式化(リンクのない定義と定理の形式化),エンティティリンク(適切な定理と定義のリンク),そして最後に型を調整して型チェッカーを通過させることにより,研究レベルの数学における自己形式化に取り組む方法を提案する。 さらに、arxiv.orgの論文からサンプリングされたリーン定理証明のために形式化された50の定理からなる、リンクされていない形式化のためのベンチマークデータセットarxiv2formalを提案する。 このデータセットの将来バージョンへのコミュニティからのコントリビューションを歓迎します。

Verifying mathematical proofs is difficult, but can be automated with the assistance of a computer. Autoformalization is the task of automatically translating natural language mathematics into a formal language that can be verified by a program. This is a challenging task, and especially for higher-level mathematics found in research papers. Research paper mathematics requires large amounts of background and context. In this paper, we propose an avenue towards tackling autoformalization for research-level mathematics, by breaking the task into easier and more approachable subtasks: unlinked formalization (formalization with unlinked definitions and theorems), entity linking (linking to the proper theorems and definitions), and finally adjusting types so it passes the type checker. In addition, we present arXiv2Formal, a benchmark dataset for unlinked formalization consisting of 50 theorems formalized for the Lean theorem prover sampled from papers on arXiv.org. We welcome any contributions from the community to future versions of this dataset.
翻訳日:2023-10-24 02:37:29 公開日:2023-10-19
# 構造化反射を用いたコンピュータ制御のためのゼロショット言語エージェント

A Zero-Shot Language Agent for Computer Control with Structured Reflection ( http://arxiv.org/abs/2310.08740v2 )

ライセンス: Link先を確認
Tao Li, Gang Li, Zhiwei Deng, Bryan Wang, Yang Li(参考訳) 大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルの目標(MiniWoB++など)の計画と実行能力の向上を示している。 タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多数のプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。 このようなトレース例がなければ、エージェントがコンピュータ上で自律的に学習し、コントロールを改善することは課題であり、エージェントが新しいタスクを実行する能力を制限する。 我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。 エージェントは部分的に観察された環境下での実行可能な動作を計画し、自己回帰と構造化された思考管理を通じて誤りを識別し学習することでタスクを反復的に進行させる。 MiniWoB++の簡単なタスクでは、ゼロショットエージェントが最近のSoTAより優れていることがよく示されます。 より複雑なタスクでは、以前の作業では専門家のトレースや追加の画面情報にアクセスするという利点がありましたが、リフレクションエージェントは以前のベストモデルと同等の性能を発揮します。

Large language models (LLMs) have shown increasing capacity at planning and executing a high-level goal in a live computer environment (e.g. MiniWoB++). To perform a task, recent works often require a model to learn from trace examples of the task via either supervised learning or few/many-shot prompting. Without these trace examples, it remains a challenge how an agent can autonomously learn and improve its control on a computer, which limits the ability of an agent to perform a new task. We approach this problem with a zero-shot agent that requires no given expert traces. Our agent plans for executable actions on a partially observed environment, and iteratively progresses a task by identifying and learning from its mistakes via self-reflection and structured thought management. On the easy tasks of MiniWoB++, we show that our zero-shot agent often outperforms recent SoTAs, with more efficient reasoning. For tasks with more complexity, our reflective agent performs on par with prior best models, even though previous works had the advantages of accessing expert traces or additional screen information.
翻訳日:2023-10-24 02:26:39 公開日:2023-10-19
# AI for Mathematics:認知科学の視点

AI for Mathematics: A Cognitive Science Perspective ( http://arxiv.org/abs/2310.13021v1 )

ライセンス: Link先を確認
Cedegao E. Zhang, Katherine M. Collins, Adrian Weller, Joshua B. Tenenbaum(参考訳) 数学は人間によって開発された最も強力な概念体系の1つである。 自動数学者の夢は人工知能(ai)に精通した歴史を持つ。 aiの急速な進歩、特に大規模言語モデル(llm)の発展によって、このようなシステムの構築に対する新たな関心が高まっている。 本研究では,これらの目標をtextit{cognitive science}の観点から考察する。 私たちは、AI実践者が真に人間(または超人)レベルの数学システムを構築する際に考慮すべき価値があると信じている、認知科学からの古典的で継続的な研究の方向性に注意を向けます。 AI研究者や数学者と一体となって働く認知科学者が、数学のフロンティアを推し進めるだけでなく、人類がそのような大きな認知的な偉業をいかにできるのかを垣間見るために、より優れた数学AIシステムに向かっているとき、私たちは、多分野の視点が必要と考えるオープンな議論と疑問に身を包みます。

Mathematics is one of the most powerful conceptual systems developed and used by the human species. Dreams of automated mathematicians have a storied history in artificial intelligence (AI). Rapid progress in AI, particularly propelled by advances in large language models (LLMs), has sparked renewed, widespread interest in building such systems. In this work, we reflect on these goals from a \textit{cognitive science} perspective. We call attention to several classical and ongoing research directions from cognitive science, which we believe are valuable for AI practitioners to consider when seeking to build truly human (or superhuman)-level mathematical systems. We close with open discussions and questions that we believe necessitate a multi-disciplinary perspective -- cognitive scientists working in tandem with AI researchers and mathematicians -- as we move toward better mathematical AI systems which not only help us push the frontier of the mathematics, but also offer glimpses into how we as humans are even capable of such great cognitive feats.
翻訳日:2023-10-24 02:17:24 公開日:2023-10-19
# SecurityNet: パブリックモデルでマシンラーニングの脆弱性を評価する

SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models ( http://arxiv.org/abs/2310.12665v1 )

ライセンス: Link先を確認
Boyang Zhang, Zheng Li, Ziqing Yang, Xinlei He, Michael Backes, Mario Fritz, Yang Zhang(参考訳) 高度な機械学習(ML)モデルは、多くの現実世界のアプリケーションにデプロイされているが、以前の研究は、これらのモデルがセキュリティとプライバシの脆弱性を持つことを示した。 この分野では様々な実証研究が行われている。 しかし、ほとんどの実験は、セキュリティ研究者自身がトレーニングしたターゲットmlモデルで行われている。 複雑なアーキテクチャで高度なモデルをトレーニングするための高い計算リソース要求のため、研究者は通常、典型的な実験データセット上で比較的単純なアーキテクチャを使用して、いくつかのターゲットモデルをトレーニングする。 MLモデルの脆弱性を包括的に理解するためには、さまざまな目的でトレーニングされた大規模なモデル(単にML攻撃と防御を評価する目的だけでなく)で実験を行う必要がある、と私たちは主張する。 そこで本研究では,インターネット(パブリックモデル)からの重み付き公開モデルを用いて,mlモデルに対する攻撃や防御性を評価する手法を提案する。 我々は910の注釈付き画像分類モデルを含むデータベース、SecurityNetを構築した。 次に,これらのパブリックモデルにおけるモデル盗み攻撃,メンバシップ推論攻撃,バックドア検出など,いくつかの代表的な攻撃/防御手法の有効性を分析した。 本評価は, 自己訓練モデルと比較して, パブリックモデルによって攻撃・防御性能が著しく異なることを実証的に示す。 私たちはSecurityNetを研究コミュニティと共有しています。 研究者は、将来提案された手法の有効性をよりよく示すために、公開モデルで実験を行うことを提唱する。

While advanced machine learning (ML) models are deployed in numerous real-world applications, previous works demonstrate these models have security and privacy vulnerabilities. Various empirical research has been done in this field. However, most of the experiments are performed on target ML models trained by the security researchers themselves. Due to the high computational resource requirement for training advanced models with complex architectures, researchers generally choose to train a few target models using relatively simple architectures on typical experiment datasets. We argue that to understand ML models' vulnerabilities comprehensively, experiments should be performed on a large set of models trained with various purposes (not just the purpose of evaluating ML attacks and defenses). To this end, we propose using publicly available models with weights from the Internet (public models) for evaluating attacks and defenses on ML models. We establish a database, namely SecurityNet, containing 910 annotated image classification models. We then analyze the effectiveness of several representative attacks/defenses, including model stealing attacks, membership inference attacks, and backdoor detection on these public models. Our evaluation empirically shows the performance of these attacks/defenses can vary significantly on public models compared to self-trained models. We share SecurityNet with the research community. and advocate researchers to perform experiments on public models to better demonstrate their proposed methods' effectiveness in the future.
翻訳日:2023-10-24 02:15:47 公開日:2023-10-19
# 利用事例:統計的機械翻訳問題としての問合せ書き換えの再構成

A Use Case: Reformulating Query Rewriting as a Statistical Machine Translation Problem ( http://arxiv.org/abs/2310.13031v1 )

ライセンス: Link先を確認
Abdullah Can Algan, Emre Y\"urekli, Aykut \c{C}ay{\i}r(参考訳) 現代の検索エンジンにとって最も重要な課題の1つは、ユーザクエリに基づいて関連するWebコンテンツを検索することである。 この課題を達成するために、検索エンジンはユーザークエリを書き換えるモジュールを持っている。 そのため、現代ウェブ検索エンジンは自然言語処理領域で使用される統計モデルとニューラルモデルを利用している。 統計的機械翻訳はよく知られたNLP法である。 本稿では,アラビア語検索クエリの書き直しを学習する単言語機械翻訳モデルに基づくクエリ書き換えパイプラインを提案する。 本稿では、ユーザクエリとwebページタイトルのマッピングを作成する前処理手順についても述べる。

One of the most important challenges for modern search engines is to retrieve relevant web content based on user queries. In order to achieve this challenge, search engines have a module to rewrite user queries. That is why modern web search engines utilize some statistical and neural models used in the natural language processing domain. Statistical machine translation is a well-known NLP method among them. The paper proposes a query rewriting pipeline based on a monolingual machine translation model that learns to rewrite Arabic user search queries. This paper also describes preprocessing steps to create a mapping between user queries and web page titles.
翻訳日:2023-10-24 02:08:41 公開日:2023-10-19
# SIRe-IR:高照度シーンにおける影と照度除去によるBRDF再建のための逆レンダリング

SIRe-IR: Inverse Rendering for BRDF Reconstruction with Shadow and Illumination Removal in High-Illuminance Scenes ( http://arxiv.org/abs/2310.13030v1 )

ライセンス: Link先を確認
Ziyi Yang, Yanzhen Chen, Xinyu Gao, Yazhen Yuan, Yu Wu, Xiaowei Zhou, Xiaogang Jin(参考訳) 暗黙の神経表現は、逆レンダリングの新しい可能性を開く。 しかし、既存の暗黙の神経逆レンダリング手法は、大きな影と間接的な照明を持つ強い照らされたシーンを扱うのに苦労している。 影と反射の存在は、シーン幾何学の正確な理解につながり、正確な分解を困難にする。 この目的のために,非線形マッピングと正規化可視性推定を用いてシーンを環境マップ,アルベド,粗さに分解する暗黙的ニューラルネットワーク逆レンダリング手法SIRe-IRを提案する。 間接放射場, 正常, 視認性, 直接光を同時に正確にモデル化することにより, 現場に厳密な制約を課すことなく, 材料の影と間接照明の両方を除去できる。 強い照明の存在下でも,影干渉のない高品質なアルベドと粗さを回収する。 SIRe-IRは、定量評価と定性評価の両方において既存の手法より優れている。

Implicit neural representation has opened up new possibilities for inverse rendering. However, existing implicit neural inverse rendering methods struggle to handle strongly illuminated scenes with significant shadows and indirect illumination. The existence of shadows and reflections can lead to an inaccurate understanding of scene geometry, making precise factorization difficult. To this end, we present SIRe-IR, an implicit neural inverse rendering approach that uses non-linear mapping and regularized visibility estimation to decompose the scene into environment map, albedo, and roughness. By accurately modeling the indirect radiance field, normal, visibility, and direct light simultaneously, we are able to remove both shadows and indirect illumination in materials without imposing strict constraints on the scene. Even in the presence of intense illumination, our method recovers high-quality albedo and roughness with no shadow interference. SIRe-IR outperforms existing methods in both quantitative and qualitative evaluations.
翻訳日:2023-10-24 02:08:34 公開日:2023-10-19
# 階層的時系列のポイント・確率予測のための勾配強化木とニューラルネットワークのブレンディング

Blending gradient boosted trees and neural networks for point and probabilistic forecasting of hierarchical time series ( http://arxiv.org/abs/2310.13029v1 )

ライセンス: Link先を確認
Ioannis Nasios, Konstantinos Vogklis(参考訳) 本稿では,勾配強化木とニューラルネットワーク群に属する機械学習モデルのブレンディング手法を説明することで,ポイントと確率予測の問題に取り組む。 これらの原則は、最近のM5コンペティションにおいて、正確性と不確実性の両方のトラックでうまく適用された。 私たちの方法論の要点は a) タスクを1日の販売のレグレッションに変換すること b) 情報豊かな機能工学 c) 多様な最先端の機械学習モデルを作成し、 d) モデルチューニングのための検証セットを慎重に構築する。 我々は、機械学習モデルの多様性と検証例の慎重な選択が、我々のアプローチの有効性にとって最も重要な要素であると主張する。 予測データには固有の階層構造 (12 レベル) があったが,提案手法のいずれも階層的スキームを利用していない。 提案手法では,精度と不確実性の両方において金メダルの範囲内であった。 すでにトレーニング済みのモデルとともに、推論コードはhttps://github.com/IoannisNasios/M5_Uncertainty_3rd_placeで利用可能である。

In this paper we tackle the problem of point and probabilistic forecasting by describing a blending methodology of machine learning models that belong to gradient boosted trees and neural networks families. These principles were successfully applied in the recent M5 Competition on both Accuracy and Uncertainty tracks. The keypoints of our methodology are: a) transform the task to regression on sales for a single day b) information rich feature engineering c) create a diverse set of state-of-the-art machine learning models and d) carefully construct validation sets for model tuning. We argue that the diversity of the machine learning models along with the careful selection of validation examples, where the most important ingredients for the effectiveness of our approach. Although forecasting data had an inherent hierarchy structure (12 levels), none of our proposed solutions exploited that hierarchical scheme. Using the proposed methodology, our team was ranked within the gold medal range in both Accuracy and the Uncertainty track. Inference code along with already trained models are available at https://github.com/IoannisNasios/M5_Uncertainty_3rd_place
翻訳日:2023-10-24 02:08:18 公開日:2023-10-19
# 信頼性のある学術会議質問応答:大規模言語モデルに基づく研究

Reliable Academic Conference Question Answering: A Study Based on Large Language Model ( http://arxiv.org/abs/2310.13028v1 )

ライセンス: Link先を確認
Zhiwei Huang, Long Jin, Junjie Wang, Mingchen Tu, Yin Hua, Zhiqiang Liu, Jiawei Meng, Huajun Chen, Wen Zhang(参考訳) コンピュータ科学の急速な成長により、学術会議で発表された研究が急増し、グローバルな学術的コミュニケーションが促進された。 研究者は一貫して、これらの出来事に関する正確な現在の情報を求める。 このデータサージは、研究者のクエリに効率的に対処し、最新の進歩を確実にするためのインテリジェントな質問応答システムを必要とする。 カンファレンスに関する情報は通常、公式ウェブサイトで公開され、大量のテキストで半構造化された方法で組織される。 このニーズに対処するため,我々は,人的アノテーションを用いた7つの学術会議のためのカンファレンスqaデータセットを開発した。 まず、学術会議データを半構造化JSON形式で整理するために、手動と自動の手法を組み合わせています。 その後、各カンファレンスに100近い質問対に注釈を付けます。 各組は4つの異なる次元に分けられる。 データの信頼性を確保するため、各回答のソースを手動でアノテートします。 最近の進歩を踏まえ、LLM(Large Language Models)は様々なNLPタスクにおいて顕著な性能を示した。 授業の微調整後の情報探索質問応答における印象的な機能を示した結果,LLMに基づくQA研究を報告した。 LLMの幻覚と時代遅れの知識により,LLMの質問応答能力を高める検索手法を採用した。 本研究では,検索過程において固有構造情報を活用する構造認識検索手法を提案する。 ConferenceQAデータセットの実証検証により,本手法の有効性が示された。 データセットとコードはhttps://github.com/zjukg/conferenceqaで簡単にアクセスできます。

The rapid growth of computer science has led to a proliferation of research presented at academic conferences, fostering global scholarly communication. Researchers consistently seek accurate, current information about these events at all stages. This data surge necessitates an intelligent question-answering system to efficiently address researchers' queries and ensure awareness of the latest advancements. The information of conferences is usually published on their official website, organized in a semi-structured way with a lot of text. To address this need, we have developed the ConferenceQA dataset for 7 diverse academic conferences with human annotations. Firstly, we employ a combination of manual and automated methods to organize academic conference data in a semi-structured JSON format. Subsequently, we annotate nearly 100 question-answer pairs for each conference. Each pair is classified into four different dimensions. To ensure the reliability of the data, we manually annotate the source of each answer. In light of recent advancements, Large Language Models (LLMs) have demonstrated impressive performance in various NLP tasks. They have demonstrated impressive capabilities in information-seeking question answering after instruction fine-tuning, and as such, we present our conference QA study based on LLM. Due to hallucination and outdated knowledge of LLMs, we adopt retrieval based methods to enhance LLMs' question-answering abilities. We have proposed a structure-aware retrieval method, specifically designed to leverage inherent structural information during the retrieval process. Empirical validation on the ConferenceQA dataset has demonstrated the effectiveness of this method. The dataset and code are readily accessible on https://github.com/zjukg/ConferenceQA.
翻訳日:2023-10-24 02:08:01 公開日:2023-10-19
# ベイジアン氏:不確実性拡大へ-アタッチメントで

Be Bayesian by Attachments to Catch More Uncertainty ( http://arxiv.org/abs/2310.13027v1 )

ライセンス: Link先を確認
Shiyu Shen, Bin Pan, Tianyang Shi, Tao Li and Zhenwei Shi(参考訳) ベイズニューラルネットワーク (BNN) は, 固形理論の基礎から不確実性推定を行う上で有望なアプローチの1つである。 しかし,BNNの性能は不確実性に対処する能力に影響される。 本稿では, 分布内データによるニューラルネットワーク重みの分布を求めるのではなく, 結合構造(abnn)を持つ新しいベイズ型ニューラルネットワークを提案し, 分布外データ(ood)からより不確実性を得る。 まず,OODデータの不確実性に関する数学的記述を先行分布に従って構築し,その後,OODデータの不確実性をバックボーンネットワークに組み込むためのベイズ構造を構築した。 ABNNは期待モジュールといくつかの配布モジュールで構成されている。 expectationモジュールはバックボーンのディープネットワークであり、オリジナルのタスクにフォーカスしており、分散モジュールはバックボーンのアタッチメントとして機能するミニベイズ構造である。 特に、分布モジュールは、IDデータとOODデータの両方から不確実性を抽出することを目的としている。 さらに, ABNNの収束に関する理論的解析を行い, 現状の不確実性推定法との比較により, その優位性を実験的に検証する。

Bayesian Neural Networks (BNNs) have become one of the promising approaches for uncertainty estimation due to the solid theorical foundations. However, the performance of BNNs is affected by the ability of catching uncertainty. Instead of only seeking the distribution of neural network weights by in-distribution (ID) data, in this paper, we propose a new Bayesian Neural Network with an Attached structure (ABNN) to catch more uncertainty from out-of-distribution (OOD) data. We first construct a mathematical description for the uncertainty of OOD data according to the prior distribution, and then develop an attached Bayesian structure to integrate the uncertainty of OOD data into the backbone network. ABNN is composed of an expectation module and several distribution modules. The expectation module is a backbone deep network which focuses on the original task, and the distribution modules are mini Bayesian structures which serve as attachments of the backbone. In particular, the distribution modules aim at extracting the uncertainty from both ID and OOD data. We further provide theoretical analysis for the convergence of ABNN, and experimentally validate its superiority by comparing with some state-of-the-art uncertainty estimation methods Code will be made available.
翻訳日:2023-10-24 02:07:39 公開日:2023-10-19
# 画像レベルラベルを用いた弱教師付きセマンティックセマンティックセグメンテーション:従来のモデルから基礎モデルへ

Weakly-Supervised Semantic Segmentation with Image-Level Labels: from Traditional Models to Foundation Models ( http://arxiv.org/abs/2310.13026v1 )

ライセンス: Link先を確認
Zhaozheng Chen and Qianru Sun(参考訳) ディープラーニングの急速な発展は、画像セマンティックセグメンテーション(コンピュータビジョンにおける基本的なタスク)の分野で大きな進歩をもたらした。 セマンティックセグメンテーションアルゴリズムは、しばしば、高価な、時間を要する、労働集約的なピクセルレベルのラベル(オブジェクトのマスク)の可用性に依存する。 弱教師付きセマンティックセグメンテーション(WSSS)は、そのようなラベル付けを避ける効果的なソリューションである。 部分的あるいは不完全なアノテーションのみを使用し、完全に教師付きセマンティックセグメンテーションに代わる費用対効果を提供する。 本稿では、WSSSの最も難しい形態である画像レベルのラベルによるWSSSに焦点を当てる。 私たちの仕事は2つの部分がある。 まず,第1回研究会議で紹介された手法を中心に,従来の手法を総合的に調査する。 それらの手法は,ピクセルワイド,画像ワイド,クロスイメージ,外部データという4つのグループに分類される。 第2に、WSSSの文脈において、SAM(Segment Anything Model)のような視覚基盤モデルの適用性について検討する。 我々はSAMを、テキストプロンプトとゼロショット学習という2つの興味深いシナリオで精査する。 我々は、このエキサイティングな研究領域における将来の発展を促進するために、WSSSの視覚的基盤モデルの展開に関連する可能性と課題についての洞察を提供する。

The rapid development of deep learning has driven significant progress in the field of image semantic segmentation - a fundamental task in computer vision. Semantic segmentation algorithms often depend on the availability of pixel-level labels (i.e., masks of objects), which are expensive, time-consuming, and labor-intensive. Weakly-supervised semantic segmentation (WSSS) is an effective solution to avoid such labeling. It utilizes only partial or incomplete annotations and provides a cost-effective alternative to fully-supervised semantic segmentation. In this paper, we focus on the WSSS with image-level labels, which is the most challenging form of WSSS. Our work has two parts. First, we conduct a comprehensive survey on traditional methods, primarily focusing on those presented at premier research conferences. We categorize them into four groups based on where their methods operate: pixel-wise, image-wise, cross-image, and external data. Second, we investigate the applicability of visual foundation models, such as the Segment Anything Model (SAM), in the context of WSSS. We scrutinize SAM in two intriguing scenarios: text prompting and zero-shot learning. We provide insights into the potential and challenges associated with deploying visual foundational models for WSSS, facilitating future developments in this exciting research area.
翻訳日:2023-10-24 02:07:20 公開日:2023-10-19
# ニューラルネットワークダイアリゼーションのためのパワーセット多クラスクロスエントロピー損失

Powerset multi-class cross entropy loss for neural speaker diarization ( http://arxiv.org/abs/2310.13025v1 )

ライセンス: Link先を確認
Alexis Plaquet (IRIT-SAMoVA), Herv\'e Bredin (IRIT-SAMoVA)(参考訳) 2019年に導入されて以来、エンドツーエンドのニューラルネットワークダイアリゼーション(eend)の作業ライン全体は、置換不変トレーニングを伴うフレーム毎のマルチラベル分類問題として話者ダイアリゼーションに対処してきた。 EENDは大きな可能性を示していたが、最近のいくつかの研究は一歩後退し、(ローカル)教師付きEENDダイアリゼーションと(グローバル)教師なしクラスタリングの組み合わせについて研究した。 しかし、これらのハイブリッドな貢献はもともとのマルチラベルの定式化に疑問を呈さなかった。 本稿では,複数の話者が同時に活動できるマルチラベルからパワーセットのマルチクラス分類(重複する話者のペアに専用クラスを割り当てる)への切り替えを提案する。 9つの異なるベンチマークの広範な実験を通して、この定式化は、マルチラベル定式化に不可欠な検出しきい値ハイパーパラメータを排除しつつ、ドメインミスマッチに対する性能(主に重複音声)とロバスト性を著しく向上させることを示した。

Since its introduction in 2019, the whole end-to-end neural diarization (EEND) line of work has been addressing speaker diarization as a frame-wise multi-label classification problem with permutation-invariant training. Despite EEND showing great promise, a few recent works took a step back and studied the possible combination of (local) supervised EEND diarization with (global) unsupervised clustering. Yet, these hybrid contributions did not question the original multi-label formulation. We propose to switch from multi-label (where any two speakers can be active at the same time) to powerset multi-class classification (where dedicated classes are assigned to pairs of overlapping speakers). Through extensive experiments on 9 different benchmarks, we show that this formulation leads to significantly better performance (mostly on overlapping speech) and robustness to domain mismatch, while eliminating the detection threshold hyperparameter, critical for the multi-label formulation.
翻訳日:2023-10-24 02:06:59 公開日:2023-10-19
# 常時微調整に向けて:ハイパーネットワークプロンプトによる事前学習型言語モデル

Towards Anytime Fine-tuning: Continually Pre-trained Language Models with Hypernetwork Prompt ( http://arxiv.org/abs/2310.13024v1 )

ライセンス: Link先を確認
Gangwei Jiang, Caigao Jiang, Siqiao Xue, James Y. Zhang, Jun Zhou, Defu Lian, Ying Wei(参考訳) 継続的な事前訓練は、急速に発展する世界の多くのドメインやタスクに事前訓練されたモデルを適応させる上で急務である。 実際には、継続的に事前訓練されたモデルが、事前訓練されたドメインで微調整された場合だけでなく、目に見えないドメインでは非減少性能を示すことが期待されている。 そこで本研究では,既存の継続事前学習手法の微調整効果について検討し,一括的に未確認領域の性能を低下させることを結論とした。 そこで我々は,合意と不一致の損失によってドメイン固有のプロンプトを生成するためにハイパーネットワークを訓練する,プロンプト誘導型連続事前学習手法を提案する。 合意損失は、事前訓練されたモデルの新たなドメインへの一般化を最大限に保ち、不一致は、生成された各ドメインの隠れた状態の排他性を守る。 驚くべきことに、ハイパーネットワークによるプロンプトによってドメインのアイデンティティが緩和され、ドメイン間の知識転送が促進される。 本手法は実世界の2つのデータセット(ドメインシフトと時間シフトを含む)で3.57%と3.4%の改善を実現し,その有効性を示した。

Continual pre-training has been urgent for adapting a pre-trained model to a multitude of domains and tasks in the fast-evolving world. In practice, a continually pre-trained model is expected to demonstrate not only greater capacity when fine-tuned on pre-trained domains but also a non-decreasing performance on unseen ones. In this work, we first investigate such anytime fine-tuning effectiveness of existing continual pre-training approaches, concluding with unanimously decreased performance on unseen domains. To this end, we propose a prompt-guided continual pre-training method, where we train a hypernetwork to generate domain-specific prompts by both agreement and disagreement losses. The agreement loss maximally preserves the generalization of a pre-trained model to new domains, and the disagreement one guards the exclusiveness of the generated hidden states for each domain. Remarkably, prompts by the hypernetwork alleviate the domain identity when fine-tuning and promote knowledge transfer across domains. Our method achieved improvements of 3.57% and 3.4% on two real-world datasets (including domain shift and temporal shift), respectively, demonstrating its efficacy.
翻訳日:2023-10-24 02:06:41 公開日:2023-10-19
# graphgpt: 大きな言語モデルのためのグラフ命令チューニング

GraphGPT: Graph Instruction Tuning for Large Language Models ( http://arxiv.org/abs/2310.13023v1 )

ライセンス: Link先を確認
Jiabin Tang and Yuhao Yang and Wei Wei and Lei Shi and Lixin Su and Suqi Cheng and Dawei Yin and Chao Huang(参考訳) グラフニューラルネットワーク(GNN)は、再帰的な情報交換とグラフノード間の集約を通じてグラフ構造を理解する。 モデルロバスト性を改善するために、データ拡張のための有望なアプローチとして自己教師付き学習(SSL)が登場した。 しかしながら、トレーニング済みのグラフ埋め込みを生成する既存の方法は、特定のダウンストリームタスクラベルによる微調整に依存している場合が多いため、ラベル付きデータが不足したり、利用できない場合のユーザビリティが制限される。 そこで本研究では,ゼロショット学習シナリオに挑戦する上で,グラフモデルの一般化能力の向上に焦点をあてる。 大規模言語モデル(LLM)の成功に触発されて、下流のグラフデータから得られる情報なしに様々な下流のデータセットやタスクをまたいだ高度な一般化を実現するグラフ指向LLMの開発を目指す。 本稿では,LLMとグラフ構造知識をグラフ命令チューニングパラダイムに整合させるGraphGPTフレームワークを提案する。 本フレームワークでは,テキスト情報とグラフ構造との接続を確立するために,テキストグラウンドディングコンポーネントを組み込んでいる。 さらに,ライトウェイトなグラフテキストアライメントプロジェクタを伴って,2段階の命令チューニングパラダイムを提案する。 このパラダイムは、自己教師付きグラフ構造信号とタスク固有のグラフ命令を探索し、複雑なグラフ構造を理解するためのllmをガイドし、異なる下流タスク間の適応性を改善する。 本フレームワークは,教師付きおよびゼロショットグラフ学習タスクで評価され,より優れた一般化と最先端のベースラインを実現する。

Graph Neural Networks (GNNs) have advanced graph structure understanding via recursive information exchange and aggregation among graph nodes. To improve model robustness, self-supervised learning (SSL) has emerged as a promising approach for data augmentation. However, existing methods for generating pre-trained graph embeddings often rely on fine-tuning with specific downstream task labels, which limits their usability in scenarios where labeled data is scarce or unavailable. To address this, our research focuses on advancing the generalization capabilities of graph models in challenging zero-shot learning scenarios. Inspired by the success of large language models (LLMs), we aim to develop a graph-oriented LLM that can achieve high generalization across diverse downstream datasets and tasks, even without any information available from the downstream graph data. In this work, we present the GraphGPT framework that aligns LLMs with graph structural knowledge with a graph instruction tuning paradigm. Our framework incorporates a text-graph grounding component to establish a connection between textual information and graph structures. Additionally, we propose a dual-stage instruction tuning paradigm, accompanied by a lightweight graph-text alignment projector. This paradigm explores self-supervised graph structural signals and task-specific graph instructions, to guide LLMs in understanding complex graph structures and improving their adaptability across different downstream tasks. Our framework is evaluated on supervised and zero-shot graph learning tasks, demonstrating superior generalization and outperforming state-of-the-art baselines.
翻訳日:2023-10-24 02:06:20 公開日:2023-10-19
# 半教師付き言語理解のための不確実なパラメータ認識型自己学習

Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised Language Understanding ( http://arxiv.org/abs/2310.13022v1 )

ライセンス: Link先を確認
Jianing Wang, Qiushi Sun, Nuo Chen, Chengyu Wang, Jun Huang, Ming Gao, Xiang Li(参考訳) 大規模事前学習型言語モデル(PLM)の最近の成功は、低リソースのシナリオではパフォーマンスが劣る大量のラベル付きデータに大きく依存している。 このジレンマを是正するため,我々は,大規模なラベルなしデータを用いて合成例を生成する半教師付き学習(ssl)手法として自己学習について検討した。 しかし、ノイズの多いラベルが多すぎるとモデルの性能を損なうため、plmのすべてのモデルパラメータが更新されると、複数のトレーニングイテレーションが必要になる。 本稿では,ラベル付きデータ不足問題に効果的かつ効率的に対処する,不確かさを意識したパラメータ有効自己学習フレームワークUPETを提案する。 具体的には,ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んで教師モデルの不確実性推定を行い,信頼性と確実性に基づいて疑似ラベル付きサンプルを任意に選択する。 学生のトレーニングでは,パラメータのごく一部を最適化できる複数のパラメータ効率学習(PEL)パラダイムを導入する。 また,ロバスト性と一般化性を高めるために,新しい簡易ハードコントラストチューニングを提案する。 複数の下流タスクに対する大規模な実験は、UTPが性能と効率の面で大幅に改善したことを示している。 私たちのコードとデータはhttps: //github.com/wjn 1996/UPETで公開されています。

The recent success of large pre-trained language models (PLMs) heavily hinges on massive labeled data, which typically produces inferior performance in low-resource scenarios. To remedy this dilemma, we study self-training as one of the predominant semi-supervised learning (SSL) approaches, which utilizes large-scale unlabeled data to generate synthetic examples. However, too many noisy labels will hurt the model performance, and the self-training procedure requires multiple training iterations making it more expensive if all the model parameters of the PLM are updated. This paper presents UPET, a novel Uncertainty-aware Parameter-Efficient self-Training framework to effectively and efficiently address the labeled data scarcity issue. Specifically, we incorporate Monte Carlo (MC) dropout in Bayesian neural network (BNN) to perform uncertainty estimation for the teacher model and then judiciously select reliable pseudo-labeled examples based on confidence and certainty. During the student training, we introduce multiple parameter-efficient learning (PEL) paradigms that allow the optimization of only a small percentage of parameters. We also propose a novel Easy-Hard Contrastive Tuning to enhance the robustness and generalization. Extensive experiments over multiple downstream tasks demonstrate that UPET achieves a substantial improvement in terms of performance and efficiency. Our codes and data are released at https: //github.com/wjn1996/UPET.
翻訳日:2023-10-24 02:05:53 公開日:2023-10-19
# grok か not か - 腐敗したアルゴリズムデータセットの一般化と記憶の分離

To grok or not to grok: Disentangling generalization and memorization on corrupted algorithmic datasets ( http://arxiv.org/abs/2310.13061v1 )

ライセンス: Link先を確認
Darshil Doshi, Aritra Das, Tianyu He, Andrey Gromov(参考訳) ロバストな一般化は、特にトレーニング可能なパラメータの数がとても多い場合、ディープラーニングにおける大きな課題である。 一般に、ネットワークが特定の例のセットを記憶しているか、基礎となるルール(またはその両方)を理解しているかどうかを知ることは非常に困難である。 この課題を動機として,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルを提案する。 具体的には、2層ニューラルネットワークをモジュラー演算タスクでトレーニングし、ラベルの(\xi \cdot 100\%$) が破損する(例えば、トレーニングセットにおけるモジュラー演算の結果は誤りである)。 私たちはそれを示します (i)ネットワークは、破損したラベル \emph{and} を同時に100\%$の一般化を達成することができる。 (ii)記憶ニューロンを識別し、刈り取ることができ、破損したデータの精度を低下させ、破損していないデータの精度を向上させることができる。 (iii)重量減少、ドロップアウト、バッチノルムなどの正規化手法は、最適化中に破損したデータを無視するようネットワークに強制し、破損していないデータセットにおいて100ドル=%の精度を達成する。 (4) これらの正則化法の効果は(`メカニカル')解釈可能である: 重みの減衰とドロップアウトはすべてのニューロンに一般化表現を学習させ、BatchNormは記憶ニューロンの出力を増幅し、一般化ニューロンの出力を増幅する。 最後に、正規化が存在する場合、トレーニングダイナミクスには2つの連続した段階があることを示す: まず、ネットワークは、高列車のemph{and}テスト精度に達する \emph{grokking}ダイナミクスを実行する;そして、列車の精度が突然100\%$から100 (1-\xi)\%$に上昇する、記憶に残る表現を解く。

Robust generalization is a major challenge in deep learning, particularly when the number of trainable parameters is very large. In general, it is very difficult to know if the network has memorized a particular set of examples or understood the underlying rule (or both). Motivated by this challenge, we study an interpretable model where generalizing representations are understood analytically, and are easily distinguishable from the memorizing ones. Namely, we consider two-layer neural networks trained on modular arithmetic tasks where ($\xi \cdot 100\%$) of labels are corrupted (\emph{i.e.} some results of the modular operations in the training set are incorrect). We show that (i) it is possible for the network to memorize the corrupted labels \emph{and} achieve $100\%$ generalization at the same time; (ii) the memorizing neurons can be identified and pruned, lowering the accuracy on corrupted data and improving the accuracy on uncorrupted data; (iii) regularization methods such as weight decay, dropout and BatchNorm force the network to ignore the corrupted data during optimization, and achieve $100\%$ accuracy on the uncorrupted dataset; and (iv) the effect of these regularization methods is (``mechanistically'') interpretable: weight decay and dropout force all the neurons to learn generalizing representations, while BatchNorm de-amplifies the output of memorizing neurons and amplifies the output of the generalizing ones. Finally, we show that in the presence of regularization, the training dynamics involves two consecutive stages: first, the network undergoes the \emph{grokking} dynamics reaching high train \emph{and} test accuracy; second, it unlearns the memorizing representations, where train accuracy suddenly jumps from $100\%$ to $100 (1-\xi)\%$.
翻訳日:2023-10-24 01:58:05 公開日:2023-10-19
# 量子ドットにおける超伝導量子ビットと吸収スペクトルのランダウ・ツェナー遷移速度

Landau-Zener transition rates of superconducting qubits and absorption spectrum in quantum dots ( http://arxiv.org/abs/2310.13058v1 )

ライセンス: Link先を確認
Jorge G. Russo and Miguel Tierz(参考訳) ランドウ・ツェナー転移率を含む系と量子ドットの吸収スペクトルの新しい正確な式を導出し、それらの物理的含意について議論する。

We derive new exact formulas for systems involving Landau-Zener transition rates and for absorption spectra in quantum dots and discuss their physical implications.
翻訳日:2023-10-24 01:57:27 公開日:2023-10-19
# 仮想量子放送

Virtual quantum broadcasting ( http://arxiv.org/abs/2310.13049v1 )

ライセンス: Link先を確認
Arthur J. Parzygnat, James Fullwood, Francesco Buscemi, Giulio Chiribella(参考訳) 量子放送の定理は、たとえそのコピーが相関することを許されたとしても、任意の量子状態の完全なコピーを作成することは不可能であると述べている。 ここでは,量子放送は物理処理では達成できないが,エルミート保存トレース保存マップによって記述された仮想プロセスによって達成できることを示す。 この仮想プロセスは正準的であり、全ての量子状態をブロードキャストする唯一の地図であり、ユニタリ進化の下で共変であり、コピーの置換の下で不変であり、デコヒーレンスを受けると古典的なブロードキャストマップに還元される。 また,仮想計測を行う仮想測度・前処理プロトコルによって仮想放送を実現することができ,その結果によって仮想量子状態の2つのコピーが生成されることを示す。 最後に,量子状態の時間的一意性を証明するために,正準仮想ブロードキャストを用いた。

The quantum no-broadcasting theorem states that it is impossible to produce perfect copies of an arbitrary quantum state, even if the copies are allowed to be correlated. Here we show that, although quantum broadcasting cannot be achieved by any physical process, it can be achieved by a virtual process, described by a Hermitian-preserving trace-preserving map. This virtual process is canonical: it is the only map that broadcasts all quantum states, is covariant under unitary evolution, is invariant under permutations of the copies, and reduces to the classical broadcasting map when subjected to decoherence. We show that the optimal physical approximation to the canonical broadcasting map is the optimal universal quantum cloning, and we also show that virtual broadcasting can be achieved by a virtual measure-and-prepare protocol, where a virtual measurement is performed, and, depending on the outcomes, two copies of a virtual quantum state are generated. Finally, we use canonical virtual broadcasting to prove a uniqueness result for quantum states over time.
翻訳日:2023-10-24 01:57:22 公開日:2023-10-19
# 開ホログラフィーにおける影響関数:絡みとR'enyiエントロピー

The Influence Functional in open holography: entanglement and R\'enyi entropies ( http://arxiv.org/abs/2310.13047v1 )

ライセンス: Link先を確認
Pietro Pelliconi, Julian Sonner(参考訳) オープン量子系は、通常のユニタリ量子論として定義され、自由度の集合と結合し、観測されていない環境の r\^ole に導かれる。 ここでは、正則双対性で生じる場の理論を含む、いわゆるFeynman-Vernon Influence Functional (IF) の助けを借りて、オープン量子場理論の例を研究する。 我々は、IFの存在下で、未観測環境の効果を捉えることができるオープン有効場理論としてシステムを解釈する。 我々の主な焦点は、そのようなシステムにおけるR'enyiと絡み合いのエントロピーの計算であり、その内訳はIF(Open EFT)である。 オープン量子系におけるエンタングルメント-R'enyiエントロピーの計算の問題は驚くほどリッチであり、IFの処方薬が選択の応用によってどのように適切であるかを指摘する。 提案手法の顕著な適用例は、例えばブラックホールから放出されるホーキング放射を考える場合など、設定に重力を含める際のサブシステムの微細なエントロピーに関するものである。 このケースでは、IFの処方薬の1つがユニタリな進化と一致した回答を導き、もう1つは単に標準のETF結果を再現するだけであり、ユニタリなグローバルな進化とは矛盾することが知られている。 これらの結果は漸近的に任意の次元の重力に作用し、2次元の物質結合jt重力の場合のifに対する明示的な解析式で示される。

Open quantum systems are defined as ordinary unitary quantum theories coupled to a set of external degrees of freedom, which are introduced to take on the r\^ole of an unobserved environment. Here we study examples of open quantum field theories, with the aid of the so-called Feynman- Vernon Influence Functional (IF), including field theories that arise in holographic duality. We interpret the system in the presence of an IF as an open effective field theory, able to capture the effect of the unobserved environment. Our main focus is on computing R\'enyi and entanglement entropies in such systems, whose description from the IF, or "open EFT", point of view we develop in this paper. The issue of computing the entanglement-R\'enyi entropies in open quantum systems is surprisingly rich, and we point out how different prescriptions for the IF may be appropriate depending on the application of choice. A striking application of our methods concerns the fine-grained entropy of subsystems when including gravity in the setup, for example when considering the Hawking radiation emitted by black holes. In this case we show that one prescription for the IF leads to answers consistent with unitary evolution, while the other merely reproduces standard EFT results, well known to be inconsistent with unitary global evolution. We establish these results for asymptotically AdS gravity in arbitrary dimensions, and illustrate them with explicit analytical expressions for the IF in the case of matter-coupled JT gravity in two dimensions.
翻訳日:2023-10-24 01:57:06 公開日:2023-10-19
# 完全量子プロトラクタ

Perfect quantum protractors ( http://arxiv.org/abs/2310.13045v1 )

ライセンス: Link先を確認
Micha{\l} Piotrak, Marek Kopciuch, Arash Dezhang Fard, Magdalena Smolis, Szymon Pustelny, Kamil Korzekwa(参考訳) 本稿では、3つの垂直軸の回転の下で3つの直交基底を生成できる完全量子プロトラクタ(純量子状態 $|\psi\rangle\in\mathcal{H}$)の概念を紹介し,検討する。 そのような状態は、角運動量作用素の3つの成分に関して極大不確実性の純粋な状態として理解することができ、そのような不確実性の様々なエントロピーおよび分散に基づく測度を最大化することを示す。 完全量子プロトラクタは、十分に定義された全角運動量$j$の系にしか存在せず、これらは$j\in\{1/2,2,5/2\}$には存在しないが、$j\in\{1,3/2,3\}$には存在することを証明している。 また、完全量子プロトラクタは、軸が既知の$\textit{a priori}$ でないとき、3つの垂直軸のうちの1つの回転角(または磁場の強さ)を推定するメトロロジータスクのための最適な資源を形成する。 最後に、ルビジウム-87の温水蒸気を用いた実験を行い、スピン-1系のための完璧な量子プロトラクタを作成し、約$x$、$y$、または$z$軸で計算し、その回転角を最適に推定する。

In this paper we introduce and investigate the concept of a perfect quantum protractor, a pure quantum state $|\psi\rangle\in\mathcal{H}$ that generates three different orthogonal bases of $\mathcal{H}$ under rotations around each of the three perpendicular axes. Such states can be understood as pure states of maximal uncertainty with regards to the three components of the angular momentum operator, as we prove that they maximise various entropic and variance-based measures of such uncertainty. We argue that perfect quantum protractors can only exist for systems with a well-defined total angular momentum $j$, and we prove that they do not exist for $j\in\{1/2,2,5/2\}$, but they do exist for $j\in\{1,3/2,3\}$ (with numerical evidence for their existence when $j=7/2$). We also explain that perfect quantum protractors form an optimal resource for a metrological task of estimating the angle of rotation around (or the strength of magnetic field along) one of the three perpendicular axes, when the axis is not $\textit{a priori}$ known. Finally, we demonstrate this metrological utility by performing an experiment with warm atomic vapours of rubidium-87, where we prepare a perfect quantum protractor for a spin-1 system, let it precess around $x$, $y$ or $z$ axis, and then employ it to optimally estimate the rotation angle.
翻訳日:2023-10-24 01:56:35 公開日:2023-10-19
# ロバストなマルチモーダルモデルは、外れた特徴を持ち、より多くの概念をエンコードする

Robust multimodal models have outlier features and encode more concepts ( http://arxiv.org/abs/2310.13040v1 )

ライセンス: Link先を確認
Jonathan Crabb\'e, Pau Rodr\'iguez, Vaishaal Shankar, Luca Zappella, Arno Blaas(参考訳) 堅牢モデルと非ロバストモデルとの違いは何か? この問題は、CLIPのような大規模マルチモーダルモデルの出現によって、注目を集めている。 これらのモデルは、自然分布シフトに関して前例のない堅牢性を示している。 このようなロバスト性の違いは、トレーニングデータの違いに遡ることができることが示されているが、モデルが何を学んだかは今のところ分かっていない。 本研究では,12個の頑健なマルチモーダルモデルの表現空間を様々なバックボーン (ResNets と ViTs) と事前学習セット (OpenAI, LAION-400M, LAION-2B, YFCC15M, CC12M, DataComp) で探索することにより,このギャップを埋める。 1)ロバストモデルは、それらのアクティベーションによって特徴づけられる不規則な特徴を示し、いくつかは平均より数桁のオーダーである。 これらの外れた特徴は、モデルの表現空間における特権的方向を誘導する。 2) ロバストモデルは,モデルの精度やロバスト性に悪影響を及ぼすことなく,最重要でない表現空間の方向を最大80 \%$ でプルーピングすることで,モデルの予測力のほとんどを説明できることを実証した。 この概念の重ね合わせは、ロバストなモデルに多くの情報を格納させるが、非常に多意味な特徴をもたらすため、解釈は困難である。 これらの知見が、モデルプルーニングや機械的解釈可能性など、様々な分野における将来の研究の道を開く方法について論じる。

What distinguishes robust models from non-robust ones? This question has gained traction with the appearance of large-scale multimodal models, such as CLIP. These models have demonstrated unprecedented robustness with respect to natural distribution shifts. While it has been shown that such differences in robustness can be traced back to differences in training data, so far it is not known what that translates to in terms of what the model has learned. In this work, we bridge this gap by probing the representation spaces of 12 robust multimodal models with various backbones (ResNets and ViTs) and pretraining sets (OpenAI, LAION-400M, LAION-2B, YFCC15M, CC12M and DataComp). We find two signatures of robustness in the representation spaces of these models: (1) Robust models exhibit outlier features characterized by their activations, with some being several orders of magnitude above average. These outlier features induce privileged directions in the model's representation space. We demonstrate that these privileged directions explain most of the predictive power of the model by pruning up to $80 \%$ of the least important representation space directions without negative impacts on model accuracy and robustness; (2) Robust models encode substantially more concepts in their representation space. While this superposition of concepts allows robust models to store much information, it also results in highly polysemantic features, which makes their interpretation challenging. We discuss how these insights pave the way for future research in various fields, such as model pruning and mechanistic interpretability.
翻訳日:2023-10-24 01:56:06 公開日:2023-10-19
# 深層学習による人間のポーズに基づく推定・追跡・行動認識

Human Pose-based Estimation, Tracking and Action Recognition with Deep Learning: A Survey ( http://arxiv.org/abs/2310.13039v1 )

ライセンス: Link先を確認
Lijuan Zhou and Xiang Meng and Zhihuan Liu and Mengqi Wu and Zhimin Gao and Pichao Wang(参考訳) 人間のポーズ分析は、ゲーム、ビデオ監視、スポーツパフォーマンス分析、人間とコンピュータの相互作用など幅広い用途のために、研究コミュニティと実用的なアプリケーションの両方で大きな注目を集めている。 深層学習の出現により、ポーズキャプチャの精度が大幅に向上し、ポーズベースのアプリケーションがますます実用的になった。 本稿では, 深層学習, ポーズ推定, ポーズ追跡, 行動認識を応用したポーズベースアプリケーションに関する総合的な調査を行い, 画像や画像からの関節位置の決定を含む。 ポーズトラッキングは、時間とともに一貫性のある人間のポーズトラジェクトリを生成することを目的とした、新たな研究方向である。 一方、行動認識はポーズ推定や追跡データを用いて行動タイプの識別を目標としている。 これら3つのタスクは複雑に相互接続され、後者はしばしば前者に依存する。 本研究では,1人のポーズ推定から複数人のポーズ推定まで,2次元ポーズ推定から3次元ポーズ推定まで,単一画像からビデオまで,時間的コンテキストのマイニングからポーズ追跡まで,トラッキングからポーズベースのアクション認識まで,関連作品を総合的に検討した。 分析への深層学習の適用を中心とした調査として,既存の手法の強みと限界を明示的に議論する。 特に,これらの3つのタスクをビデオシーケンス内の統一フレームワークに統合する手法を強調した。 さらに,今後の研究に向けた課題を探究し,今後の方向性を概説する。

Human pose analysis has garnered significant attention within both the research community and practical applications, owing to its expanding array of uses, including gaming, video surveillance, sports performance analysis, and human-computer interactions, among others. The advent of deep learning has significantly improved the accuracy of pose capture, making pose-based applications increasingly practical. This paper presents a comprehensive survey of pose-based applications utilizing deep learning, encompassing pose estimation, pose tracking, and action recognition.Pose estimation involves the determination of human joint positions from images or image sequences. Pose tracking is an emerging research direction aimed at generating consistent human pose trajectories over time. Action recognition, on the other hand, targets the identification of action types using pose estimation or tracking data. These three tasks are intricately interconnected, with the latter often reliant on the former. In this survey, we comprehensively review related works, spanning from single-person pose estimation to multi-person pose estimation, from 2D pose estimation to 3D pose estimation, from single image to video, from mining temporal context gradually to pose tracking, and lastly from tracking to pose-based action recognition. As a survey centered on the application of deep learning to pose analysis, we explicitly discuss both the strengths and limitations of existing techniques. Notably, we emphasize methodologies for integrating these three tasks into a unified framework within video sequences. Additionally, we explore the challenges involved and outline potential directions for future research.
翻訳日:2023-10-24 01:55:36 公開日:2023-10-19
# agri-gnn:graphsage上に構築された新しい遺伝子型トポロジカルグラフニューラルネットワークフレームワーク

Agri-GNN: A Novel Genotypic-Topological Graph Neural Network Framework Built on GraphSAGE for Optimized Yield Prediction ( http://arxiv.org/abs/2310.13037v1 )

ライセンス: Link先を確認
Aditya Gupta and Asheesh Singh(参考訳) 農業は、人間の文明の基盤として、生産性と持続可能性を高める技術の統合を常に求めている。 本稿では,作物の複雑な空間的・遺伝的相互作用を捉え,収量予測の最適化に資する新しい遺伝的-トポロジカルグラフニューラルネットワークフレームワークである$\textit{Agri-GNN}$を紹介する。 $\textit{Agri-GNN}$は、農業プロットをノードとして考慮したグラフ$\mathcal{G}$を構築し、空間的および遺伝的類似性に基づいてノード間のエッジを体系的に構築し、ジェノタイプトポロジーフィルタによるノード情報の集約を可能にする。 グラフニューラルネットワーク(gnn)は、設計上、データポイント間の関係を考慮し、相互接続された農業エコシステムを効率的にモデル化することができる。 GNNのパワーを活用することで、$\textit{Agri-GNN}$は、空間的近接と共有ジェノタイプに基づいた、植物からのローカル情報とグローバル情報の両方をカプセル化し、従来の機械学習アーキテクチャよりも強力な予測を可能にする。 ファームプロットや育種実験のような大きなグラフによる最適キャリブレーションのために、$\textit{agri-gnn}$はgraphsageアーキテクチャから構築されている。 植生指標、時間、遺伝子型情報、位置データの包括的なデータセットに基づいて実施された$\textit{agri-gnn}$の実験では、アイオワ州の農地の収量予測において$r^2 = .876$が達成されている。 その結果,フィールドにおけるベースラインや他の作業よりも顕著な改善が見られた。 $\textit{Agri-GNN}$は、高度なグラフベースのニューラルネットワークを使用して収穫量を予測するための青写真であり、フィールドのベースラインよりも大幅に改善されている。

Agriculture, as the cornerstone of human civilization, constantly seeks to integrate technology for enhanced productivity and sustainability. This paper introduces $\textit{Agri-GNN}$, a novel Genotypic-Topological Graph Neural Network Framework tailored to capture the intricate spatial and genotypic interactions of crops, paving the way for optimized predictions of harvest yields. $\textit{Agri-GNN}$ constructs a Graph $\mathcal{G}$ that considers farming plots as nodes, and then methodically constructs edges between nodes based on spatial and genotypic similarity, allowing for the aggregation of node information through a genotypic-topological filter. Graph Neural Networks (GNN), by design, consider the relationships between data points, enabling them to efficiently model the interconnected agricultural ecosystem. By harnessing the power of GNNs, $\textit{Agri-GNN}$ encapsulates both local and global information from plants, considering their inherent connections based on spatial proximity and shared genotypes, allowing stronger predictions to be made than traditional Machine Learning architectures. $\textit{Agri-GNN}$ is built from the GraphSAGE architecture, because of its optimal calibration with large graphs, like those of farming plots and breeding experiments. $\textit{Agri-GNN}$ experiments, conducted on a comprehensive dataset of vegetation indices, time, genotype information, and location data, demonstrate that $\textit{Agri-GNN}$ achieves an $R^2 = .876$ in yield predictions for farming fields in Iowa. The results show significant improvement over the baselines and other work in the field. $\textit{Agri-GNN}$ represents a blueprint for using advanced graph-based neural architectures to predict crop yield, providing significant improvements over baselines in the field.
翻訳日:2023-10-24 01:55:10 公開日:2023-10-19
# RAER: 無線分散最適化における線形圧縮

LASER: Linear Compression in Wireless Distributed Optimization ( http://arxiv.org/abs/2310.13033v1 )

ライセンス: Link先を確認
Ashok Vardhan Makkuva, Marco Bondaschi, Thijs Vogels, Martin Jaggi, Hyeji Kim, Michael C. Gastpar(参考訳) data-parallel sgdは分散最適化、特に大規模機械学習のためのデファクトアルゴリズムである。 その利点にもかかわらず、コミュニケーションのボトルネックは永続的な問題の1つだ。 これを緩和するほとんどの圧縮スキームは、ノイズレス通信リンクを仮定するか、実用的なタスクで良いパフォーマンスを達成できないかのいずれかである。 本稿では,このギャップを埋めて LASER: LineAr CompreSsion in WirEless DistRibuted Optimization を紹介する。 LASERは勾配の固有の低ランク構造を利用し、ノイズチャネル上で効率的に伝送する。 古典的なSGDと同様の理論的保証を享受する一方で、LASERは様々な実用的なベンチマークで基準線よりも一貫した利得を示している。 特に、コンピュータビジョンとGPT言語モデリングタスクに挑戦する最先端の圧縮スキームよりも優れている。 後者では、ノイズの多いチャネルのベースラインよりも難易度が50ドルから64ドルに向上する。

Data-parallel SGD is the de facto algorithm for distributed optimization, especially for large scale machine learning. Despite its merits, communication bottleneck is one of its persistent issues. Most compression schemes to alleviate this either assume noiseless communication links, or fail to achieve good performance on practical tasks. In this paper, we close this gap and introduce LASER: LineAr CompreSsion in WirEless DistRibuted Optimization. LASER capitalizes on the inherent low-rank structure of gradients and transmits them efficiently over the noisy channels. Whilst enjoying theoretical guarantees similar to those of the classical SGD, LASER shows consistent gains over baselines on a variety of practical benchmarks. In particular, it outperforms the state-of-the-art compression schemes on challenging computer vision and GPT language modeling tasks. On the latter, we obtain $50$-$64 \%$ improvement in perplexity over our baselines for noisy channels.
翻訳日:2023-10-24 01:54:32 公開日:2023-10-19
# AIフィードバックによる品質多様性

Quality-Diversity through AI Feedback ( http://arxiv.org/abs/2310.13032v1 )

ライセンス: Link先を確認
Herbie Bradley, Andrew Dai, Hannah Teufel, Jenny Zhang, Koen Oostermeijer, Marco Bellagente, Jeff Clune, Kenneth Stanley, Gr\'egory Schott, Joel Lehman(参考訳) 多くのテキスト生成問題では、ユーザーは単一の応答だけでなく、選択すべき高品質な出力の多様さを好む。 品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化させることにより、このような結果を目指している。 しかしながら、クリエイティビティライティングのような質的ドメインへのqdの適用性は、品質と多様性の指標をアルゴリズムで指定する困難さによって制限されている。 興味深いことに、近年の言語モデル(LM)の発展により、AIフィードバックによるガイド検索が可能となり、テキストの質的な側面を評価するために自然言語でLMが促される。 この開発を活用して、AIフィードバック(QDAIF)による品質多様性を導入し、進化的アルゴリズムでは、変動を生成し、候補テキストの品質と多様性を評価する。 クリエイティブなライティングドメインで評価すると、qdaifは非qdコントロールよりも質の高いサンプルで指定された検索スペースをカバーできる。 さらに、QDAIFによる創造的テキストの人間評価は、AIと人間評価の合理的な一致を検証する。 これにより、AIフィードバックが創造的でオリジナルなソリューションをオープンに検索する可能性を強調し、多くのドメインやモダリティに一般化したレシピを提供する。 このようにして、QDAIFは、人間社会のイノベーション能力の根底にある中核的なスキルである、独立して探索、多様化、評価、改善が可能なAIシステムへのステップである。

In many text-generation problems, users may prefer not only a single response, but a diverse range of high-quality outputs from which to choose. Quality-diversity (QD) search algorithms aim at such outcomes, by continually improving and diversifying a population of candidates. However, the applicability of QD to qualitative domains, like creative writing, has been limited by the difficulty of algorithmically specifying measures of quality and diversity. Interestingly, recent developments in language models (LMs) have enabled guiding search through AI feedback, wherein LMs are prompted in natural language to evaluate qualitative aspects of text. Leveraging this development, we introduce Quality-Diversity through AI Feedback (QDAIF), wherein an evolutionary algorithm applies LMs to both generate variation and evaluate the quality and diversity of candidate text. When assessed on creative writing domains, QDAIF covers more of a specified search space with high-quality samples than do non-QD controls. Further, human evaluation of QDAIF-generated creative texts validates reasonable agreement between AI and human evaluation. Our results thus highlight the potential of AI feedback to guide open-ended search for creative and original solutions, providing a recipe that seemingly generalizes to many domains and modalities. In this way, QDAIF is a step towards AI systems that can independently search, diversify, evaluate, and improve, which are among the core skills underlying human society's capacity for innovation.
翻訳日:2023-10-24 01:54:17 公開日:2023-10-19
# 変圧器の系列長独立ノルム一般化境界

Sequence Length Independent Norm-Based Generalization Bounds for Transformers ( http://arxiv.org/abs/2310.13088v1 )

ライセンス: Link先を確認
Jacob Trauger, Ambuj Tewari(参考訳) 本稿では,入力シーケンス長に依存しないトランスフォーマーアーキテクチャに対して,ノルムに基づく一般化境界を提供する。 私たちは境界を証明するために被覆数に基づくアプローチを採用しています。 変換器のラデマッハ複雑性の上界への有界線型変換の関数クラスに対して、3つの新しい被覆数境界を用いる。 さらに、この一般化は、マスキングの一般的なトランスフォーマートレーニング手法に適用され、マスキングされた単語を予測する。 また、我々の理論的知見を実証的に検証するスパースマジョリティデータセットのシミュレーション研究も行っている。

This paper provides norm-based generalization bounds for the Transformer architecture that do not depend on the input sequence length. We employ a covering number based approach to prove our bounds. We use three novel covering number bounds for the function class of bounded linear transformations to upper bound the Rademacher complexity of the Transformer. Furthermore, we show this generalization bound applies to the common Transformer training technique of masking and then predicting the masked word. We also run a simulated study on a sparse majority data set that empirically validates our theoretical findings.
翻訳日:2023-10-24 01:48:12 公開日:2023-10-19
# 半教師付きメタ学習を支援する教師なし表現学習

Unsupervised Representation Learning to Aid Semi-Supervised Meta Learning ( http://arxiv.org/abs/2310.13085v1 )

ライセンス: Link先を確認
Atik Faysal, Mohammad Rostami, Huaxia Wang, Avimanyu Sahoo, and Ryan Antle(参考訳) ほとんどショット学習やメタ学習は、機械学習におけるデータ不足の問題を活用する。 伝統的に、トレーニングデータは教師付き学習のために多数のサンプルとラベルを必要とする。 そこで本研究では,学習サンプルの潜在表現を学習するために,一発の教師なしメタラーニングを提案する。 我々は、教師なしメタラーニングのトレーニングフェーズにおいて、拡張サンプルをクエリセットとして使用する。 温度スケールのクロスエントロピー損失は、教師なし学習中の過剰フィッティングを防止するためにメタラーニングの内側ループで使用される。 このステップから学習したパラメータを移動学習方式で教師付きメタラーニングに適用し、初期化と高速適応を精度良く行う。 提案手法はモデル非依存であり,任意のメタ学習モデルの精度向上を支援する。 我々は,Omniglot と mini-Imagenet データセット上のモデル非依存メタラーニング (MAML) と関係ネットワーク (RN) を用いて,提案手法の性能を実証する。 さらに,提案する初期化を伴うメタ学習モデルは,トレーニングサンプルをかなり少なくして,十分な精度を実現することができる。

Few-shot learning or meta-learning leverages the data scarcity problem in machine learning. Traditionally, training data requires a multitude of samples and labeling for supervised learning. To address this issue, we propose a one-shot unsupervised meta-learning to learn the latent representation of the training samples. We use augmented samples as the query set during the training phase of the unsupervised meta-learning. A temperature-scaled cross-entropy loss is used in the inner loop of meta-learning to prevent overfitting during unsupervised learning. The learned parameters from this step are applied to the targeted supervised meta-learning in a transfer-learning fashion for initialization and fast adaptation with improved accuracy. The proposed method is model agnostic and can aid any meta-learning model to improve accuracy. We use model agnostic meta-learning (MAML) and relation network (RN) on Omniglot and mini-Imagenet datasets to demonstrate the performance of the proposed method. Furthermore, a meta-learning model with the proposed initialization can achieve satisfactory accuracy with significantly fewer training samples.
翻訳日:2023-10-24 01:48:04 公開日:2023-10-19
# 実演でロボットを効率的に教えるには?

How Can Everyday Users Efficiently Teach Robots by Demonstrations? ( http://arxiv.org/abs/2310.13083v1 )

ライセンス: Link先を確認
Maram Sakr, Zhikai Zhang, Benjamin Li, Haomiao Zhang, H.F. Machiel Van der Loos, Dana Kulic and Elizabeth Croft(参考訳) learning from demonstration (lfd)は、ユーザーが簡単にロボットをプログラムできるフレームワークである。 しかし、ロボット学習の効率性とタスクのバリエーションを一般化するロボットの能力は、提供されたデモの質と量に依存する。 我々の目的は、人間の教師がより効果的なデモを行うよう指導し、効率的なロボット学習を促進することである。 そこで,本研究では,タスク関連情報エントロピーという不確実性尺度を,教師の指導力向上のための情報提示事例を提示するための基準として用いることを提案する。 実施実験(N=24)では,作業空間内で最もエントロピーの高い領域から,初心者を訓練するための拡張現実(AR)に基づく指導システムを用いた。 これらの初心者は、限られた数のデモを使ってロボットに汎用的なタスクを教えるためのいくつかの試行のために訓練された。 その後、トレーニング後のユーザのパフォーマンスを、まず同じタスク(保持)で評価し、その後、ガイダンスなしで新しいタスク(転送)で評価した。 その結果,教師のデモンストレーションではロボットの学習効率が大幅に向上し,新たな課題では最大198%の改善が見られた。 さらに,提案手法を最先端のヒューリスティック・ルールと比較し,ヒューリスティック・ルールと比較してロボット学習効率を210%向上させた。

Learning from Demonstration (LfD) is a framework that allows lay users to easily program robots. However, the efficiency of robot learning and the robot's ability to generalize to task variations hinges upon the quality and quantity of the provided demonstrations. Our objective is to guide human teachers to furnish more effective demonstrations, thus facilitating efficient robot learning. To achieve this, we propose to use a measure of uncertainty, namely task-related information entropy, as a criterion for suggesting informative demonstration examples to human teachers to improve their teaching skills. In a conducted experiment (N=24), an augmented reality (AR)-based guidance system was employed to train novice users to produce additional demonstrations from areas with the highest entropy within the workspace. These novice users were trained for a few trials to teach the robot a generalizable task using a limited number of demonstrations. Subsequently, the users' performance after training was assessed first on the same task (retention) and then on a novel task (transfer) without guidance. The results indicated a substantial improvement in robot learning efficiency from the teacher's demonstrations, with an improvement of up to 198% observed on the novel task. Furthermore, the proposed approach was compared to a state-of-the-art heuristic rule and found to improve robot learning efficiency by 210% compared to the heuristic rule.
翻訳日:2023-10-24 01:47:49 公開日:2023-10-19
# 多言語複雑度から感情的明瞭度へ:コードミス対話におけるコモンセンスの活用

From Multilingual Complexity to Emotional Clarity: Leveraging Commonsense to Unveil Emotions in Code-Mixed Dialogues ( http://arxiv.org/abs/2310.13080v1 )

ライセンス: Link先を確認
Shivani Kumar, Ramaneswaran S, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 会話中の感情を理解することは人間のコミュニケーションの基本的な側面であり、会話における感情認識のためのNLP研究を推進している。 多くの研究が単言語対話における個々の話者の感情の識別に焦点を合わせてきたが、コードミキシングによる会話における感情のダイナミクスの理解は比較的少なくなった。 この研究は、コード混合会話に対するercの取り組みを動機付けています。 感情的知性が世界的知識の理解を包含していると認識し,コモンセンス情報を対話コンテキストと統合し,感情のより深い理解を促進する革新的なアプローチを提案する。 これを実現するために、コード混合入力に基づいて既存の知識グラフから関連するコモンセンスを抽出する効率的なパイプラインを考案する。 次に,得られたコモンセンス情報を専用対話理解モジュールから得られた対話表現とシームレスに結合する高度な融合手法を開発した。 包括的実験により,ercにおけるcommonsenseの体系的導入により得られた実質的な性能改善を示す。 定量的評価と質的分析の両方が我々の仮説の妥当性をさらに裏付け、ERCの強化におけるコモンセンス統合の重要な役割を再確認した。

Understanding emotions during conversation is a fundamental aspect of human communication, driving NLP research for Emotion Recognition in Conversation (ERC). While considerable research has focused on discerning emotions of individual speakers in monolingual dialogues, understanding the emotional dynamics in code-mixed conversations has received relatively less attention. This motivates our undertaking of ERC for code-mixed conversations in this study. Recognizing that emotional intelligence encompasses a comprehension of worldly knowledge, we propose an innovative approach that integrates commonsense information with dialogue context to facilitate a deeper understanding of emotions. To achieve this, we devise an efficient pipeline that extracts relevant commonsense from existing knowledge graphs based on the code-mixed input. Subsequently, we develop an advanced fusion technique that seamlessly combines the acquired commonsense information with the dialogue representation obtained from a dedicated dialogue understanding module. Our comprehensive experimentation showcases the substantial performance improvement obtained through the systematic incorporation of commonsense in ERC. Both quantitative assessments and qualitative analyses further corroborate the validity of our hypothesis, reaffirming the pivotal role of commonsense integration in enhancing ERC.
翻訳日:2023-10-24 01:47:27 公開日:2023-10-19
# 自発的パラメトリックダウン変換過程におけるx線対のイメージング

Imaging of X-ray Pairs in a Spontaneous Parametric Down-Conversion Process ( http://arxiv.org/abs/2310.13078v1 )

ライセンス: Link先を確認
Justin C. Goodrich, Ryan Mahon, Joseph Hanrahan, Monika Dziubelski, Raphael A. Abrahao, Sanjit Karmakar, Kazimierz J. Gofron, Thomas Caswell, Daniel Allan, Lonny Berman, Andrei Fluerasu, Andrei Nomerotski, Cinzia DaVi\`a, Sean McSweeney(参考訳) 自発的パラメトリックダウンコンバージョンは可視領域と近赤外領域で相関光子対を生成する重要な方法であるが、x線周波数への拡張は実質的な障壁に直面している。 ここでは,2次元画素検出器を用いて相関X線対の生成と検出の進歩を示し,その対の分布の第一の直接像を得る。 本研究は、ダウン変換過程を探索し、直接可視化し、一致光子対の特性環構造を明らかにし、ロバストな空間相関を示す。 重要な発見はエネルギーの反相関(英語版)の観測であり、前例のない約4,100対/時間で達成された。 これらの結果は、x線量子イメージングにおける大きな飛躍であり、線量を減らすことで生体物質の撮像能力を高め、x線量子光学技術の適用範囲を広げる可能性があると信じている。

Spontaneous parametric down-conversion is a vital method for generating correlated photon pairs in the visible and near-infrared spectral regions; however, its extension to X-ray frequencies has faced substantial barriers. Here, we present an advancement in correlated X-ray pair generation and detection by employing a two-dimensional pixelated detector to obtain the first direct image of the pair distribution. Our study explores and directly visualizes the down-conversion process, revealing the characteristic ring structure of coincident photon pairs and demonstrating robust spatial correlations. A significant finding is the observation of energy anti-correlation, achieved at an unprecedented rate of approximately 4,100 pairs/hour, far exceeding previous reports in the literature. We believe these results represent a significant leap in X-ray quantum imaging, unlocking the potential for enhanced imaging of biological materials with reduced doses and broadening the applicability of X-ray quantum optical technologies.
翻訳日:2023-10-24 01:47:07 公開日:2023-10-19
# patchcure: 証明可能なロバスト性、モデルユーティリティ、および対向パッチ防御の計算効率の向上

PatchCURE: Improving Certifiable Robustness, Model Utility, and Computation Efficiency of Adversarial Patch Defenses ( http://arxiv.org/abs/2310.13076v1 )

ライセンス: Link先を確認
Chong Xiang, Tong Wu, Sihui Dai, Jonathan Petit, Suman Jana, Prateek Mittal(参考訳) 敵のパッチ攻撃に対する最先端の防御は、モデルユーティリティの限界低下とともに、強力な証明可能な堅牢性を達成することができる。 しかし、この印象的なパフォーマンスは通常、未定義のモデルに比べて10倍から100倍の推論時間計算コストで達成される。 本稿では,このトレードオフ問題に対処するためのPatchCUREという防衛フレームワークを提案する。 もっとも堅牢なpatchcureインスタンスは、既存の最先端の防御(効率を考慮せずに)のパフォーマンスにマッチすることができ、最も効率的なpatchcureインスタンスは、未定義のモデルと同じような推論効率を持っています。 特に、PatchCUREは、あらゆる異なる効率レベル、例えば16-23%の絶対的クリーンな正確さと、未解決モデルに近い計算効率を必要とする場合の事前の防御よりも堅牢な精度の利点を達成している。 patcure defensesのファミリーは、計算および/または実用上の制約を実際に満たす適切な防御を柔軟に選択できる。

State-of-the-art defenses against adversarial patch attacks can now achieve strong certifiable robustness with a marginal drop in model utility. However, this impressive performance typically comes at the cost of 10-100x more inference-time computation compared to undefended models -- the research community has witnessed an intense three-way trade-off between certifiable robustness, model utility, and computation efficiency. In this paper, we propose a defense framework named PatchCURE to approach this trade-off problem. PatchCURE provides sufficient "knobs" for tuning defense performance and allows us to build a family of defenses: the most robust PatchCURE instance can match the performance of any existing state-of-the-art defense (without efficiency considerations); the most efficient PatchCURE instance has similar inference efficiency as undefended models. Notably, PatchCURE achieves state-of-the-art robustness and utility performance across all different efficiency levels, e.g., 16-23% absolute clean accuracy and certified robust accuracy advantages over prior defenses when requiring computation efficiency to be close to undefended models. The family of PatchCURE defenses enables us to flexibly choose appropriate defenses to satisfy given computation and/or utility constraints in practice.
翻訳日:2023-10-24 01:46:51 公開日:2023-10-19
# 複素値ニューラルネットワークの計算複雑性について

On the Computational Complexities of Complex-valued Neural Networks ( http://arxiv.org/abs/2310.13075v1 )

ライセンス: Link先を確認
Kayol Soares Mayer, Jonathan Aguiar Soares, Ariadne Arrais Cruz, Dalton Soares Arantes(参考訳) 複素数値ニューラルネットワーク(CVNN)は、複素領域データのデジタル信号処理に使用される非線形フィルタである。 実数値ニューラルネットワーク~(RVNN)と比較して、CVNNは複雑なドメインパラメータとアクティベーション関数のために、複雑な値の入力および出力信号を直接処理できる。 低消費電力システムへのトレンドにより、計算複雑性解析はアルゴリズムの消費電力を測定するために必須となっている。 そこで本研究では,CVNNの定量的・漸近的な計算複雑性について述べる。 これはどのアルゴリズムを実装するかを決める上で重要なツールです。 数理演算は実数値乗算の数の観点から記述されるが、これは最も要求の多い演算である。 低消費電力システムでどのCVNNを実装できるかを判断するために、数値計算の複雑さを用いて浮動小数点演算数を正確に推定することができる。 また,本研究では,CVNNの計算複雑性についても検討した。

Complex-valued neural networks (CVNNs) are nonlinear filters used in the digital signal processing of complex-domain data. Compared with real-valued neural networks~(RVNNs), CVNNs can directly handle complex-valued input and output signals due to their complex domain parameters and activation functions. With the trend toward low-power systems, computational complexity analysis has become essential for measuring an algorithm's power consumption. Therefore, this paper presents both the quantitative and asymptotic computational complexities of CVNNs. This is a crucial tool in deciding which algorithm to implement. The mathematical operations are described in terms of the number of real-valued multiplications, as these are the most demanding operations. To determine which CVNN can be implemented in a low-power system, quantitative computational complexities can be used to accurately estimate the number of floating-point operations. We have also investigated the computational complexities of CVNNs discussed in some studies presented in the literature.
翻訳日:2023-10-24 01:46:31 公開日:2023-10-19
# 論理プログラミングとカーネルグループを用いた畳み込みニューラルネットワークの解釈性向上

Using Logic Programming and Kernel-Grouping for Improving Interpretability of Convolutional Neural Networks ( http://arxiv.org/abs/2310.13073v1 )

ライセンス: Link先を確認
Parth Padalkar, Gopal Gupta(参考訳) ディープラーニングの領域内では、畳み込みニューラルネットワーク(CNN)の解釈可能性、特に画像分類タスクの文脈では、依然として深刻な課題である。 この目的のために,CNNの最終層カーネルを用いたシンボリックルールセットを生成するNeSyFOLD-Gというニューロシンボリックフレームワークを提案する。 NeSyFOLD-Gが他の類似フレームワークと異なるのは、様々なカーネルが生成する特徴マップ間のコサイン類似性を利用して、CNN(カーネルグループ)で類似したカーネルのグループを最初に見つけることである。 このようなカーネル群が見つかると、各カーネル群の出力をCNNで二項化して、ルールベース機械学習(RBML)アルゴリズムであるFOLD-SE-Mへの入力データとして機能する二項化テーブルを生成する。 FOLD-SE-Mは、予測に使用できるルールセットを生成する。 本稿では,新しいカーネルグルーピングアルゴリズムを提案し,類似するカーネルのグルーピングにより,fold-se-m が生成するルールセットのサイズが大幅に減少し,解釈性が向上することを示す。 このルールセットは、訓練されたCNNのコネクショナリズム知識を象徴的にカプセル化する。 ルールセットは、各述語の真理値がCNNのカーネルグループに依存する通常の論理プログラムと見なすことができる。 ルールセットの各述語は、トレーニングに使用される画像のいくつかのセマンティックセグメンテーションマスクを使用して概念にマッピングされ、人間の理解が可能である。 cnnの最後のレイヤは、nesy-gモデルを得るためにこのルールセットに置き換えることができ、画像分類タスクに使用できる。 目標指向aspシステムs(casp)は、nesy-gモデルを用いた任意の予測を正当化するために使用できる。 また,ルールセット内の各述語を,対応するカーネル群が表現する意味概念とラベル付けする新しいアルゴリズムを提案する。

Within the realm of deep learning, the interpretability of Convolutional Neural Networks (CNNs), particularly in the context of image classification tasks, remains a formidable challenge. To this end we present a neurosymbolic framework, NeSyFOLD-G that generates a symbolic rule-set using the last layer kernels of the CNN to make its underlying knowledge interpretable. What makes NeSyFOLD-G different from other similar frameworks is that we first find groups of similar kernels in the CNN (kernel-grouping) using the cosine-similarity between the feature maps generated by various kernels. Once such kernel groups are found, we binarize each kernel group's output in the CNN and use it to generate a binarization table which serves as input data to FOLD-SE-M which is a Rule Based Machine Learning (RBML) algorithm. FOLD-SE-M then generates a rule-set that can be used to make predictions. We present a novel kernel grouping algorithm and show that grouping similar kernels leads to a significant reduction in the size of the rule-set generated by FOLD-SE-M, consequently, improving the interpretability. This rule-set symbolically encapsulates the connectionist knowledge of the trained CNN. The rule-set can be viewed as a normal logic program wherein each predicate's truth value depends on a kernel group in the CNN. Each predicate in the rule-set is mapped to a concept using a few semantic segmentation masks of the images used for training, to make it human-understandable. The last layers of the CNN can then be replaced by this rule-set to obtain the NeSy-G model which can then be used for the image classification task. The goal directed ASP system s(CASP) can be used to obtain the justification of any prediction made using the NeSy-G model. We also propose a novel algorithm for labeling each predicate in the rule-set with the semantic concept(s) that its corresponding kernel group represents.
翻訳日:2023-10-24 01:46:19 公開日:2023-10-19
# gari: アラビア語単語埋め込みの相対同型に対するグラフ注意

GARI: Graph Attention for Relative Isomorphism of Arabic Word Embeddings ( http://arxiv.org/abs/2310.13068v1 )

ライセンス: Link先を確認
Muhammad Asif Ali, Maha Alshmrani, Jianbin Qin, Yan Hu, Di Wang(参考訳) バイリンガル語彙誘導(BLI)は、個々の埋め込み空間の相対同型に依存するNLPのコアチャレンジである。 異なる埋め込み空間の相対同型を制御しようとする既存の試みは、モデルトレーニングの目的に意味的に関連する単語の影響を取り入れることができない。 そこで本研究では,分散学習目標とグラフアテンションネットワークによって導かれる複数の同型損失を組み合わせたGARIを提案する。 GARIは、埋め込み空間の相対同型を定義するために、単語の意味的バリエーションの影響を考慮する。 アラビア語のデータセットを用いた実験的評価により、ガーリは平均p@1を40.95%、領域内ミスマッチ設定を76.80%改善し、既存の研究を上回っていることが示されている。 GARIのコードはhttps://github.com/asif6827/GARIで公開しています。

Bilingual Lexical Induction (BLI) is a core challenge in NLP, it relies on the relative isomorphism of individual embedding spaces. Existing attempts aimed at controlling the relative isomorphism of different embedding spaces fail to incorporate the impact of semantically related words in the model training objective. To address this, we propose GARI that combines the distributional training objectives with multiple isomorphism losses guided by the graph attention network. GARI considers the impact of semantical variations of words in order to define the relative isomorphism of the embedding spaces. Experimental evaluation using the Arabic language data set shows that GARI outperforms the existing research by improving the average P@1 by a relative score of up to 40.95% and 76.80% for in-domain and domain mismatch settings respectively. We release the codes for GARI at https://github.com/asif6827/GARI.
翻訳日:2023-10-24 01:45:44 公開日:2023-10-19
# 大規模言語モデルを用いた創造型ロボットツール

Creative Robot Tool Use with Large Language Models ( http://arxiv.org/abs/2310.13065v1 )

ライセンス: Link先を確認
Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao(参考訳) ツールの使用は高度な知能の指標であり、動物の行動とロボットの能力の両方に例えられる。 本稿では,暗黙の物理的制約や長期計画を伴うタスクにおいて,ツールを創造的に使用できるロボットの実現可能性について検討する。 我々は,Large Language Models (LLMs) を活用して,自然言語命令を受け入れるシステムRoboToolを開発し,シミュレーションと実環境の両方でロボットを制御する実行可能なコードを出力する。 RoboToolには4つの重要なコンポーネントが含まれている。 (i)重要課題概念を識別するために自然言語を解釈する「分析者」 (ii)言語入力とキー概念に基づく包括的戦略を生成する「プランナー」。 (iii)各スキルのパラメータを計算する「カルキュレータ」、及び (iv)これらの計画を実行可能なPythonコードに変換する"Coder"。 以上の結果から,RoboToolは明示的あるいは暗黙的な物理的制約や環境要因を理解するだけでなく,創造的なツールの使用を実証できることがわかった。 明示的な最適化に頼っている従来のタスク・アンド・モーション・プランニング(TAMP)とは異なり、LLMベースのシステムは複雑なロボティクスタスクに対してより柔軟で効率的でユーザフレンドリーなソリューションを提供する。 広範な実験を通じて、RoboToolは、ツールを創造的に使わずに実現不可能なタスクを扱うことに長けており、ロボットシステムの能力を拡大している。 デモはプロジェクトのページ(https://creative-robotool.github.io/)で閲覧できます。

Tool use is a hallmark of advanced intelligence, exemplified in both animal behavior and robotic capabilities. This paper investigates the feasibility of imbuing robots with the ability to creatively use tools in tasks that involve implicit physical constraints and long-term planning. Leveraging Large Language Models (LLMs), we develop RoboTool, a system that accepts natural language instructions and outputs executable code for controlling robots in both simulated and real-world environments. RoboTool incorporates four pivotal components: (i) an "Analyzer" that interprets natural language to discern key task-related concepts, (ii) a "Planner" that generates comprehensive strategies based on the language input and key concepts, (iii) a "Calculator" that computes parameters for each skill, and (iv) a "Coder" that translates these plans into executable Python code. Our results show that RoboTool can not only comprehend explicit or implicit physical constraints and environmental factors but also demonstrate creative tool use. Unlike traditional Task and Motion Planning (TAMP) methods that rely on explicit optimization, our LLM-based system offers a more flexible, efficient, and user-friendly solution for complex robotics tasks. Through extensive experiments, we validate that RoboTool is proficient in handling tasks that would otherwise be infeasible without the creative use of tools, thereby expanding the capabilities of robotic systems. Demos are available on our project page: https://creative-robotool.github.io/.
翻訳日:2023-10-24 01:45:26 公開日:2023-10-19
# CO2排出を最適化した深層強化学習に基づくインテリジェント交通信号制御

Deep Reinforcement Learning-based Intelligent Traffic Signal Controls with Optimized CO2 emissions ( http://arxiv.org/abs/2310.13129v1 )

ライセンス: Link先を確認
Pedram Agand, Alexey Iskrov, Mo Chen(参考訳) 近年、交通ネットワークは、人間の健康や環境に悪影響を及ぼし、交通渋滞に寄与する準最適制御政策の課題に直面している。 交通渋滞による大気汚染の増加と通勤時間の延長により、交差点信号管制官は近代交通インフラの重要な構成要素となっている。 文学における適応交通信号制御装置はいくつかあるが、比較性能に関する限られた研究がなされている。 さらに、二酸化炭素(CO2)排出量が世界的な問題であるにもかかわらず、文献はこの領域に限定的に注意を払っている。 本稿では,CO2排出量を削減できるだけでなく,旅行時間などの指標で競合的な結果が得られる強化学習アルゴリズムの報酬形成手法であるEcoLightを提案する。 我々は,旅行時間,CO2排出量,待ち時間,停止時間などの指標を用いて,表型Q-Learning,DQN,SARSA,A2Cアルゴリズムの性能を比較した。 本評価では, 道路利用者(トラック, バス, 自動車)の様々な汚染レベルを考慮した複数のシナリオについて検討する。

Nowadays, transportation networks face the challenge of sub-optimal control policies that can have adverse effects on human health, the environment, and contribute to traffic congestion. Increased levels of air pollution and extended commute times caused by traffic bottlenecks make intersection traffic signal controllers a crucial component of modern transportation infrastructure. Despite several adaptive traffic signal controllers in literature, limited research has been conducted on their comparative performance. Furthermore, despite carbon dioxide (CO2) emissions' significance as a global issue, the literature has paid limited attention to this area. In this report, we propose EcoLight, a reward shaping scheme for reinforcement learning algorithms that not only reduces CO2 emissions but also achieves competitive results in metrics such as travel time. We compare the performance of tabular Q-Learning, DQN, SARSA, and A2C algorithms using metrics such as travel time, CO2 emissions, waiting time, and stopped time. Our evaluation considers multiple scenarios that encompass a range of road users (trucks, buses, cars) with varying pollution levels.
翻訳日:2023-10-24 01:38:31 公開日:2023-10-19
# MRI画像における局所脳腫瘍分類とカスタムトランスファー学習

Streamlining Brain Tumor Classification with Custom Transfer Learning in MRI Images ( http://arxiv.org/abs/2310.13108v1 )

ライセンス: Link先を確認
Javed Hossain, Md. Touhidul Islam, Md. Taufiqul Haque Khan Tusar(参考訳) 脳腫瘍はますます流行し、脳内の異常な組織が制御されていないことが特徴で、毎年70,000件の新しい症例が世界中で診断されている。 磁気共鳴イメージング(MRI)は脳腫瘍の診断に一般的に用いられ、正確な分類は臨床的に重要な方法である。 本研究では,MRI画像からの脳腫瘍の分類を,カスタムトランスファー学習ネットワークを用いて効率的に行う方法を提案する。 いくつかの研究者は、RESNET-50、ALEXNET、VGG-16、VGG-19といった事前訓練済みのアーキテクチャを使用しているが、これらの手法は高い計算複雑性に悩まされることが多い。 この問題に対処するために,複雑度を低減した畳み込みニューラルネットワークによる事前学習アーキテクチャを用いたカスタムモデルと軽量モデルを提案する。 具体的には,VGG-19アーキテクチャに隠蔽層を追加し,基本アーキテクチャの複雑さを低減し,計算効率を向上する。 目的は,新しい手法を用いて高い分類精度を達成することである。 最後に、結果は96.42%の分類精度を示す。

Brain tumors are increasingly prevalent, characterized by the uncontrolled spread of aberrant tissues in the brain, with almost 700,000 new cases diagnosed globally each year. Magnetic Resonance Imaging (MRI) is commonly used for the diagnosis of brain tumors and accurate classification is a critical clinical procedure. In this study, we propose an efficient solution for classifying brain tumors from MRI images using custom transfer learning networks. While several researchers have employed various pre-trained architectures such as RESNET-50, ALEXNET, VGG-16, and VGG-19, these methods often suffer from high computational complexity. To address this issue, we present a custom and lightweight model using a Convolutional Neural Network-based pre-trained architecture with reduced complexity. Specifically, we employ the VGG-19 architecture with additional hidden layers, which reduces the complexity of the base architecture but improves computational efficiency. The objective is to achieve high classification accuracy using a novel approach. Finally, the result demonstrates a classification accuracy of 96.42%.
翻訳日:2023-10-24 01:38:13 公開日:2023-10-19
# 微分型マスカリコンストラクタモデルによる教師なし候補回答抽出

Unsupervised Candidate Answer Extraction through Differentiable Masker-Reconstructor Model ( http://arxiv.org/abs/2310.13106v1 )

ライセンス: Link先を確認
Zhuoer Wang, Yicheng Wang, Ziwei Zhu, James Caverlee(参考訳) 質問生成は広範囲のアプリケーションで広く利用されているデータ拡張アプローチであり、コンテキストパスから適切な候補を抽出することは、ほとんどの質問生成システムにとって重要なステップである。 しかし,既存の解答法は,部分的アノテーション問題や一般化の課題に直面する言語規則や注釈付きデータに依存している。 これらの制約を克服するため,我々は,salient information tokensを収集するための自己一貫性の強制により,微分可能なマスカリストリコンストラクタ(dmr)モデルを通じてコンテキストパスの固有構造を活用する,教師なし候補回答抽出手法を提案する。 2つのデータセットを徹底的に注釈付き回答でキュレートし,教師なしかつ教師なしの回答抽出法を総合的にベンチマークした。 本稿では,DMRモデルの有効性を,教師なし手法よりも優れた性能を示し,教師なし手法に匹敵する性能を示す。

Question generation is a widely used data augmentation approach with extensive applications, and extracting qualified candidate answers from context passages is a critical step for most question generation systems. However, existing methods for candidate answer extraction are reliant on linguistic rules or annotated data that face the partial annotation issue and challenges in generalization. To overcome these limitations, we propose a novel unsupervised candidate answer extraction approach that leverages the inherent structure of context passages through a Differentiable Masker-Reconstructor (DMR) Model with the enforcement of self-consistency for picking up salient information tokens. We curated two datasets with exhaustively-annotated answers and benchmark a comprehensive set of supervised and unsupervised candidate answer extraction methods. We demonstrate the effectiveness of the DMR model by showing its performance is superior among unsupervised methods and comparable to supervised methods.
翻訳日:2023-10-24 01:37:55 公開日:2023-10-19
# AVTENet:ビデオディープフェイク検出に複数のエキスパートを駆使したオーディオ・ビジュアルトランスフォーマーによるアンサンブルネットワーク

AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection ( http://arxiv.org/abs/2310.13103v1 )

ライセンス: Link先を確認
Ammarah Hashmi, Sahibzada Adil Shahzad, Chia-Wen Lin, Yu Tsao, Hsin-Min Wang(参考訳) ソーシャルメディアプラットフォーム上で広く共有されているコンテンツは、規制の強化と研究コミュニティに新たな課題をもたらす主要な社会問題である。 近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 aiが生成する偽ビデオを検出する以前の作業のほとんどは、ビジュアルモダリティやオーディオモダリティのみを使用している。 フォージビデオの検出には音声と視覚のモダリティを利用するいくつかの手法があるが、音響と視覚の操作を含むディープフェイクビデオのマルチモーダルデータセットでは包括的に評価されていない。 さらに、これらの既存の手法はcnnに基づいており、検出精度が低い。 本稿では,様々な分野におけるトランスフォーマーの最近の成功に触発されて,deepfake技術が生み出す課題に対処し,音響操作と視覚操作の両方を考慮し,効果的な映像偽造検出を実現するオーディオ・ビジュアル・トランスフォーマー・ベースのアンサンブル・ネットワーク(avtenet)フレームワークを提案する。 特に,提案モデルでは,映像,音声,音声・視覚の有能な手がかりを捉え,予測のコンセンサスに到達するために,純粋にトランスフォーマーに基づくいくつかの変種を統合する。 評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。 AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。 実験の結果,本モデルが既存の手法を上回っており,fakeavcelebデータセットのtestset-iおよびtestset-iiにおいて最先端の性能を達成していることがわかった。

Forged content shared widely on social media platforms is a major social problem that requires increased regulation and poses new challenges to the research community. The recent proliferation of hyper-realistic deepfake videos has drawn attention to the threat of audio and visual forgeries. Most previous work on detecting AI-generated fake videos only utilizes visual modality or audio modality. While there are some methods in the literature that exploit audio and visual modalities to detect forged videos, they have not been comprehensively evaluated on multi-modal datasets of deepfake videos involving acoustic and visual manipulations. Moreover, these existing methods are mostly based on CNN and suffer from low detection accuracy. Inspired by the recent success of Transformer in various fields, to address the challenges posed by deepfake technology, in this paper, we propose an Audio-Visual Transformer-based Ensemble Network (AVTENet) framework that considers both acoustic manipulation and visual manipulation to achieve effective video forgery detection. Specifically, the proposed model integrates several purely transformer-based variants that capture video, audio, and audio-visual salient cues to reach a consensus in prediction. For evaluation, we use the recently released benchmark multi-modal audio-video FakeAVCeleb dataset. For a detailed analysis, we evaluate AVTENet, its variants, and several existing methods on multiple test sets of the FakeAVCeleb dataset. Experimental results show that our best model outperforms all existing methods and achieves state-of-the-art performance on Testset-I and Testset-II of the FakeAVCeleb dataset.
翻訳日:2023-10-24 01:37:27 公開日:2023-10-19
# 粒子誘導:拡散モデルを用いた非I.D.逆サンプリング

Particle Guidance: non-I.I.D. Diverse Sampling with Diffusion Models ( http://arxiv.org/abs/2310.13102v1 )

ライセンス: Link先を確認
Gabriele Corso, Yilun Xu, Valentin de Bortoli, Regina Barzilay, Tommi Jaakkola(参考訳) 生成モデルが広く成功したことを踏まえ、かなりの量の研究がサンプリング時間の短縮に費やされている。 しかし、生成モデルはサンプリング時間に直交するコストをもたらす多様な集合を得るために、しばしば何度もサンプリングされる。 独立標本の共通仮定を超えて多様性とサンプル効率を改善するかという課題に取り組む。 本稿では,粒子の時間発展ポテンシャルが多様性を強制する拡散に基づく生成サンプリングの拡張である粒子指導を提案する。 粒子誘導が生成する合同分布、そのポテンシャル選択への影響、および他の分野における手法との関係を理論的に解析する。 実験により,条件付き画像生成の設定,品質に影響を与えずに多様性を向上させること,および分子コンホメータ生成において,最先端の中央値誤差を平均13%削減する手法を実証的に検証した。

In light of the widespread success of generative models, a significant amount of research has gone into speeding up their sampling time. However, generative models are often sampled multiple times to obtain a diverse set incurring a cost that is orthogonal to sampling time. We tackle the question of how to improve diversity and sample efficiency by moving beyond the common assumption of independent samples. We propose particle guidance, an extension of diffusion-based generative sampling where a joint-particle time-evolving potential enforces diversity. We analyze theoretically the joint distribution that particle guidance generates, its implications on the choice of potential, and the connections with methods in other disciplines. Empirically, we test the framework both in the setting of conditional image generation, where we are able to increase diversity without affecting quality, and molecular conformer generation, where we reduce the state-of-the-art median error by 13% on average.
翻訳日:2023-10-24 01:36:39 公開日:2023-10-19
# 臨界インフラのための量子鍵分布:水力・ダムのサイバー物理セキュリティを目指して

Quantum Key Distribution for Critical Infrastructures: Towards Cyber Physical Security for Hydropower and Dams ( http://arxiv.org/abs/2310.13100v1 )

ライセンス: Link先を確認
Adrien Green, Jeremy Lawrence, George Siopsis, Nicholas Peters, Ali Passian(参考訳) 水力施設は、しばしば中央の遠隔操作室から遠隔で監視または制御される。 さらに、主要なコンポーネントメーカーは、インストールされたコンポーネントのパフォーマンスを監視します。 これらの通信によって効率性と信頼性が向上する一方、サイバー攻撃面も拡大する。 通信は、インターネットを使って施設の制御システムを遠隔操作したり、または制御室から機械にネットワーク経由で制御コマンドを送信することを含む。 コンテンツは暗号化され、公開鍵を使って復号化され、通信された情報を保護する。 これらの暗号符号化と復号方式は脆弱であることが示されており、量子コンピューティングのようなコンピュータ技術でさらなる進歩がなされるにつれてさらに悪化している。 対照的に、量子鍵分布(QKD)は計算問題に基づいておらず、従来の公開鍵暗号に代わるものである。 QKDの根底にあるメカニズムは、プロトコルの量子部分を観察しようとする敵による試みが、検出可能なシグネチャをエラー率の増加として与え、鍵発生を阻止することを保証するが、さらなる調査の警告となる。 エラーレートが十分に低く、十分な光子が検出された場合、送信側と受信側のみに共有された秘密鍵を生成することができる。 ダムや水力発電施設の重要なインフラにこの新技術といくつかのモダリティがどのように役立つかを述べる。 提示された議論は、関連する脅威と緩和を識別するための量子サイバーセキュリティのロードマップの先駆けと見なすことができる。

Hydropower facilities are often remotely monitored or controlled from a centralized remote-control room. Additionally, major component manufacturers monitor the performance of installed components. While these communications enable efficiencies and increased reliability, they also expand the cyber-attack surface. Communications may use the internet to remote control a facility's control systems, or it may involve sending control commands over a network from a control room to a machine. The content could be encrypted and decrypted using a public key to protect the communicated information. These cryptographic encoding and decoding schemes have been shown to be vulnerable, a situation which is being exacerbated as more advances are made in computer technologies such as quantum computing. In contrast, quantum key distribution (QKD) is not based upon a computational problem, and offers an alternative to conventional public-key cryptography. Although the underlying mechanism of QKD ensures that any attempt by an adversary to observe the quantum part of the protocol will result in a detectable signature as an increased error rate, potentially even preventing key generation, it serves as a warning for further investigation. When the error rate is low enough and enough photons have been detected, a shared private key can be generated known only to the sender and receiver. We describe how this novel technology and its several modalities could benefit the critical infrastructures of dams or hydropower facilities. The presented discussions may be viewed as a precursor to a quantum cybersecurity roadmap for the identification of relevant threats and mitigation.
翻訳日:2023-10-24 01:35:50 公開日:2023-10-19
# 悪気はない、バート、私は人間だけを侮辱する! 有毒度検出ニューラルネットワークに対する複数文レベルの攻撃

No offence, Bert -- I insult only humans! Multiple addressees sentence-level attack on toxicity detection neural network ( http://arxiv.org/abs/2310.13099v1 )

ライセンス: Link先を確認
Sergey Berezin, Reza Farahbakhsh, Noel Crespi(参考訳) ブラックボックス毒性検出モデルに対する簡易かつ効率的な文レベル攻撃を導入する。 ヘイトフルメッセージの最後にいくつかのポジティブな単語や文を追加することで、ニューラルネットワークの予測を変更し、毒性検出システムチェックをパスすることができる。 このアプローチは、3つの異なる言語ファミリーから7つの言語に取り組んでいることが示されている。 また、上記の攻撃に対する防御機構について述べ、その限界について論じる。

We introduce a simple yet efficient sentence-level attack on black-box toxicity detector models. By adding several positive words or sentences to the end of a hateful message, we are able to change the prediction of a neural network and pass the toxicity detection system check. This approach is shown to be working on seven languages from three different language families. We also describe the defence mechanism against the aforementioned attack and discuss its limitations.
翻訳日:2023-10-24 01:35:07 公開日:2023-10-19
# SRAI:地理空間AIの標準化に向けて

SRAI: Towards Standardization of Geospatial AI ( http://arxiv.org/abs/2310.13098v1 )

ライセンス: Link先を確認
Piotr Gramacki, Kacper Le\'sniara, Kamil Raczycki, Szymon Wo\'zniak, Marcin Przymus, Piotr Szyma\'nski(参考訳) spatial representations for artificial intelligence (\textit{srai})は、地理空間データを扱うためのpythonライブラリである。 ライブラリは地理空間データをダウンロードし、所定の領域を複数のアルゴリズムを使ってマイクロリージョンに分割し、様々なアーキテクチャを使って埋め込みモデルをトレーニングすることができる。 ベースラインモデルだけでなく、出版物からより複雑な方法も含んでいる。 これらの機能により、地理空間的タスク解決のための完全なパイプラインで \textit{srai} を使うことができる。 提案されたライブラリは、地理空間AIドメインツールセットを標準化する最初のステップである。 完全にオープンソースで、Apache 2.0ライセンス下で公開されている。

Spatial Representations for Artificial Intelligence (\textit{srai}) is a Python library for working with geospatial data. The library can download geospatial data, split a given area into micro-regions using multiple algorithms and train an embedding model using various architectures. It includes baseline models as well as more complex methods from published works. Those capabilities make it possible to use \textit{srai} in a complete pipeline for geospatial task solving. The proposed library is the first step to standardize the geospatial AI domain toolset. It is fully open-source and published under Apache 2.0 licence.
翻訳日:2023-10-24 01:35:00 公開日:2023-10-19
# ウエストマウント型imuを用いたバレーボールジャンプ分類のための多段時間畳み込みネットワーク

A Multi-Stage Temporal Convolutional Network for Volleyball Jumps Classification Using a Waist-Mounted IMU ( http://arxiv.org/abs/2310.13097v1 )

ライセンス: Link先を確認
Meng Shang, Camilla De Bleecker, Jos Vanrenterghem, Roel De Ridder, Sabine Verschueren, Carolina Varon, Walter De Raedt, and Bart Vanrumste(参考訳) トレーニングや試合中のバレーボール選手のジャンプ数を監視することは、怪我を防ぐために重要であるが、ビデオ分析のような従来の手法を用いて、かなりの作業負荷とコストを必要とする。 また、既存手法では異なる種類のジャンプを正確に区別することができない。 本研究では, 1つの慣性測定ユニット(IMU)を腰に装着して, バレーボールジャンプのタイプを認識する非邪魔システムを提案する。 サンプル分類にMS-TCN(Multi-Layer Temporal Convolutional Network)を適用した。 このモデルは10人のバレーボール選手と26人のバレーボール選手で評価され、それぞれ4回のバレーボールトレーニングセッションでジャンプと着陸のプロトコルが固定された実験室セッションで評価された。 MS-TCNモデルは最先端のディープラーニングモデルよりも性能が良いが、計算コストは低い。 実験室では、ほとんどのジャンプ回数は、予測ジャンプとビデオアノテートジャンプの小さな違いを示し、総数で0.1+-3.40(r=0.884)の合意限界(LoA)を示した。 比較のために提案アルゴリズムは, VERT (商業ジャンプ評価装置) の LoA が0.1+-2.08 (r=0.955) であるのに対して, 差は依然として同等の範囲内であった。 トレーニングセッションでは,3種類のジャンプの認識において,ブロック,スマッシュ,オーバヘッドの10回未満のジャンプの観察と平均的な違いを示した。 これらの結果は,バレーボールジャンプのタイプを認識するために,単一のIMUを使用することの可能性を示した。 サンプルワイドアーキテクチャは高解像度の認識を提供し、MS-TCNは最先端のモデルと比較してトレーニングするパラメータが少なかった。

Monitoring the number of jumps for volleyball players during training or a match can be crucial to prevent injuries, yet the measurement requires considerable workload and cost using traditional methods such as video analysis. Also, existing methods do not provide accurate differentiation between different types of jumps. In this study, an unobtrusive system with a single inertial measurement unit (IMU) on the waist was proposed to recognize the types of volleyball jumps. A Multi-Layer Temporal Convolutional Network (MS-TCN) was applied for sample-wise classification. The model was evaluated on ten volleyball players and twenty-six volleyball players, during a lab session with a fixed protocol of jumping and landing tasks, and during four volleyball training sessions, respectively. The MS-TCN model achieved better performance than a state-of-the-art deep learning model but with lower computational cost. In the lab sessions, most jump counts showed small differences between the predicted jumps and video-annotated jumps, with an overall count showing a Limit of Agreement (LoA) of 0.1+-3.40 (r=0.884). For comparison, the proposed algorithm showed slightly worse results than VERT (a commercial jumping assessment device) with a LoA of 0.1+-2.08 (r=0.955) but the differences were still within a comparable range. In the training sessions, the recognition of three types of jumps exhibited a mean difference from observation of less than 10 jumps: block, smash, and overhead serve. These results showed the potential of using a single IMU to recognize the types of volleyball jumps. The sample-wise architecture provided high resolution of recognition and the MS-TCN required fewer parameters to train compared with state-of-the-art models.
翻訳日:2023-10-24 01:34:53 公開日:2023-10-19
# 言語モデルは事前訓練中に法的なエンティティタイプを学ぶか?

Do Language Models Learn about Legal Entity Types during Pretraining? ( http://arxiv.org/abs/2310.13092v1 )

ライセンス: Link先を確認
Claire Barale, Michael Rovatsos, Nehal Bhuta(参考訳) 言語モデル(lms)は、事前訓練段階で多様な言語知識を得ることが証明されており、下流タスクの付随的な監督の貴重な情報源となる可能性がある。 しかし、ドメイン固有の知識、特に法的な知識の検索に関する限られた研究がなされている。 本稿では,エンティティタイピングの課題を探求し,テキスト理解の重要な側面として法的な知識を評価するためのプロキシとして機能し,下流の法的なNLPアプリケーションに対する基礎的なタスクを提案する。 体系的な評価と分析と2種類のプロンプト(クローズ文とQAベースのテンプレート)と、これらの取得したキューの性質を明らかにすることで、汎用エンティティとドメイン固有のエンティティ、セマンティクスまたは構文信号、および異なるLM事前学習コーパス(ジェネリックおよび法的指向)とアーキテクチャ(エンコーダBERTベースおよびデコーダのみをLlama2で比較する。 We show that (1) Llama2 performs well on certain entities and exhibits potential for substantial improvement with optimized prompt templates, (2) law-oriented LMs show inconsistent performance, possibly due to variations in their training corpus, (3) LMs demonstrate the ability to type entities even in the case of multi-token entities, (4) all models struggle with entities belonging to sub-domains of the law (5) Llama2 appears to frequently overlook syntactic cues, a shortcoming less present in BERT-based architectures.

Language Models (LMs) have proven their ability to acquire diverse linguistic knowledge during the pretraining phase, potentially serving as a valuable source of incidental supervision for downstream tasks. However, there has been limited research conducted on the retrieval of domain-specific knowledge, and specifically legal knowledge. We propose to explore the task of Entity Typing, serving as a proxy for evaluating legal knowledge as an essential aspect of text comprehension, and a foundational task to numerous downstream legal NLP applications. Through systematic evaluation and analysis and two types of prompting (cloze sentences and QA-based templates) and to clarify the nature of these acquired cues, we compare diverse types and lengths of entities both general and domain-specific entities, semantics or syntax signals, and different LM pretraining corpus (generic and legal-oriented) and architectures (encoder BERT-based and decoder-only with Llama2). We show that (1) Llama2 performs well on certain entities and exhibits potential for substantial improvement with optimized prompt templates, (2) law-oriented LMs show inconsistent performance, possibly due to variations in their training corpus, (3) LMs demonstrate the ability to type entities even in the case of multi-token entities, (4) all models struggle with entities belonging to sub-domains of the law (5) Llama2 appears to frequently overlook syntactic cues, a shortcoming less present in BERT-based architectures.
翻訳日:2023-10-24 01:34:26 公開日:2023-10-19
# LeTFuser:マルチタスク学習による自律運転のための軽量エンドツーエンドトランスフォーマーベースセンサフュージョン

LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for Autonomous Driving with Multi-Task Learning ( http://arxiv.org/abs/2310.13135v1 )

ライセンス: Link先を確認
Pedram Agand, Mohammad Mahdavian, Manolis Savva, Mo Chen(参考訳) エンド・ツー・エンドの自律運転において、既存のセンサー融合技術を利用した模倣学習は、多数の動的エージェントを含む困難な状況において不十分であることを示す。 この問題に対処するために,複数のRGB-Dカメラ表現を融合するトランスフォーマーベースのアルゴリズムであるLeTFuserを紹介する。 認識と制御を同時に行うためには,マルチタスク学習を利用する。 本モデルは,RGB-Dカメラから得られた観測データを符号化する知覚モジュールである2つのモジュールから構成される。 セマンティックセグメンテーション、セマンティック深度クラウドマッピング(sdc)、トラフィックライト状態認識などのタスクを実行する。 コンボリューションビジョントランスフォーマー (cvt) \cite{wu2021cvt} を用いて, コンボリューションとトランスフォーマーモジュールの局所的およびグローバル的特徴抽出能力により, 複数のrgbカメラから特徴を抽出・融合する手法を提案する。 これに続いて、制御モジュールは、遅延特徴空間に関連するウェイポイントを予測するために、静的および動的環境のための粗いシミュレータと様々な測定を含む補足データとともに符号化された特性の復号を行う。 これらの出力を2つの方法で処理し、車両の制御レベル(ステアリング、スロットル、ブレーキなど)を生成する。 第1の方法は、PIDアルゴリズムを用いてハエの進路を追従する一方、第2の方法は、計測特性と環境状態を用いて制御ポリシーを直接予測する。 実世界のシナリオをシミュレーションするために,本モデルを評価し,CARLAシミュレータを用いた最近のモデルとの比較分析を行った。 私たちのコードは、将来の研究を促進するために、 \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w}で利用可能です。

In end-to-end autonomous driving, the utilization of existing sensor fusion techniques for imitation learning proves inadequate in challenging situations that involve numerous dynamic agents. To address this issue, we introduce LeTFuser, a transformer-based algorithm for fusing multiple RGB-D camera representations. To perform perception and control tasks simultaneously, we utilize multi-task learning. Our model comprises of two modules, the first being the perception module that is responsible for encoding the observation data obtained from the RGB-D cameras. It carries out tasks such as semantic segmentation, semantic depth cloud mapping (SDC), and traffic light state recognition. Our approach employs the Convolutional vision Transformer (CvT) \cite{wu2021cvt} to better extract and fuse features from multiple RGB cameras due to local and global feature extraction capability of convolution and transformer modules, respectively. Following this, the control module undertakes the decoding of the encoded characteristics together with supplementary data, comprising a rough simulator for static and dynamic environments, as well as various measurements, in order to anticipate the waypoints associated with a latent feature space. We use two methods to process these outputs and generate the vehicular controls (e.g. steering, throttle, and brake) levels. The first method uses a PID algorithm to follow the waypoints on the fly, whereas the second one directly predicts the control policy using the measurement features and environmental state. We evaluate the model and conduct a comparative analysis with recent models on the CARLA simulator using various scenarios, ranging from normal to adversarial conditions, to simulate real-world scenarios. Our code is available at \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w} to facilitate future studies.
翻訳日:2023-10-24 01:29:21 公開日:2023-10-19
# ask me in english: 医療クエリのための大規模言語モデルの言語横断的評価

Ask Me in English Instead: Cross-Lingual Evaluation of Large Language Models for Healthcare Queries ( http://arxiv.org/abs/2310.13132v1 )

ライセンス: Link先を確認
Jin, Yiqiao and Chandra, Mohit and Verma, Gaurav and Hu, Yibo and De Choudhury, Munmun and Kumar, Srijan(参考訳) 大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。 その影響は、医療などの重要な分野において特に顕著であり、在職者が日常的な質問に対する会話エージェントとしてllmを高く評価している。 LLMは印象的な言語理解と生成能力を示す一方で、それらの安全性に関する懸念は、これらの高い領域において最重要である。 さらに、LLMの開発は英語に重点を置いている。 これらのLLMが非英語の文脈でどのように機能するかはいまだ分かっていないが、これらのシステムの現実的な利用における公平性を確保するために重要なギャップである。 我々の経験的起源のフレームワークであるXlingEvalは、自然主義的な人間による健康関連質問に対するLSM応答を評価するための3つの基本的な基準に焦点を当てている。 英語、スペイン語、中国語、ヒンディー語を含む4大グローバル言語に関する広範な実験、専門家が注釈付けした3つの大きな健康Q&Aデータセット、アルゴリズムと人間の評価戦略の融合などを通じて、これらの言語間でのLLM応答の顕著な相違を見出した。 また、医療現場におけるLLMの多言語機能を調べるための言語間ベンチマークであるXlingHealthを提案する。 我々の研究結果は、これらのモデルの言語横断能力を強化し、全ての人がアクセス可能な公平な情報エコシステムを提供することの必要性を強調している。

Large language models (LLMs) are transforming the ways the general public accesses and consumes information. Their influence is particularly pronounced in pivotal sectors like healthcare, where lay individuals are increasingly appropriating LLMs as conversational agents for everyday queries. While LLMs demonstrate impressive language understanding and generation proficiencies, concerns regarding their safety remain paramount in these high-stake domains. Moreover, the development of LLMs is disproportionately focused on English. It remains unclear how these LLMs perform in the context of non-English languages, a gap that is critical for ensuring equity in the real-world use of these systems.This paper provides a framework to investigate the effectiveness of LLMs as multi-lingual dialogue systems for healthcare queries. Our empirically-derived framework XlingEval focuses on three fundamental criteria for evaluating LLM responses to naturalistic human-authored health-related questions: correctness, consistency, and verifiability. Through extensive experiments on four major global languages, including English, Spanish, Chinese, and Hindi, spanning three expert-annotated large health Q&A datasets, and through an amalgamation of algorithmic and human-evaluation strategies, we found a pronounced disparity in LLM responses across these languages, indicating a need for enhanced cross-lingual capabilities. We further propose XlingHealth, a cross-lingual benchmark for examining the multilingual capabilities of LLMs in the healthcare context. Our findings underscore the pressing need to bolster the cross-lingual capacities of these models, and to provide an equitable information ecosystem accessible to all.
翻訳日:2023-10-24 01:28:50 公開日:2023-10-19
# 自動インストラクション:ブラックボックス言語モデルの自動インストラクション生成とランク付け

Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models ( http://arxiv.org/abs/2310.13127v1 )

ライセンス: Link先を確認
Zhihan Zhang, Shuohang Wang, Wenhao Yu, Yichong Xu, Dan Iter, Qingkai Zeng, Yang Liu, Chenguang Zhu, Meng Jiang(参考訳) 大規模言語モデル(LLM)は、タスク固有の微調整を必要とせず、自然言語命令に従うことで幅広いタスクを実行できる。 残念ながら、LLMの性能はこれらの命令の質に大きく影響され、各タスクに効果的な命令を手作業で書くことは、手間がかかり、主観的なプロセスである。 本稿では,LLMに提供される命令の質を自動改善する新しい手法であるAuto-Instructを紹介する。 提案手法は, LLMの固有生成能力を生かして, 与えられたタスクに対する多様な候補命令を生成し, 既存の575個のNLPタスクに基づいて学習したスコアモデルを用いてランク付けする。 118のアウトオブドメインタスクの実験では、Auto-Instructは人間による命令と既存のLCM生成命令のベースラインを超越している。 さらに,本手法はトレーニングプロセスに組み込まれていない他のLSMにおいても顕著な一般化性を示す。

Large language models (LLMs) can perform a wide range of tasks by following natural language instructions, without the necessity of task-specific fine-tuning. Unfortunately, the performance of LLMs is greatly influenced by the quality of these instructions, and manually writing effective instructions for each task is a laborious and subjective process. In this paper, we introduce Auto-Instruct, a novel method to automatically improve the quality of instructions provided to LLMs. Our method leverages the inherent generative ability of LLMs to produce diverse candidate instructions for a given task, and then ranks them using a scoring model trained on a variety of 575 existing NLP tasks. In experiments on 118 out-of-domain tasks, Auto-Instruct surpasses both human-written instructions and existing baselines of LLM-generated instructions. Furthermore, our method exhibits notable generalizability even with other LLMs that are not incorporated into its training process.
翻訳日:2023-10-24 01:28:22 公開日:2023-10-19
# 機械学習とサービス内データを用いた旅客船の燃費予測 : 比較検討

Fuel Consumption Prediction for a Passenger Ferry using Machine Learning and In-service Data: A Comparative Study ( http://arxiv.org/abs/2310.13123v1 )

ライセンス: Link先を確認
Pedram Agand, Allison Kennedy, Trevor Harris, Chanwoo Bae, Mo Chen, Edward J Park(参考訳) 環境にやさしい輸送の重要性が増すにつれて、海洋船の運用に効率的なアプローチが不可欠である。 気象状況を考慮した状態監視手法と船舶のサービス内データの利用予測には,船舶のエネルギー効率を予測するための正確かつ完全なモデルが必要である。 モデルは、すべての運用データをリアルタイムで効果的に処理する必要がある。 本稿では,旅客船から収集したサービス内データを用いて,燃料消費を予測するモデルを提案する。 モデルの適切な入力変数を選択するために統計的およびドメイン知識法が用いられた。 これらの方法は、実用性を提供しながら、過度に適合し、欠落したデータ、多項性を防止する。 検討した予測モデルには、多重線形回帰(MLR)、決定木アプローチ(DT)、人工知能ニューラルネットワーク(ANN)、アンサンブル手法などがある。 最高の予測性能は、強化アンサンブルアプローチであるXGboost技術を用いて開発されたモデルから得られる。 \rvv{Our codeは、将来の研究のためにGitHubの \url{https://github.com/pagand/model_optimze_vessel/tree/OE}で入手できる。

As the importance of eco-friendly transportation increases, providing an efficient approach for marine vessel operation is essential. Methods for status monitoring with consideration to the weather condition and forecasting with the use of in-service data from ships requires accurate and complete models for predicting the energy efficiency of a ship. The models need to effectively process all the operational data in real-time. This paper presents models that can predict fuel consumption using in-service data collected from a passenger ship. Statistical and domain-knowledge methods were used to select the proper input variables for the models. These methods prevent over-fitting, missing data, and multicollinearity while providing practical applicability. Prediction models that were investigated include multiple linear regression (MLR), decision tree approach (DT), an artificial neural network (ANN), and ensemble methods. The best predictive performance was from a model developed using the XGboost technique which is a boosting ensemble approach. \rvv{Our code is available on GitHub at \url{https://github.com/pagand/model_optimze_vessel/tree/OE} for future research.
翻訳日:2023-10-24 01:28:06 公開日:2023-10-19
# 変圧器の追加を理解する

Understanding Addition in Transformers ( http://arxiv.org/abs/2310.13121v1 )

ライセンス: Link先を確認
Philip Quirke, Fazl (Kiko) Barez(参考訳) Transformersのような機械学習モデルの内部動作を理解することは、安全で倫理的な使用に不可欠である。 本稿では,整数加算を訓練した単層変圧器モデルの詳細な解析を行う。 本モデルでは,タスクを並列な桁別ストリームに分割し,異なる桁位置の異なるアルゴリズムを用いる。 我々の研究は、モデルが計算を遅く開始するが、迅速に実行することも見出した。 高損失の稀なユースケースが同定され、説明される。 全体として、モデルのアルゴリズムは詳細に説明されている。 これらの発見は厳密なテストと数学的モデリングを通じて検証され、機械的解釈可能性、AI安全性、アライメントにおける幅広い研究に貢献した。 我々のアプローチは、より複雑なタスクと多層トランスフォーマーモデルを分析するための扉を開く。

Understanding the inner workings of machine learning models like Transformers is vital for their safe and ethical use. This paper presents an in-depth analysis of a one-layer Transformer model trained for integer addition. We reveal that the model divides the task into parallel, digit-specific streams and employs distinct algorithms for different digit positions. Our study also finds that the model starts calculations late but executes them rapidly. A rare use case with high loss is identified and explained. Overall, the model's algorithm is explained in detail. These findings are validated through rigorous testing and mathematical modeling, contributing to the broader works in Mechanistic Interpretability, AI safety, and alignment. Our approach opens the door for analyzing more complex tasks and multi-layer Transformer models.
翻訳日:2023-10-24 01:27:49 公開日:2023-10-19
# RSAdapter:リモートセンシング型視覚質問応答に対するマルチモーダルモデルの適用

RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering ( http://arxiv.org/abs/2310.13120v1 )

ライセンス: Link先を確認
Yuduo Wang, Pedram Ghamisi(参考訳) 近年、トランスモデルの急速な進歩に伴い、トランスフォーマーベースのマルチモーダルアーキテクチャは、画像キャプチャ、視覚質問応答(VQA)、画像テキスト生成など、様々な下流タスクに広く応用されている。 しかしながら、リモートセンシング(rs)vqaに対する現代のアプローチでは、大規模なモデルの完全な微調整や事前訓練されたマルチモーダルモデルからの画像テキストの特徴抽出、デコーダを用いたモダリティ融合など、リソース集約的な技術がしばしば用いられる。 これらのアプローチは重要な計算資源と時間を必要とし、かなりの数の訓練可能なパラメータが導入されている。 これらの課題に対処するために,ランタイムとパラメータ効率を優先するRSAdapterという新しい手法を導入する。 rsadapterは、並列アダプタと、アダプタ内の各完全接続(fc)層に挿入された追加の線形変換層である。 このアプローチは、事前訓練されたマルチモーダルモデルへの適応を改善するだけでなく、推論中に線形変換層のパラメータを前のFC層に統合し、推論コストを低減する。 RSAdapterの有効性を示すため、3つの異なるRS-VQAデータセットを用いて大規模な実験を行い、3つのデータセットすべてに対して最先端の結果を得る。 RSAdapterのコードはhttps://github.com/Y-D-Wang/RSAdapter.comで公開されている。

In recent years, with the rapid advancement of transformer models, transformer-based multimodal architectures have found wide application in various downstream tasks, including but not limited to Image Captioning, Visual Question Answering (VQA), and Image-Text Generation. However, contemporary approaches to Remote Sensing (RS) VQA often involve resource-intensive techniques, such as full fine-tuning of large models or the extraction of image-text features from pre-trained multimodal models, followed by modality fusion using decoders. These approaches demand significant computational resources and time, and a considerable number of trainable parameters are introduced. To address these challenges, we introduce a novel method known as RSAdapter, which prioritizes runtime and parameter efficiency. RSAdapter comprises two key components: the Parallel Adapter and an additional linear transformation layer inserted after each fully connected (FC) layer within the Adapter. This approach not only improves adaptation to pre-trained multimodal models but also allows the parameters of the linear transformation layer to be integrated into the preceding FC layers during inference, reducing inference costs. To demonstrate the effectiveness of RSAdapter, we conduct an extensive series of experiments using three distinct RS-VQA datasets and achieve state-of-the-art results on all three datasets. The code for RSAdapter will be available online at https://github.com/Y-D-Wang/RSAdapter.
翻訳日:2023-10-24 01:27:39 公開日:2023-10-19
# テキスト駆動型パノラマテクスチャプロパゲーションで部屋の空間を夢見るDreamSpace

DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture Propagation ( http://arxiv.org/abs/2310.13119v1 )

ライセンス: Link先を確認
Bangbang Yang, Wenqi Dong, Lin Ma, Wenbo Hu, Xiao Liu, Zhaopeng Cui, Yuewen Ma(参考訳) 拡散に基づく手法は、2Dメディアの生成において顕著な成功を収めた。 しかし、XR/VRのような3次元空間アプリケーションにおけるシーンレベルのメッシュテクスチャの同様の技術を実現するには、主に3次元幾何学の複雑な性質と没入型自由視点レンダリングの必要性のため、制約が残っている。 本稿では,室内シーンのテクスチャ生成のためのテキスト駆動テクスチャ生成フレームワークを提案する。 重要な洞察は、まずシーンの中心的な視点から360{\deg}パノラマテクスチャをスタイライゼーションし、その後、絵を描き、模倣するテクニックで他の領域に伝播させることである。 シーンに対して有意義で整列したテクスチャを確保するため,2つのテクスチャアライメントを用いた新しい粗粒度パノラマテクスチャ生成手法を開発し,キャプチャしたシーンのテクスチャの形状とテクスチャの手がかりを考察した。 テクスチャ伝播中に散らばったジオメトリから生き残るために, 秘密領域でテクスチャを塗りつぶし, 暗黙の模倣ネットワークを学習し, 遮蔽された小構造領域でテクスチャを合成する分離戦略を考案した。 実世界の屋内シーンでの広範囲な実験と没入型vrアプリケーションは、生成したテクスチャの高品質とvrヘッドセットでのエンゲージメント体験を示している。 プロジェクトWebページ:https://ybbbbt.com/publication/dreamspace

Diffusion-based methods have achieved prominent success in generating 2D media. However, accomplishing similar proficiencies for scene-level mesh texturing in 3D spatial applications, e.g., XR/VR, remains constrained, primarily due to the intricate nature of 3D geometry and the necessity for immersive free-viewpoint rendering. In this paper, we propose a novel indoor scene texturing framework, which delivers text-driven texture generation with enchanting details and authentic spatial coherence. The key insight is to first imagine a stylized 360{\deg} panoramic texture from the central viewpoint of the scene, and then propagate it to the rest areas with inpainting and imitating techniques. To ensure meaningful and aligned textures to the scene, we develop a novel coarse-to-fine panoramic texture generation approach with dual texture alignment, which both considers the geometry and texture cues of the captured scenes. To survive from cluttered geometries during texture propagation, we design a separated strategy, which conducts texture inpainting in confidential regions and then learns an implicit imitating network to synthesize textures in occluded and tiny structural areas. Extensive experiments and the immersive VR application on real-world indoor scenes demonstrate the high quality of the generated textures and the engaging experience on VR headsets. Project webpage: https://ybbbbt.com/publication/dreamspace
翻訳日:2023-10-24 01:27:13 公開日:2023-10-19
# 量子期待値の空間をマッピングする

Mapping the space of quantum expectation values ( http://arxiv.org/abs/2310.13111v1 )

ライセンス: Link先を確認
Seraphim Jarov and Mark Van Raamsdonk(参考訳) ヒルベルト空間 ${\cal h}$ of dimension $n$ とセット $n$ hermitian operator ${\cal o}_i$ を持つ量子系に対して、基本的な質問は、許可された状態 $\rho$ に対して$e_i = {\rm tr}(\rho {\cal o}_i)$ が成立する点のセット $e_s \subset \mathbb{r}^n$ of points $\vec{e}$ を理解することである。 関連する質問は、与えられた期待値のセット$\vec{e}$が$e_s$であるかどうかを判断することであり、この場合、最も一般的な状態をこれらの期待値で記述する。 本稿では、$E_S$を特徴付ける様々な方法を説明し、おそらく広くは知られていない基本結果をレビューし、新しいものを追加する。 1つの重要な結果(元は e. wichmann による)は、線型独立なトレースレス作用素のセット $s$ に対して、$e_s$ の内部での期待値 $\vec{e}$ は、$\rho({\vec{\beta}}) = e^{-\sum_i \beta_i {\cal o}_i}/{\rm tr}(e^{-\sum_i \beta_i {\cal o}_i})$ for ${\cal o}_i \in s$ という形式の状態によって一意に達成される。 実際、写像 $\vec{\beta} \to \vec{E}(\vec{\beta}) = {\rm tr}(\vec{\cal O} \rho({\vec{\beta}}))$ is a diffeomorphism from $\mathbb{R}^n$ to the interior of $E_S$ with symmetric, positive Jacobian; this fact, we provide a algorithm to invert $\vec{E}(\vec{\beta})$ and determine a state $\rho({\vec{\beta}(\vec{\beta})}$ with certain expectation value $\vec{e}$ provided for $E_S$。 このアルゴリズムは、パラメータの空間における一階微分方程式を定義することに基づいており、$\vec{\beta}(\vec{e})$に正確に収束することを保証し、$|\vec{E}(\vec{\beta}(t)) - \vec{e}| = C e^{-t}$である。

For a quantum system with Hilbert space ${\cal H}$ of dimension $N$ and a set $S$ of $n$ Hermitian operators ${\cal O}_i$, a basic question is to understand the set $E_S \subset \mathbb{R}^n$ of points $\vec{e}$ where $e_i = {\rm tr}(\rho {\cal O}_i)$ for an allowed state $\rho$. A related question is to determine whether a given set of expectation values $\vec{e}$ lies in $E_S$ and in this case to describe the most general state with these expectation values. In this paper, we describe various ways to characterize $E_S$, reviewing basic results that are perhaps not widely known and adding new ones. One important result (originally due to E. Wichmann) is that for a set $S$ of linearly independent traceless operators, every set of expectation values $\vec{e}$ in the interior of $E_S$ is achieved uniquely by a state of the form $\rho({\vec{\beta}}) = e^{-\sum_i \beta_i {\cal O}_i}/{\rm tr}(e^{-\sum_i \beta_i {\cal O}_i})$ for ${\cal O}_i \in S$. In fact, the map $\vec{\beta} \to \vec{E}(\vec{\beta}) = {\rm tr}(\vec{\cal O} \rho({\vec{\beta}}))$ is a diffeomorphism from $\mathbb{R}^n$ to the interior of $E_S$ with symmetric, positive Jacobian; using this fact, we provide an algorithm to invert $\vec{E}(\vec{\beta})$ and thus determine a state $\rho({\vec{\beta}(\vec{e})})$ with specified expectation values $\vec{e}$ provided that these lie in $E_S$. The algorithm is based on defining a first order differential equation in the space of parameters $\vec{\beta}$ that is guaranteed to converge to $\vec{\beta}(\vec{e})$ in a precise way, with $|\vec{E}(\vec{\beta}(t)) - \vec{e}| = C e^{-t}$.
翻訳日:2023-10-24 01:26:45 公開日:2023-10-19
# 神経常微分方程式を持つ力学系の半教師付き学習--教師・学生モデルによるアプローチ

Semi-Supervised Learning of Dynamical Systems with Neural Ordinary Differential Equations: A Teacher-Student Model Approach ( http://arxiv.org/abs/2310.13110v1 )

ライセンス: Link先を確認
Yu Wang, Yuxuan Yin, Karthik Somayaji Nanjangud Suryanarayana, Jan Drgona, Malachi Schram, Mahantesh Halappanavar, Frank Liu, Peng Li(参考訳) 力学系のモデリングは幅広いタスクにおいて不可欠であるが、複雑な非線形力学、限られた観測、事前知識の欠如などにより依然として困難である。 近年,ニューラルネットワークの表現力を利用して未知のダイナミクスをモデル化することで,ニューラル正規微分方程式(NODE)のようなデータ駆動型アプローチが有望な結果を示している。 しかし、これらのアプローチはしばしばラベル付きトレーニングデータに悩まされ、一般化や準最適予測が不十分になる。 一方、半教師付きアルゴリズムは豊富なラベル付きデータを利用することができ、分類や回帰作業において優れた性能を示した。 NODE を用いた動的システムのモデリングのための,最初の半教師付きアプローチである TS-NODE を提案する。 TS-NODEは、低コストで生成された擬似ロールアウトを探索し、州空間における探索を拡大し、教師-学生モデルの下での地中構造データ不足による課題に対処する。 TS-NODEは、学生のフィードバックに基づいて教師モデルを修正し、擬似ロールアウトに存在する潜在的な偽システムダイナミクスを緩和する統一最適化フレームワークを採用している。 TS-NODEは、複数の動的システムモデリングタスクのベースラインであるNeural ODEモデルに対して、大幅なパフォーマンス向上を示す。

Modeling dynamical systems is crucial for a wide range of tasks, but it remains challenging due to complex nonlinear dynamics, limited observations, or lack of prior knowledge. Recently, data-driven approaches such as Neural Ordinary Differential Equations (NODE) have shown promising results by leveraging the expressive power of neural networks to model unknown dynamics. However, these approaches often suffer from limited labeled training data, leading to poor generalization and suboptimal predictions. On the other hand, semi-supervised algorithms can utilize abundant unlabeled data and have demonstrated good performance in classification and regression tasks. We propose TS-NODE, the first semi-supervised approach to modeling dynamical systems with NODE. TS-NODE explores cheaply generated synthetic pseudo rollouts to broaden exploration in the state space and to tackle the challenges brought by lack of ground-truth system data under a teacher-student model. TS-NODE employs an unified optimization framework that corrects the teacher model based on the student's feedback while mitigating the potential false system dynamics present in pseudo rollouts. TS-NODE demonstrates significant performance improvements over a baseline Neural ODE model on multiple dynamical system modeling tasks.
翻訳日:2023-10-24 01:25:28 公開日:2023-10-19
# 多角形ビリヤードにおける半古典状態励起

The semiclassical states excitations in the multi-rectangular billiards ( http://arxiv.org/abs/2310.13166v1 )

ライセンス: Link先を確認
Stefan Giller(参考訳) l$の形をしたビリヤード等の量子化の問題、すなわち、各角度が$\pi/2$または$3\pi/2$であるような問題は、フーリエ級数展開法(英語版)のツールとして用いられる。 これらの多角形ビリヤード(MRB)におけるスーパーカー効果について,各波動関数と量子化条件を記述し,検討した。 近似コピーに存在する半古典的モードに最も近いモード全体に対してビリヤードが励起されるmrmのスーパースカル現象は、それらの平行辺が互いに合理的な関係にあるmrmである。

The problem of the quantizations of the $L$-shaped billiards and the like ones, i.e. each angle of which is equal to $\pi/2$ or $3\pi/2$, is considered using as a tool the Fourier series expansion method. The respective wave functions and the quantization conditions are written and discussed looking for and discussing about the superscars effects in such multi-rectangular billiards (MRB). It is found that a special set of POC modes effect the superscars phenomena in MRB in which the billiards are excited as a whole to the modes closest to the semiclassical ones existing in their approximated copies being MRB in which their parallel sides remain in rational relations between themselves.
翻訳日:2023-10-24 01:16:33 公開日:2023-10-19
# CycleNet: 画像操作のためのテキストガイド拡散におけるサイクル一貫性の再考

CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for Image Manipulation ( http://arxiv.org/abs/2310.13165v1 )

ライセンス: Link先を確認
Sihan Xu, Ziqiao Ma, Yidong Huang, Honglak Lee, Joyce Chai(参考訳) 拡散モデル(DM)は画像合成タスクのブレークスルーを実現するが、一貫したイメージ・ツー・イメージ(I2I)翻訳のための直感的なインタフェースは欠如している。 マスクベースの方法、注意に基づく方法、イメージコンディショニングなど、この問題に対処する様々な方法が研究されている。 しかし、未対応のi2i翻訳を事前訓練したdmで有効にすることは、一貫性を維持しつつも重要な課題である。 本稿では,dmsに周期一貫性を組み込んで画像操作を規則化する新しい手法であるcyclenetを提案する。 粒度の異なる非ペアi2iタスクでcyclenetを検証する。 シーンとオブジェクトレベルの変換に加えて、オブジェクトの物理的状態変化を研究するために、マルチドメインI2I翻訳データセットも提供します。 実験により、Cyclenetは翻訳の一貫性と品質に優れており、テキストプロンプトの簡単な変更で領域外分布の高品質な画像を生成することができることがわかった。 Cyclenetは、非常に限られたトレーニングデータ(約2k)でも堅牢で、トレーニングに最小の計算リソース(1GPU)を必要とする、実用的なフレームワークである。 プロジェクトホームページ: https://cyclenetweb.github.io/

Diffusion models (DMs) have enabled breakthroughs in image synthesis tasks but lack an intuitive interface for consistent image-to-image (I2I) translation. Various methods have been explored to address this issue, including mask-based methods, attention-based methods, and image-conditioning. However, it remains a critical challenge to enable unpaired I2I translation with pre-trained DMs while maintaining satisfying consistency. This paper introduces Cyclenet, a novel but simple method that incorporates cycle consistency into DMs to regularize image manipulation. We validate Cyclenet on unpaired I2I tasks of different granularities. Besides the scene and object level translation, we additionally contribute a multi-domain I2I translation dataset to study the physical state changes of objects. Our empirical studies show that Cyclenet is superior in translation consistency and quality, and can generate high-quality images for out-of-domain distributions with a simple change of the textual prompt. Cyclenet is a practical framework, which is robust even with very limited training data (around 2k) and requires minimal computational resources (1 GPU) to train. Project homepage: https://cyclenetweb.github.io/
翻訳日:2023-10-24 01:16:19 公開日:2023-10-19
# リー代数畳み込みによる概等分散

Almost Equivariance via Lie Algebra Convolutions ( http://arxiv.org/abs/2310.13164v1 )

ライセンス: Link先を確認
Daniel McNeela(参考訳) 近年,機械学習の研究において,集団行動に関するモデルの等価性が重要な話題となっている。 しかし、特定のグループの同値性を持つアーキテクチャを付与することは、モデルが期待するデータ変換のタイプに強く先行する。 厳密な同変モデルは対称性を強制するが、実世界のデータは必ずしもそのような厳密な等式に従わない。 そのような場合、厳密な等分散の事前は実際には強すぎることが証明され、実世界のデータでモデルが過小評価される。 そこで本研究では,近縁な話題であるほぼ同値な話題について考察する。 本論文は,現在の文献に存在するものと異なる概等分散の定義を提供し,リー群のリー代数に訴えることでモデルの概等分散を符号化する実用的な方法を提案する。 具体的には、リー代数の畳み込みを定義し、それらがリー群畳み込みに対していくつかの利点を与えることを示す。 そこから、我々は理論の領域に方向転換し、等分散と等分散の概念と、ほぼ等分散と概等化の概念の間の接続をそれぞれ示す。 2つの存在定理を証明し、1つは一般多様体の同型の有界距離内における概等距離の存在を示し、もう1つはヒルベルト空間の逆を示す。 次に、これらの定理を拡張して、群作用と函数類に関する一定の制約に従う完全同値な埋め込み関数の有界距離内における概同値多様体埋め込みの存在を証明する。 最後に、完全同値およびほぼ同値な設定でデータセットに対してベンチマークを行うことにより、このアプローチの有効性を実証する。

Recently, the equivariance of models with respect to a group action has become an important topic of research in machine learning. However, imbuing an architecture with a specific group equivariance imposes a strong prior on the types of data transformations that the model expects to see. While strictly-equivariant models enforce symmetries, real-world data does not always conform to such strict equivariances, be it due to noise in the data or underlying physical laws that encode only approximate or partial symmetries. In such cases, the prior of strict equivariance can actually prove too strong and cause models to underperform on real-world data. Therefore, in this work we study a closely related topic, that of almost equivariance. We provide a definition of almost equivariance that differs from those extant in the current literature and give a practical method for encoding almost equivariance in models by appealing to the Lie algebra of a Lie group. Specifically, we define Lie algebra convolutions and demonstrate that they offer several benefits over Lie group convolutions, including being well-defined for non-compact groups. From there, we pivot to the realm of theory and demonstrate connections between the notions of equivariance and isometry and those of almost equivariance and almost isometry, respectively. We prove two existence theorems, one showing the existence of almost isometries within bounded distance of isometries of a general manifold, and another showing the converse for Hilbert spaces. We then extend these theorems to prove the existence of almost equivariant manifold embeddings within bounded distance of fully equivariant embedding functions, subject to certain constraints on the group action and the function class. Finally, we demonstrate the validity of our approach by benchmarking against datasets in fully equivariant and almost equivariant settings.
翻訳日:2023-10-24 01:15:57 公開日:2023-10-19
# 気象予測への分散アプローチ:フェデレーション学習とgansによる降水予測モデルにおけるデータ不均衡の解消

A Distributed Approach to Meteorological Predictions: Addressing Data Imbalance in Precipitation Prediction Models through Federated Learning and GANs ( http://arxiv.org/abs/2310.13161v1 )

ライセンス: Link先を確認
Elaheh Jafarigol, Theodore Trafalis(参考訳) 気象データの分類では、気象現象を分類して分類し、農業、航空、災害管理など様々な分野の微妙な分析と正確な予測を容易にする。 これには、機械学習モデルを使用して、パターンとトレンドの大規模多次元気象データセットを分析する。 これらのデータセットには、温度、湿度、風速、気圧などの変数が含まれ、気象条件に寄与する。 さらに、特定の気象事象(嵐や極端な気温など)が過小評価される可能性があるデータ不均衡などの課題を、分類アルゴリズムが巧みにナビゲートすることが不可欠である。 本実験では,集中型およびフェデレーション型における表型気象データにおける不均衡クラスに対処するためのデータ拡張手法について検討する。 Synthetic Minority Over-Sampling TechniqueやGenerative Adversarial Networksのようなデータ強化技術を利用することで、稀だが重要な気象事象の分類におけるモデルの精度を向上させることができる。 さらに、連合学習の進歩により、分散データベース間で機械学習モデルをトレーニングすることができ、集中型データストレージと処理の必要性を緩和しながら、プライバシとデータの整合性を確保することができる。 このように、気象データの分類は重要な橋であり、気象データを行動可能な洞察と結びつけ、気象条件を予測し準備する能力を高めている。

The classification of weather data involves categorizing meteorological phenomena into classes, thereby facilitating nuanced analyses and precise predictions for various sectors such as agriculture, aviation, and disaster management. This involves utilizing machine learning models to analyze large, multidimensional weather datasets for patterns and trends. These datasets may include variables such as temperature, humidity, wind speed, and pressure, contributing to meteorological conditions. Furthermore, it's imperative that classification algorithms proficiently navigate challenges such as data imbalances, where certain weather events (e.g., storms or extreme temperatures) might be underrepresented. This empirical study explores data augmentation methods to address imbalanced classes in tabular weather data in centralized and federated settings. Employing data augmentation techniques such as the Synthetic Minority Over-sampling Technique or Generative Adversarial Networks can improve the model's accuracy in classifying rare but critical weather events. Moreover, with advancements in federated learning, machine learning models can be trained across decentralized databases, ensuring privacy and data integrity while mitigating the need for centralized data storage and processing. Thus, the classification of weather data stands as a critical bridge, linking raw meteorological data to actionable insights, enhancing our capacity to anticipate and prepare for diverse weather conditions.
翻訳日:2023-10-24 01:15:29 公開日:2023-10-19
# グラフィカルな構成からハイゼンベルク模型のすべての積固有状態

All product eigenstates in Heisenberg models from a graphical construction ( http://arxiv.org/abs/2310.13158v1 )

ライセンス: Link先を確認
Felix Gerken, Ingo Runkel, Christoph Schweigert, Thore Posske(参考訳) 近年,スピンラダー,カゴメ様格子,モチーフ磁性において,生成固有状態に基づく大きな縮退が見られ,スピン液体,アノニオン相,量子スカーに結合している。 これらの系をハイゼンベルク XXZ ハミルトニアンの積固有状態の完全分類と、スピン超電流に対するキルヒホフ則の形で一般グラフ上のジアロシンスキー・モリヤ相互作用によって統一する。 これにより、原子ガスや量子スピン格子で研究できるエキゾチックな凝縮物と深い縮退度を持つスピン系を構築することができる。

Recently, large degeneracy based on product eigenstates has been found in spin ladders, Kagome-like lattices, and motif magnetism, connected to spin liquids, anyonic phases, and quantum scars. We unify these systems by a complete classification of product eigenstates of Heisenberg XXZ Hamiltonians with Dzyaloshinskii-Moriya interaction on general graphs in the form of Kirchhoff rules for spin supercurrent. By this, we construct spin systems with extensive degree of degeneracy linked to exotic condensates which can be studied in atomic gases and quantum spin lattices.
翻訳日:2023-10-24 01:15:03 公開日:2023-10-19
# 画像, 3dアニメーション, 映像の条件付き生成モデリング

Conditional Generative Modeling for Images, 3D Animations, and Video ( http://arxiv.org/abs/2310.13157v1 )

ライセンス: Link先を確認
Vikram Voleti(参考訳) この論文は、条件付き生成モデルの新規な定式化と、画像、3dアニメーション、ビデオにおける革新的な応用を探求することで、コンピュータビジョンのための生成モデリングの分野における革新を推進する試みである。 本研究は,ノイズと視覚データの可逆変換を提供するアーキテクチャと,生成タスクおよび3次元コンテンツ操作のためのエンコーダデコーダアーキテクチャの適用に焦点を当てる。 すべての事例において、条件情報を導入し、視覚データの合成を強化し、生成プロセスの効率と生成されたコンテンツを改善する。 本稿では,エンコーダ-デコーダアーキテクチャを用いたビデオダイナミクスのモデル化にニューラルネットワークを用いた場合,現在のフレームを再構築するためにのみ訓練されたにも関わらず,将来のビデオフレームを予測する能力を示す。 次に,低解像度入力に基づく高分解能画像生成を可能にし,パラメータとトレーニング時間を削減しつつ,同等の画質を達成する連続正規化フローの条件付き変種を提案する。 次のコントリビューションでは,人間のイメージを入力とし,ユーザの指定した3Dキャラクタと人間のポーズを自動的に調整し,部分的な入力に基づいたポーズ編集を容易にするパイプラインを提案する。 次に,非等方性ガウス過程を用いる拡散モデルについて関連する数学的詳細を導出し,同等の世代品質を示す。 最後に,予測,生成,補間という3つの映像タスクを全て解決可能な,新しい雑音拡散フレームワークを考案する。 アブレーション研究を行い、複数のデータセット上でSOTA結果を示す。 当社のコントリビューションは、ピアレビューされた会場で公開されているものです。 我々の研究は、コンピュータビジョンの未来を形作る可能性があり、より効率的で柔軟な生成モデル追求に有意義な貢献をすることを目的としています。

This dissertation attempts to drive innovation in the field of generative modeling for computer vision, by exploring novel formulations of conditional generative models, and innovative applications in images, 3D animations, and video. Our research focuses on architectures that offer reversible transformations of noise and visual data, and the application of encoder-decoder architectures for generative tasks and 3D content manipulation. In all instances, we incorporate conditional information to enhance the synthesis of visual data, improving the efficiency of the generation process as well as the generated content. We introduce the use of Neural ODEs to model video dynamics using an encoder-decoder architecture, demonstrating their ability to predict future video frames despite being trained solely to reconstruct current frames. Next, we propose a conditional variant of continuous normalizing flows that enables higher-resolution image generation based on lower-resolution input, achieving comparable image quality while reducing parameters and training time. Our next contribution presents a pipeline that takes human images as input, automatically aligns a user-specified 3D character with the pose of the human, and facilitates pose editing based on partial inputs. Next, we derive the relevant mathematical details for denoising diffusion models that use non-isotropic Gaussian processes, and show comparable generation quality. Finally, we devise a novel denoising diffusion framework capable of solving all three video tasks of prediction, generation, and interpolation. We perform ablation studies, and show SOTA results on multiple datasets. Our contributions are published articles at peer-reviewed venues. Overall, our research aims to make a meaningful contribution to the pursuit of more efficient and flexible generative models, with the potential to shape the future of computer vision.
翻訳日:2023-10-24 01:14:52 公開日:2023-10-19
# CLIFT:臨床領域における質問応答モデルによる自然分布変化の分析

CLIFT: Analysing Natural Distribution Shift on Question Answering Models in Clinical Domain ( http://arxiv.org/abs/2310.13146v1 )

ライセンス: Link先を確認
Ankit Pal(参考訳) 本稿では,臨床領域質問応答タスクのための新しいテストベッドCLIFT(Clinical Shift)を提案する。 テストベッドには7.5kの質の高い質問応答サンプルが含まれており、多様で信頼性の高いベンチマークを提供する。 総合的な実験を行い,提案するテストベッド下でのqa深層学習モデルの評価を行った。 オリジナルのテストセットでの印象的な結果にもかかわらず、新しいテストセットに適用するとパフォーマンスは低下し、分散シフトを示す。 本研究は, 分布変化による臨床領域モデルの堅牢性向上の必要性と可能性を強調した。 テストベッドは、その方向の進捗を追跡する一つの方法を提供する。 また,自然分布変化に対するロバスト性を考慮した評価指標の採用の必要性を強調する。 より多くのサンプルとモデル結果を追加してコーパスを拡張する予定です。 全紙と最新のベンチマークはgithub.com/openlifescience-ai/cliftで公開されている。

This paper introduces a new testbed CLIFT (Clinical Shift) for the clinical domain Question-answering task. The testbed includes 7.5k high-quality question answering samples to provide a diverse and reliable benchmark. We performed a comprehensive experimental study and evaluated several QA deep-learning models under the proposed testbed. Despite impressive results on the original test set, the performance degrades when applied to new test sets, which shows the distribution shift. Our findings emphasize the need for and the potential for increasing the robustness of clinical domain models under distributional shifts. The testbed offers one way to track progress in that direction. It also highlights the necessity of adopting evaluation metrics that consider robustness to natural distribution shifts. We plan to expand the corpus by adding more samples and model results. The full paper and the updated benchmark are available at github.com/openlifescience-ai/clift
翻訳日:2023-10-24 01:14:22 公開日:2023-10-19
# 多項式アクティベーションを持つグラフニューラルネットワークの表現性に制限がある

Graph Neural Networks with polynomial activations have limited expressivity ( http://arxiv.org/abs/2310.13139v1 )

ライセンス: Link先を確認
Sammy Khalife(参考訳) グラフニューラルネットワーク(GNN)の表現性は、第一次論理の適切な断片によって完全に特徴付けられる。 すなわち、ラベル付きグラフ上で解釈された2つの変分論理(GC2)の任意のクエリは、クエリの深さにのみ依存する大きさのGNNを用いて表現することができる。 Barcelo & Al., 2020, Grohe, 2021 ] で指摘されているように、この記述は活性化関数の族であり、選択された活性化関数に依存するGNNによって表現される論理の階層に対する可能性を残している。 本稿では,gc2クエリが多項式アクティベーション関数を持つgnnで表現できないことを証明して,このような階層構造が存在することを示す。 これは多項式と一般的な非多項式アクティベーション(relus、sgmoid、hyperbolic tanなど)の分離を意味し、[grohe, 2021]で定式化されたオープン質問に答える。

The expressivity of Graph Neural Networks (GNNs) can be entirely characterized by appropriate fragments of the first order logic. Namely, any query of the two variable fragment of graded modal logic (GC2) interpreted over labelled graphs can be expressed using a GNN whose size depends only on the depth of the query. As pointed out by [Barcelo & Al., 2020, Grohe, 2021 ], this description holds for a family of activation functions, leaving the possibibility for a hierarchy of logics expressible by GNNs depending on the chosen activation function. In this article, we show that such hierarchy indeed exists by proving that GC2 queries cannot be expressed by GNNs with polynomial activation functions. This implies a separation between polynomial and popular non polynomial activations (such as ReLUs, sigmoid and hyperbolic tan and others) and answers an open question formulated by [Grohe, 2021].
翻訳日:2023-10-24 01:14:10 公開日:2023-10-19
# 不均一なプライバシー要求による平均推定

Mean Estimation Under Heterogeneous Privacy Demands ( http://arxiv.org/abs/2310.13137v1 )

ライセンス: Link先を確認
Syomantak Chaudhuri, Konstantin Miagkov, Thomas A. Courtade(参考訳) differential privacy (dp)は、任意のアルゴリズムによって引き起こされるプライバシー損失を定量化する、確立されたフレームワークである。 従来の定式化では、すべてのユーザに統一されたプライバシー要件が課されており、これはユーザがプライバシの好みを個別に決定する現実世界のシナリオと矛盾することが多い。 この研究は、各ユーザーが独自のプライバシーレベルを課すことができる平均推定の問題を考える。 提案するアルゴリズムは,ミニマックス最適であり,ほぼ直線的な実行時間を有することを示す。 私たちの結果は興味深い飽和現象を引き起こします。 つまり、最も厳格なユーザーのプライバシー要件は、全体のエラー率を規定する。 その結果、プライバシ要件が小さいが異なるユーザは、必要以上のプライバシを平等に与えられることになる。 言い換えれば、これらのプライバシーに無関心なユーザーは、推定器の性能を犠牲にすることなく、無料で非自明なプライバシーを与えられる。

Differential Privacy (DP) is a well-established framework to quantify privacy loss incurred by any algorithm. Traditional formulations impose a uniform privacy requirement for all users, which is often inconsistent with real-world scenarios in which users dictate their privacy preferences individually. This work considers the problem of mean estimation, where each user can impose their own distinct privacy level. The algorithm we propose is shown to be minimax optimal and has a near-linear run-time. Our results elicit an interesting saturation phenomenon that occurs. Namely, the privacy requirements of the most stringent users dictate the overall error rates. As a consequence, users with less but differing privacy requirements are all given more privacy than they require, in equal amounts. In other words, these privacy-indifferent users are given a nontrivial degree of privacy for free, without any sacrifice in the performance of the estimator.
翻訳日:2023-10-24 01:13:51 公開日:2023-10-19
# AI予測材料特性の不確実性定量化へのアプローチ:比較

Approaches for Uncertainty Quantification of AI-predicted Material Properties: A Comparison ( http://arxiv.org/abs/2310.13136v1 )

ライセンス: Link先を確認
Francesca Tavazza and Kamal Choudhary and Brian DeCost(参考訳) 材料特性の大規模データベースの開発と強力なコンピュータの可用性により、機械学習(ML)モデリングは材料性能を予測するツールとして広く利用されている。 このようなMLモデルでは信頼区間が一般的に報告されるが、予測間隔、すなわち各予測の不確実性はそれほど頻繁には得られない。 そこで本研究では, エネルギー, 機械的, 電子的, 光学的, スペクトル的特性にまたがる10mlの量を比較することにより, 実装が容易な3つの方法を検討した。 具体的には、Quantileアプローチ、予測間隔の直接機械学習、およびEnsemble手法に焦点を当てた。

The development of large databases of material properties, together with the availability of powerful computers, has allowed machine learning (ML) modeling to become a widely used tool for predicting material performances. While confidence intervals are commonly reported for such ML models, prediction intervals, i.e., the uncertainty on each prediction, are not as frequently available. Here, we investigate three easy-to-implement approaches to determine such individual uncertainty, comparing them across ten ML quantities spanning energetics, mechanical, electronic, optical, and spectral properties. Specifically, we focused on the Quantile approach, the direct machine learning of the prediction intervals and Ensemble methods.
翻訳日:2023-10-24 01:13:38 公開日:2023-10-19
# 気候変動・イノベーション・不確実性の深層学習分析

A Deep Learning Analysis of Climate Change, Innovation, and Uncertainty ( http://arxiv.org/abs/2310.13200v1 )

ライセンス: Link先を確認
Michael Barnett, William Brock, Lars Peter Hansen, Ruimeng Hu, Joseph Huang(参考訳) 本研究では, 生産時に炭素排出量を発生させる「汚れ」資本, 排ガスを発生しないが汚い資本よりも生産性が低い「クリーン」資本, 研究開発投資によって増大し, 温室効果ガス生産における技術革新につながる知識資本の3種類の資本を持つ気候経済枠組みにおけるモデル不確実性の影響について検討する。 高次元非線形モデルフレームワークを解決するために,ニューラルネットワークに基づくグローバルソリューション手法を実装した。 総合的な気候経済革新の枠組みにおいて,モデル不確実性が最適決定と社会的評価に与える影響を1次的に示す。 気候力学、気候変動による経済被害、グリーン・テクノロジー・チェンジの到来に関する相互関係の不確実性は、技術変化の予測と気候変動の深刻さの顕在化において、異なる資本タイプへの投資に対する実質的な調整に繋がる。

We study the implications of model uncertainty in a climate-economics framework with three types of capital: "dirty" capital that produces carbon emissions when used for production, "clean" capital that generates no emissions but is initially less productive than dirty capital, and knowledge capital that increases with R\&D investment and leads to technological innovation in green sector productivity. To solve our high-dimensional, non-linear model framework we implement a neural-network-based global solution method. We show there are first-order impacts of model uncertainty on optimal decisions and social valuations in our integrated climate-economic-innovation framework. Accounting for interconnected uncertainty over climate dynamics, economic damages from climate change, and the arrival of a green technological change leads to substantial adjustments to investment in the different capital types in anticipation of technological change and the revelation of climate damage severity.
翻訳日:2023-10-24 01:07:04 公開日:2023-10-19
# 自動車販売プロセスの合理化のための自動車モデル識別システム

A Car Model Identification System for Streamlining the Automobile Sales Process ( http://arxiv.org/abs/2310.13198v1 )

ライセンス: Link先を確認
Said Togru, Jenny Huang, Marco Moldovan(参考訳) 本プロジェクトでは,オンラインカー販売プラットフォーム上での車両登録プロセスの合理化を目的とした,車両モデルと画像からの効率的な識別のための自動ソリューションを提案する。 畳み込みニューラルネットワーク(CNN)、ビジョントランスフォーマー(ViT)、ハイブリッドモデルなど、様々な効率的なネットワークアーキテクチャを網羅した徹底的な調査を通じて、EfficientNet(V2 b2)アーキテクチャを使用した81.97%の精度を達成した。 性能向上のために,データ強化,微調整事前訓練モデル,広範ハイパーパラメータチューニングを含む戦略の組み合わせを適用した。 トレーニングされたモデルは、情報抽出を自動化し、自動車販売webサイト全体のユーザエクスペリエンスを向上させる可能性を提供する。

This project presents an automated solution for the efficient identification of car models and makes from images, aimed at streamlining the vehicle listing process on online car-selling platforms. Through a thorough exploration encompassing various efficient network architectures including Convolutional Neural Networks (CNNs), Vision Transformers (ViTs), and hybrid models, we achieved a notable accuracy of 81.97% employing the EfficientNet (V2 b2) architecture. To refine performance, a combination of strategies, including data augmentation, fine-tuning pretrained models, and extensive hyperparameter tuning, were applied. The trained model offers the potential for automating information extraction, promising enhanced user experiences across car-selling websites.
翻訳日:2023-10-24 01:06:46 公開日:2023-10-19
# nameguess: 表データのためのカラム名拡張

NameGuess: Column Name Expansion for Tabular Data ( http://arxiv.org/abs/2310.13196v1 )

ライセンス: Link先を確認
Jiani Zhang, Zhengyuan Shen, Balasubramaniam Srinivasan, Shen Wang, Huzefa Rangwala, George Karypis(参考訳) 大規模言語モデルの最近の進歩は、データベース産業を含む多くの分野に革命をもたらした。 大量の表データを扱う場合の一般的な課題の1つは、様々なデータ検索、アクセス、理解タスクのパフォーマンスに悪影響を及ぼす可能性のある短縮列名の使用である。 この問題に対処するため,我々は列名(データベーススキーマで使用される)を自然言語生成問題として拡張する,NameGuessと呼ばれる新しいタスクを導入する。 新しいデータ作成法と実世界の表から9.2kの例を含む人間による評価ベンチマークを用いて、384kの省略列ペアのトレーニングデータセットを作成する。 NameGuessのポリセミーと曖昧さに関連する複雑さに対処するため、テーブルの内容と列ヘッダー名を条件にすることで自動回帰言語モデルを強化し、人間のパフォーマンスにマッチする微調整されたモデル(2.7Bパラメータ)を生成する。 さらに,複数の LLM を用いて包括的分析を行い,NameGuess におけるテーブル内容の有効性を検証し,将来的な可能性を明らかにする。 コードはhttps://github.com/amazon-science/nameguessで入手できる。

Recent advances in large language models have revolutionized many sectors, including the database industry. One common challenge when dealing with large volumes of tabular data is the pervasive use of abbreviated column names, which can negatively impact performance on various data search, access, and understanding tasks. To address this issue, we introduce a new task, called NameGuess, to expand column names (used in database schema) as a natural language generation problem. We create a training dataset of 384K abbreviated-expanded column pairs using a new data fabrication method and a human-annotated evaluation benchmark that includes 9.2K examples from real-world tables. To tackle the complexities associated with polysemy and ambiguity in NameGuess, we enhance auto-regressive language models by conditioning on table content and column header names -- yielding a fine-tuned model (with 2.7B parameters) that matches human performance. Furthermore, we conduct a comprehensive analysis (on multiple LLMs) to validate the effectiveness of table content in NameGuess and identify promising future opportunities. Code has been made available at https://github.com/amazon-science/nameguess.
翻訳日:2023-10-24 01:06:30 公開日:2023-10-19
# データ駆動トラフィック割り当てのためのヘテロジニアスグラフニューラルネットワーク

Heterogeneous Graph Neural Networks for Data-driven Traffic Assignment ( http://arxiv.org/abs/2310.13193v1 )

ライセンス: Link先を確認
Tong Liu and Hadi Meidani(参考訳) 交通割当問題は,様々な解法が提案されている交通流解析における重要な要素の1つである。 しかし、これらのアプローチを大規模ネットワークに展開することは大きな課題となる。 本稿では、異種グラフニューラルネットワークのパワーを活用し、トラフィック割り当てとトラフィックフロー学習のための新しいデータ駆動型アプローチを提案する。 提案モデルでは,異なるリンク間の空間的トラフィックパターンをキャプチャし,高精度な結果が得られる。 都市交通ネットワークに関する数値実験を行い,提案した異種グラフニューラルネットワークモデルが,収束率,トレーニング損失,予測精度において,従来のニューラルネットワークモデルよりも優れていることを示す。 特に、提案した異種グラフニューラルネットワークモデルは、異なるネットワークトポロジに一般化することもできる。 このアプローチは、複雑な交通の流れの分析と予測に有望なソリューションを提供し、幅広い輸送システムの理解と管理を強化します。

The traffic assignment problem is one of the significant components of traffic flow analysis for which various solution approaches have been proposed. However, deploying these approaches for large-scale networks poses significant challenges. In this paper, we leverage the power of heterogeneous graph neural networks to propose a novel data-driven approach for traffic assignment and traffic flow learning. The proposed model is capable of capturing spatial traffic patterns across different links, yielding highly accurate results. We present numerical experiments on urban transportation networks and show that the proposed heterogeneous graph neural network model outperforms other conventional neural network models in terms of convergence rate, training loss, and prediction accuracy. Notably, the proposed heterogeneous graph neural network model can also be generalized to different network topologies. This approach offers a promising solution for complex traffic flow analysis and prediction, enhancing our understanding and management of a wide range of transportation systems.
翻訳日:2023-10-24 01:06:11 公開日:2023-10-19
# 人工知能の不透明な法則

The opaque law of artificial intelligence ( http://arxiv.org/abs/2310.13192v1 )

ライセンス: Link先を確認
Vincenzo Calderonio(参考訳) 本研究の目的は、人工知能の因果関係に関するオープンな議論において、アルゴリズムの不透明性を分析することであり、チューリングテストの会話手法を応用した実験的なアプローチにより、生成AI(Chat-GPT)の最も優れたNLPモデルの1つの性能評価を行い、それが現在どこまで進むことができるのか、また、その法規制の形がどうあるのかを確かめることである。 問題の分析は、aiの使用の問題を理解するための因果性、意図、欠点など、特に人間と機械の相互作用に焦点を当てたイタリアの古典法カテゴリーのコメントによって支持される。 コンピュータ科学の面では、これらのアルゴリズムを構築するのに使用される論理の技術的な観点から、第2章では、AIの機能のいくつかの重要な点を見つけることを目的としたChat-GPTの実践的な尋問が提案される。 論文の最後には、この問題に適用可能な既存の法的ソリューションと、EU人工知能法によって提案されたアプローチの簡単な説明に焦点を当てる。

The purpose of this paper is to analyse the opacity of algorithms, contextualized in the open debate on responsibility for artificial intelligence causation; with an experimental approach by which, applying the proposed conversational methodology of the Turing Test, we expect to evaluate the performance of one of the best existing NLP model of generative AI (Chat-GPT) to see how far it can go right now and how the shape of a legal regulation of it could be. The analysis of the problem will be supported by a comment of Italian classical law categories such as causality, intent and fault to understand the problem of the usage of AI, focusing in particular on the human-machine interaction. On the computer science side, for a technical point of view of the logic used to craft these algorithms, in the second chapter will be proposed a practical interrogation of Chat-GPT aimed at finding some critical points of the functioning of AI. The end of the paper will concentrate on some existing legal solutions which can be applied to the problem, plus a brief description of the approach proposed by EU Artificial Intelligence act.
翻訳日:2023-10-24 01:05:58 公開日:2023-10-19
# ロバスト・プルーニングに向けて:言語モデルのための適応的知識保持プルーニング戦略

Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy for Language Models ( http://arxiv.org/abs/2310.13191v1 )

ライセンス: Link先を確認
Jianwei Li, Qi Lei, Wei Cheng, Dongkuan Xu(参考訳) pruningの目標は、言語モデルの正確性と頑健性を超えて、最近拡張された。 それにもかかわらず、既存の手法は、モデルの間隔を継続的に増加させ、再訓練プロセスを必要とする場合、敵攻撃に対する堅牢性を高めるのに苦労している。 人間が大きな言語モデルの時代に入ると、これらの問題はますます顕著になる。 本稿では, 言語モデルの頑健性は, 学習済み知識の程度に比例することを示す。 そこで本研究では,高密度言語モデルの埋め込み空間と特徴空間を忠実に再現し,pruningプロセスにおける事前学習知識の保存を目的とした,訓練後のpruning戦略を提案する。 このセットアップでは、各レイヤの再構成エラーはそれ自体から発生するだけでなく、前のレイヤからの累積誤差も含む。 他の最先端のベースラインと比較して、我々のアプローチは、SST2、IMDB、AGNewsのデータセット上でBERTによる精度、スパーシリティ、ロバスト性、およびプルーニングコストのバランスが優れていることを示す。

The pruning objective has recently extended beyond accuracy and sparsity to robustness in language models. Despite this, existing methods struggle to enhance robustness against adversarial attacks when continually increasing model sparsity and require a retraining process. As humans step into the era of large language models, these issues become increasingly prominent. This paper proposes that the robustness of language models is proportional to the extent of pre-trained knowledge they encompass. Accordingly, we introduce a post-training pruning strategy designed to faithfully replicate the embedding space and feature space of dense language models, aiming to conserve more pre-trained knowledge during the pruning process. In this setup, each layer's reconstruction error not only originates from itself but also includes cumulative error from preceding layers, followed by an adaptive rectification. Compared to other state-of-art baselines, our approach demonstrates a superior balance between accuracy, sparsity, robustness, and pruning cost with BERT on datasets SST2, IMDB, and AGNews, marking a significant stride towards robust pruning in language models.
翻訳日:2023-10-24 01:05:36 公開日:2023-10-19
# 文書の高速かつ高精度な不整合検出

Fast and Accurate Factual Inconsistency Detection Over Long Documents ( http://arxiv.org/abs/2310.13189v1 )

ライセンス: Link先を確認
Barrett Martin Lattimer, Patrick Chen, Xinyuan Zhang, Yi Yang(参考訳) しかし、様々なタスクにわたる幻覚は、特に現在のアプローチが効果的に対処するのに苦労している長いインプットに対して重要な課題である。 我々は,新しいチャンキング戦略を用いて事実的不整合を検出するタスク非依存モデルであるscale(source chunking approach for large-scale inconsistency evaluation)を導入する。 特にSCALEは自然言語推論(NLI)ベースのモデルで、大きなテキストチャンクを使って長いテキストを条件付けする。 このアプローチは、様々なタスクや長い入力に対して、現実の不整合検出における最先端のパフォーマンスを実現する。 さらに,チャンキング機構を活用し,関連する文検索によるスケール決定を説明するために,新しいアルゴリズムを用いる。 評価の結果、SCALEは、標準ベンチマークと構築した新しい長文対話データセットScreenEvalの両方で、既存のメソッドよりも優れています。 さらに、SCALEは効率およびモデル説明評価において競争システムを上回る。

Generative AI models exhibit remarkable potential; however, hallucinations across various tasks present a significant challenge, particularly for longer inputs that current approaches struggle to address effectively. We introduce SCALE (Source Chunking Approach for Large-scale inconsistency Evaluation), a task-agnostic model for detecting factual inconsistencies using a novel chunking strategy. Specifically, SCALE is a Natural Language Inference (NLI) based model that uses large text chunks to condition over long texts. This approach achieves state-of-the-art performance in factual inconsistency detection for diverse tasks and long inputs. Additionally, we leverage the chunking mechanism and employ a novel algorithm to explain SCALE's decisions through relevant source sentence retrieval. Our evaluations reveal that SCALE outperforms existing methods on both standard benchmarks and a new long-form dialogue dataset ScreenEval we constructed. Moreover, SCALE surpasses competitive systems in efficiency and model explanation evaluations.
翻訳日:2023-10-24 01:05:11 公開日:2023-10-19
# 決定論的障壁を破る:ランダムなプルーニングマスクの生成と選択

Breaking through Deterministic Barriers: Randomized Pruning Mask Generation and Selection ( http://arxiv.org/abs/2310.13183v1 )

ライセンス: Link先を確認
Jianwei Li, Weizhi Gao, Qi Lei, Dongkuan Xu(参考訳) 大型モデルとスパースモデルは同じモデルサイズ制約の下で、小型モデルと高密度モデルよりも精度が高いことが広く認識されている。 これは大きなモデルを訓練し、その冗長なニューロンや重みを刈り取ることで除去する動機となります。 既存の作品の多くは決定論的にネットワークをプルーンし、その性能は単一のプルーニング基準のみに依存するため、バラエティを欠いている。 そこで本研究では,まず複数のプルーニングマスクをランダムに生成するモデルプルーニング戦略を提案する。 その後、効果的なマスク選択規則とともに、最適なマスクをマスク候補のプールから選択する。 さらに効率を高めるために,複数のマスクのトレーニングに伴うオーバーヘッドを軽減する早期マスク評価戦略を導入する。 我々の広範な実験により、この手法はGLUEから8つのデータセットにまたがる最先端のパフォーマンスを実現している。

It is widely acknowledged that large and sparse models have higher accuracy than small and dense models under the same model size constraints. This motivates us to train a large model and then remove its redundant neurons or weights by pruning. Most existing works pruned the networks in a deterministic way, the performance of which solely depends on a single pruning criterion and thus lacks variety. Instead, in this paper, we propose a model pruning strategy that first generates several pruning masks in a designed random way. Subsequently, along with an effective mask-selection rule, the optimal mask is chosen from the pool of mask candidates. To further enhance efficiency, we introduce an early mask evaluation strategy, mitigating the overhead associated with training multiple masks. Our extensive experiments demonstrate that this approach achieves state-of-the-art performance across eight datasets from GLUE, particularly excelling at high levels of sparsity.
翻訳日:2023-10-24 01:04:53 公開日:2023-10-19
# rgm:ロバストなジェネラリストマッチングモデル

RGM: A Robust Generalist Matching Model ( http://arxiv.org/abs/2310.11755v2 )

ライセンス: Link先を確認
Songyan Zhang, Xinyu Sun, Hao Chen, Bo Li, Chunhua Shen(参考訳) 画像のペア内で対応するピクセルを見つけることは、様々な応用を伴う基本的なコンピュータビジョンタスクである。 光学的フロー推定や局所的特徴マッチングのような様々なタスクの特定の要求のため、以前の研究は主に、特定のアーキテクチャに焦点を当てた密マッチングとスパースな特徴マッチングとタスク固有のデータセットに分類される。 本稿では, rgm (robust generalist matching) と呼ばれる, ばらばらで密なマッチングのための深いモデルを提案する。 特に,複数のスケールで幾何的類似性を反復的に探索し,スペーシフィケーションのための新たな不確実性推定モジュールを付加することにより,改良のためのカスケードGRUモジュールを精巧に設計する。 合成トレーニングサンプルと実世界のシナリオの間のギャップを狭めるために,より間隔の長い光フロー監視を生成することにより,スパース対応基底真理を持つ新しい大規模データセットを構築した。 そのため、さまざまな密集したスパースマッチングデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善できます。 提案するRGMの一般化能力は、2段階の混合データに基づいてマッチングと不確実性推定を学習することにより大幅に向上する。 ゼロショットマッチングとダウンストリームジオメトリを複数のデータセットにまたがって推定することで優れた性能を実現し、従来の手法を大きなマージンで上回っている。

Finding corresponding pixels within a pair of images is a fundamental computer vision task with various applications. Due to the specific requirements of different tasks like optical flow estimation and local feature matching, previous works are primarily categorized into dense matching and sparse feature matching focusing on specialized architectures along with task-specific datasets, which may somewhat hinder the generalization performance of specialized models. In this paper, we propose a deep model for sparse and dense matching, termed RGM (Robust Generalist Matching). In particular, we elaborately design a cascaded GRU module for refinement by exploring the geometric similarity iteratively at multiple scales following an additional uncertainty estimation module for sparsification. To narrow the gap between synthetic training samples and real-world scenarios, we build a new, large-scale dataset with sparse correspondence ground truth by generating optical flow supervision with greater intervals. As such, we are able to mix up various dense and sparse matching datasets, significantly improving the training diversity. The generalization capacity of our proposed RGM is greatly improved by learning the matching and uncertainty estimation in a two-stage manner on the large, mixed data. Superior performance is achieved for zero-shot matching and downstream geometry estimation across multiple datasets, outperforming the previous methods by a large margin.
翻訳日:2023-10-23 11:26:00 公開日:2023-10-19
# ルーチンから新しいタスクへのパワーエンジニアリングのためのLCMベースのフレームワーク

LLM-based Frameworks for Power Engineering from Routine to Novel Tasks ( http://arxiv.org/abs/2305.11202v3 )

ライセンス: Link先を確認
Ran Li, Chuanqing Pu, Junyi Tao, Canbing Li, Feilong Fan, Yue Xiang, Sijie Chen(参考訳) エネルギーセクターのデジタル化は、パワーエンジニアと研究者のコーディング責任を拡大した。 本稿では、この負担を軽減するために、LLM(Large Language Models)を活用する可能性について検討する。 本稿では,パワーシステムにおけるプログラミングタスクの異なる LLM ベースのフレームワークを提案する。 古典的なユニットコミットメント(UC)問題のような明確に定義された日常的なタスクのために、私たちは、成功率、一貫性、堅牢性の観点から、4つの主要なLCM-ChatGPT 3.5、ChatGPT 4.0、Claude、Google Bardを体系的に評価するエンドツーエンドフレームワークをデプロイします。 先行知識が限られている複雑なタスクに対して,提案手法の推薦,問題分解,サブタスクプログラミング,合成の対話的学習を通じて,技術者とLLMが協調的に問題を解けるためのヒューマン・イン・ザ・ループ・フレームワークを提案する。 2つのフレームワークの比較研究を通じて、ウェブアクセス、フィールド知識による問題分解、人手によるコード合成などのヒューマン・イン・ザ・ループ機能は不可欠であることが判明した。

The digitalization of energy sectors has expanded the coding responsibilities for power engineers and researchers. This research article explores the potential of leveraging Large Language Models (LLMs) to alleviate this burden. Here, we propose LLM-based frameworks for different programming tasks in power systems. For well-defined and routine tasks like the classic unit commitment (UC) problem, we deploy an end-to-end framework to systematically assesses four leading LLMs-ChatGPT 3.5, ChatGPT 4.0, Claude and Google Bard in terms of success rate, consistency, and robustness. For complex tasks with limited prior knowledge, we propose a human-in-the-loop framework to enable engineers and LLMs to collaboratively solve the problem through interactive-learning of method recommendation, problem de-composition, subtask programming and synthesis. Through a comparative study between two frameworks, we find that human-in-the-loop features like web access, problem decomposition with field knowledge and human-assisted code synthesis are essential as LLMs currently still fall short in acquiring cutting-edge and domain-specific knowledge to complete a holistic problem-solving project.
翻訳日:2023-10-21 15:08:49 公開日:2023-10-19
# 大規模言語モデル時代のソフトウェア工学における感情分析の再検討

Revisiting Sentiment Analysis for Software Engineering in the Era of Large Language Models ( http://arxiv.org/abs/2310.11113v2 )

ライセンス: Link先を確認
Ting Zhang and Ivana Clairine Irsan and Ferdian Thung and David Lo(参考訳) ソフトウェア開発は本質的に協調的なプロセスであり、様々な利害関係者がさまざまなプラットフォームで意見や感情を表現します。 これらの相互作用で伝達される感情を認識することは、ソフトウェアシステムの効果的な開発と継続的なメンテナンスに不可欠です。 長年にわたり、感情分析を支援するツールが提案されてきたが、ソフトウェアエンジニアリングデータセットで表現される感情を正確に識別することは、依然として困難である。 微調整された小さな大言語モデル(sLLM)は、ソフトウェアエンジニアリングタスクを扱う可能性を示しているが、ラベル付きデータの不足に苦慮している。 大規模言語モデル(bLLMs)の出現に伴い、ソフトウェア工学における感情分析の文脈において、この課題に対処できるかどうかを検討することが重要となる。 本研究では、5つの確立したデータセットを用いた総合的な実証研究を行う。 ゼロショットシナリオと少数ショットシナリオの両方において,オープンソースの3つのbLLMの性能を評価する。 さらに、細調整されたsLLMと比較する。 実験により,bLLMsは訓練データと不均衡分布の限られたデータセットに対して最先端の性能を示すことが示された。 bLLMはゼロショット設定でも優れた性能が得られる。 しかし、十分なトレーニングデータやデータセットがよりバランスの取れた分布を示す場合、微調整されたsLLMは優れた結果が得られる。

Software development is an inherently collaborative process, where various stakeholders frequently express their opinions and emotions across diverse platforms. Recognizing the sentiments conveyed in these interactions is crucial for the effective development and ongoing maintenance of software systems. Over the years, many tools have been proposed to aid in sentiment analysis, but accurately identifying the sentiments expressed in software engineering datasets remains challenging. Although fine-tuned smaller large language models (sLLMs) have shown potential in handling software engineering tasks, they struggle with the shortage of labeled data. With the emergence of bigger large language models (bLLMs), it is pertinent to investigate whether they can handle this challenge in the context of sentiment analysis for software engineering. In this work, we undertake a comprehensive empirical study using five established datasets. We assess the performance of three open-source bLLMs in both zero-shot and few-shot scenarios. Additionally, we compare them with fine-tuned sLLMs. Our experimental findings demonstrate that bLLMs exhibit state-of-the-art performance on datasets marked by limited training data and imbalanced distributions. bLLMs can also achieve excellent performance under a zero-shot setting. However, when ample training data is available or the dataset exhibits a more balanced distribution, fine-tuned sLLMs can still achieve superior results.
翻訳日:2023-10-21 14:59:45 公開日:2023-10-19
# patch-clip:patch-text事前学習モデル

Patch-CLIP: A Patch-Text Pre-Trained Model ( http://arxiv.org/abs/2310.12753v1 )

ライセンス: Link先を確認
Xunzhu Tang and Zhenghan Chen and Saad Ezzini and Haoye Tian and Jacques Klein and Tegawende F. Bissyande(参考訳) 近年、パッチ表現学習は、ソフトウェア生成における機械学習の能力を活用するための研究の方向性として浮上している。 これらの表現は、コード変更を含むさまざまなタスクにおいて、大幅なパフォーマンス向上をもたらした。 進歩は否定できないが、既存のモデルに共通する制限は、セキュリティパッチの分類のような予測タスクや、パッチ記述生成のような生成タスクにおいて、主に優れていることである。 この二分法は、潜在的にノイズの多いデータソースへの依存によりさらに悪化する。 具体的には、多くのモデルは抽象構文木(AST)と統合されたパッチを利用しており、残念ながら解析の不正確さを含む可能性があるため、最適以下の監督源として機能する。 これらの課題に対応するために、パッチと自然言語テキストのための新しい事前学習フレームワークであるPATCH-CLIPを紹介する。 PATCH-CLIPが3つの訓練戦略を展開 1) 組込み空間におけるパッチと記述の分離を可能にするパッチ記述コントラスト学習。 2) パッチ記述マッチングは、各パッチが埋め込み空間におけるその記述と関連付けられていることを保証する。 これは、パッチの埋め込みが生成に有効であることを保証します。 これらの損失は、パッチを含む予測タスクと生成タスクの両方において優れたパフォーマンスを達成するために、共同学習のために実装されます。 パッチ記述生成に焦点を当てた実証的な評価では、PATCH-CLIPがアートパフォーマンスの新たな状態を設定し、BLEU、ROUGE-L、METEOR、リコールといったメトリクスの最先端を一貫して上回っていることが示されている。

In recent years, patch representation learning has emerged as a necessary research direction for exploiting the capabilities of machine learning in software generation. These representations have driven significant performance enhancements across a variety of tasks involving code changes. While the progress is undeniable, a common limitation among existing models is their specialization: they predominantly excel in either predictive tasks, such as security patch classification, or in generative tasks such as patch description generation. This dichotomy is further exacerbated by a prevalent dependency on potentially noisy data sources. Specifically, many models utilize patches integrated with Abstract Syntax Trees (AST) that, unfortunately, may contain parsing inaccuracies, thus acting as a suboptimal source of supervision. In response to these challenges, we introduce PATCH-CLIP, a novel pre-training framework for patches and natural language text. PATCH-CLIP deploys a triple-loss training strategy for 1) patch-description contrastive learning, which enables to separate patches and descriptions in the embedding space, 2) patch-description matching, which ensures that each patch is associated to its description in the embedding space, and 3) patch-description generation, which ensures that the patch embedding is effective for generation. These losses are implemented for joint learning to achieve good performance in both predictive and generative tasks involving patches. Empirical evaluations focusing on patch description generation, demonstrate that PATCH-CLIP sets new state of the art performance, consistently outperforming the state-of-the-art in metrics like BLEU, ROUGE-L, METEOR, and Recall.
翻訳日:2023-10-21 14:52:20 公開日:2023-10-19
# クラウドネイティブ環境におけるベンチマーク関数フックレイテンシ

Benchmarking Function Hook Latency in Cloud-Native Environments ( http://arxiv.org/abs/2310.12702v1 )

ライセンス: Link先を確認
Mario Kahlhofer, Patrick Kern, S\"oren Henning, Stefan Rass(参考訳) 研究者とエンジニアは、アプリケーション開発とパフォーマンス評価にクラウドネイティブテクノロジをますます採用している。 これにより、クラウドでのベンチマークの再現性が向上したが、クラウドネイティブ環境の複雑さにより、ベンチマークの実行が確実に困難になっている。 クラウドネイティブなアプリケーションは、動的にパッチを当てたり、フックしたりすることで、実行時に計測したり変更したりすることが多い。 私たちの研究は、支配的なクラウドネイティブテクノロジであるKubernetesのベンチマーク関連の落とし穴と、それらが動的にパッチやフックされたアプリケーションのパフォーマンス測定に与える影響について論じています。 これらのリスクを軽減し、不適切な実験装置が遅延測定に悪影響を及ぼすことを示す。

Researchers and engineers are increasingly adopting cloud-native technologies for application development and performance evaluation. While this has improved the reproducibility of benchmarks in the cloud, the complexity of cloud-native environments makes it difficult to run benchmarks reliably. Cloud-native applications are often instrumented or altered at runtime, by dynamically patching or hooking them, which introduces a significant performance overhead. Our work discusses the benchmarking-related pitfalls of the dominant cloud-native technology, Kubernetes, and how they affect performance measurements of dynamically patched or hooked applications. We present recommendations to mitigate these risks and demonstrate how an improper experimental setup can negatively impact latency measurements.
翻訳日:2023-10-21 14:51:54 公開日:2023-10-19
# より少ないか? Python PyPIエコシステムにおける構成問題に関する実証的研究

Less is More? An Empirical Study on Configuration Issues in Python PyPI Ecosystem ( http://arxiv.org/abs/2310.12598v1 )

ライセンス: Link先を確認
Yun Peng, Ruida Hu, Ruoke Wang, Cuiyun Gao, Shuqing Li, Michael R. Lyu(参考訳) pythonはオープンソースコミュニティで広く使われており、主にpypiエコシステム内のさまざまなサードパーティライブラリからの広範なサポートがある。 それにもかかわらず、サードパーティライブラリの利用は依存関係の衝突を引き起こす可能性があり、研究者は依存関係の競合検出器を開発することになる。 さらに、依存関係を自動的に推論する取り組みも行われている。 これらのアプローチは、PyPIエコシステム内のライブラリの設定が正しいという仮定に基づいて、バージョンレベルのチェックと推論に焦点を当てている。 しかし、本研究では、この仮定は普遍的に有効ではなく、バージョンレベルのチェックにのみ依存することは、互換性のある実行環境の確保に不十分であることを証明している。 本稿では,PyPIエコシステムの構成問題を包括的に研究するための実証的研究を行う。 具体的には、ソースレベルの検出器であるPyConを提案し、潜在的な構成問題を検出する。 PyConには3つの異なるチェックがあり、それぞれライブラリのセットアップ、パッケージング、利用ステージをターゲットとしている。 現在の自動依存性推論手法の有効性を評価するため、PyConの3つのチェックをすべてパスするライブラリリリースを含むVLibsというベンチマークを構築した。 15種類の構成問題を特定し、183,864のライブラリリリースが潜在的構成問題に悩まされていることを発見した。 注目すべきは、これらの問題の68%がソースレベルのチェックでのみ検出できることだ。 実験の結果,最も先進的な自動依存関係推論手法であるPyEGoは,ライブラリリリースの65%で依存性を推測できることがわかった。 主な障害は依存関係の競合と,生成されたコンフィギュレーションに必要なライブラリが存在しないことだ。 実験結果に基づき,6つの知見を導出し,オープンソース開発者に対する2つの示唆と,依存性の自動推論に関する今後の研究を導出する。

Python is widely used in the open-source community, largely owing to the extensive support from diverse third-party libraries within the PyPI ecosystem. Nevertheless, the utilization of third-party libraries can potentially lead to conflicts in dependencies, prompting researchers to develop dependency conflict detectors. Moreover, endeavors have been made to automatically infer dependencies. These approaches focus on version-level checks and inference, based on the assumption that configurations of libraries in the PyPI ecosystem are correct. However, our study reveals that this assumption is not universally valid, and relying solely on version-level checks proves inadequate in ensuring compatible run-time environments. In this paper, we conduct an empirical study to comprehensively study the configuration issues in the PyPI ecosystem. Specifically, we propose PyCon, a source-level detector, for detecting potential configuration issues. PyCon employs three distinct checks, targeting the setup, packing, and usage stages of libraries, respectively. To evaluate the effectiveness of the current automatic dependency inference approaches, we build a benchmark called VLibs, comprising library releases that pass all three checks of PyCon. We identify 15 kinds of configuration issues and find that 183,864 library releases suffer from potential configuration issues. Remarkably, 68% of these issues can only be detected via the source-level check. Our experiment results show that the most advanced automatic dependency inference approach, PyEGo, can successfully infer dependencies for only 65% of library releases. The primary failures stem from dependency conflicts and the absence of required libraries in the generated configurations. Based on the empirical results, we derive six findings and draw two implications for open-source developers and future research in automatic dependency inference.
翻訳日:2023-10-21 14:51:42 公開日:2023-10-19
# SURE: プログラムメモリスペクトルを用いた視覚的障害指標化手法

SURE: A Visualized Failure Indexing Approach using Program Memory Spectrum ( http://arxiv.org/abs/2310.12415v1 )

ライセンス: Link先を確認
Yi Song, Xihao Zhang, Xiaoyuan Xie, Songqiang Chen, Quanming Liu, Ruizhi Gao(参考訳) フェールインデクシングは、ソフトウェアのテストとデバッグにおいて長年続く難題であり、障害プログラムにおける複数の障害が独立して同時に処理されるように、失敗(例えば、失敗したテストケース)を原因の根本原因に従って個別のグループに自動的に分割することを目的としている。 このコミュニティは長い間、2つの課題に悩まされてきた。 1) 分割の有効性は, まだ有望とは程遠い。 既存のテクニックでは、実行時のデータ(例えばコードカバレッジ)の限られたソースしか使用していないため、通常は不満足な結果をもたらす。 2)結果はほとんど理解できない。 障害インデックス結果を受信した開発者は、すべての障害を現在の方法で分割すべき理由を知らない。 これにより、開発者は結果に納得することが難しくなり、結果として結果の採用に影響を及ぼす。 本稿では,これらの課題に対処するため,プログラムメモリスペクトルを用いたsualized failuRe indExingアプローチであるSUREを提案する。 まず、テストケースの実行中に予め設定されたブレークポイントで実行時のメモリ情報を収集し、それを人間フレンドリーな画像(プログラムメモリスペクトル、PMS)に変換する。 そして、2つの障害のプロキシとなる1対のpms画像がトレーニングされたシアム畳み込みニューラルネットワークに送られ、それらが同じ障害によって引き起こされる可能性を予測する。 その結果、101.20%と41.38%の障害数推定の改善と、105.20%と35.53%のクラスタリング改善が得られた。 さらに, PMSの理解度を定量的に評価するために人間による研究を行い, この新しい表現は, ディベロッパによる障害指標の理解に有効であることを示した。

Failure indexing is a longstanding crux in software testing and debugging, the goal of which is to automatically divide failures (e.g., failed test cases) into distinct groups according to the culprit root causes, as such multiple faults in a faulty program can be handled independently and simultaneously. This community has long been plagued by two challenges: 1) The effectiveness of division is still far from promising. Existing techniques only employ a limited source of run-time data (e.g., code coverage) to be failure proximity, which typically delivers unsatisfactory results. 2) The outcome can be hardly comprehensible. A developer who receives the failure indexing result does not know why all failures should be divided the way they are. This leads to difficulties for developers to be convinced by the result, which in turn affects the adoption of the results. To tackle these challenges, in this paper, we propose SURE, a viSUalized failuRe indExing approach using the program memory spectrum. We first collect the run-time memory information at preset breakpoints during the execution of failed test cases, and transform it into human-friendly images (called program memory spectrum, PMS). Then, any pair of PMS images that serve as proxies for two failures is fed to a trained Siamese convolutional neural network, to predict the likelihood of them being triggered by the same fault. Results demonstrate the effectiveness of SURE: It achieves 101.20% and 41.38% improvements in faults number estimation, as well as 105.20% and 35.53% improvements in clustering, compared with the state-of-the-art technique in this field, in simulated and real-world environments, respectively. Moreover, we carry out a human study to quantitatively evaluate the comprehensibility of PMS, revealing that this novel type of representation can help developers better comprehend failure indexing results.
翻訳日:2023-10-21 14:51:17 公開日:2023-10-19
# Bhasacitra: 南アジアの方言地理を視覚化する

Bhasacitra: Visualising the dialect geography of South Asia ( http://arxiv.org/abs/2105.14082v3 )

ライセンス: Link先を確認
Aryaman Arora, Adam Farris, Gopalakrishnan R, Samopriya Basu(参考訳) バサシトラ(Bhasacitra)は、その地域の言語研究のデータベース上に構築された東南アジアの方言マッピングシステムである。 我々は、言語カバレッジを分析し、サンプルデータセットを視覚化することで、型論への応用に目を向ける。 このアプリケーションは、機能マッピングに有用であるだけでなく、南アジア言語の言語学者のための新しい種類のインタラクティブな書誌としても機能する。

We present Bhasacitra, a dialect mapping system for South Asia built on a database of linguistic studies of languages of the region annotated for topic and location data. We analyse language coverage and look towards applications to typology by visualising example datasets. The application is not only meant to be useful for feature mapping, but also serves as a new kind of interactive bibliography for linguists of South Asian languages.
翻訳日:2023-10-20 21:38:33 公開日:2023-10-19
# 単調作用素理論を用いた三値および多値最適化

Trilevel and Multilevel Optimization using Monotone Operator Theory ( http://arxiv.org/abs/2105.09407v2 )

ライセンス: Link先を確認
Allahkaram Shafiei and Vyacheslav Kungurtsev and Jakub Marecek(参考訳) 我々は, 凸目的関数を最小化し, ネスト凸最適化問題の最適性の制約を受けるマルチレベル最適化問題の一般クラスであると考える。 特殊な場合として, 2つの下層層の目的が滑らかな項と非スムース項の和からなる三次最適化問題を考える。 ~固定点理論および関連する議論に基づき、自然一階法アルゴリズムを示し、その収束率と収束率をパラメータのいくつかの条件で解析する。

We consider rather a general class of multi-level optimization problems, where a convex objective function is to be minimized subject to constraints of optimality of nested convex optimization problems. As a special case, we consider a trilevel optimization problem, where the objective of the two lower layers consists of a sum of a smooth and a non-smooth term.~Based on fixed-point theory and related arguments, we present a natural first-order algorithm and analyze its convergence and rates of convergence in several regimes of parameters.
翻訳日:2023-10-20 21:38:27 公開日:2023-10-19
# 多重スリットからの部分時間コヒーレンスビームの回折に及ぼすソースのコヒーレンス長のガウス分布の影響:理論とシミュレーション

A study of the effects of Gaussian distribution of coherence length of source on the diffraction of partial temporal coherence beam from multi slits: Theory and simulation ( http://arxiv.org/abs/1906.01330v3 )

ライセンス: Link先を確認
E. Koushki, S. A. Alavi(参考訳) まず、1つのスリットから任意のnスリットの場合への時間コヒーレント光のフランホーファー回折の概念を一般化した。 回折パターンは,最近導入された[19]パラメータ,デコヒーレンスパラメータの異なる値に対して検討される。 マルチスリットの場合、時間的デコヒーレンス効果はデコヒーレンスパラメータの値が1より大きい場合、すなわち、コヒーレンス長がスリットのサイズよりも短いことが示されている。 本研究の結果は,コヒーレンス長が無限大になる傾向にある完全一時症例に対して,過去の研究を再現した。 そして、この問題を現実に近づけるために、コヒーレンスの長さを固定せず、ガウス分布関数を考える。 遠距離場回折パターンに対するガウス分布のコヒーレンスパラメータの影響の数値解析を行った。

First, we have generalized the notion of Franhoufer diffraction of temporal coherent light from a single slit to the case of arbitrary n-slits. The diffraction pattern is investigated for different values of recently [19] introduced parameter, decoherence parameter. It is shown that for multi-slits, the temporal decoherence effects appear for the values of decoherence parameter equal or bigger than 1 namely the coherence length is shorter that the size of the slits. Results of our study reproduce the previous studies for perfect temporal case, when coherence length tends to infinity. Then to bring the problem closer to reality, we do not fix the coherence length and consider a Gaussian distribution function for it. Numerical study of the effects of coherence parameters of Gaussian distribution on far field diffraction pattern is performed.
翻訳日:2023-10-20 21:38:17 公開日:2023-10-19
# 通信効率の良いオンデバイス機械学習:非IIDプライベートデータに基づくフェデレーションと拡張

Communication-Efficient On-Device Machine Learning: Federated Distillation and Augmentation under Non-IID Private Data ( http://arxiv.org/abs/1811.11479v2 )

ライセンス: Link先を確認
Eunjeong Jeong, Seungeun Oh, Hyesung Kim, Jihong Park, Mehdi Bennis, and Seong-Lyun Kim(参考訳) オンデバイス機械学習(ML)により、トレーニングプロセスは大量のユーザ生成プライベートデータサンプルを利用することができる。 このメリットを享受するには、デバイス間通信のオーバーヘッドを最小限にする必要がある。 そこで本研究では,FD (Federated distillation) を提案する。この分散モデルトレーニングアルゴリズムは,通信ペイロードのサイズがベンチマーク方式よりもはるかに小さく,特にモデルサイズが大きい場合,FL (Federated Learning) である。 さらに、ユーザ生成データサンプルはデバイス間で非IIDになりがちであり、IIDデータセットと比較して一般的にパフォーマンスが低下する。 これに対応するために、各デバイスが一括して生成モデルを訓練するフェデレーション強化(FAug)を提案し、その結果、そのローカルデータをIDデータセットの取得に向けて拡張する。 実験の結果、fdはflと比較して95-98%の精度で通信オーバーヘッドが約26倍小さいことが示されている。

On-device machine learning (ML) enables the training process to exploit a massive amount of user-generated private data samples. To enjoy this benefit, inter-device communication overhead should be minimized. With this end, we propose federated distillation (FD), a distributed model training algorithm whose communication payload size is much smaller than a benchmark scheme, federated learning (FL), particularly when the model size is large. Moreover, user-generated data samples are likely to become non-IID across devices, which commonly degrades the performance compared to the case with an IID dataset. To cope with this, we propose federated augmentation (FAug), where each device collectively trains a generative model, and thereby augments its local data towards yielding an IID dataset. Empirical studies demonstrate that FD with FAug yields around 26x less communication overhead while achieving 95-98% test accuracy compared to FL.
翻訳日:2023-10-20 21:38:02 公開日:2023-10-19
# 条件付きニューラルプロセスを用いたカテゴリー非依存6次元ポーズ推定

Category-Agnostic 6D Pose Estimation with Conditional Neural Processes ( http://arxiv.org/abs/2206.07162v2 )

ライセンス: Link先を確認
Yumeng Li, Ning Gao, Hanna Ziesche, Gerhard Neumann(参考訳) 未知物体の6次元ポーズ推定のためのメタラーニング手法を提案する。 instance-level" や ``category-level" のポーズ推定手法とは対照的に,このアルゴリズムでは,オブジェクトの表現をカテゴリに依存しない方法で学習する。 具体的には、非常に少ないrgb-d画像と接地キーポイントに基づいて、エンコーダをトレーニングして、潜在表現でオブジェクトのテクスチャと形状をキャプチャする、ニューラルプロセスに基づくメタラーニング手法を採用する。 遅延表現は同時にメタトレーニングされたデコーダによって使われ、新しい画像におけるオブジェクトの6Dポーズを予測する。 さらに,各対象に特有の幾何学的制約を明示的に考慮したグラフニューラルネットワーク(gnn)を用いた,キーポイント予測のための新しい幾何認識デコーダを提案する。 提案アルゴリズムを評価するために,<linemod</line>データセットと,複数のカテゴリから生成された完全注釈付き合成データセット(MCMS)について広範な実験を行った。 実験結果から,本モデルは形状や外観の異なる未確認物体に対して良好に動作することが示された。 また,オクルージョンを伴わずに完全にデータに基づいて学習したにもかかわらず,オクルードシーンにおけるロバストな性能を示す。 私たちの知る限り、これは \textbf{cross-category level} 6次元ポーズ推定を探求する最初の仕事です。

We present a novel meta-learning approach for 6D pose estimation on unknown objects. In contrast to ``instance-level" and ``category-level" pose estimation methods, our algorithm learns object representation in a category-agnostic way, which endows it with strong generalization capabilities across object categories. Specifically, we employ a neural process-based meta-learning approach to train an encoder to capture texture and geometry of an object in a latent representation, based on very few RGB-D images and ground-truth keypoints. The latent representation is then used by a simultaneously meta-trained decoder to predict the 6D pose of the object in new images. Furthermore, we propose a novel geometry-aware decoder for the keypoint prediction using a Graph Neural Network (GNN), which explicitly takes geometric constraints specific to each object into consideration. To evaluate our algorithm, extensive experiments are conducted on the \linemod dataset, and on our new fully-annotated synthetic datasets generated from Multiple Categories in Multiple Scenes (MCMS). Experimental results demonstrate that our model performs well on unseen objects with very different shapes and appearances. Remarkably, our model also shows robust performance on occluded scenes although trained fully on data without occlusion. To our knowledge, this is the first work exploring \textbf{cross-category level} 6D pose estimation.
翻訳日:2023-10-20 21:34:48 公開日:2023-10-19
# Dict-TTS:テキストから音声への事前辞書知識の学習

Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for Text-to-Speech ( http://arxiv.org/abs/2206.02147v3 )

ライセンス: Link先を確認
Ziyue Jiang, Zhe Su, Zhou Zhao, Qian Yang, Yi Ren, Jinglin Liu, Zhenhui Ye(参考訳) Polyphone disambiguation は、信頼あるテキスト音声(TTS)システムのための自然なテキストシーケンスから正確な発音知識をキャプチャすることを目的としている。 しかし、以前のアプローチでは、十分な注釈付きトレーニングデータと言語専門家による追加の努力を必要としており、高品質のニューラルttsシステムをドメイン外日々の会話や数え切れないほどの言語に拡張することは困難である。 本稿では,オンラインwebサイト辞書(自然言語における既存の先行情報)を用いた意味認識型音声合成モデルdict-ttsを提案する。 具体的には、s2paモジュールを、入力テキストシーケンスと辞書の先行意味論との間の意味パターンを一致させ、対応する発音を得るために設計し、s2paモジュールは、アノテートされた音素ラベルなしで、エンドツーエンドttsモデルで容易に訓練することができる。 3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れており,TSシステムの韻律モデルの改良が期待できる。 さらに広範な分析により、Dict-TTSの各設計が有効であることが示されている。 コードは \url{https://github.com/zain-jiang/dict-tts} で入手できる。

Polyphone disambiguation aims to capture accurate pronunciation knowledge from natural text sequences for reliable Text-to-speech (TTS) systems. However, previous approaches require substantial annotated training data and additional efforts from language experts, making it difficult to extend high-quality neural TTS systems to out-of-domain daily conversations and countless languages worldwide. This paper tackles the polyphone disambiguation problem from a concise and novel perspective: we propose Dict-TTS, a semantic-aware generative text-to-speech model with an online website dictionary (the existing prior information in the natural language). Specifically, we design a semantics-to-pronunciation attention (S2PA) module to match the semantic patterns between the input text sequence and the prior semantics in the dictionary and obtain the corresponding pronunciations; The S2PA module can be easily trained with the end-to-end TTS model without any annotated phoneme labels. Experimental results in three languages show that our model outperforms several strong baseline models in terms of pronunciation accuracy and improves the prosody modeling of TTS systems. Further extensive analyses demonstrate that each design in Dict-TTS is effective. The code is available at \url{https://github.com/Zain-Jiang/Dict-TTS}.
翻訳日:2023-10-20 21:34:23 公開日:2023-10-19
# トポロジカルゼロバイアスコンダクタンスピークへのHoning in a Topological zero-bias conductance peak

Honing in on a topological zero-bias conductance peak ( http://arxiv.org/abs/2204.09925v2 )

ライセンス: Link先を確認
Subhajit Pal, Colin Benjamin(参考訳) トポロジカル超伝導体におけるマヨラナ境界状態の一般的な記号は、高さ2e^2/h$のゼロエネルギー伝導ピークである。 しかし、同じ高さの同様のゼロエネルギー伝導ピークは、非位相的な理由から生じることもある。 ここで、これらの自明で位相的なゼロエネルギーコンダクタンスピークは、状態のゼロエネルギー局所密度と状態の局所磁化密度によって区別できることを示す。 状態のゼロエネルギー局所密度は、自明なゼロバイアス伝導ピークに対して有限周期の振動を示す。 対照的に、これらの振動はトポロジカルゼロバイアス伝導ピークのために消える。 一方、状態のゼロエネルギー局所磁化密度は、自明なゼロバイアス伝導ピークに対して周期的な振動を示す一方で、位相的ZBCPでは消滅する。 その結果、状態のゼロエネルギー局所密度と状態の局所磁化密度は、自明なゼロエネルギーコンダクタンスピークと位相的ゼロエネルギーコンダクタンスピークを区別する実験プローブとして使用できることが示唆された。

A popular signature of Majorana bound states in topological superconductors is the zero-energy conductance peak with a height of $2e^2/h$. However, a similar zero energy conductance peak with almost the same height can also arise due to non-topological reasons. Here we show that these trivial and topological zero energy conductance peaks can be distinguished via the zero energy local density of states and local magnetization density of states. We find that the zero-energy local density of states exhibits oscillations with a finite period for a trivial zero-bias conductance peak. In contrast, these oscillations disappear for the topological zero-bias conductance peak. On the other hand, zero energy local magnetization density of states shows a periodic oscillation for trivial zero-bias conductance peak, while for topological ZBCP, they vanish. Our results suggest that zero-energy local density of states and local magnetization density of states can be used as an experimental probe to distinguish trivial zero energy conductance peak from topological zero energy conductance peak.
翻訳日:2023-10-20 21:34:00 公開日:2023-10-19
# INSTA-BNN: InSTAnce-aware Threshold 付きバイナリニューラルネットワーク

INSTA-BNN: Binary Neural Network with INSTAnce-aware Threshold ( http://arxiv.org/abs/2204.07439v3 )

ライセンス: Link先を確認
Changhun Lee, Hyungjun Kim, Eunhyeok Park, Jae-Joon Kim(参考訳) バイナリニューラルネットワーク(BNN)は、ディープニューラルネットワークのメモリフットプリントと計算コストを削減するための有望なソリューションとして登場したが、アクティベーションと重みがバイナリ値に制約されるため、自由の欠如によって品質が低下する。 この精度低下を補うために,insta-bnn(insta-bnn)と呼ばれる,入力依存あるいはインスタンス認識方式で動的に量子化しきい値を制御するbnn設計を提案する。 我々の観測によれば、高次統計量は入力分布の特性を推定する代表的な指標となる。 INSTA-BNNは、高次統計を含む様々な情報を考慮して、閾値を動的に調整するように設計されている。 我々は、INSTA-BNNが、ImageNet分類タスクにおいて、同等の計算コストでベースラインを3.0%と2.8%で上回り、ResNet-18とMobileNetV1ベースのモデルでそれぞれ68.5%と72.2%の精度を達成していることを示した。

Binary Neural Networks (BNNs) have emerged as a promising solution for reducing the memory footprint and compute costs of deep neural networks, but they suffer from quality degradation due to the lack of freedom as activations and weights are constrained to the binary values. To compensate for the accuracy drop, we propose a novel BNN design called Binary Neural Network with INSTAnce-aware threshold (INSTA-BNN), which controls the quantization threshold dynamically in an input-dependent or instance-aware manner. According to our observation, higher-order statistics can be a representative metric to estimate the characteristics of the input distribution. INSTA-BNN is designed to adjust the threshold dynamically considering various information, including higher-order statistics, but it is also optimized judiciously to realize minimal overhead on a real device. Our extensive study shows that INSTA-BNN outperforms the baseline by 3.0% and 2.8% on the ImageNet classification task with comparable computing cost, achieving 68.5% and 72.2% top-1 accuracy on ResNet-18 and MobileNetV1 based models, respectively.
翻訳日:2023-10-20 21:33:32 公開日:2023-10-19
# クラウス様分解

Kraus-Like Decompositions ( http://arxiv.org/abs/2204.06741v3 )

ライセンス: Link先を確認
Jonathan Boretsky and Robert Lin(参考訳) 我々は、群代数に作用する量子チャネルの新たな分解を導入し、これをkraus-like (operator) 分解と呼ぶ。 この集合におけるクラウス作用素分解に対して、この分解を一般のノンキスタンス結果で動機付ける。 有限群上の類函数である長さ函数が与えられたとき、対応するクラウス様分解を構成する。 このクラウス様分解が \textit{convex} (その係数が非負で和則を満たすことを意味する) であることを証明するのは、長さが条件付き負の定値であることと同値である。 一般有限群に対して、すべての$t>0$ に対して凸クラウス様分解の存在がすべての時間$t>0$ の存在を必然的に意味することを示す安定性条件を証明できる。 安定性条件を用いて、一般有限群に対して、長さ関数の条件付き負性は長さ関数上の半有限線型制約の集合に等しいことを示す。 この結果は、群代数の設定において、クラス関数である長さ関数によって誘導される半群$P_t$は、すべての$t\geq 0$に対する量子チャネルであり、すべての$t>0$に対する凸クラウス様分解を持つ場合に限る。

We introduce a new decomposition of quantum channels acting on group algebras, which we term Kraus-like (operator) decompositions. We motivate this decomposition with a general nonexistence result for Kraus operator decompositions in this setting. Given a length function which is a class function on a finite group, we construct a corresponding Kraus-like decomposition. We prove that this Kraus-like decomposition is \textit{convex} (meaning its coefficients are nonnegative and satisfy a sum rule) if and only if the length is conditionally negative definite. For a general finite group, we prove a stability condition which shows that the existence of a convex Kraus-like decomposition for all $t>0$ small enough necessarily implies existence for all time $t>0$. Using the stability condition, we show that for a general finite group, conditional negativity of the length function is equivalent to a set of semidefinite linear constraints on the length function. Our result implies that in the group algebra setting, a semigroup $P_t$ induced by a length function which is a class function is a quantum channel for all $t\geq 0$ if and only if it possesses a convex Kraus-like decomposition for all $t>0$.
翻訳日:2023-10-20 21:33:07 公開日:2023-10-19
# フィリピン語単語ネットの自動構築に向けて : 文埋め込みによる単語感覚誘発と合成誘導

Towards Automatic Construction of Filipino WordNet: Word Sense Induction and Synset Induction Using Sentence Embeddings ( http://arxiv.org/abs/2204.03251v3 )

ライセンス: Link先を確認
Dan John Velasco, Axel Alba, Trisha Gail Pelagio, Bryce Anthony Ramirez, Unisse Chua, Briane Paul Samson, Jan Christian Blaise Cruz and Charibeth Cheng(参考訳) Wordnetは様々な自然言語処理アプリケーションに必須のツールである。 残念ながら、wordnetは時代遅れになり、wordnetの生成や更新は時間とリソースの面で遅くてコストがかかります。 この問題は低リソース言語に強く影響する。 本研究では,2つの言語資源,すなわちラベルなしコーパスと文埋め込み型言語モデルを用いた単語知覚誘導と合成誘導手法を提案する。 結果として得られるセンスインベントリとシノニムセットは、wordnetの自動生成に使用できる。 本手法をフィリピン語のテキストコーパスに適用した。 センスインベントリとシンセセットは、そのマシンが翻訳したプリンストンワードネットのセンスインベントリと照合し、フィリピンのWordNetと比較することで評価された。 本研究は, 単語感覚の30%が有効であり, 誘導合成の40%が有効であり, 20%が新規合成であることを示す。

Wordnets are indispensable tools for various natural language processing applications. Unfortunately, wordnets get outdated, and producing or updating wordnets can be slow and costly in terms of time and resources. This problem intensifies for low-resource languages. This study proposes a method for word sense induction and synset induction using only two linguistic resources, namely, an unlabeled corpus and a sentence embeddings-based language model. The resulting sense inventory and synonym sets can be used in automatically creating a wordnet. We applied this method on a corpus of Filipino text. The sense inventory and synsets were evaluated by matching them with the sense inventory of the machine translated Princeton WordNet, as well as comparing the synsets to the Filipino WordNet. This study empirically shows that the 30% of the induced word senses are valid and 40% of the induced synsets are valid in which 20% are novel synsets.
翻訳日:2023-10-20 21:32:45 公開日:2023-10-19
# リレーショナル自己監督型学習

Relational Self-Supervised Learning ( http://arxiv.org/abs/2203.08717v2 )

ライセンス: Link先を確認
Mingkai Zheng, Shan You, Fei Wang, Chen Qian, Changshui Zhang, Xiaogang Wang, Chang Xu(参考訳) 主流のコントラスト学習を含む自己教師あり学習(SSL)は、データアノテーションなしで視覚表現を学習することに成功した。 しかしながら、ほとんどのメソッドは、主にインスタンスレベルの情報(つまり、同じインスタンスの異なる拡張イメージは、同じ機能または同じクラスにクラスタ化する必要がある)に焦点を当てていますが、異なるインスタンス間の関係に注意が払われていません。 本稿では,異なるインスタンス間の関係をモデル化して表現を学習するリレーショナル自己教師型学習(Relational Self-supervised Learning, ReSSL)フレームワークを提案する。 特に,提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,異なる拡張の特徴埋め込みに適合させるために,‘textit{relation} metric’として用いた。 性能向上のため,より信頼性の高い関係を表すために弱い拡張が重要であり,実用的効率のために運動量戦略を活用できると主張している。 設計された非対称予測ヘッドとInfoNCEウォームアップ戦略は、ハイパーパラメータへのロバスト性を高め、その結果のパフォーマンスを向上する。 実験の結果,提案したReSSLは,様々な軽量ネットワーク(\eg,EfficientNet,MobileNet)を含む,さまざまなネットワークアーキテクチャにおける最先端の手法よりも大幅に優れていた。

Self-supervised Learning (SSL) including the mainstream contrastive learning has achieved great success in learning visual representations without data annotations. However, most methods mainly focus on the instance level information (\ie, the different augmented images of the same instance should have the same feature or cluster into the same class), but there is a lack of attention on the relationships between different instances. In this paper, we introduce a novel SSL paradigm, which we term as relational self-supervised learning (ReSSL) framework that learns representations by modeling the relationship between different instances. Specifically, our proposed method employs sharpened distribution of pairwise similarities among different instances as \textit{relation} metric, which is thus utilized to match the feature embeddings of different augmentations. To boost the performance, we argue that weak augmentations matter to represent a more reliable relation, and leverage momentum strategy for practical efficiency. The designed asymmetric predictor head and an InfoNCE warm-up strategy enhance the robustness to hyper-parameters and benefit the resulting performance. Experimental results show that our proposed ReSSL substantially outperforms the state-of-the-art methods across different network architectures, including various lightweight networks (\eg, EfficientNet and MobileNet).
翻訳日:2023-10-20 21:32:12 公開日:2023-10-19
# キャリブレーション推論のためのカーネル密度ネットワークの深部識別

Deep Discriminative to Kernel Density Networks for Calibrated Inference ( http://arxiv.org/abs/2201.13001v6 )

ライセンス: Link先を確認
Jayanta Dey, Will LeVine, Haoyin Xu, Ashwin De Silva, Tyler M. Tomita, Ali Geisa, Tiffany Chu, Jacob Desman, Joshua T. Vogelstein(参考訳) ランダムフォレストやディープニューラルネットワークのような深い識別アプローチは、最近、多くの重要な現実世界シナリオで応用されている。 しかし、安全クリティカルなアプリケーションにこれらの学習アルゴリズムをデプロイすることは、特に、分散データポイントと分散データポイントの両方に対する信頼性のキャリブレーションの確保に関して、懸念を生じさせる。 アイソトニック回帰やプラットのシグモイド回帰といった,IDキャリブレーション(IDキャリブレーション)のための多くの一般的な手法は,優れたIDキャリブレーション性能を示すが,しばしば分類精度の犠牲となる。 さらに,これらの手法は特徴空間全体に対して校正されていないため,オフ・オブ・ディストリビューション(OOD)サンプルの場合,自信過剰につながる。 本稿では,ランダムフォレストとディープネットの両方を含む深層モデルを用いて,アフィン活性化関数を持つポリトープの結合である内部表現を学習し,それらの両方を特徴空間の分割規則として概念化する。 トレーニングデータにポピュレートされた各ポリトープのアフィン関数をガウス核に置換する。 提案手法が対応するクラス条件密度の一貫した推定子となるための十分条件を提案する。 さらに,本提案手法は,分布領域における元のアルゴリズムの分類精度を保ったり向上させたりしながら,よく校正された後部を抽出し,分布外入力を適切に処理するためのトレーニングデータを超えて外挿することを示す。

Deep discriminative approaches like random forests and deep neural networks have recently found applications in many important real-world scenarios. However, deploying these learning algorithms in safety-critical applications raises concerns, particularly when it comes to ensuring confidence calibration for both in-distribution and out-of-distribution data points. Many popular methods for in-distribution (ID) calibration, such as isotonic regression and Platt's sigmoidal regression, exhibit excellent ID calibration performance but often at the cost of classification accuracy. Moreover, these methods are not calibrated for the entire feature space, leading to overconfidence in the case of out-of-distribution (OOD) samples. In this paper, we leveraged the fact that deep models, including both random forests and deep-nets, learn internal representations which are unions of polytopes with affine activation functions to conceptualize them both as partitioning rules of the feature space. We replace the affine function in each polytope populated by the training data with a Gaussian kernel. We propose sufficient conditions for our proposed methods to be consistent estimators of the corresponding class conditional densities. Moreover, our experiments on both tabular and vision benchmarks show that the proposed approaches obtain well-calibrated posteriors while mostly preserving or improving the classification accuracy of the original algorithm for in-distribution region, and extrapolates beyond the training data to handle out-of-distribution inputs appropriately.
翻訳日:2023-10-20 21:31:47 公開日:2023-10-19
# 非線形量子シミュレーションとしての宇宙:中心スピンモデルの大きな$n$制限

The universe as a nonlinear quantum simulation: Large $n$ limit of the central spin model ( http://arxiv.org/abs/2112.09005v3 )

ライセンス: Link先を確認
Michael R. Geller(参考訳) 平均場理論が厳密である大規模なn$極限において、n$-qubit central spin model (csm) へのマッピングに基づいて、非線形量子ビット進化のモデルを調べる。 Erd\"os と Schlein の定理を拡張して、CSM は $n \rightarrow \infty$ のときの非線形量子ビットと厳密に双対であることを確立する。 この双対性は、凝縮子のようなシステムにおける非線形量子計算の一種をサポートし、多数のアンシラが対称に「中央」量子ビットと結合する。 また、厳密な誤差境界を持つ非線形量子シミュレーションのゲートモデル実装を可能にする。 このモデルの2つの変種は、アンシラ間のカップリングと無しで、異なる非線形性と対称性を持つ有効モデルにマップされる。 ここで議論される双対性は、量子基礎の観点からも興味深い。 量子力学がある種の小さな非観測非線形性を持つかどうかには、長い間関心が寄せられていた。 もしそうでなければ、それを禁止する原則は何でしょう? 双対性は、線型量子力学と非線形量子力学に従って進化する宇宙の間には鋭い区別がないことを意味する: 純状態の状態で準備された1量子ビット "universe" $| \varphi \rangle $ ビッグバンの時点では、同じ状態で準備されたancillaと対称に結合し、指数的に多くのancilla $n \gg {\rm exp}(o(t))$がある限り、任意の有限時間、非線形に進化するように見える。

We investigate models of nonlinear qubit evolution based on mappings to an $n$-qubit central spin model (CSM) in the large $n$ limit, where mean field theory is exact. Extending a theorem of Erd\"os and Schlein, we establish that the CSM is rigorously dual to a nonlinear qubit when $n \rightarrow \infty$. The duality supports a type of nonlinear quantum computation in systems, such as a condensate, where a large number of ancilla couple symmetrically to a "central" qubit. It also enables a gate-model implementation of nonlinear quantum simulation with a rigorous error bound. Two variants of the model, with and without coupling between ancilla, map to effective models with different nonlinearity and symmetry. The duality discussed here might also be interesting from a quantum foundations perspective. There has long been interest in whether quantum mechanics might possess some type of small, unobserved nonlinearity. If not, what is the principle prohibiting it? The duality implies that there is not a sharp distinction between universes evolving according to linear and nonlinear quantum mechanics: A one-qubit "universe" prepared in a pure state $| \varphi \rangle $ at the time of the big bang and symmetrically coupled to ancilla prepared in the same state, would appear to evolve nonlinearly for any finite time $t>0$ as long as there are exponentially many ancilla $n \gg {\rm exp}(O(t))$.
翻訳日:2023-10-20 21:31:19 公開日:2023-10-19
# POMDPの粒子信念近似のための最適保証

Optimality Guarantees for Particle Belief Approximation of POMDPs ( http://arxiv.org/abs/2210.05015v5 )

ライセンス: Link先を確認
Michael H. Lim, Tyler J. Becker, Mykel J. Kochenderfer, Claire J. Tomlin, Zachary N. Sunberg(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。 しかし、POMDPは、特に状態空間と観測空間が連続的またはハイブリッドである場合、特に物理的システムでは解決が困難である。 観測可能性重み付けを計画した最近のオンラインサンプリングベースPOMDPアルゴリズムは実用的効果を示したが、これらのアルゴリズムが以前提案しなかった粒子フィルタリング手法の近似誤差を特徴付ける一般理論が提案されている。 我々の主な貢献は、任意のPOMDPとその対応する有限サンプル粒子信念 MDP (PB-MDP) 近似の誤差の境界である。 PB-MDP と POMDP の基本的なブリッジにより,対応する粒子信念 MDP を解くことで,サンプリングベースの MDP アルゴリズムを POMDP に適用し,MDP アルゴリズムの収束保証を POMDP に拡張することができる。 実際に, MDPソルバの生成モデルとして, 粒子フィルタの信念遷移モデルを用いてこれを実装した。 これは pomdp からの観測密度モデルへのアクセスを必要とするが、mdp ソルバの遷移サンプリング複雑性を $\mathcal{o}(c)$ で増加させるだけであり、ここで $c$ は粒子の数である。 したがって、スパースサンプリングMDPアルゴリズムと組み合わせることで、状態と観測空間のサイズに直接的な理論的依存を持たないPOMDPのアルゴリズムが得られる。 pb-mdp近似を用いた単純なmdpアルゴリズムであるsparse-pftが,他の有望な連続観測型pomdpソルバと性能的に競合することを実証するために,ベンチマーク pomdp における5つの数値実験を行った。

Partially observable Markov decision processes (POMDPs) provide a flexible representation for real-world decision and control problems. However, POMDPs are notoriously difficult to solve, especially when the state and observation spaces are continuous or hybrid, which is often the case for physical systems. While recent online sampling-based POMDP algorithms that plan with observation likelihood weighting have shown practical effectiveness, a general theory characterizing the approximation error of the particle filtering techniques that these algorithms use has not previously been proposed. Our main contribution is bounding the error between any POMDP and its corresponding finite sample particle belief MDP (PB-MDP) approximation. This fundamental bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP algorithm to a POMDP by solving the corresponding particle belief MDP, thereby extending the convergence guarantees of the MDP algorithm to the POMDP. Practically, this is implemented by using the particle filter belief transition model as the generative model for the MDP solver. While this requires access to the observation density model from the POMDP, it only increases the transition sampling complexity of the MDP solver by a factor of $\mathcal{O}(C)$, where $C$ is the number of particles. Thus, when combined with sparse sampling MDP algorithms, this approach can yield algorithms for POMDPs that have no direct theoretical dependence on the size of the state and observation spaces. In addition to our theoretical contribution, we perform five numerical experiments on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using PB-MDP approximation, Sparse-PFT, achieves performance competitive with other leading continuous observation POMDP solvers.
翻訳日:2023-10-20 21:23:28 公開日:2023-10-19
# 光修飾状態を用いた固体の光冷却における温度限界の克服

Overcoming temperature limits in the optical cooling of solids using light-dressed states ( http://arxiv.org/abs/2209.14693v2 )

ライセンス: Link先を確認
Conor N. Murphy, Luisa Toledo Tude and Paul R. Eastham(参考訳) 現在, 固体のレーザー冷却温度は50~100Kであり, 狭い電子多様体と明るい光遷移を持つダイヤモンド色中心などの欠陥を用いてこれを克服する手法を提案する。 強い場に形成された服を着た状態を利用して、フォノン遷移のセットを拡張し、可変エネルギーを持つ。 これにより冷却パワーが向上し、不均一な拡張効果が減少する。 シリコン空隙とゲルマニウム空隙に対するこれらの効果を理論的に示し,背景吸収,フォノン支援,非放射崩壊の役割について考察した。

Laser cooling of solids currently has a temperature floor of 50 - 100 K. We propose a method that could overcome this using defects, such as diamond color centers, with narrow electronic manifolds and bright optical transitions. It exploits the dressed states formed in strong fields which extend the set of phonon transitions and have tunable energies. This allows an enhancement of the cooling power and diminishes the effect of inhomogeneous broadening. We demonstrate these effects theoretically for the silicon-vacancy and the germanium-vacancy, and discuss the role of background absorption, phonon-assisted emission, and non-radiative decay.
翻訳日:2023-10-20 21:22:56 公開日:2023-10-19
# 多自由度における絡み合い浄化の変分量子回路学習

Variational quantum circuit learning of entanglement purification in multiple degrees of freedom ( http://arxiv.org/abs/2209.08306v2 )

ライセンス: Link先を確認
Hao Zhang, Xusheng Xu, Chen Zhang, Man-Hong Yung, Tao Huang, and Yunjie Liu(参考訳) 絡み合いの浄化は、ノイズの多い大規模量子ネットワークにおいて効果的な絡み合いチャネルを約束する重要な技術であるが、多自由度プロトコルの設計には複雑である。 このような作業を簡単かつ効果的に行うためには、マルチDoFによる絡み合った浄化を設計するための学習フレームワークを開発することが有望であり、まだオープンな研究課題である。 本稿では,近距離量子デバイスを用いた最適量子演算の学習において顕著な優位性を持つ変分量子回路(VQC)に着想を得て,マルチDoFの絡み合いを解消するための有効なVQCフレームワークを提案し,それを利用して,ポストセレクションに基づく目的関数の最適浄化プロトコルを学習する。 すべての粒子(例えば空間と時間)のアシラリーDoFを表す追加の回路ラインを適切に導入することにより、パラメトリズド量子回路は、スケーラブルな絡み合いの浄化を効果的にシミュレートすることができる。 我々のフレームワークを検証するために、線形光学におけるよく知られたプロトコルは、低深さ量子回路における代替演算とよく一致する。 さらに,マルチペアケースをマルチDoFでシミュレートし,拡張性を示し,ワンラウンドプロトコルを発見する。 我々の研究は、マルチDoFおよび短期量子デバイスを用いたマルチペアにおける絡み合い浄化プロトコルの探索に有効な方法を提供する。

Entanglement purification is a crucial technique for promising the effective entanglement channel in noisy large-scale quantum networks, yet complicated in designing protocols in multi-degree of freedom (DoF). To execute the above tasks easily and effectively, developing a learning framework for designing the entanglement purification with multi-DoF is a promising way and still an open research question. Inspired by variational quantum circuit (VQC) with remarkable advantage in learning optimal quantum operations with near-term quantum devices, in this paper we propose an effective VQC framework for the entanglement purification in multi-DoF and exploit it to learn the optimal purification protocols of the objective function which are based on postselection. By properly introducing additional circuit lines for representing each of the ancillary DoFs of all the particles, e.g., space and time, the parametrized quantum circuit can effectively simulate scalable entanglement purification. To verify our framework, the well-known protocols in linear optics are learned well with alternative operations in low-depth quantum circuit. Moreover, we simulate the multipair cases with multi-DoF to show the scalability and discover one-round protocols. Our work provides an effective way for exploring the entanglement purification protocols in multi-DoF and multipair with near-term quantum devices.
翻訳日:2023-10-20 21:22:45 公開日:2023-10-19
# 中毒攻撃に対する連帯学習におけるプライバシと認定堅牢性の関係の解明

Unraveling the Connections between Privacy and Certified Robustness in Federated Learning Against Poisoning Attacks ( http://arxiv.org/abs/2209.04030v2 )

ライセンス: Link先を確認
Chulin Xie, Yunhui Long, Pin-Yu Chen, Qinbin Li, Sanmi Koyejo, Bo Li(参考訳) フェデレートラーニング(FL)は、分散ユーザのデータを活用するグローバルモデルを共同でトレーニングするための効率的なパラダイムを提供する。 地元のトレーニングデータは信頼性の低い異なるユーザーから来ているため、いくつかの研究でflは中毒攻撃に弱いことが示されている。 一方、ローカルユーザのプライバシを保護するため、FLは通常、差分プライベート(DPFL)でトレーニングされる。 そこで,本論文では,flにおける差動プライバシと認証ロバスト性との関係について質問する。 DPFLの本質的なプライバシー特性を利用して、FLに認証された堅牢性を提供できるか? このような堅牢性認証を改善するために、FLのプライバシーをさらに改善できるだろうか? まず,ユーザレベルのプライバシとインスタンスレベルのプライバシの両方を調査し,インスタンスレベルのプライバシを改善するための公式なプライバシ解析を提供する。 次に、ユーザレベルとインスタンスレベルの両方において、dpflの認証予測と認証アタック非効率の2つの堅牢性認定基準を提供する。 理論的には, 対向ユーザ数やインスタンス数が限定された場合, 両基準を基準として, dpflのロバスト性が証明されている。 実験的な実験により、さまざまなデータセットに対する様々な毒殺攻撃の下で、我々の理論を検証する。 DPFLにおけるプライバシ保護のレベルの増加は、より強力な攻撃非効率をもたらすが、必ずしもより強力な認証予測につながるとは限らない。 したがって、最適な認定予測を達成するには、プライバシとユーティリティ損失の適切なバランスが必要となる。

Federated learning (FL) provides an efficient paradigm to jointly train a global model leveraging data from distributed users. As local training data comes from different users who may not be trustworthy, several studies have shown that FL is vulnerable to poisoning attacks. Meanwhile, to protect the privacy of local users, FL is usually trained in a differentially private way (DPFL). Thus, in this paper, we ask: What are the underlying connections between differential privacy and certified robustness in FL against poisoning attacks? Can we leverage the innate privacy property of DPFL to provide certified robustness for FL? Can we further improve the privacy of FL to improve such robustness certification? We first investigate both user-level and instance-level privacy of FL and provide formal privacy analysis to achieve improved instance-level privacy. We then provide two robustness certification criteria: certified prediction and certified attack inefficacy for DPFL on both user and instance levels. Theoretically, we provide the certified robustness of DPFL based on both criteria given a bounded number of adversarial users or instances. Empirically, we conduct extensive experiments to verify our theories under a range of poisoning attacks on different datasets. We find that increasing the level of privacy protection in DPFL results in stronger certified attack inefficacy; however, it does not necessarily lead to a stronger certified prediction. Thus, achieving the optimal certified prediction requires a proper balance between privacy and utility loss.
翻訳日:2023-10-20 21:22:18 公開日:2023-10-19
# コミュニケーションを学ぶことによる翻訳の学習

Learning to translate by learning to communicate ( http://arxiv.org/abs/2207.07025v2 )

ライセンス: Link先を確認
C.M. Downey, Xuhui Zhou, Leo Z. Liu, Shane Steinert-Threlkeld(参考訳) 我々は,事前学習された多言語モデルを用いて創発的コミュニケーション(emergent communication, ec)を使用する手法を定式化し,テストを行った。 テキストのみのコーパスを事前学習するnlpの現在支配的なパラダイムは、強固な自然言語理解システムを生み出すものではなく、接地型、目標指向、対話型言語学習の必要性が高まっています。 本手法では,マルチ言語モデル(mBART, Liu, al., 2020)をEC画像参照ゲームに組み込む。 これは複数の言語を共有タスク空間に合わせるという仮説だ。 我々は,低リソース言語ネパール語を含む4言語すべてにおいて,バックトランスレーションのみのベースラインを上回る2種類のEC Fine-Tuning(Steinert-Threlkeld et al., 2022)を提案する。

We formulate and test a technique to use Emergent Communication (EC) with a pre-trained multilingual model to improve on modern Unsupervised NMT systems, especially for low-resource languages. It has been argued that the current dominant paradigm in NLP of pre-training on text-only corpora will not yield robust natural language understanding systems, and the need for grounded, goal-oriented, and interactive language learning has been high lighted. In our approach, we embed a multilingual model (mBART, Liu et al., 2020) into an EC image-reference game, in which the model is incentivized to use multilingual generations to accomplish a vision-grounded task. The hypothesis is that this will align multiple languages to a shared task space. We present two variants of EC Fine-Tuning (Steinert-Threlkeld et al., 2022), one of which outperforms a backtranslation-only baseline in all four languages investigated, including the low-resource language Nepali.
翻訳日:2023-10-20 21:20:59 公開日:2023-10-19
# データを越えた真理を探る。 教師なしの機械学習アプローチ

Seeking the Truth Beyond the Data. An Unsupervised Machine Learning Approach ( http://arxiv.org/abs/2207.06949v4 )

ライセンス: Link先を確認
Dimitrios Saligkaras and Vasileios E. Papageorgiou(参考訳) クラスタリングは教師なしの機械学習手法で、ラベルのない要素やオブジェクトをグループ化して、それらの要素が類似性に応じて分類される確立されたクラスタを構築する。 このプロセスの目的は、データ内のパターンを特定するのに役立つ研究者に有用な支援を提供することです。 大規模なデータベースを扱う場合、そのようなパターンはクラスタリングアルゴリズムの寄与なしには容易には検出できない。 本稿では,最も広く利用されているクラスタリング手法について,適切なパラメータ選択と初期化に関する有用なプレゼンテーションとともに詳しく述べる。 同時に、本論文は、分析されたクラスタリング技術の主要な要素を強調するレビューを示すだけでなく、3つのデータセットに基づくアルゴリズムのクラスタリング効率の比較を強調し、離散的かつ連続的な観察の対決において、精度と複雑さによって、既存の弱点と能力を明らかにする。 得られた結果は,データセットのサイズに応じたクラスタリング手法の適切性に関する貴重な結論を抽出するのに役立つ。

Clustering is an unsupervised machine learning methodology where unlabeled elements/objects are grouped together aiming to the construction of well-established clusters that their elements are classified according to their similarity. The goal of this process is to provide a useful aid to the researcher that will help her/him to identify patterns among the data. Dealing with large databases, such patterns may not be easily detectable without the contribution of a clustering algorithm. This article provides a deep description of the most widely used clustering methodologies accompanied by useful presentations concerning suitable parameter selection and initializations. Simultaneously, this article not only represents a review highlighting the major elements of examined clustering techniques but emphasizes the comparison of these algorithms' clustering efficiency based on 3 datasets, revealing their existing weaknesses and capabilities through accuracy and complexity, during the confrontation of discrete and continuous observations. The produced results help us extract valuable conclusions about the appropriateness of the examined clustering techniques in accordance with the dataset's size.
翻訳日:2023-10-20 21:20:39 公開日:2023-10-19
# ECTLO:小さなFVを持つLiDARにおけるレンジ画像を用いた効果的な連続時間オドメトリー

ECTLO: Effective Continuous-time Odometry Using Range Image for LiDAR with Small FoV ( http://arxiv.org/abs/2206.08517v2 )

ライセンス: Link先を確認
Xin Zheng, Jianke Zhu(参考訳) PrismベースのLiDARは、最近ロボット工学で人気が高まっている従来のメカニカルなマルチライン回転式LiDARよりもコンパクトで安価である。 しかし、これらの新しいlidarセンサーには、小さな視野、激しい動きの歪み、不規則なパターンなど、いくつかの課題があり、lidarのオドメトリーで広く使われることを妨げている。 これらの問題に対処するため,リズリープリズムに基づく非反復走査型LiDARのための実効連続時間LiDARオドメトリー(ECTLO)法を提案する。 効率的な地図表現には、LiDARの小さなFoVの歴史的点をカバーする単一のレンジ画像が採用されている。 マップ更新後のオクルージョンからのノイズデータを考慮し,ロバストな登録のためにフィルタに基づく点-面混合モデルを用いる。 さらに、LiDARのみの連続時間運動モデルを用いて、避けられない歪みを緩和する。 プリズムをベースとしたLiDARを走査パターンの異なる様々なテストベッドで大規模な実験を行い,提案手法の有効性を実証した。

Prism-based LiDARs are more compact and cheaper than the conventional mechanical multi-line spinning LiDARs, which have become increasingly popular in robotics, recently. However, there are several challenges for these new LiDAR sensors, including small field of view, severe motion distortions, and irregular patterns, which hinder them from being widely used in LiDAR odometry, practically. To tackle these problems, we present an effective continuous-time LiDAR odometry (ECTLO) method for the Risley-prism-based LiDARs with non-repetitive scanning patterns. A single range image covering historical points in LiDAR's small FoV is adopted for efficient map representation. To account for the noisy data from occlusions after map updating, a filter-based point-to-plane Gaussian Mixture Model is used for robust registration. Moreover, a LiDAR-only continuous-time motion model is employed to relieve the inevitable distortions. Extensive experiments have been conducted on various testbeds using the prism-based LiDARs with different scanning patterns, whose promising results demonstrate the efficacy of our proposed approach.
翻訳日:2023-10-20 21:20:20 公開日:2023-10-19
# 安定の最先端」による閾値ニューロンの学習

Learning threshold neurons via the "edge of stability" ( http://arxiv.org/abs/2212.07469v2 )

ライセンス: Link先を確認
Kwangjun Ahn, S\'ebastien Bubeck, Sinho Chewi, Yin Tat Lee, Felipe Suarez, Yi Zhang(参考訳) ニューラルネットワークトレーニングの既存の分析は、非常に小さな学習率の非現実的な仮定の下で実行されることが多い。 これは、J. Cohen et al. (ICLR 2021) のような実践的な知恵や経験的研究とは対照的であり、これは驚くべき新しい現象(「安定性の端」あるいは「不安定な収束」)と大きな学習率体制における一般化の潜在的利益を示すものである。 しかし、この話題に関する最近の研究が盛り上がっているにもかかわらず、後者の影響はいまだに理解されていない。 本稿では,2層ニューラルネットワークの簡易モデルに対して,勾配勾配勾配の詳細な解析を行うことにより,真の非凸学習力学を学習率で理解する。 これらのモデルでは、安定性現象の端を確実に確立し、ニューラルネットワークが"閾値のような"ニューロン(すなわち、ゼロでない第一層バイアスのニューロン)を学習できないステップサイズの鋭い位相遷移を発見する。 これは、閾値ニューロンが多くのタスクで有用な帰納的バイアスを持つ基本的な構成要素であるため、安定性のエッジが実際より良い一般化につながる可能性がある1つのメカニズムを解明する。

Existing analyses of neural network training often operate under the unrealistic assumption of an extremely small learning rate. This lies in stark contrast to practical wisdom and empirical studies, such as the work of J. Cohen et al. (ICLR 2021), which exhibit startling new phenomena (the "edge of stability" or "unstable convergence") and potential benefits for generalization in the large learning rate regime. Despite a flurry of recent works on this topic, however, the latter effect is still poorly understood. In this paper, we take a step towards understanding genuinely non-convex training dynamics with large learning rates by performing a detailed analysis of gradient descent for simplified models of two-layer neural networks. For these models, we provably establish the edge of stability phenomenon and discover a sharp phase transition for the step size below which the neural network fails to learn "threshold-like" neurons (i.e., neurons with a non-zero first-layer bias). This elucidates one possible mechanism by which the edge of stability can in fact lead to better generalization, as threshold neurons are basic building blocks with useful inductive bias for many tasks.
翻訳日:2023-10-20 21:13:40 公開日:2023-10-19
# 畳み込みニューラルネットワークのためのコンフォメーションマッピングによる画像強調

Image augmentation with conformal mappings for a convolutional neural network ( http://arxiv.org/abs/2212.05258v2 )

ライセンス: Link先を確認
Oona Rainio, Mohamed M.S. Nasser, Matti Vuorinen and Riku Kl\'en(参考訳) 畳み込みニューラルネットワーク(cnn)の正方形画像データの強化のために,その正方形画像を共形マッピングでディスクにマッピングし,その中心を回転させ,そのディスクを保存したm\"obius変換の下でマッピングし,元の正方形に戻した新しい手法を提案する。 このプロセスは、CNNのデータ拡張で使用される典型的な変換と異なり、元の画像の端付近からエリアを除去することによって引き起こされる情報の損失を生じさせない。 ここでは、必要なすべてのマッピングの公式と、画像を変換するためのコードの記述方法の詳細な説明を提供します。 また、シミュレーションデータを用いて新しい手法を試験し、10個の画像のトレーニングデータを40個の画像に増強することにより、統計的に有意な方法で160個の画像の試験セットに対するCNNによる予測における誤差の量を減少させる(p-value=0.0360)。

For augmentation of the square-shaped image data of a convolutional neural network (CNN), we introduce a new method, in which the original images are mapped onto a disk with a conformal mapping, rotated around the center of this disk and mapped under such a M\"obius transformation that preserves the disk, and then mapped back onto their original square shape. This process does not result the loss of information caused by removing areas from near the edges of the original images unlike the typical transformations used in the data augmentation for a CNN. We offer here the formulas of all the mappings needed together with detailed instructions how to write a code for transforming the images. The new method is also tested with simulated data and, according the results, using this method to augment the training data of 10 images into 40 images decreases the amount of the error in the predictions by a CNN for a test set of 160 images in a statistically significant way (p-value=0.0360).
翻訳日:2023-10-20 21:13:18 公開日:2023-10-19
# パルスレベルでの変分量子ゲート最適化

Variational Quantum Gate Optimization at the Pulse Level ( http://arxiv.org/abs/2211.16322v3 )

ライセンス: Link先を確認
Sean Greenaway, Francesco Petiziol, Hongzheng Zhao and Florian Mintert(参考訳) 固定周波数トランスモン量子ビットの物理ハミルトニアンにより入力される変分量子ゲート最適化プロトコルの有効性を実験的に検討した。 このスキームの有用性は、ネイティブな相互共振相互作用に合わせた2ビットと3ビットの量子ゲートの実験的な最適化によって実証される。 このような戦略の限界は、フロッケ工学による3量子ビット相互作用に基づくゲートの最適化によって検討されるが、パラメータドリフトは、変分最適化プロトコルが克服できないようなスキームの実装を妨げる鍵制限因子として同定される。

We experimentally investigate the viability of a variational quantum gate optimization protocol informed by the underlying physical Hamiltonian of fixed-frequency transmon qubits. The utility of the scheme is demonstrated through the successful experimental optimization of two and three qubit quantum gates tailored on the native cross-resonance interaction. The limits of such a strategy are investigated through the optimization of a gate based on Floquet-engineered three-qubit interactions, however parameter drift is identified as a key limiting factor preventing the implementation of such a scheme which the variational optimization protocol is unable to overcome.
翻訳日:2023-10-20 21:12:59 公開日:2023-10-19
# 紛らわしい法的判断予測を改善するためのコントラスト学習と数値的証拠の活用

Exploiting Contrastive Learning and Numerical Evidence for Improving Confusing Legal Judgment Prediction ( http://arxiv.org/abs/2211.08238v2 )

ライセンス: Link先を確認
Leilei Gan, Baokui Li, Kun Kuang, Yating Zhang, Lei Wang, Anh Tuan Luu, Yi Yang, Fei Wu(参考訳) 判例の事実記述文を考えると、法律判断予測(ljp)は、訴訟の費用、法律記事およびペナルティ項を予測することを目的としている。 LJPの中核的な問題は、微妙なテキストの違いしか存在しない訴訟を区別する方法である。 従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できず、刑期を予測するために事実記述の数字を無視している。 これらの問題に取り組むため,本研究では,まず,識別可能な表現を学習するためのmocoに基づく教師付きコントラスト学習を提案し,ljpの3つのサブタスクすべてに同時にメリットを与えるような,ポジティブなサンプルペアを構築するための最善の戦略を検討する。 第二に、ある事件の刑期を予測するために訴訟における数字を利用するために、事前訓練された数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。 公的なベンチマーク実験により,提案手法は,特に紛らわしい訴訟において,新たな最先端の成果をもたらすことが示された。 アブレーション研究は各成分の有効性も示している。

Given the fact description text of a legal case, legal judgment prediction (LJP) aims to predict the case's charge, law article and penalty term. A core problem of LJP is how to distinguish confusing legal cases, where only subtle text differences exist. Previous studies fail to distinguish different classification errors with a standard cross-entropy classification loss, and ignore the numbers in the fact description for predicting the term of penalty. To tackle these issues, in this work, first, we propose a moco-based supervised contrastive learning to learn distinguishable representations, and explore the best strategy to construct positive example pairs to benefit all three subtasks of LJP simultaneously. Second, in order to exploit the numbers in legal cases for predicting the penalty terms of certain cases, we further enhance the representation of the fact description with extracted crime amounts which are encoded by a pre-trained numeracy model. Extensive experiments on public benchmarks show that the proposed method achieves new state-of-the-art results, especially on confusing legal cases. Ablation studies also demonstrate the effectiveness of each component.
翻訳日:2023-10-20 21:12:50 公開日:2023-10-19
# リーマン多様体モンテカルロ法による対数密度勾配共分散と自動計量テンソル

Log-density gradient covariance and automatic metric tensors for Riemann manifold Monte Carlo methods ( http://arxiv.org/abs/2211.01746v2 )

ライセンス: Link先を確認
Tore Selland Kleppe(参考訳) 特に非線形ベイズ階層モデルに適したリーマン多様体モンテカルロの計量テンソルを提案する。 計量テンソルは対称正半定値対数密度勾配共分散(LGC)行列から構築され、ここでもさらに議論されている。 LGCは、ランダム変数と当該変数のパラメータの両方の結合情報内容と依存構造を測定することにより、フィッシャー情報行列を一般化する。 したがって、正定値フィッシャー/LGCベースの計量テンソルは、現在の慣行と同様に観測可能性から構築できるだけでなく、任意の複雑な非線形前・後続変数構造から構築することができる。 提案手法は高度に自動的であり、問題のモデルに付随する任意のスパーシティを活用できる。 最近提案された数値一般化ランダム化ハミルトニアンモンテカルロ過程のリーマン多様体の変種と組み合わせて実装された場合、提案手法は特にベイズ的階層モデルに関連するより挑戦的な対象分布に対して高い競争力を持つ。

A metric tensor for Riemann manifold Monte Carlo particularly suited for non-linear Bayesian hierarchical models is proposed. The metric tensor is built from symmetric positive semidefinite log-density gradient covariance (LGC) matrices, which are also proposed and further explored here. The LGCs generalize the Fisher information matrix by measuring the joint information content and dependence structure of both a random variable and the parameters of said variable. Consequently, positive definite Fisher/LGC-based metric tensors may be constructed not only from the observation likelihoods as is current practice, but also from arbitrarily complicated non-linear prior/latent variable structures, provided the LGC may be derived for each conditional distribution used to construct said structures. The proposed methodology is highly automatic and allows for exploitation of any sparsity associated with the model in question. When implemented in conjunction with a Riemann manifold variant of the recently proposed numerical generalized randomized Hamiltonian Monte Carlo processes, the proposed methodology is highly competitive, in particular for the more challenging target distributions associated with Bayesian hierarchical models.
翻訳日:2023-10-20 21:12:28 公開日:2023-10-19
# 有限水平確率線型2次制御問題に対するポリシー勾配法の収束性

Convergence of policy gradient methods for finite-horizon stochastic linear-quadratic control problems ( http://arxiv.org/abs/2211.00617v2 )

ライセンス: Link先を確認
Michael Giegrich, Christoph Reisinger, Yufei Zhang(参考訳) 有限水平連続時間探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。 この設定には、不定のコストを伴う確率的lqc問題が含まれ、目的に追加のエントロピー正則化が可能となる。 状態変数において平均が線型であり、共分散が状態独立である連続時間ガウスポリシーを考える。 離散時間問題とは対照的に、コストはポリシーにおいて非強制的であり、すべての降下方向が有界イテレートにつながるわけではない。 本稿では,フィッシャー幾何とビュール=ヴァッサーシュタイン幾何を用いて,政策の平均と共分散に対する幾何的勾配勾配勾配を求める。 ポリシーイテレートは、a-プリオリ境界を満たすことが示され、線形レートで最適ポリシーにグローバルに収束する。 さらに,離散時間ポリシーを用いた新しいPG手法を提案する。 このアルゴリズムは連続時間解析を活用し、異なる動作周波数にわたってロバストな線形収束を実現する。 数値実験により提案アルゴリズムの収束性と堅牢性を確認する。

We study the global linear convergence of policy gradient (PG) methods for finite-horizon continuous-time exploratory linear-quadratic control (LQC) problems. The setting includes stochastic LQC problems with indefinite costs and allows additional entropy regularisers in the objective. We consider a continuous-time Gaussian policy whose mean is linear in the state variable and whose covariance is state-independent. Contrary to discrete-time problems, the cost is noncoercive in the policy and not all descent directions lead to bounded iterates. We propose geometry-aware gradient descents for the mean and covariance of the policy using the Fisher geometry and the Bures-Wasserstein geometry, respectively. The policy iterates are shown to satisfy an a-priori bound, and converge globally to the optimal policy with a linear rate. We further propose a novel PG method with discrete-time policies. The algorithm leverages the continuous-time analysis, and achieves a robust linear convergence across different action frequencies. A numerical experiment confirms the convergence and robustness of the proposed algorithm.
翻訳日:2023-10-20 21:12:10 公開日:2023-10-19
# 音声・言語処理のための強化学習と帯域:チュートリアル, レビュー, 展望

Reinforcement Learning and Bandits for Speech and Language Processing: Tutorial, Review and Outlook ( http://arxiv.org/abs/2210.13623v3 )

ライセンス: Link先を確認
Baihan Lin(参考訳) 近年、強化学習とバンディットは、医療、金融、レコメンデーションシステム、ロボティクス、そして最後には、スピーチと自然言語処理を含む、幅広い現実世界のアプリケーションを変えてきた。 強化学習アルゴリズムのほとんどの音声および言語応用は、その柔軟な最適化特性によってディープニューラルネットワークのトレーニングを改善することに集中しているが、報酬駆動適応性、状態表現、時間構造、一般化性など強化学習の利点を活用すべき多くの理由がある。 本稿では,近年の強化学習とバンディットの進歩について概説し,適応的,対話的,スケーラブルなモデルを用いて,音声および自然言語処理の問題を効果的に解く方法について論じる。

In recent years, reinforcement learning and bandits have transformed a wide range of real-world applications including healthcare, finance, recommendation systems, robotics, and last but not least, the speech and natural language processing. While most speech and language applications of reinforcement learning algorithms are centered around improving the training of deep neural networks with its flexible optimization properties, there are still many grounds to explore to utilize the benefits of reinforcement learning, such as its reward-driven adaptability, state representations, temporal structures and generalizability. In this survey, we present an overview of recent advancements of reinforcement learning and bandits, and discuss how they can be effectively employed to solve speech and natural language processing problems with models that are adaptive, interactive and scalable.
翻訳日:2023-10-20 21:11:55 公開日:2023-10-19
# Rb87の2つの超微粒基底状態間の経時的人口移動

Tailoring population transfer between two hyperfine ground states of Rb87 ( http://arxiv.org/abs/2210.12011v2 )

ライセンス: Link先を確認
Aleksandra Sierant, Marek Kopciuch and Szymon Pustelny(参考訳) 本稿では, 複雑な多層原子系のコヒーレント制御を, 刺激されたラマン断熱路 (STIRAP) を用いて検討する。 ルビジウム-87原子の例に基づいて、D1線で円偏光を励起し、光線と独立に相互作用する3層と4層のサブシステムに分解する能力を示す。 4段階のシステムに着目して、追加の励起状態の存在がシステムの進化のダイナミクスに大きく影響することを実証する。 具体的には、光ビームの適切な調整により、転送チャネルのいくつかをブロックすることができ、システムに対する制御性が向上することが示されている。 また,この効果は不均質な広がり(ドップラー効果など)のない媒体において最も重要であり,そのような広がりが存在すると劣化することを示した。 例えば、原子の運動は転送の効率と選択性の両方に影響を与える。

In this paper, we investigate the coherent control over a complex multi-level atomic system using the stimulated Raman adiabatic passage (STIRAP). Based on the example of rubidium-87 atoms, excited with circularly-polarized light at the D1 line, we demonstrate the ability to decompose the system into three- and four-level subsystems independently interacting with light beams. Focusing on the four-level system, we demonstrate that the presence of an additional excited state significantly affects the dynamics of the system evolution. Specifically, it is shown that, through the appropriate tuning of the light beams, some of the transfer channels can be blocked, which leads to better control over the system. We also demonstrate that this effect is most significant in media free from inhomogeneous broadening (e.g., Doppler effect) and deteriorates if such broadening is present. For instance, motion of atoms affects both the efficiency and selectivity of the transfer.
翻訳日:2023-10-20 21:11:40 公開日:2023-10-19
# 物理インフォームド深部拡散MRI : 人工知能における破断トレーニングデータ

Physics-informed Deep Diffusion MRI Reconstruction: Break Training Data Bottleneck in Artificial Intelligence ( http://arxiv.org/abs/2210.11388v2 )

ライセンス: Link先を確認
Chen Qian, Yuncheng Gao, Mingyang Han, Zi Wang, Dan Ruan, Yu Shen, Yiping Wu, Yirong Zhou, Chengyan Wang, Boyu Jiang, Ran Tao, Zhigang Wu, Jiazheng Wang, Liuhong Zhu, Yi Guo, Taishan Kang, Jianzhong Lin, Tao Gong, Chen Yang, Guoqiang Fei, Meijin Lin, Di Guo, Jianjun Zhou, Meiyun Wang, and Xiaobo Qu(参考訳) 拡散磁気共鳴イメージング(MRI)は、生体内水分子の非侵襲的な移動検出のための唯一の画像モダリティであり、臨床および研究に重要な応用がある。 マルチショット技術によって取得された拡散MRI(DWI)は、高分解能、信号と雑音の比が良く、幾何歪みが単ショットよりも小さいが、ショット間動きによって引き起こされるアーティファクトに悩まされる。 これらのアーティファクトは将来的に除去できないため、アーティファクトフリーのトレーニングラベルがない。 したがって,マルチショットDWI再構成における深層学習の可能性は未解決のままである。 そこで本研究では,物理拡散モデル(マグニチュード合成)とショット間動き誘導位相モデル(モーションフェーズ合成)を利用して,高品質なペアリングトレーニングデータを合成するための物理インフォームドディープDWI再構成法を提案する。 ネットワークは10万の合成サンプルで一度だけ訓練され、複数の現実的な生体内データ再構成の結果が得られた。 従来の方法に対する利点は以下のとおりである。 a) より優れたモーションアーティファクトの抑制と再構築の安定性 b)マルチレゾリューション,マルチb値,マルチアンサンプサンプリング,マルチベンダ,マルチセンタを含む,マルチセナリオ再構築の卓越した一般化 c) 7名の経験者(p<0.001)による検証患者に対する優れた臨床適応性(p<0.001) 結論として、piddはmri物理学の力を活用し、ディープラーニング医療画像におけるデータのボトルネックを破るコスト効率が高く説明可能な方法を提供する、新しいディープラーニングフレームワークを提案する。

Diffusion magnetic resonance imaging (MRI) is the only imaging modality for non-invasive movement detection of in vivo water molecules, with significant clinical and research applications. Diffusion MRI (DWI) acquired by multi-shot techniques can achieve higher resolution, better signal-to-noise ratio, and lower geometric distortion than single-shot, but suffers from inter-shot motion-induced artifacts. These artifacts cannot be removed prospectively, leading to the absence of artifact-free training labels. Thus, the potential of deep learning in multi-shot DWI reconstruction remains largely untapped. To break the training data bottleneck, here, we propose a Physics-Informed Deep DWI reconstruction method (PIDD) to synthesize high-quality paired training data by leveraging the physical diffusion model (magnitude synthesis) and inter-shot motion-induced phase model (motion phase synthesis). The network is trained only once with 100,000 synthetic samples, achieving encouraging results on multiple realistic in vivo data reconstructions. Advantages over conventional methods include: (a) Better motion artifact suppression and reconstruction stability; (b) Outstanding generalization to multi-scenario reconstructions, including multi-resolution, multi-b-value, multi-undersampling, multi-vendor, and multi-center; (c) Excellent clinical adaptability to patients with verifications by seven experienced doctors (p<0.001). In conclusion, PIDD presents a novel deep learning framework by exploiting the power of MRI physics, providing a cost-effective and explainable way to break the data bottleneck in deep learning medical imaging.
翻訳日:2023-10-20 21:11:25 公開日:2023-10-19
# ヘリウム上の電子を用いた量子コンピューティングの青写真

Blueprint for quantum computing using electrons on helium ( http://arxiv.org/abs/2303.03688v3 )

ライセンス: Link先を確認
Erika Kawakami, Jiabao Chen, M\'onica Benito, Denis Konstantinov(参考訳) 本稿では,液体ヘリウム表面の電子スピン状態を利用したフォールトトレラント量子コンピュータ構築のための青写真を提案する。 強磁性マイクロピラーを用いて、その上に単一電子をトラップし、局所磁場勾配を生成することを提案する。 局所磁場勾配を導入することで電荷とスピンの自由度がハイブリダイズされ、スピン状態の長いコヒーレンス時間と電荷状態に影響する長距離クーロン相互作用の両方の恩恵を受けることができる。 単一および2量子ビットゲートと量子非復調読出しを実現するための具体的なスキームを提案する。 この枠組みでは、電荷とスピンの自由度のハイブリッド化は高速な量子ビットゲートを実現するのに十分な大きさであり、スピン状態のコヒーレンス時間を大幅に低下させるには十分ではない。

We present a blueprint for building a fault-tolerant quantum computer using the spin states of electrons on the surface of liquid helium. We propose to use ferromagnetic micropillars to trap single electrons on top of them and to generate a local magnetic field gradient. Introducing a local magnetic field gradient hybridizes charge and spin degrees of freedom, which allows us to benefit from both the long coherence time of the spin state and the long-range Coulomb interaction that affects the charge state. We present concrete schemes to realize single- and two-qubit gates and quantum-non-demolition read-out. In our framework, the hybridization of charge and spin degrees of freedom is large enough to perform fast qubit gates and small enough not to degrade the coherence time of the spin state significantly, which leads to the realization of high-fidelity qubit gates.
翻訳日:2023-10-20 21:02:44 公開日:2023-10-19
# IC3: 委員会合意による画像キャプション

IC3: Image Captioning by Committee Consensus ( http://arxiv.org/abs/2302.01328v3 )

ライセンス: Link先を確認
David M. Chan, Austin Myers, Sudheendra Vijayanarasimhan, David A. Ross, John Canny(参考訳) もし人間に画像を記述するように頼んだら、1000種類の方法でそれを行うかもしれない。 伝統的に、画像キャプションモデルは単一の「最高の」画像キャプションを生成するように訓練される。 残念なことに、それによってキャプションは「情報的に貧弱」であり、可能な詳細のサブセットのみに焦点を当て、シーン内の他の有用な情報を無視している。 本研究では,複数のアノテーションの観点から高レベルの詳細をキャプチャする単一キャプションを生成するために設計された,シンプルながら斬新な手法である「委員会コンセンサスによる画像キャプション(IC3)」を紹介する。 IC3による人為的なキャプションは,少なくとも3分の2以上のベースラインSOTAモデルと同じくらい有効であり,IC3はSOTA自動リコールシステムの性能を最大84%向上させ,単一の人為的な参照キャプションよりも優れ,視覚的記述のためのSOTAアプローチよりも大幅に向上することを示す。 コードはhttps://davidmchan.github.io/caption-by-committee/で入手できる。

If you ask a human to describe an image, they might do so in a thousand different ways. Traditionally, image captioning models are trained to generate a single "best" (most like a reference) image caption. Unfortunately, doing so encourages captions that are "informationally impoverished," and focus on only a subset of the possible details, while ignoring other potentially useful information in the scene. In this work, we introduce a simple, yet novel, method: "Image Captioning by Committee Consensus" (IC3), designed to generate a single caption that captures high-level details from several annotator viewpoints. Humans rate captions produced by IC3 at least as helpful as baseline SOTA models more than two thirds of the time, and IC3 can improve the performance of SOTA automated recall systems by up to 84%, outperforming single human-generated reference captions, and indicating significant improvements over SOTA approaches for visual description. Code is available at https://davidmchan.github.io/caption-by-committee/
翻訳日:2023-10-20 21:02:18 公開日:2023-10-19
# Neural Relation Graph: ラベルノイズと外部データの識別のための統一フレームワーク

Neural Relation Graph: A Unified Framework for Identifying Label Noise and Outlier Data ( http://arxiv.org/abs/2301.12321v4 )

ライセンス: Link先を確認
Jang-Hyun Kim, Sangdoo Yun, Hyun Oh Song(参考訳) データの診断とクリーニングは、堅牢な機械学習システムを構築するための重要なステップである。 しかしながら、ラベルエラーや過剰表現、外れ値といった複雑な問題が存在するため、大規模なデータセット内の問題を特定することは難しい。 本稿では,主に無視される情報のソースである特徴埋め込み空間におけるデータの関係構造を利用して,問題データを特定する統一的な手法を提案する。 そこで本研究では,データの関係グラフ構造に基づいてラベル誤りや異常データを検出するスケーラブルで効果的なアルゴリズムを提案する。 さらに,特徴埋め込み空間におけるデータポイントの文脈情報を提供する可視化ツールを導入し,インタラクティブにデータ診断を行うための効果的なツールとして機能する。 本研究では,画像Net,ESC-50,SST2を含む大規模画像,音声,言語領域タスクにおけるラベル誤りとOODの検出性能を評価する。 本手法は,検討中のすべてのタスクにおける最先端検出性能を達成し,様々なドメインにまたがる大規模実世界のデータセットのデバッグにおいてその効果を実証する。 私たちはhttps://github.com/snu-mllab/Neural-Relation-Graphでコードをリリースします。

Diagnosing and cleaning data is a crucial step for building robust machine learning systems. However, identifying problems within large-scale datasets with real-world distributions is challenging due to the presence of complex issues such as label errors, under-representation, and outliers. In this paper, we propose a unified approach for identifying the problematic data by utilizing a largely ignored source of information: a relational structure of data in the feature-embedded space. To this end, we present scalable and effective algorithms for detecting label errors and outlier data based on the relational graph structure of data. We further introduce a visualization tool that provides contextual information of a data point in the feature-embedded space, serving as an effective tool for interactively diagnosing data. We evaluate the label error and outlier/out-of-distribution (OOD) detection performances of our approach on the large-scale image, speech, and language domain tasks, including ImageNet, ESC-50, and SST2. Our approach achieves state-of-the-art detection performance on all tasks considered and demonstrates its effectiveness in debugging large-scale real-world datasets across various domains. We release codes at https://github.com/snu-mllab/Neural-Relation-Graph.
翻訳日:2023-10-20 21:01:57 公開日:2023-10-19
# クロスモーダル3次元物体検出のためのイメージブランチの可能性

Unleash the Potential of Image Branch for Cross-modal 3D Object Detection ( http://arxiv.org/abs/2301.09077v3 )

ライセンス: Link先を確認
Yifan Zhang, Qijian Zhang, Junhui Hou, Yixuan Yuan, and Guoliang Xing(参考訳) 信頼性と正確なシーン理解を実現するために、自動運転車は通常、補完的な特性を活かすために複数のセンシングモードを組み込む。 しかし、既存のクロスモーダル3D検出器は、LiDARベースの検出器のボトルネック問題に対処するために画像領域情報を十分に利用していない。 本稿では,イメージブランチのポテンシャルを2つの側面から解き放つことを目的とした,新しい3Dオブジェクト検出器UPIDetを提案する。 まず、upidetは正規化局所座標マップ推定と呼ばれる新しい2次元補助タスクを導入する。 このアプローチは、画像モダリティから局所空間認識特徴の学習を可能にし、スパースポイント雲を補完する。 第2に,画像ブランチのトレーニング目標から逆転する勾配によって,点雲のバックボーンの表現能力を向上し,簡潔で効果的な点対ピクセルモジュールを活用できることを見出した。 広範な実験とアブレーション研究により,本手法の有効性が検証された。 特に,提案時のkittiベンチマークの競争性の高い自転車競技クラスにおいて,上位の成績を得た。 ソースコードはhttps://github.com/Eaphan/UPIDet.comで入手できる。

To achieve reliable and precise scene understanding, autonomous vehicles typically incorporate multiple sensing modalities to capitalize on their complementary attributes. However, existing cross-modal 3D detectors do not fully utilize the image domain information to address the bottleneck issues of the LiDAR-based detectors. This paper presents a new cross-modal 3D object detector, namely UPIDet, which aims to unleash the potential of the image branch from two aspects. First, UPIDet introduces a new 2D auxiliary task called normalized local coordinate map estimation. This approach enables the learning of local spatial-aware features from the image modality to supplement sparse point clouds. Second, we discover that the representational capability of the point cloud backbone can be enhanced through the gradients backpropagated from the training objectives of the image branch, utilizing a succinct and effective point-to-pixel module. Extensive experiments and ablation studies validate the effectiveness of our method. Notably, we achieved the top rank in the highly competitive cyclist class of the KITTI benchmark at the time of submission. The source code is available at https://github.com/Eaphan/UPIDet.
翻訳日:2023-10-20 21:01:37 公開日:2023-10-19
# NLIは低リソースバイオメディカルリレーショナルリレーション抽出のための間接的プロビジョンを向上できるか?

Can NLI Provide Proper Indirect Supervision for Low-resource Biomedical Relation Extraction? ( http://arxiv.org/abs/2212.10784v3 )

ライセンス: Link先を確認
Jiashu Xu, Mingyu Derek Ma, Muhao Chen(参考訳) バイオメディカルリレーション抽出(re)における2つの重要な障害は、アノテーションの不足と、アノテーションカバレッジの低さによるラベルを明示的に定義せずにインスタンスが発生することである。 バイオメディカルREをマルチクラス分類タスクとして扱う既存のアプローチでは、低リソース環境での一般化が不十分な場合が多く、未知のケースを選択的に予測する能力はないが、それらのアプローチの適用性を妨げている。 バイオメディカルREを自然言語推論の定式化として間接的な監督によって変換するNBRを提案する。 関係を自然言語の仮説に変換することで、NBRは意味的な手がかりを利用してアノテーションの不足を軽減することができる。 nbrは、暗黙的に断続的なインスタンスを校正するランキングベースの損失を組み込むことで、より明確な決定境界を学習し、不確定なインスタンスを放棄するように指示される。 chemprot、ddi、gadの3つの広く使用されている生物医学的reベンチマークに関する広範囲な実験は、フルセットと低リソースの両領域におけるnbrの有効性を検証する。 分析の結果,NLI知識とバイオメディカル知識を組み合わせれば,バイオメディカルREが有効であることがわかった。

Two key obstacles in biomedical relation extraction (RE) are the scarcity of annotations and the prevalence of instances without explicitly pre-defined labels due to low annotation coverage. Existing approaches, which treat biomedical RE as a multi-class classification task, often result in poor generalization in low-resource settings and do not have the ability to make selective prediction on unknown cases but give a guess from seen relations, hindering the applicability of those approaches. We present NBR, which converts biomedical RE as natural language inference formulation through indirect supervision. By converting relations to natural language hypotheses, NBR is capable of exploiting semantic cues to alleviate annotation scarcity. By incorporating a ranking-based loss that implicitly calibrates abstinent instances, NBR learns a clearer decision boundary and is instructed to abstain on uncertain instances. Extensive experiments on three widely-used biomedical RE benchmarks, namely ChemProt, DDI and GAD, verify the effectiveness of NBR in both full-set and low-resource regimes. Our analysis demonstrates that indirect supervision benefits biomedical RE even when a domain gap exists, and combining NLI knowledge with biomedical knowledge leads to the best performance gains.
翻訳日:2023-10-20 21:00:44 公開日:2023-10-19
# 知識グラフリンク予測のための検索・読み出しフレームワーク

A Retrieve-and-Read Framework for Knowledge Graph Link Prediction ( http://arxiv.org/abs/2212.09724v2 )

ライセンス: Link先を確認
Vardaan Pahuja, Boshi Wang, Hugo Latapie, Jayanth Srinivasa, Yu Su(参考訳) 知識グラフ(KG)リンク予測は、KGの既存の事実に基づいて新しい事実を推測することを目的としている。 近年の研究では、グラフニューラルネットワーク(GNN)によるノードのグラフ近傍の利用は、単にクエリ情報を使用するよりも有用な情報を提供することが示された。 KGリンク予測のための従来のGNNは、KG全体の標準メッセージパスパラダイムに従い、過剰な計算、ノード表現の過度な平滑化、表現力の制限につながる。 大規模では、推論のためにKG全体から有用な情報を集めるのに計算コストがかかる。 既存のkgリンク予測フレームワークの限界に対処するために,まずクエリの関連するサブグラフコンテキストを検索し,そのコンテキストとクエリを高いキャパシティリーダと共同で理由付けする,新たな検索・読み取りフレームワークを提案する。 そこで我々は,新しいフレームワークのインスタンス化の一環として,グラフベースの注目構造とクエリとコンテキスト間の相互アテンションを組み込んだTransformerベースのGNNをリーダとして提案する。 このシンプルで効果的な設計により、モデルはクエリに関連する適切なコンテキスト情報に集中することができる。 2つの標準KGリンク予測データセットの実験的結果は,提案手法の競合性能を示す。 さらに,この分析は,フレームワーク内で改良されたレトリバーを設計する上で有用な洞察を与える。

Knowledge graph (KG) link prediction aims to infer new facts based on existing facts in the KG. Recent studies have shown that using the graph neighborhood of a node via graph neural networks (GNNs) provides more useful information compared to just using the query information. Conventional GNNs for KG link prediction follow the standard message-passing paradigm on the entire KG, which leads to superfluous computation, over-smoothing of node representations, and also limits their expressive power. On a large scale, it becomes computationally expensive to aggregate useful information from the entire KG for inference. To address the limitations of existing KG link prediction frameworks, we propose a novel retrieve-and-read framework, which first retrieves a relevant subgraph context for the query and then jointly reasons over the context and the query with a high-capacity reader. As part of our exemplar instantiation for the new framework, we propose a novel Transformer-based GNN as the reader, which incorporates graph-based attention structure and cross-attention between query and context for deep fusion. This simple yet effective design enables the model to focus on salient context information relevant to the query. Empirical results on two standard KG link prediction datasets demonstrate the competitive performance of the proposed method. Furthermore, our analysis yields valuable insights for designing improved retrievers within the framework.
翻訳日:2023-10-20 21:00:00 公開日:2023-10-19
# 大規模言語モデルによる自己検証による推論精度の向上

Large Language Models are Better Reasoners with Self-Verification ( http://arxiv.org/abs/2212.09561v5 )

ライセンス: Link先を確認
Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Shengping Liu, Bin Sun, Kang Liu, Jun Zhao(参考訳) 近年、思考(CoT)の連鎖により、GPT-3のような大規模言語モデル(LLM)は、算術、常識、論理的推論といったいくつかの自然言語処理タスクにおいて強い推論能力を示している。 しかし、CoT を用いた LLM では、複数ステップのプロンプトとマルチトークン予測が必要であり、個々のミスに非常に敏感であり、エラーの蓄積に弱い。 上記の問題は、LLMが答えを検証する能力を必要としている。 実際、ある思考決定タスクで結論を推論した後、人々は間違いを避けるためのステップを再検証することでそれらをチェックします。 本稿では,LLMにも類似した自己検証能力があることを示す。 本稿では,CoTによる結論を,元の問題を解決する条件の一つとみなす。 LLMが自ら推論した回答の後方検証を行うことで、解釈可能な回答検証スコアを取得し、最も高いスコアで候補回答を選択することができる。 実験の結果,提案手法は様々な算術,コモンセンス,論理推論データセットの推論性能を向上させることができることがわかった。 私たちのコードは、https://github.com/WENGSYX/Self-Verificationで公開されています。

Recently, with the chain of thought (CoT) prompting, large language models (LLMs), e.g., GPT-3, have shown strong reasoning ability in several natural language processing tasks such as arithmetic, commonsense, and logical reasoning. However, LLMs with CoT require multi-step prompting and multi-token prediction, which is highly sensitive to individual mistakes and vulnerable to error accumulation. The above issues make the LLMs need the ability to verify the answers. In fact, after inferring conclusions in some thinking decision tasks, people often check them by re-verifying steps to avoid some mistakes. In this paper, we propose and prove that LLMs also have similar self-verification abilities. We take the conclusion obtained by CoT as one of the conditions for solving the original problem. By performing a backward verification of the answers that LLM deduced for itself, we can obtain interpretable answer validation scores to select the candidate answer with the highest score. Experimental results demonstrate that the proposed method can improve the reasoning performance on various arithmetic, commonsense, and logical reasoning datasets. Our code is publicly available at: https://github.com/WENGSYX/Self-Verification.
翻訳日:2023-10-20 20:59:38 公開日:2023-10-19
# ラベルなしデータによる多人数3次元ポーズ推定

Multi-person 3D pose estimation from unlabelled data ( http://arxiv.org/abs/2212.08731v2 )

ライセンス: Link先を確認
Daniel Rodriguez-Criado, Pilar Bachiller, George Vogiatzis and Luis J. Manso(参考訳) その多くの応用により、マルチヒューマンの3Dポーズ推定は極めて影響の大きい研究領域となっている。 それでも、複数のレギュラーRGBカメラからなるマルチビューシステムを考えると、3D多目的推定にはいくつかの課題がある。 まず、カメラによって提供される2d情報を分離するために、各人物を異なる視点で一意に識別する必要がある。 第二に, 多視点2次元情報からの3次元ポーズ推定プロセスは, シナリオにおける騒音や潜在的な閉塞に対して頑健でなければならない。 本研究では,この2つの課題をディープラーニングを用いて解決する。 具体的には,シナリオ中の人物のクロスビュー対応を予測可能なグラフニューラルネットワークに基づくモデルと,各人物の3dポーズを得るために2dポイントを取る多層パーセプトロンを提案する。 これらの2つのモデルは、自己教師型で訓練されるため、3Dアノテーションによる大規模なデータセットは不要である。

Its numerous applications make multi-human 3D pose estimation a remarkably impactful area of research. Nevertheless, assuming a multiple-view system composed of several regular RGB cameras, 3D multi-pose estimation presents several challenges. First of all, each person must be uniquely identified in the different views to separate the 2D information provided by the cameras. Secondly, the 3D pose estimation process from the multi-view 2D information of each person must be robust against noise and potential occlusions in the scenario. In this work, we address these two challenges with the help of deep learning. Specifically, we present a model based on Graph Neural Networks capable of predicting the cross-view correspondence of the people in the scenario along with a Multilayer Perceptron that takes the 2D points to yield the 3D poses of each person. These two models are trained in a self-supervised manner, thus avoiding the need for large datasets with 3D annotations.
翻訳日:2023-10-20 20:59:19 公開日:2023-10-19
# EDGI: Embodied Agents を用いた計画のための等変拡散

EDGI: Equivariant Diffusion for Planning with Embodied Agents ( http://arxiv.org/abs/2303.12410v2 )

ライセンス: Link先を確認
Johann Brehmer, Joey Bose, Pim de Haan, Taco Cohen(参考訳) 身体的エージェントは構造化された世界で動作し、しばしば空間的、時間的、置換対称性を持つタスクを解く。 計画とモデルベース強化学習(MBRL)のためのほとんどのアルゴリズムは、このリッチな幾何学的構造を考慮に入れておらず、サンプルの非効率性と一般化が不十分である。 本稿では,空間対称性群se(3),離散時間変換群z,オブジェクト置換群snの積に対して同変であるmbrlのアルゴリズムであるインタラクション生成のための同変ディフューザ(edgi)について述べる。 EDGIは、Diffuserフレームワーク(Janner et al., 2022)に従って、世界モデルを学習し、それを条件付き生成モデリング問題として計画し、オフライン軌跡データセット上で拡散モデルを訓練する。 複数の表現をサポートする新しいSE(3)xZxSn同変拡散モデルを導入する。 このモデルを計画ループに統合し、条件付けと分類のガイダンスにより、必要に応じて特定のタスクの対称性を柔軟に壊すことができます。 オブジェクト操作やナビゲーションタスクでは、edgiは実質的にサンプル効率が良く、非同値なモデルよりも対称性群をまたいで一般化する。

Embodied agents operate in a structured world, often solving tasks with spatial, temporal, and permutation symmetries. Most algorithms for planning and model-based reinforcement learning (MBRL) do not take this rich geometric structure into account, leading to sample inefficiency and poor generalization. We introduce the Equivariant Diffuser for Generating Interactions (EDGI), an algorithm for MBRL and planning that is equivariant with respect to the product of the spatial symmetry group SE(3), the discrete-time translation group Z, and the object permutation group Sn. EDGI follows the Diffuser framework (Janner et al., 2022) in treating both learning a world model and planning in it as a conditional generative modeling problem, training a diffusion model on an offline trajectory dataset. We introduce a new SE(3)xZxSn-equivariant diffusion model that supports multiple representations. We integrate this model in a planning loop, where conditioning and classifier guidance let us softly break the symmetry for specific tasks as needed. On object manipulation and navigation tasks, EDGI is substantially more sample efficient and generalizes better across the symmetry group than non-equivariant models.
翻訳日:2023-10-20 20:52:41 公開日:2023-10-19
# オープン量子システムの非摂動シミュレーションのための環境の系統的粗粒化

Systematic coarse-graining of environments for the non-perturbative simulation of open quantum systems ( http://arxiv.org/abs/2303.08982v2 )

ライセンス: Link先を確認
Nicola Lorenzoni, Namgee Cho, James Lim, Dario Tamascelli, Susana F. Huelga, Martin B. Plenio(参考訳) 分子系の精密電子振動力学シミュレーションは、多数の振動モードからなる環境を扱う際に大きな課題となる。 本稿では,有限時間間隔で正確な開システムダイナミクスをキャプチャする有効なフォノンスペクトル密度を構築するための新しい手法を提案する。 既存の非摂動シミュレーションツールと組み合わせることで、多体オープンシステムダイナミクスに関連する計算コストを大幅に削減できる。

Conducting precise electronic-vibrational dynamics simulations of molecular systems poses significant challenges when dealing with an environment composed of numerous vibrational modes. Here, we introduce novel techniques for the construction of effective phonon spectral densities that capture accurately open system dynamics over a finite time interval of interest. When combined with existing non-perturbative simulation tools, our approach can reduce significantly the computational costs associated with many-body open system dynamics.
翻訳日:2023-10-20 20:52:01 公開日:2023-10-19
# MWE as WSD: 単語センスの曖昧さによるマルチワード表現の同定

MWE as WSD: Solving Multiword Expression Identification with Word Sense Disambiguation ( http://arxiv.org/abs/2303.06623v2 )

ライセンス: Link先を確認
Joshua Tanner and Jacob Hoffman(参考訳) 最近のword sense disambiguation(wsd)のアプローチでは、入力コンテキストに加えて、sensei gloss(定義)のエンコーディングを利用して、パフォーマンスを向上させる。 本研究では,ルールベース抽出パイプラインによって生成されるMWE候補を,光沢情報と文脈情報を用いてフィルタリングする学習モデルを用いて,マルチワード表現(MWE)識別に適応できることを示す。 提案手法は精度を大幅に向上させ,DiMSUMデータセットのMWE識別精度を最大1.9F1ポイント向上させ,PARSEME 1.1英語データセットの競合結果を達成する。 私たちのモデルは、wsdパフォーマンスのほとんどを保持しており、両方のタスクに単一のモデルが使用できることを示している。 最後に、WSDのためのBiエンコーダを用いた類似のアプローチに基づいて、MWE識別性能を向上させる新しいポリエンコーダアーキテクチャを提案する。

Recent approaches to word sense disambiguation (WSD) utilize encodings of the sense gloss (definition), in addition to the input context, to improve performance. In this work we demonstrate that this approach can be adapted for use in multiword expression (MWE) identification by training models which use gloss and context information to filter MWE candidates produced by a rule-based extraction pipeline. Our approach substantially improves precision, outperforming the state-of-the-art in MWE identification on the DiMSUM dataset by up to 1.9 F1 points and achieving competitive results on the PARSEME 1.1 English dataset. Our models also retain most of their WSD performance, showing that a single model can be used for both tasks. Finally, building on similar approaches using Bi-encoders for WSD, we introduce a novel Poly-encoder architecture which improves MWE identification performance.
翻訳日:2023-10-20 20:51:54 公開日:2023-10-19
# ベイズニューラルネットワークの分割決定論的マルコフ過程

Piecewise Deterministic Markov Processes for Bayesian Neural Networks ( http://arxiv.org/abs/2302.08724v2 )

ライセンス: Link先を確認
Ethan Goan, Dimitri Perrin, Kerrie Mengersen, Clinton Fookes(参考訳) 現代のベイズニューラルネットワーク(bnns)の推論は、しばしば変分推論処理に依存しており、独立性や後肢の形に違反する仮定を課している。 従来のMCMCアプローチは、確率のサブサンプリングに非互換であるため、計算量を増やすコストでこれらの仮定を避ける。 新しいPiecewise Deterministic Markov Process (PDMP) サンプリングはサブサンプリングを許容するが、サンプリングが難しい不均一なPoisson Process (IPP) モデルを導入する。 本研究は、これらのIPPからサンプリングする新しい汎用的かつ適応的な薄膜化手法を導入し、BNNにおける推論へのPDMPの適用をいかに加速するかを示す。 実験は、これらの手法による推論がいかに計算可能かを示し、予測精度、MCMC混合性能を向上し、他の近似推論方式と比較して情報的不確実性の測定を提供する。

Inference on modern Bayesian Neural Networks (BNNs) often relies on a variational inference treatment, imposing violated assumptions of independence and the form of the posterior. Traditional MCMC approaches avoid these assumptions at the cost of increased computation due to its incompatibility to subsampling of the likelihood. New Piecewise Deterministic Markov Process (PDMP) samplers permit subsampling, though introduce a model specific inhomogenous Poisson Process (IPPs) which is difficult to sample from. This work introduces a new generic and adaptive thinning scheme for sampling from these IPPs, and demonstrates how this approach can accelerate the application of PDMPs for inference in BNNs. Experimentation illustrates how inference with these methods is computationally feasible, can improve predictive accuracy, MCMC mixing performance, and provide informative uncertainty measurements when compared against other approximate inference schemes.
翻訳日:2023-10-20 20:51:17 公開日:2023-10-19
# PK-ICR:接地対話のためのペルソナ知識対話型文脈検索

PK-ICR: Persona-Knowledge Interactive Context Retrieval for Grounded Dialogue ( http://arxiv.org/abs/2302.06674v3 )

ライセンス: Link先を確認
Minsik Oh, Joosung Lee, Jiwei Li, Guoyin Wang(参考訳) 対話システムにおける関連するペルソナや知識の同定は,対話応答生成において重要である。 しかし,近年の論文では,より実践的な多言語対話タスクと分離して研究が進められている。 我々は、複雑な多言語対話設定において、ペルソナと知識の2つのコンテキスト識別を、与えられた対話のためのペルソナと知識を協調的に識別するタスクとして定義する。 対話のすべての文脈を同時に利用する新しい接地検索手法を開発した。 提案手法では,ニューラルネットワークによるQA検索モデルを用いて計算能力の低下を図る。 さらに,データ拡張に関連して,意味的に異なるサンプル(ハードネガティブ)のランク付け性能を計測する新しいヌル正ランクテストを導入する。

Identifying relevant persona or knowledge for conversational systems is critical to grounded dialogue response generation. However, each grounding has been mostly researched in isolation with more practical multi-context dialogue tasks introduced in recent works. We define Persona and Knowledge Dual Context Identification as the task to identify persona and knowledge jointly for a given dialogue, which could be of elevated importance in complex multi-context dialogue settings. We develop a novel grounding retrieval method that utilizes all contexts of dialogue simultaneously. Our method requires less computational power via utilizing neural QA retrieval models. We further introduce our novel null-positive rank test which measures ranking performance on semantically dissimilar samples (i.e. hard negatives) in relation to data augmentation.
翻訳日:2023-10-20 20:51:00 公開日:2023-10-19
# NNKGC:Node Neighborhoodsによる知識グラフ補完の改善

NNKGC: Improving Knowledge Graph Completion with Node Neighborhoods ( http://arxiv.org/abs/2302.06132v3 )

ライセンス: Link先を確認
Irene Li and Boming Yang(参考訳) 知識グラフ補完(KGC)は、クエリエンティティの欠落した関係を見つけることを目的としている。 現在のテキストベースのモデルは、エンティティ名と記述を使用して、ヘッダエンティティと特定の関係が与えられたテールエンティティを推論する。 既存のアプローチでは、ヘッドエンティティの近傍も考慮している。 しかしながら、これらの手法は平坦な構造を用いて近隣をモデル化する傾向があり、1ホップの隣人に限られる。 本稿では,知識グラフ補完のためのノード近傍拡張フレームワークを提案する。 ニューラルネットワークを用いて複数のホップからヘッドエンティティ近傍をモデル化し、ヘッドノード情報を豊かにする。 さらに,kgcを改善するために追加のエッジリンク予測タスクを導入する。 2つの公開データセットの評価は、このフレームワークが単純かつ効果的であることを示している。 ケーススタディでは、モデルが説明可能な予測を予測できることも示されている。

Knowledge graph completion (KGC) aims to discover missing relations of query entities. Current text-based models utilize the entity name and description to infer the tail entity given the head entity and a certain relation. Existing approaches also consider the neighborhood of the head entity. However, these methods tend to model the neighborhood using a flat structure and are only restricted to 1-hop neighbors. In this work, we propose a node neighborhood-enhanced framework for knowledge graph completion. It models the head entity neighborhood from multiple hops using graph neural networks to enrich the head node information. Moreover, we introduce an additional edge link prediction task to improve KGC. Evaluation on two public datasets shows that this framework is simple yet effective. The case study also shows that the model is able to predict explainable predictions.
翻訳日:2023-10-20 20:50:47 公開日:2023-10-19
# 多機能リザーバコンピュータでダブルを見る

Seeing double with a multifunctional reservoir computer ( http://arxiv.org/abs/2305.05799v2 )

ライセンス: Link先を確認
Andrew Flynn, Vassilios A. Tsachouridis, Andreas Amann(参考訳) 多機能生体ニューラルネットワークは、ネットワーク特性を変更することなく複数のタスクを実行するために、マルチスタビリティを利用する。 ニューラルネットワーク(ANN)を活用して、複数のタスクを実行するために、各タスクがネットワークの状態空間の特定のアトラクターと関連付けられているような、特定のマルチスタビリティを得る。 本稿では,マルチスタビリティを前提として,異なるアトラクタ間の関係が,ANN方式の動的システムである貯水池コンピュータ(RC)の多機能性を実現する能力にどのように影響するかを考察する。 我々は,rcがアトラクタの共存を再構築する方法を体系的に研究するために,'seeing double'問題を構築した。 重なり合いの量が増えるにつれて、多機能性の発生には、RCの内部ネットワーク接続に対するスペクトル半径の適切な選択に重要な依存があることが分かる。 分岐解析により、多機能性がどのように出現し、RCがカオス状態に入ると破壊されるかが明らかになる。

Multifunctional biological neural networks exploit multistability in order to perform multiple tasks without changing any network properties. Enabling artificial neural networks (ANNs) to obtain certain multistabilities in order to perform several tasks, where each task is related to a particular attractor in the network's state space, naturally has many benefits from a machine learning perspective. Given the association to multistability, in this paper we explore how the relationship between different attractors influences the ability of a reservoir computer (RC), which is a dynamical system in the form of an ANN, to achieve multifunctionality. We construct the `seeing double' problem to systematically study how a RC reconstructs a coexistence of attractors when there is an overlap between them. As the amount of overlap increases, we discover that for multifunctionality to occur, there is a critical dependence on a suitable choice of the spectral radius for the RC's internal network connections. A bifurcation analysis reveals how multifunctionality emerges and is destroyed as the RC enters a chaotic regime that can lead to chaotic itinerancy.
翻訳日:2023-10-20 20:43:01 公開日:2023-10-19
# グラフ構造データに基づくマルチラベルノード分類

Multi-label Node Classification On Graph-Structured Data ( http://arxiv.org/abs/2304.10398v3 )

ライセンス: Link先を確認
Tianqi Zhao, Ngan Thi Dong, Alan Hanjalic, Megha Khosla(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上のノード分類タスクの最先端の改善を示している。 これらの改善は、多クラス分類シナリオで大きく実証されているが、各ノードが複数のラベルを持つことができるより一般的で現実的なシナリオは、これまでほとんど注目されなかった。 マルチラベルノード分類に焦点をあてる最初の課題は、公開されているマルチラベルグラフデータセットの限られた数である。 したがって、最初の貢献として、3つの実世界の生物学的データセットを収集し、リリースし、チューニング可能なプロパティを持つデータセットを生成するマルチラベルグラフジェネレータを開発しました。 高いラベル類似性(高いホモフィリー)は通常、GNNの成功によるものであるが、我々は、マルチラベルシナリオは、これまでマルチクラスシナリオで定義されたホモフィリーとヘテロフィリーの通常の意味論に従わないと論じる。 2つ目のコントリビューションとして、マルチラベルシナリオに対するホモフィリーおよびクロスクラス近傍類似性を定義し、収集した9ドルのマルチラベルデータセットを徹底的に分析する。 最後に,8ドルのメソッドと9ドルのデータセットを用いた大規模比較研究を行い,マルチラベルノード分類シナリオにおける最先端の成果を評価するための手法の性能分析を行った。 ベンチマークはhttps://github.com/tianqi-py/mlgncでリリースします。

Graph Neural Networks (GNNs) have shown state-of-the-art improvements in node classification tasks on graphs. While these improvements have been largely demonstrated in a multi-class classification scenario, a more general and realistic scenario in which each node could have multiple labels has so far received little attention. The first challenge in conducting focused studies on multi-label node classification is the limited number of publicly available multi-label graph datasets. Therefore, as our first contribution, we collect and release three real-world biological datasets and develop a multi-label graph generator to generate datasets with tunable properties. While high label similarity (high homophily) is usually attributed to the success of GNNs, we argue that a multi-label scenario does not follow the usual semantics of homophily and heterophily so far defined for a multi-class scenario. As our second contribution, we define homophily and Cross-Class Neighborhood Similarity for the multi-label scenario and provide a thorough analyses of the collected $9$ multi-label datasets. Finally, we perform a large-scale comparative study with $8$ methods and $9$ datasets and analyse the performances of the methods to assess the progress made by current state of the art in the multi-label node classification scenario. We release our benchmark at https://github.com/Tianqi-py/MLGNC.
翻訳日:2023-10-20 20:42:42 公開日:2023-10-19
# 非線形電磁力学における共振モードの生成:量子摂動アプローチ

Resonant generation of electromagnetic modes in nonlinear electrodynamics: Quantum perturbative approach ( http://arxiv.org/abs/2304.10209v2 )

ライセンス: Link先を確認
Ilia Kopchinskii and Petr Satunin(参考訳) この論文は、純粋量子場理論の観点から、オイラー・ハイゼンベルク電磁力学における閉空洞における高次調和音の共鳴生成を研究する。 境界条件を導いた矩形キャビティ内の電磁場の量子状態について検討し、キャビティモードの3つの量子を1つ(3ドルから1ドルプロセス)にマージするための断面積を計算し、2つのキャビティモードの量子化(2ドルから2ドルプロセス)を散乱させる。 本研究では, 任意のアスペクト比を持つキャビティに対して, マージ過程の振幅が消えることを示し, キャビティモードの平面波分解に基づく説明を提供する。 反対に、散乱振幅は特定のキャビティアスペクト比に対して非ゼロである。 この2-to 2$の散乱は、周波数$\omega_1 - \omega_2$と周波数$\omega_1$と$\omega_2$との2つのコヒーレント状態の相互作用において、高次高調波の量子を生成するための重要な基本過程である。 このプロセスでは、実効場理論アプローチにおける共鳴高次高調波生成の前の結果を支持する散逸を伴うモデルにおいて、最終状態の平均量子数を計算する。

The paper studies resonant generation of higher-order harmonics in a closed cavity in Euler-Heisenberg electrodynamics from the point of view of pure quantum field theory. We consider quantum states of the electromagnetic field in a rectangular cavity with conducting boundary conditions, and calculate the cross-section for the merging of three quanta of cavity modes into a single one ($3 \to 1$ process) as well as the scattering of two cavity mode quanta ($2 \to 2$ process). We show that the amplitude of the merging process vanishes for a cavity with an arbitrary aspect ratio, and provide an explanation based on plane wave decomposition for cavity modes. Contrary, the scattering amplitude is nonzero for specific cavity aspect ratio. This $2 \to 2$ scattering is a crucial elementary process for the generation of a quantum of a high-order harmonics with frequency $2\omega_1 - \omega_2$ in an interaction of two coherent states of cavity modes with frequencies $\omega_1$ and $\omega_2$. For this process we calculate the mean number of quanta in the final state in a model with dissipation, which supports the previous result of resonant higher-order harmonics generation in an effective field theory approach.
翻訳日:2023-10-20 20:42:19 公開日:2023-10-19
# adaptive $\tau$-lasso:ロバスト性とoracleプロパティ

The Adaptive $\tau$-Lasso: Robustness and Oracle Properties ( http://arxiv.org/abs/2304.09310v2 )

ライセンス: Link先を確認
Emadaldin Mozafari-Majd, Visa Koivunen(参考訳) 本稿では,応答変数と共変数(説明変数)の粗い汚染を受ける高次元データセットを解析するためのロバストな$\tau$-regression estimatorの新しい正規化バージョンを提案する。 その結果、アダプティブ $\tau$-Lasso と呼ばれる推定器は、外れ値や高平均点に対して堅牢である。 適応的な$\ell_1$-normのペナルティ項も組み込まれており、関連する変数の選択を可能にし、大きな真の回帰係数に関連するバイアスを低減する。 具体的には、この適応$\ell_1$-normのペナルティ項は、各回帰係数に重みを割り当てる。 固定数の予測子 $p$ に対して、適応 $\tau$-Lasso がオラクル特性を持ち、変数選択整合性と漸近正規性の両方を保証することを示す。 漸近正規性は、真の支持に対応する回帰ベクトルのエントリのみに適用し、真の回帰ベクトル支援の知識を仮定する。 有限サンプル分解点と影響関数によってその堅牢性を特徴づける。 我々は、広範囲なシミュレーションを行い、$\tau$-Lasso推定器のクラスが汚染されたデータと汚染されていないデータ設定の両方において堅牢で信頼性の高い性能を示すことを観察する。 また, シミュレーション実験によりロバスト性特性に関する理論的知見を検証した。 外れ値と高平均点に直面して、適応的な$\tau$-Lasso と $\tau$-Lasso 推定器は、この研究で考慮された全てのシナリオにおいて、他の競合する正規化推定器と比較して、予測と変数選択の精度の点で最高の性能または近い性能を達成する。 したがって、適応的な$\tau$-Lasso と $\tau$-Lasso 推定器は、特に高次元の設定やデータが外れ値や高平均点によって汚染された場合に、様々な疎線形回帰問題に効果的に利用できる。

This paper introduces a new regularized version of the robust $\tau$-regression estimator for analyzing high-dimensional datasets subject to gross contamination in the response variables and covariates (explanatory variables). The resulting estimator, termed adaptive $\tau$-Lasso, is robust to outliers and high-leverage points. It also incorporates an adaptive $\ell_1$-norm penalty term, which enables the selection of relevant variables and reduces the bias associated with large true regression coefficients. More specifically, this adaptive $\ell_1$-norm penalty term assigns a weight to each regression coefficient. For a fixed number of predictors $p$, we show that the adaptive $\tau$-Lasso has the oracle property, ensuring both variable-selection consistency and asymptotic normality. Asymptotic normality applies only to the entries of the regression vector corresponding to the true support, assuming knowledge of the true regression vector support. We characterize its robustness via the finite-sample breakdown point and the influence function. We carry out extensive simulations and observe that the class of $\tau$-Lasso estimators exhibits robustness and reliable performance in both contaminated and uncontaminated data settings. We also validate our theoretical findings on robustness properties through simulation experiments. In the face of outliers and high-leverage points, the adaptive $\tau$-Lasso and $\tau$-Lasso estimators achieve the best performance or close-to-best performance in terms of prediction and variable selection accuracy compared to other competing regularized estimators for all scenarios considered in this study. Therefore, the adaptive $\tau$-Lasso and $\tau$-Lasso estimators can be effectively employed for a variety of sparse linear regression problems, particularly in high-dimensional settings and when the data is contaminated by outliers and high-leverage points.
翻訳日:2023-10-20 20:41:53 公開日:2023-10-19
# シーケンシャル転送最適化のためのスケーラブルなテスト問題生成器

A Scalable Test Problem Generator for Sequential Transfer Optimization ( http://arxiv.org/abs/2304.08503v4 )

ライセンス: Link先を確認
Xiaoming Xue and Cuie Yang and Liang Feng and Kai Zhang and Linqi Song and Kay Chen Tan(参考訳) データベースに格納された複数の最適化タスクから得られた知識を活用して、関心のあるタスクにおける最適化性能を向上させることを目的としたシーケンス転送最適化(STO)は、近年研究の注目を集めている。 しかし、アルゴリズム設計の著しい進歩にもかかわらず、stoアルゴリズムの包括的比較のための体系的ベンチマークスイートの開発は、あまり注目されなかった。 既存のテスト問題は、単に他のベンチマーク関数を組み立てることによって生成されるか、あるいはスケーラビリティに制限のある特定の実用的な問題から拡張される。 これらの問題におけるソースとターゲットタスクの最適解の関係は、しばしば手動で設定され、現実世界の問題で提示される異なる類似性関係をモデル化する能力を制限する。 したがって、これらの問題に対するアルゴリズムによる優れた性能は偏りがあり、他の問題への一般化が困難である。 そこで本研究では,まず,STO問題を特徴付ける4つの概念を紹介し,ソースの最適性と目標タスクの関係を定量的に記述する重要な問題,すなわち類似度分布を提示する。 次に,STO問題の一般的な設計ガイドラインと,スケーラビリティに優れた特定のSTO問題生成手法を提案する。 特に、問題の類似性分布は容易にカスタマイズでき、現実世界の問題の多様な類似性関係を連続的に表現することができる。 最後に,提案したジェネレータを用いて,様々なカスタマイズされた類似性関係を特徴とする12のSTO問題のベンチマークスイートを開発した。 問題のジェネレータのソースコードはhttps://github.com/xminghsueh/stop-gで入手できる。

Sequential transfer optimization (STO), which aims to improve the optimization performance on a task of interest by exploiting the knowledge captured from several previously-solved optimization tasks stored in a database, has been gaining increasing research attention over the years. However, despite the remarkable advances in algorithm design, the development of a systematic benchmark suite for comprehensive comparisons of STO algorithms received far less attention. Existing test problems are either simply generated by assembling other benchmark functions or extended from specific practical problems with limited scalability. The relationships between the optimal solutions of the source and target tasks in these problems are also often manually configured, limiting their ability to model different similarity relationships presented in real-world problems. Consequently, the good performance achieved by an algorithm on these problems might be biased and hard to be generalized to other problems. In light of the above, in this study, we first introduce four concepts for characterizing STO problems and present an important problem feature, namely similarity distribution, which quantitatively delineates the relationship between the optima of the source and target tasks. Then, we present the general design guidelines of STO problems and a particular STO problem generator with good scalability. Specifically, the similarity distribution of a problem can be easily customized, enabling a continuous spectrum of representation of the diverse similarity relationships of real-world problems. Lastly, a benchmark suite with 12 STO problems featured by a variety of customized similarity relationships is developed using the proposed generator. The source code of the problem generator is available at https://github.com/XmingHsueh/STOP-G.
翻訳日:2023-10-20 20:41:18 公開日:2023-10-19
# ニューラルネットワーク予測器による知識グラフの複雑なクエリ再考

Rethinking Complex Queries on Knowledge Graphs with Neural Link Predictors ( http://arxiv.org/abs/2304.07063v3 )

ライセンス: Link先を確認
Hang Yin, Zihao Wang, Yangqiu Song(参考訳) 知識グラフの推論は、観測情報を利用して欠落を予測できるため、難しい課題である。 特に、一階述語論理に基づく複雑なクエリに答えることが、一般化と構成の能力の推論に学習を検証するための重要なタスクの1つである。 近年,一組のエンティティの埋め込みを学習し,論理操作を集合演算として扱うクエリ埋め込みが主流となり,実証的な成功を収めている。 同じ定式化の後、多くの研究がなされているが、その主張の多くは形式的かつ体系的な検査を欠いている。 本稿では,この定式化を再考し,従来検討されていた問合せの範囲を特徴付けるとともに,その定式化と目標とのギャップを正確に把握し,現在検討中の問合せに対する複雑性解析を行う。 さらに,これまでに検討されていない機能を備えた10種類の新しいクエリを含む新しいデータセットを開発し,複雑なクエリを徹底的に調査する。 最後に,ニューラルリンク予測器にファジィ論理理論を装備し,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援する,新しいニューラルシンボリック手法であるFuzzy Inference with Truth Value (FIT)を提案する。 実験結果から,本手法は新たなデータセットにおいて先行手法を著しく上回り,既存データセットの先行手法を同時に上回っていることがわかった。

Reasoning on knowledge graphs is a challenging task because it utilizes observed information to predict the missing one. Particularly, answering complex queries based on first-order logic is one of the crucial tasks to verify learning to reason abilities for generalization and composition. Recently, the prevailing method is query embedding which learns the embedding of a set of entities and treats logic operations as set operations and has shown great empirical success. Though there has been much research following the same formulation, many of its claims lack a formal and systematic inspection. In this paper, we rethink this formulation and justify many of the previous claims by characterizing the scope of queries investigated previously and precisely identifying the gap between its formulation and its goal, as well as providing complexity analysis for the currently investigated queries. Moreover, we develop a new dataset containing ten new types of queries with features that have never been considered and therefore can provide a thorough investigation of complex queries. Finally, we propose a new neural-symbolic method, Fuzzy Inference with Truth value (FIT), where we equip the neural link predictors with fuzzy logic theory to support end-to-end learning using complex queries with provable reasoning capability. Empirical results show that our method outperforms previous methods significantly in the new dataset and also surpasses previous methods in the existing dataset at the same time.
翻訳日:2023-10-20 20:40:56 公開日:2023-10-19
# 検索による自己回帰型言語モデルの事前学習は可能か? 総合的研究

Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study ( http://arxiv.org/abs/2304.06762v2 )

ライセンス: Link先を確認
Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li, Chaowei Xiao, Anima Anandkumar, Bryan Catanzaro(参考訳) 大規模なデコーダのみの言語モデル(LM)は、検索による難易度(例えばRETRO)の観点から大きく改善されるが、テキスト生成の品質とダウンストリームタスクの精度への影響は不明確である。 したがって、まだ未解決の問題であり、大規模な自己回帰型LMを検索で事前訓練すべきだろうか? そこで我々は,拡張性のある事前学習型検索拡張LM(RETRO)について,通常のGPTおよび検索強化型GPTと比較して総合的な研究を行った。 まず、RETROを最大9.5Bパラメータまで再現するレシピを提供し、330Bトークンでテキストコーパスを検索する。 それに基づいて、以下の新たな発見がある。 一 テキスト生成におけるgptをはるかに少ない変性(反復)、適度に高い事実的正確性、無害な検索データベースによる毒性の低下で上回っていること。 二 LMアセスメント・ハーネスのベンチマークにおいて、RETROは知識集約的なタスクにおいてGPTを上回っているが、他のタスクではGPTと同等である。 さらに,オリジナルのレトロのオープンドメインqa結果(自然問題ではemスコア+8.6)を大幅に改善し,微調整とゼロショット評価の両方において検索可能なgptを大幅に上回るretro++を導入した。 本研究は,将来の基礎モデルとして,自己回帰型lmsの事前学習の方向性を浮き彫りにする。 私たちは実装をhttps://github.com/nvidia/megatron-lm#retroでリリースします。

Large decoder-only language models (LMs) can be largely improved in terms of perplexity by retrieval (e.g., RETRO), but its impact on text generation quality and downstream task accuracy is unclear. Thus, it is still an open question: shall we pretrain large autoregressive LMs with retrieval? To answer it, we perform a comprehensive study on a scalable pre-trained retrieval-augmented LM (i.e., RETRO) compared with standard GPT and retrieval-augmented GPT incorporated at fine-tuning or inference stages. We first provide the recipe to reproduce RETRO up to 9.5B parameters while retrieving a text corpus with 330B tokens. Based on that, we have the following novel findings: i) RETRO outperforms GPT on text generation with much less degeneration (i.e., repetition), moderately higher factual accuracy, and slightly lower toxicity with a nontoxic retrieval database. ii) On the LM Evaluation Harness benchmark, RETRO largely outperforms GPT on knowledge-intensive tasks, but is on par with GPT on other tasks. Furthermore, we introduce a simple variant of the model, RETRO++, which largely improves open-domain QA results of original RETRO (e.g., EM score +8.6 on Natural Question) and significantly outperforms retrieval-augmented GPT in both fine-tuning and zero-shot evaluation settings. Our findings highlight the promising direction of pretraining autoregressive LMs with retrieval as future foundation models. We release our implementation at: https://github.com/NVIDIA/Megatron-LM#retro.
翻訳日:2023-10-20 20:40:30 公開日:2023-10-19
# 暗黒物質からの流体力学シミュレーションのレクリエーションにおける物理インフォームニューラルネットワーク

Physics-informed neural networks in the recreation of hydrodynamic simulations from dark matter ( http://arxiv.org/abs/2303.14090v2 )

ライセンス: Link先を確認
Zhenyu Dai, Ben Moews, Ricardo Vilalta, Romeel Dave(参考訳) 物理インフォームドニューラルネットワークは、統計的パターンとドメイン知識を組み合わせた予測モデルを構築するためのコヒーレントなフレームワークとして登場した。 基本的な考え方は、可能な解の空間を制約するために既知の関係を持つ最適化損失関数を強化することである。 流体力学シミュレーションは現代の宇宙論の中核であり、必要な計算は費用も時間もかかる。 同時に、ダークマターの比較的高速なシミュレーションには少ないリソースを必要とするため、バリオンを研究の活発な領域として扱うための機械学習アルゴリズムが出現し、水力学シミュレーションで見られる散乱を再現することは、現在進行中の課題である。 本稿では,バリオン変換効率に関する理論をモデル損失関数に注入し,ニューラルネットワークアーキテクチャの進歩と物理的制約を組み合わせたバリオン塗装への物理インフォームニューラルネットワークの最初の応用について述べる。 また,散乱再生を強制するKulback-Leibler分散に基づく時間的予測比較も導入する。 宇宙シミュレーションのシムバ集合に対するバリオニクス特性の完全な集合を同時に抽出することにより, ダークマターハロ特性に基づくバリオニクス予測の精度の向上, 基本的金属性関係の回復, ターゲットシミュレーションの分布を辿る散乱体の回収を実証した。

Physics-informed neural networks have emerged as a coherent framework for building predictive models that combine statistical patterns with domain knowledge. The underlying notion is to enrich the optimization loss function with known relationships to constrain the space of possible solutions. Hydrodynamic simulations are a core constituent of modern cosmology, while the required computations are both expensive and time-consuming. At the same time, the comparatively fast simulation of dark matter requires fewer resources, which has led to the emergence of machine learning algorithms for baryon inpainting as an active area of research; here, recreating the scatter found in hydrodynamic simulations is an ongoing challenge. This paper presents the first application of physics-informed neural networks to baryon inpainting by combining advances in neural network architectures with physical constraints, injecting theory on baryon conversion efficiency into the model loss function. We also introduce a punitive prediction comparison based on the Kullback-Leibler divergence, which enforces scatter reproduction. By simultaneously extracting the complete set of baryonic properties for the Simba suite of cosmological simulations, our results demonstrate improved accuracy of baryonic predictions based on dark matter halo properties, successful recovery of the fundamental metallicity relation, and retrieve scatter that traces the target simulation's distribution.
翻訳日:2023-10-20 20:39:58 公開日:2023-10-19
# DetOFA:パスフィルタを用いたオブジェクト検出のための一括ネットワークの効率的な訓練

DetOFA: Efficient Training of Once-for-All Networks for Object Detection Using Path Filter ( http://arxiv.org/abs/2303.13121v3 )

ライセンス: Link先を確認
Yuiko Sakuma, Masato Ishii, Takuya Narihira(参考訳) オブジェクト検出タスクにおいて,比較的少数のトレーニングデータを用いて,大規模なスーパーネットをトレーニングするという課題に対処する。 具体的には,探索空間プルーニングを用いた高効率なスーパーネットベースニューラルアーキテクチャサーチ(NAS)を提案する。 スーパーネットで定義される探索空間は、性能が悪くなると予測される候補モデルを除去することで決定される。 幅広い資源制約の候補を効果的に除去するため,我々は,リソース制約によって条件づけされ,類似した資源制約を満たすモデルの相対性能を正確に予測できるパスフィルタと呼ばれるスーパーネットの性能予測器を特に設計する。 したがって、スーパーネットトレーニングは、最も優れた候補に焦点を当てている。 我々の経路フィルタは資源予算の異なる経路の予測を扱う。 提案手法は1回に1回比較すると,最適ネットワークアーキテクチャの計算コストを30%,63%削減し,Pareto前部(Pascal VOCとCOCOの平均精度0.85点,0.45点)の精度向上を実現した。

We address the challenge of training a large supernet for the object detection task, using a relatively small amount of training data. Specifically, we propose an efficient supernet-based neural architecture search (NAS) method that uses search space pruning. The search space defined by the supernet is pruned by removing candidate models that are predicted to perform poorly. To effectively remove the candidates over a wide range of resource constraints, we particularly design a performance predictor for supernet, called path filter, which is conditioned by resource constraints and can accurately predict the relative performance of the models that satisfy similar resource constraints. Hence, supernet training is more focused on the best-performing candidates. Our path filter handles prediction for paths with different resource budgets. Compared to once-for-all, our proposed method reduces the computational cost of the optimal network architecture by 30% and 63%, while yielding better accuracy-floating point operations Pareto front (0.85 and 0.45 points of improvement on average precision for Pascal VOC and COCO, respectively).
翻訳日:2023-10-20 20:39:32 公開日:2023-10-19
# 動的グラフ学習の改善に向けて: 新しいアーキテクチャと統一ライブラリ

Towards Better Dynamic Graph Learning: New Architecture and Unified Library ( http://arxiv.org/abs/2303.13047v3 )

ライセンス: Link先を確認
Le Yu, Leilei Sun, Bowen Du, Weifeng Lv(参考訳) 動的グラフ学習のための新しいトランスフォーマーアーキテクチャであるDyGFormerを提案する。 DyGFormerは概念的にはシンプルで,(1)ソースノードと宛先ノードの相関関係を探索する隣接する共起符号化方式,(2)各シーケンスを複数のパッチに分割してTransformerにフィードするパッチ技術により,モデルがより長い履歴から効果的に利益を得ることを可能にする。 また、標準的なトレーニングパイプライン、拡張可能なコーディングインターフェース、再現可能でスケーラブルで信頼性の高い動的グラフ学習研究を促進する包括的な評価プロトコルを備えた統合ライブラリDyGLibも導入した。 動的リンク予測および動的ノード分類タスクのための13のデータセットに対する徹底的な実験を行うことで、DyGFormerは、ほとんどのデータセットで最先端のパフォーマンスを達成し、ノードの相関関係と長期の時間的依存関係をキャプチャする効果を示す。 さらに、ベースラインの結果は、DyGLibの重要性を示す、多様だが厳格でない実装によって引き起こされた、以前のレポートと矛盾するものもある。 使用中のリソースはすべてhttps://github.com/yule-BUAA/DyGLibで公開されている。

We propose DyGFormer, a new Transformer-based architecture for dynamic graph learning. DyGFormer is conceptually simple and only needs to learn from nodes' historical first-hop interactions by: (1) a neighbor co-occurrence encoding scheme that explores the correlations of the source node and destination node based on their historical sequences; (2) a patching technique that divides each sequence into multiple patches and feeds them to Transformer, allowing the model to effectively and efficiently benefit from longer histories. We also introduce DyGLib, a unified library with standard training pipelines, extensible coding interfaces, and comprehensive evaluating protocols to promote reproducible, scalable, and credible dynamic graph learning research. By performing exhaustive experiments on thirteen datasets for dynamic link prediction and dynamic node classification tasks, we find that DyGFormer achieves state-of-the-art performance on most of the datasets, demonstrating its effectiveness in capturing nodes' correlations and long-term temporal dependencies. Moreover, some results of baselines are inconsistent with previous reports, which may be caused by their diverse but less rigorous implementations, showing the importance of DyGLib. All the used resources are publicly available at https://github.com/yule-BUAA/DyGLib.
翻訳日:2023-10-20 20:39:01 公開日:2023-10-19
# 水中カメラ用外部ポーズ追跡システムの設計・実装・評価

Design, Implementation and Evaluation of an External Pose-Tracking System for Underwater Cameras ( http://arxiv.org/abs/2305.04226v2 )

ライセンス: Link先を確認
Birger Winkel, David Nakath, Felix Woelk, Kevin K\"oser(参考訳) 水中のコンピュータビジョンとロボティクスを実験室環境から深海や濁った沿岸海域まで前進させるためには、代表的なベンチマークと地上真理情報を備えた現実的なデータセットが必要である。 特に、カメラのポーズを決定することは、多くの水中ロボットやフォトグラムアプリケーションにとって必須であり、既知の地上真実は、そのような極端な環境での同時ローカライゼーションやマッピングアプローチのパフォーマンスを評価するために必須である。 本稿では,水中カメラのポーズをリアルタイムで判定する外部基準システムの概念,校正,実装について述べる。 このアプローチは、空気中のhtc viveトラッキングシステムに基づいて、タンクの水面上を追跡された2つのコントローラーのポーズを融合して水中カメラのポーズを計算する。 空気中における光学マーカー基準に対するこのアプローチの平均偏差は3mm以下で0.3deg以下であることが示されている。 最後に,水中応用システムの有用性を実証した。

In order to advance underwater computer vision and robotics from lab environments and clear water scenarios to the deep dark ocean or murky coastal waters, representative benchmarks and realistic datasets with ground truth information are required. In particular, determining the camera pose is essential for many underwater robotic or photogrammetric applications and known ground truth is mandatory to evaluate the performance of e.g., simultaneous localization and mapping approaches in such extreme environments. This paper presents the conception, calibration and implementation of an external reference system for determining the underwater camera pose in real-time. The approach, based on an HTC Vive tracking system in air, calculates the underwater camera pose by fusing the poses of two controllers tracked above the water surface of a tank. It is shown that the mean deviation of this approach to an optical marker based reference in air is less than 3 mm and 0.3 deg. Finally, the usability of the system for underwater applications is demonstrated.
翻訳日:2023-10-20 20:31:48 公開日:2023-10-19
# 勾配輝き」とビームサーチによる自動プロンプト最適化

Automatic Prompt Optimization with "Gradient Descent" and Beam Search ( http://arxiv.org/abs/2305.03495v2 )

ライセンス: Link先を確認
Reid Pryzant, Dan Iter, Jerry Li, Yin Tat Lee, Chenguang Zhu, Michael Zeng(参考訳) LLM(Large Language Models)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力は、面倒な試行錯誤で手書きされたプロンプトに大きく依存している。 本稿では,数値勾配降下に触発されて,プロンプトを自動的に改善し,トレーニングデータとllm apiへのアクセスを前提とした,簡易かつ非パラメトリックな手法である自動プロンプト最適化(apo)を提案する。 このアルゴリズムはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語"gradients"を形成する。 次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。 これらの勾配降下ステップは、アルゴリズム効率を大幅に向上させるビーム探索およびバンディット選択手順によって導かれる。 3つのベンチマーク NLP タスクの予備結果と LLM ジェイルブレイク検出の新たな問題により、自動プロンプト最適化は、曖昧なタスク記述をより正確なアノテーション命令に書き換えることによって、事前のプロンプト編集技術より優れ、初期プロンプトの性能を最大31%向上させることができることが示唆された。

Large Language Models (LLMs) have shown impressive performance as general purpose agents, but their abilities remain highly dependent on prompts which are hand written with onerous trial-and-error effort. We propose a simple and nonparametric solution to this problem, Automatic Prompt Optimization (APO), which is inspired by numerical gradient descent to automatically improve prompts, assuming access to training data and an LLM API. The algorithm uses minibatches of data to form natural language "gradients" that criticize the current prompt. The gradients are then "propagated" into the prompt by editing the prompt in the opposite semantic direction of the gradient. These gradient descent steps are guided by a beam search and bandit selection procedure which significantly improves algorithmic efficiency. Preliminary results across three benchmark NLP tasks and the novel problem of LLM jailbreak detection suggest that Automatic Prompt Optimization can outperform prior prompt editing techniques and improve an initial prompt's performance by up to 31%, by using data to rewrite vague task descriptions into more precise annotation instructions.
翻訳日:2023-10-20 20:31:32 公開日:2023-10-19
# 位相安定定在波を用いた閉じ込めイオン量子ビットの絡み込みゲート速度限界の破れ

Breaking the entangling gate speed limit for trapped-ion qubits using a phase-stable standing wave ( http://arxiv.org/abs/2305.03450v2 )

ライセンス: Link先を確認
S. Saner, O. B\u{a}z\u{a}van, M. Minder, P. Drmota, D. J. Webb, G. Araneda, R. Srinivas, D. M. Lucas, C. J. Ballance(参考訳) 捕捉イオン量子ビットに対するレーザー駆動の全ての絡み込み操作は光場の光位相を制御せず、キャリアの独立なチューニングと運動結合を妨げている。 相対的な位置が約\lambda/100$に制御された$\lambda=674$ nmの定在波に$^{88}$sr$^+$ イオンを配置することで、キャリア結合を18ドルの係数で抑制し、スピン-モーションカップリングをコヒーレントに向上させる。 我々は,従来の移動波M{\o}lmer-S{\o}rensenゲートに対して,共振キャリア結合が速度制限を課すことを実験的に実証した。

All laser-driven entangling operations for trapped-ion qubits have hitherto been performed without control of the optical phase of the light field, which precludes independent tuning of the carrier and motional coupling. By placing $^{88}$Sr$^+$ ions in a $\lambda=674$ nm standing wave, whose relative position is controlled to $\approx\lambda/100$, we suppress the carrier coupling by a factor of $18$, while coherently enhancing the spin-motion coupling. We experimentally demonstrate that the off-resonant carrier coupling imposes a speed limit for conventional traveling-wave M{\o}lmer-S{\o}rensen gates; we use the standing wave to surpass this limit and achieve a gate duration of $15\ \mu$s, restricted by the available laser power.
翻訳日:2023-10-20 20:31:08 公開日:2023-10-19
# PEFT-Ref:パラメータ効率の良いファインタニングのためのモジュール参照アーキテクチャとタイポロジー

PEFT-Ref: A Modular Reference Architecture and Typology for Parameter-Efficient Finetuning Techniques ( http://arxiv.org/abs/2304.12410v2 )

ライセンス: Link先を確認
Mohammed Sabry, Anya Belz(参考訳) 近年のPEFT技術は, 大規模事前学習言語モデル(PLM)の完全微調整に要するかなりのコストに対して, 改良を図っている。 異なるPEFT技術が普及するにつれて、特にその比較が困難になっている。 i) PLMに付加される構造と機能 (二 異なる種類及び効率改善の度合い (iii)異なる下流課題における性能、及び (4) 構造と機能の違いが効率とタスクパフォーマンスにどのように関係しているか。 このような比較を容易にするため,本論文では,異なるpeft技術で共有されるアスペクトを標準化するとともに,特定の場所や標準コンポーネントとのインタラクションの違いを分離したリファレンスアーキテクチャを提案する。 違いを標準化し、分離するプロセスを通じて、PEFT技法のモジュラビューが登場し、異なる技術とそれらの効率とタスク性能を直接比較するだけでなく、異なる種類の微調整モジュールの再利用性と構成性について体系的に調査する。 本稿では,PEFT技術の特性と相対的優位性を理解するために参照アーキテクチャを適用し,特定のタスクのためのテクニックの選択や新しいPEFT技術の設計選択について報告する。

Recent parameter-efficient finetuning (PEFT) techniques aim to improve over the considerable cost of fully finetuning large pretrained language models (PLM). As different PEFT techniques proliferate, it is becoming difficult to compare them, in particular in terms of (i) the structure and functionality they add to the PLM, (ii) the different types and degrees of efficiency improvements achieved, (iii) performance at different downstream tasks, and (iv) how differences in structure and functionality relate to efficiency and task performance. To facilitate such comparisons, this paper presents a reference architecture which standardises aspects shared by different PEFT techniques, while isolating differences to specific locations and interactions with the standard components. Through this process of standardising and isolating differences, a modular view of PEFT techniques emerges, supporting not only direct comparison of different techniques and their efficiency and task performance, but also systematic exploration of reusability and composability of the different types of finetuned modules. We demonstrate how the reference architecture can be applied to understand properties and relative advantages of PEFT techniques, hence to inform selection of techniques for specific tasks, and design choices for new PEFT techniques.
翻訳日:2023-10-20 20:30:04 公開日:2023-10-19
# 変圧器入門

An Introduction to Transformers ( http://arxiv.org/abs/2304.10557v4 )

ライセンス: Link先を確認
Richard E. Turner(参考訳) トランスはニューラルネットワークコンポーネントであり、シーケンスやデータポイントの集合の有用な表現を学ぶために使用できる。 この変換器は、自然言語処理、コンピュータビジョン、時空間モデリングの最近の進歩を推し進めている。 トランスフォーマーの紹介は数多く存在するが、ほとんどはアーキテクチャの正確な数学的記述を含んでおらず、設計の選択の背後にある直観も欠落している。 さらに、研究が曲がりくねった経路を辿ると、変圧器の部品の説明は慣用的にできる。 本論では, 数学的に正確で直感的で, クリーンなトランスフォーマアーキテクチャ記述を目指している。 これはむしろ標準なので、トレーニングについて話し合うつもりはない。 読者は、多層パーセプトロン、線形変換、ソフトマックス関数、基本確率など、機械学習の基本トピックに精通していると仮定する。

The transformer is a neural network component that can be used to learn useful representations of sequences or sets of data-points. The transformer has driven recent advances in natural language processing, computer vision, and spatio-temporal modelling. There are many introductions to transformers, but most do not contain precise mathematical descriptions of the architecture and the intuitions behind the design choices are often also missing. Moreover, as research takes a winding path, the explanations for the components of the transformer can be idiosyncratic. In this note we aim for a mathematically precise, intuitive, and clean description of the transformer architecture. We will not discuss training as this is rather standard. We assume that the reader is familiar with fundamental topics in machine learning including multi-layer perceptrons, linear transformations, softmax functions and basic probability.
翻訳日:2023-10-20 20:29:44 公開日:2023-10-19
# 語彙トリミングによる効率的な多言語モデル圧縮

An Efficient Multilingual Language Model Compression through Vocabulary Trimming ( http://arxiv.org/abs/2305.15020v3 )

ライセンス: Link先を確認
Asahi Ushio and Yi Zhou and Jose Camacho-Collados(参考訳) 多言語言語モデル(LM)は、特に非英語言語において、NLPにおいて強力なツールとなっている。 それでも、多言語LMのモデルパラメータは、異なる言語におけるトークンをカバーする語彙の埋め込み行列が大きいため、大きなままである。 それとは対照的に、単言語lmsは言語固有の語彙のみを持つターゲット言語で訓練することができるが、高品質なlmをスクラッチから達成するには、大きな予算と信頼性の高いコーパスが必要となる。 本稿では,無関係なトークンを語彙から削除することにより,多言語lm語彙を対象言語に還元する手法である語彙トリミング(vt)を提案する。 理論上、VTは既存の多言語LMを圧縮して、多言語LMでカバーされた任意の言語で単言語LMを構築することができる。 実験では,VTは多言語LMの本来の性能を維持できるが,そのサイズは従来の多言語LMよりも小さい(一般的には原語彙の約50%は十分である)。 7言語で広く使われている4つの多言語LMのうち、4つのNLPタスク(2つの生成タスクと2つの分類タスク)で評価を行う。 最後に,この手法は単言語と多言語の両方において,個別に再学習する必要がなく,かつ潜在的に有害な社会バイアスを制限することなく,小型の単言語モデルとして維持できることを示す。

Multilingual language model (LM) have become a powerful tool in NLP especially for non-English languages. Nevertheless, model parameters of multilingual LMs remain large due to the larger embedding matrix of the vocabulary covering tokens in different languages. On the contrary, monolingual LMs can be trained in a target language with the language-specific vocabulary only, but this requires a large budget and availability of reliable corpora to achieve a high-quality LM from scratch. In this paper, we propose vocabulary-trimming (VT), a method to reduce a multilingual LM vocabulary to a target language by deleting irrelevant tokens from its vocabulary. In theory, VT can compress any existing multilingual LM to build monolingual LMs in any language covered by the multilingual LM. In our experiments, we show that VT can retain the original performance of the multilingual LM, while being smaller in size (in general around 50% of the original vocabulary size is enough) than the original multilingual LM. The evaluation is performed over four NLP tasks (two generative and two classification tasks) among four widely used multilingual LMs in seven languages. Finally, we show that this methodology can keep the best of both monolingual and multilingual worlds by keeping a small size as monolingual models without the need for specifically retraining them, and even limiting potentially harmful social biases.
翻訳日:2023-10-20 20:21:01 公開日:2023-10-19
# 制約のない離散最適化のためのNISQ互換近似量子アルゴリズム

NISQ-compatible approximate quantum algorithm for unconstrained and constrained discrete optimization ( http://arxiv.org/abs/2305.14197v2 )

ライセンス: Link先を確認
M. R. Perelshtein, A. I. Pakhomchik, Ar. A. Melnikov, M. Podobrii, A. Termanova, I. Kreidich, B. Nuriev, S. Iudin, C. W. Mansell, V. M. Vinokur(参考訳) 量子アルゴリズムは古典的アルゴリズムを著しく上回る可能性があるため、非常に人気がある。 しかしながら、最適化問題に量子アルゴリズムを適用することは、量子アルゴリズムのトレーニングの効率、コスト環境の形状、アウトプットの精度、大規模問題へのスケール能力に関する課題を満たしている。 本稿では,振幅符号化を用いたハードウェア効率の高い回路に対する近似勾配型量子アルゴリズムを提案する。 目的関数にペナルティ項を加えることなく, 単純な線形制約を回路に直接組み込むことができることを示す。 我々は,数千ノードの重み付きグラフを用いたmaxcut問題に対して数値シミュレーションを行い,超伝導量子プロセッサ上でアルゴリズムを実行する。 1000以上のノードを持つ制約のないMaxCut問題に対して、我々のアルゴリズムとCPLEXと呼ばれる古典的解法を組み合わせるハイブリッドアプローチは、CPLEX単独よりも優れた解を見つけることができる。 これはハイブリッド最適化が現代の量子デバイスの主要なユースケースの1つであることを証明している。

Quantum algorithms are getting extremely popular due to their potential to significantly outperform classical algorithms. Yet, applying quantum algorithms to optimization problems meets challenges related to the efficiency of quantum algorithms training, the shape of their cost landscape, the accuracy of their output, and their ability to scale to large-size problems. Here, we present an approximate gradient-based quantum algorithm for hardware-efficient circuits with amplitude encoding. We show how simple linear constraints can be directly incorporated into the circuit without additional modification of the objective function with penalty terms. We employ numerical simulations to test it on MaxCut problems with complete weighted graphs with thousands of nodes and run the algorithm on a superconducting quantum processor. We find that for unconstrained MaxCut problems with more than 1000 nodes, the hybrid approach combining our algorithm with a classical solver called CPLEX can find a better solution than CPLEX alone. This demonstrates that hybrid optimization is one of the leading use cases for modern quantum devices.
翻訳日:2023-10-20 20:20:36 公開日:2023-10-19
# マルチリンガル・コレキシフィケーショングラフに基づく低リソース言語のためのクロスリンガル・トランスファー学習

Crosslingual Transfer Learning for Low-Resource Languages Based on Multilingual Colexification Graphs ( http://arxiv.org/abs/2305.12818v2 )

ライセンス: Link先を確認
Yihong Liu, Haotian Ye, Leonie Weissweiler, Renhao Pei, Hinrich Sch\"utze(参考訳) 比較言語学において、コレキシフィケーション(Colexification)とは、2つ以上の異なる意味を持つ語彙形式の現象を指す。 既存のコレキシフィケーションパターンの研究は、注釈付きワードリストに依存し、NLPのスケーラビリティと有用性を制限している。 対照的に,1,335言語にまたがる2000以上の概念の共語彙パターンを,無記名並列コーパスから直接同定する。 次に、colexnet と colexnet+ というコレキシフィケーションパターンから多言語グラフを構築するための単純かつ効果的な手法を提案する。 ColexNetのノードは概念であり、エッジは照合である。 ColexNet+では、概念ノードは中間ノードを通してリンクされ、それぞれ1,334言語のうちの1つのngramを表す。 colexnet+を使って$\overrightarrow{\mbox{colexnet+}}$、転送学習に適した高品質な多言語組込みをトレーニングします。 実験の結果,ColexNetは言語間照合のデータセットであるCLICSで高いリコールを達成した。 次に、$\overrightarrow{\mbox{colexnet+}}$ on roundtrip translation, sentence search and sentence classificationを評価し、埋め込みがいくつかのトランスファー学習ベースラインを超えることを示す。 これは多言語NLPにおける情報源としてのコレキシフィケーションの利点を示す。

In comparative linguistics, colexification refers to the phenomenon of a lexical form conveying two or more distinct meanings. Existing work on colexification patterns relies on annotated word lists, limiting scalability and usefulness in NLP. In contrast, we identify colexification patterns of more than 2,000 concepts across 1,335 languages directly from an unannotated parallel corpus. We then propose simple and effective methods to build multilingual graphs from the colexification patterns: ColexNet and ColexNet+. ColexNet's nodes are concepts and its edges are colexifications. In ColexNet+, concept nodes are additionally linked through intermediate nodes, each representing an ngram in one of 1,334 languages. We use ColexNet+ to train $\overrightarrow{\mbox{ColexNet+}}$, high-quality multilingual embeddings that are well-suited for transfer learning. In our experiments, we first show that ColexNet achieves high recall on CLICS, a dataset of crosslingual colexifications. We then evaluate $\overrightarrow{\mbox{ColexNet+}}$ on roundtrip translation, sentence retrieval and sentence classification and show that our embeddings surpass several transfer learning baselines. This demonstrates the benefits of using colexification as a source of information in multilingual NLP.
翻訳日:2023-10-20 20:20:21 公開日:2023-10-19
# 部分アノテーションと自己学習を用いた構造化予測のためのデータ効率能動的学習

Data-efficient Active Learning for Structured Prediction with Partial Annotation and Self-Training ( http://arxiv.org/abs/2305.12634v2 )

ライセンス: Link先を確認
Zhisong Zhang, Emma Strubell, Eduard Hovy(参考訳) 本研究では,アクティブラーニングを用いた構造化ラベル空間のアノテーションコストを削減できる実用的な手法を提案する。 アノテーションに対して最も有益なサブ構造のみを選択することで、構造化アウトプットのラベリングコストを削減する。 また,現在のモデルの自動予測を未注釈部分構造の擬似ラベルとして組み込むために,自己学習を利用する。 アノテーションのコストを削減するために、部分アノテーションと自己学習を効果的に組み合わせる上で重要な課題は、どのサブ構造をラベルにするかを決定することである。 この課題に対処するために,現在のモデルの能力に応じて部分選択比率を適応的に決定するエラー推定器を採用する。 4つの構造化予測タスクにまたがる評価において、適応選択比を用いた部分アノテーションと自己学習の組み合わせにより、読み出し時間を考慮した公正な比較スキームの下で、強い全アノテーションベースラインよりもアノテーションコストを低減できることを示す。

In this work we propose a pragmatic method that reduces the annotation cost for structured label spaces using active learning. Our approach leverages partial annotation, which reduces labeling costs for structured outputs by selecting only the most informative sub-structures for annotation. We also utilize self-training to incorporate the current model's automatic predictions as pseudo-labels for un-annotated sub-structures. A key challenge in effectively combining partial annotation with self-training to reduce annotation cost is determining which sub-structures to select to label. To address this challenge, we adopt an error estimator to adaptively decide the partial selection ratio according to the current model's capability. In evaluations spanning four structured prediction tasks, we show that our combination of partial annotation and self-training using an adaptive selection ratio reduces annotation cost over strong full annotation baselines under a fair comparison scheme that takes reading time into consideration.
翻訳日:2023-10-20 20:19:58 公開日:2023-10-19
# ReLUネットワークの多相最適化ダイナミクスとリッチ非線形挙動の理解

Understanding Multi-phase Optimization Dynamics and Rich Nonlinear Behaviors of ReLU Networks ( http://arxiv.org/abs/2305.12467v3 )

ライセンス: Link先を確認
Mingze Wang, Chao Ma(参考訳) ReLUニューラルネットワークのトレーニングプロセスはしばしば複雑な非線形現象を示す。 モデルの非線形性と損失の非凸性は理論解析に重大な課題をもたらす。 したがって、ニューラルネットワークの最適化力学に関するこれまでの理論研究は、局所解析(訓練終了など)や近似線形モデル(ニューラル・タンジェント・カーネルなど)に重点を置いていた。 本研究では, 線形分離可能なデータに基づいて, グラディエントフローにより学習した2層ReLUネットワークの学習過程を理論的に解析する。 この特定の環境では、ランダム初期化から最終収束までの最適化過程全体を解析する。 研究した比較的単純なモデルとデータにもかかわらず、学習プロセス全体とは4つの異なるフェーズがあることがわかりました。 特定の非線形挙動は、初期凝縮、サドル・トゥ・プラトー力学、プラトーエスケープ、活性化パターンの変化、複雑さの増加による学習など、理論的に正確に識別・捕獲することができる。

The training process of ReLU neural networks often exhibits complicated nonlinear phenomena. The nonlinearity of models and non-convexity of loss pose significant challenges for theoretical analysis. Therefore, most previous theoretical works on the optimization dynamics of neural networks focus either on local analysis (like the end of training) or approximate linear models (like Neural Tangent Kernel). In this work, we conduct a complete theoretical characterization of the training process of a two-layer ReLU network trained by Gradient Flow on a linearly separable data. In this specific setting, our analysis captures the whole optimization process starting from random initialization to final convergence. Despite the relatively simple model and data that we studied, we reveal four different phases from the whole training process showing a general simplifying-to-complicating learning trend. Specific nonlinear behaviors can also be precisely identified and captured theoretically, such as initial condensation, saddle-to-plateau dynamics, plateau escape, changes of activation patterns, learning with increasing complexity, etc.
翻訳日:2023-10-20 20:19:43 公開日:2023-10-19
# logic-lm: 忠実な論理推論のためのシンボリックソルバによる大規模言語モデルの実現

Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning ( http://arxiv.org/abs/2305.12295v2 )

ライセンス: Link先を確認
Liangming Pan, Alon Albalak, Xinyi Wang, William Yang Wang(参考訳) 大規模言語モデル(llm)は人間に似た推論能力を示しているが、それでも複雑な論理的な問題に苦しんでいる。 本稿では,llms とシンボリックソルバを統合し,論理的な問題解決を改善する新しいフレームワーク logic-lm を提案する。 本手法は,まずllmを用いて自然言語問題を記号的定式化する。 その後、決定論的記号解法が定式化問題を推論する。 また,シンボリックソルバのエラーメッセージを利用してシンボリック形式を書き換える自己定義モジュールも導入する。 ProofWriter,PrOntoQA,FOLIO,LogicalDeduction,AR-LSATの5つの論理推論データセット上でLogic-LMの有効性を示す。 Logic-LM は標準のプロンプトで LLM のみを使用すれば 39.2% の大幅な性能向上を達成した。 以上の結果から,LLMと記号論理を組み合わせた論理-LMが,忠実な論理的推論の道筋となることが示唆された。 コードとデータはhttps://github.com/teacherpeterpan/logic-llmで公開されている。

Large Language Models (LLMs) have shown human-like reasoning abilities but still struggle with complex logical problems. This paper introduces a novel framework, Logic-LM, which integrates LLMs with symbolic solvers to improve logical problem-solving. Our method first utilizes LLMs to translate a natural language problem into a symbolic formulation. Afterward, a deterministic symbolic solver performs inference on the formulated problem. We also introduce a self-refinement module, which utilizes the symbolic solver's error messages to revise symbolic formalizations. We demonstrate Logic-LM's effectiveness on five logical reasoning datasets: ProofWriter, PrOntoQA, FOLIO, LogicalDeduction, and AR-LSAT. On average, Logic-LM achieves a significant performance boost of 39.2% over using LLM alone with standard prompting and 18.4% over LLM with chain-of-thought prompting. Our findings suggest that Logic-LM, by combining LLMs with symbolic logic, offers a promising avenue for faithful logical reasoning. Code and data are publicly available at https://github.com/teacherpeterpan/Logic-LLM.
翻訳日:2023-10-20 20:19:27 公開日:2023-10-19
# 擬似コード命令によるプロンプト

Prompting with Pseudo-Code Instructions ( http://arxiv.org/abs/2305.11790v3 )

ライセンス: Link先を確認
Mayank Mishra, Prince Kumar, Riyaz Bhat, Rudra Murthy V, Danish Contractor, Srikanth Tamilselvam(参考訳) 自然言語インストラクションによるプロンプトは,近年,大規模言語モデルの能力を活用する一般的な方法として登場している。 自然言語に固有のあいまいさを考えると、疑似コードの使用のようなあいまいさの少ないプロンプトスタイルでプロンプトする可能性の利点を考えるのは直感的である。 本稿では,擬似コード命令によるプロンプトが事前学習言語モデルの性能向上に役立つかどうかを考察する。 超自然命令データセットから派生した分類、qaおよび生成言語タスクにまたがる132の異なるタスクのための擬似コードプロンプトのデータセットを手作業で作成する。 これらのプロンプトと自然言語の対応を利用して, BLOOM と CodeGen の2つの LLM ファミリ上での性能について検討する。 実験の結果, 擬似符号命令を用いることで, 分類作業におけるF1得点の平均7~16ポイント, ROUGE-L得点の12~38%の増加(絶対値)が得られた。 コードコメントやドキュストリング,擬似コードでエンコードされた構造的ヒントなどが,すべてパフォーマンス向上に寄与していることを示す詳細なアブレーション研究を含む。 我々の知る限りでは、我々の研究は、擬似コードプロンプトが事前訓練されたLMの性能向上にどのように役立つかを初めて示すものである。

Prompting with natural language instructions has recently emerged as a popular method of harnessing the capabilities of large language models. Given the inherent ambiguity present in natural language, it is intuitive to consider the possible advantages of prompting with less ambiguous prompt styles, such as the use of pseudo-code. In this paper we explore if prompting via pseudo-code instructions helps improve the performance of pre-trained language models. We manually create a dataset of pseudo-code prompts for 132 different tasks spanning classification, QA and generative language tasks, sourced from the Super-NaturalInstructions dataset. Using these prompts along with their counterparts in natural language, we study their performance on two LLM families - BLOOM and CodeGen. Our experiments show that using pseudo-code instructions leads to better results, with an average increase (absolute) of 7-16 points in F1 scores for classification tasks and an improvement (relative) of 12-38% in aggregate ROUGE-L scores across all tasks. We include detailed ablation studies which indicate that code comments, docstrings, and the structural clues encoded in pseudo-code all contribute towards the improvement in performance. To the best of our knowledge our work is the first to demonstrate how pseudo-code prompts can be helpful in improving the performance of pre-trained LMs.
翻訳日:2023-10-20 20:19:03 公開日:2023-10-19
# テラヘルツ系における単一光子源

Single-photon source over the terahertz regime ( http://arxiv.org/abs/2305.11754v3 )

ライセンス: Link先を確認
Caspar Groiseau, Antonio I. Fern\'andez-Dom\'inguez, Diego Mart\'in-Cano and Carlos S\'anchez Mu\~noz(参考訳) 本稿では,テラヘルツ(THz)体制下で動作する単一光子のチューニング可能なソースを提案する。 このスキームは入射可視光子を1つの極性量子エミッタを光レーザーで駆動することで量子thz放射に変換し、その永久双極子によって共振結合によってキャビティへの着衣thz遷移を可能にする。 この機構は、駆動の強度と周波数を変更することにより、放出の周波数やその量子統計(反ばね状態から絡み合った多光子状態まで)などの特性の光学的チューニング性を提供する。 提案手法の実装は,最新のフォトニクス技術で実現可能であることを示す。

We present a proposal for a tunable source of single photons operating in the terahertz (THz) regime. This scheme transforms incident visible photons into quantum THz radiation by driving a single polar quantum emitter with an optical laser, with its permanent dipole enabling dressed THz transitions enhanced by the resonant coupling to a cavity. This mechanism offers optical tunability of properties such as the frequency of the emission or its quantum statistics (ranging from antibunching to entangled multi-photon states) by modifying the intensity and frequency of the drive. We show that the implementation of this proposal is feasible with state-of-the-art photonics technology.
翻訳日:2023-10-20 20:18:36 公開日:2023-10-19
# 知識カード:LLMの知識ギャップをプラグイン特化言語モデルで埋める

Knowledge Card: Filling LLMs' Knowledge Gaps with Plug-in Specialized Language Models ( http://arxiv.org/abs/2305.09955v2 )

ライセンス: Link先を確認
Shangbin Feng, Weijia Shi, Yuyang Bai, Vidhisha Balachandran, Tianxing He, Yulia Tsvetkov(参考訳) 設計上、大規模言語モデル(llm)は静的汎用モデルであり、頻繁な再訓練や更新に費用がかかる。 知識集約的なタスクに採用される傾向にあるため、これらの設計選択が、事実、関連性、最新の知識を生み出すのに失敗することにつながることが明らかになっている。 この目的のために、我々は、新しい事実と関連する知識を汎用LLMにプラグインするモジュラーフレームワークである \ourmethod{} を提案する。 まず、特定のドメインやソースからコーパスでトレーニングされた専門言語モデルである \emph{knowledge cards} を紹介します。 知識カードは、ベースLSMの背景知識を生成するために、推論時に選択されるパラメトリックリポジトリとして機能する。 次に,知識カードが生成する文書の情報を動的に選択・保持する3つのコンテンツセレクタ,特に出力の \emph{relevance}, \emph{brevity}, \emph{factuality} を制御可能なコンテンツセレクタを提案する。 最後に、専門的なlmsから収集した(関連する、事実的)知識とベースllmを補完する2つの相補的統合手法を提案する。 広範な実験を通じて,6つのベンチマークデータセット上で,‘ourmethod{}’が最先端のパフォーマンスを達成することを示す。 最終的に、‘ourmethod{}フレームワークは多様なドメインからの知識の動的合成と更新を可能にする。 そのモジュール性は、研究コミュニティの集合的努力を通じて、関連する知識を継続的に更新することを保証する。

By design, large language models (LLMs) are static general-purpose models, expensive to retrain or update frequently. As they are increasingly adopted for knowledge-intensive tasks, it becomes evident that these design choices lead to failures to generate factual, relevant, and up-to-date knowledge. To this end, we propose \ourmethod{}, a modular framework to plug in new factual and relevant knowledge into general-purpose LLMs. We first introduce \emph{knowledge cards} -- specialized language models trained on corpora from specific domains and sources. Knowledge cards serve as parametric repositories that are selected at inference time to generate background knowledge for the base LLM. We then propose three content selectors to dynamically select and retain information in documents generated by knowledge cards, specifically controlling for \emph{relevance}, \emph{brevity}, and \emph{factuality} of outputs. Finally, we propose two complementary integration approaches to augment the base LLM with the (relevant, factual) knowledge curated from the specialized LMs. Through extensive experiments, we demonstrate that \ourmethod{} achieves state-of-the-art performance on six benchmark datasets. Ultimately, \ourmethod{} framework enables dynamic synthesis and updates of knowledge from diverse domains. Its modularity will ensure that relevant knowledge can be continuously updated through the collective efforts of the research community.
翻訳日:2023-10-20 20:18:26 公開日:2023-10-19
# 非エルミートスターク多体局在

Non-Hermitian Stark Many-Body Localization ( http://arxiv.org/abs/2305.09387v3 )

ライセンス: Link先を確認
Han-Ze Li, Xue-Jia Yu, and Jian-Xin Zhong(参考訳) 正確な対角化 (ED) 技術を用いて, テール曲率を持つスタークポテンシャル下での1次元の非相互相互作用型ハードコアボソンモデルについて検討する。 非ゼロ仮想アイジネギー比、半鎖エンタングルメントエントロピー、固有状態不安定性を用いて、スペクトル実複素遷移(RC)と多体局在化(MBL)相転移の臨界点が同一でないことを数値的に確認し、位相図の検証により、スペクトルRC遷移がMBL相転移の前に生じることが示され、新しい非MBL誘起スペクトルRC転移の存在が示唆される。 これらの発見は予想外であり、障害駆動相互作用非エルミート系における観察とは全く異なる。 この研究は、無秩序相互作用を持つ非エルミート系における相転移のさらなる研究に役立つ。

Utilizing exact diagonalization (ED) techniques, we investigate a one-dimensional, non-reciprocal, interacting hard-core boson model under a Stark potential with tail curvature. By employing the non-zero imaginary eigenenergies ratio, half-chain entanglement entropy, and eigenstate instability, we numerically confirm that the critical points of spectral real-complex (RC) transition and many-body localization (MBL) phase transition are not identical, and an examination of the phase diagrams reveals that the spectral RC transition arises before the MBL phase transition, which suggests the existence of a novel non-MBL-driven spectral RC transition. These findings are quite unexpected, and they are entirely different from observations in disorder-driven interacting non-Hermitian systems. This work provides a useful reference for further research on phase transitions in disorder-free interacting non-Hermitian systems.
翻訳日:2023-10-20 20:18:00 公開日:2023-10-19
# Voyager: 大規模言語モデルを備えたオープンエンベッド型エージェント

Voyager: An Open-Ended Embodied Agent with Large Language Models ( http://arxiv.org/abs/2305.16291v2 )

ライセンス: Link先を確認
Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar(参考訳) LLMを用いた最初の生涯学習エージェントであるVoyagerを紹介した。これはMinecraftにおいて、世界を継続的に探索し、多様なスキルを習得し、人間の介入なしに新しい発見を行う。 voyagerは3つの重要なコンポーネントで構成されている。 1)探索を最大化する自動カリキュラム 2)複雑な行動の保存及び検索のための実行可能なコードの継続的な成長スキルライブラリ。 3)環境フィードバック,実行エラー,プログラム改善のための自己検証を含む,新たな反復的プロンプト機構。 Voyagerはブラックボックスクエリを通じてGPT-4と対話し、モデルパラメータの微調整の必要性を回避している。 ボイジャーによって開発されたスキルは時間的に拡張され、解釈され、構成され、エージェントの能力は急速に複合され、破滅的な忘れを和らげる。 実証的に、Voyagerはコンテキスト内での生涯学習能力を示し、Minecraftの演奏に非常に優れた能力を示している。 3.3倍のユニークなアイテムを入手し、2.3倍長い距離を移動し、主要な技術ツリーのマイルストーンを以前のSOTAよりも15.3倍速くアンロックする。 Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを使って、新しいタスクをゼロから解決し、他のテクニックは一般化に苦慮している。 私たちは完全なコードベースをオープンソース化し、https://voyager.minedojo.org/でプロンプトします。

We introduce Voyager, the first LLM-powered embodied lifelong learning agent in Minecraft that continuously explores the world, acquires diverse skills, and makes novel discoveries without human intervention. Voyager consists of three key components: 1) an automatic curriculum that maximizes exploration, 2) an ever-growing skill library of executable code for storing and retrieving complex behaviors, and 3) a new iterative prompting mechanism that incorporates environment feedback, execution errors, and self-verification for program improvement. Voyager interacts with GPT-4 via blackbox queries, which bypasses the need for model parameter fine-tuning. The skills developed by Voyager are temporally extended, interpretable, and compositional, which compounds the agent's abilities rapidly and alleviates catastrophic forgetting. Empirically, Voyager shows strong in-context lifelong learning capability and exhibits exceptional proficiency in playing Minecraft. It obtains 3.3x more unique items, travels 2.3x longer distances, and unlocks key tech tree milestones up to 15.3x faster than prior SOTA. Voyager is able to utilize the learned skill library in a new Minecraft world to solve novel tasks from scratch, while other techniques struggle to generalize. We open-source our full codebase and prompts at https://voyager.minedojo.org/.
翻訳日:2023-10-20 20:11:57 公開日:2023-10-19
# 選択された措置の効用を改善するための私的合成データ処理

Post-processing Private Synthetic Data for Improving Utility on Selected Measures ( http://arxiv.org/abs/2305.15538v2 )

ライセンス: Link先を確認
Hao Wang, Shivchander Sudalairaj, John Henning, Kristjan Greenewald, Akash Srivastava(参考訳) 既存のプライベート合成データ生成アルゴリズムは、ダウンストリームタスクに依存しない。 しかし、エンドユーザは、合成データが満たさなければならない特定の要件を持つかもしれない。 これらの要件を満たさないと、ダウンストリーム使用のためのデータの有用性が大幅に低下する可能性がある。 本稿では,エンドユーザが選択した尺度に対する合成データの有効性を向上し,強力なプライバシー保証とデータセットの品質を保った後処理手法を提案する。 提案手法では, 効率的な確率的一階法アルゴリズムを用いて, 最適再サンプリング重みを求めることにより, 選択した実用対策に適合しないサンプルを抽出する。 総合的な数値実験を通じて,本手法は,複数のベンチマークデータセットと最先端合成データ生成アルゴリズムをまたいだ合成データの有用性を一貫して向上させることを実証する。

Existing private synthetic data generation algorithms are agnostic to downstream tasks. However, end users may have specific requirements that the synthetic data must satisfy. Failure to meet these requirements could significantly reduce the utility of the data for downstream use. We introduce a post-processing technique that improves the utility of the synthetic data with respect to measures selected by the end user, while preserving strong privacy guarantees and dataset quality. Our technique involves resampling from the synthetic data to filter out samples that do not meet the selected utility measures, using an efficient stochastic first-order algorithm to find optimal resampling weights. Through comprehensive numerical experiments, we demonstrate that our approach consistently improves the utility of synthetic data across multiple benchmark datasets and state-of-the-art synthetic data generation algorithms.
翻訳日:2023-10-20 20:11:35 公開日:2023-10-19
# マトロイド制約によるストリーミングサブモジュラー最大化の公平性

Fairness in Streaming Submodular Maximization over a Matroid Constraint ( http://arxiv.org/abs/2305.15118v2 )

ライセンス: Link先を確認
Marwa El Halabi, Federico Fusco, Ashkan Norouzi-Fard, Jakab Tardos, Jakub Tarnawski(参考訳) ストリーミングサブモジュールの最大化は、大規模データセットから代表サブセットを選択するタスクの自然なモデルである。 データポイントが性別や人種のような繊細な属性を持つ場合、偏見や差別を避けるために公平さを強制することが重要になる。 これにより、公正な機械学習アルゴリズムの開発に大きな関心が寄せられた。 近年,濃度制約下での単調部分モジュラー最大化のためのアルゴリズムが開発されている。 本稿では,この問題をマトロイド制約に自然に一般化する手法について検討する。 ストリーミングアルゴリズムと、効率、品質、公正性のトレードオフを提供する非可視性結果を提供する。 本研究は,代表的なクラスタリング,映画レコメンデーション,ソーシャルネットワークにおける最大カバレッジなど,よく知られた実世界の応用を実証的に検証する。

Streaming submodular maximization is a natural model for the task of selecting a representative subset from a large-scale dataset. If datapoints have sensitive attributes such as gender or race, it becomes important to enforce fairness to avoid bias and discrimination. This has spurred significant interest in developing fair machine learning algorithms. Recently, such algorithms have been developed for monotone submodular maximization under a cardinality constraint. In this paper, we study the natural generalization of this problem to a matroid constraint. We give streaming algorithms as well as impossibility results that provide trade-offs between efficiency, quality and fairness. We validate our findings empirically on a range of well-known real-world applications: exemplar-based clustering, movie recommendation, and maximum coverage in social networks.
翻訳日:2023-10-20 20:11:20 公開日:2023-10-19
# RefGPT: GPT による GPT の対話生成と GPT のための

RefGPT: Dialogue Generation of GPT, by GPT, and for GPT ( http://arxiv.org/abs/2305.14994v3 )

ライセンス: Link先を確認
Dongjie Yang, Ruifeng Yuan, Yuantao Fan, Yifei Yang, Zili Wang, Shusen Wang, Hai Zhao(参考訳) 大規模言語モデル(llm)は、高品質な命令データを微調整することで、幅広いnlpタスクを解決できる素晴らしい能力を得た。 しかし、高品質、特にマルチターン対話の人文データ収集は、多くの人にとって高価で持続不可能である。 これまでの研究では、強力なLDMを使って対話を自動的に生成してきたが、いずれもモデル幻覚のために非現実的な対話を発生させることに悩まされていた。 そこで本研究では,RefGPTという手法を用いて,モデル幻覚による事実誤りを気にすることなく,膨大な真実とカスタマイズされた対話を生成する手法を提案する。 refgptは、会話生成におけるモデル幻覚を、llmが与えられた参照を利用するように制限することで解決する。 さらに、RefGPTは、過去の研究で無視された高いカスタマイズ機能を実現するために、すべての発話の詳細な制御を追加する。 また、RefGPTに基づいて、GPT-4によって生成された2つの高品質な対話データセット、すなわちRefGPT-FactとRefGPT-Codeを提案する。 RefGPT-Factは、事実知識に基づく100kのマルチターン対話を備えたデータセットであり、RefGPT-Codeには、幅広いコーディングシナリオをカバーする76kのマルチターン対話がある。 私たちのコードとデータセットはhttps://github.com/mutonix/RefGPTで公開されています。

Large Language Models (LLMs) have attained the impressive capability to resolve a wide range of NLP tasks by fine-tuning high-quality instruction data. However, collecting human-written data of high quality, especially multi-turn dialogues, is expensive and unattainable for most people. Though previous studies have used powerful LLMs to generate the dialogues automatically, they all suffer from generating untruthful dialogues because of the model hallucination. Therefore, we propose a method called RefGPT to generate enormous truthful and customized dialogues without worrying about factual errors caused by the model hallucination. RefGPT solves the model hallucination in dialogue generation by restricting the LLMs to leverage the given reference instead of reciting their own knowledge to generate dialogues. Additionally, RefGPT adds detailed controls on every utterance to enable high customization capability, which previous studies have ignored. On the basis of RefGPT, we also propose two high-quality dialogue datasets generated by GPT-4, namely RefGPT-Fact and RefGPT-Code. RefGPT-Fact is a dataset with 100k multi-turn dialogues based on factual knowledge and RefGPT-Code has 76k multi-turn dialogues covering a wide range of coding scenarios. Our code and datasets are released in https://github.com/mutonix/RefGPT.
翻訳日:2023-10-20 20:11:07 公開日:2023-10-19
# 同盟国:ビームサーチによる大規模言語モデルの提案

Allies: Prompting Large Language Model with Beam Search ( http://arxiv.org/abs/2305.14766v3 )

ライセンス: Link先を確認
Hao Sun, Xiao Liu, Yeyun Gong, Yan Zhang, Daxin Jiang, Linjun Yang, Nan Duan(参考訳) 大規模言語モデル (LLMs) の進歩により, LLM アプリケーションの研究分野はますます普及し, LLM API 呼び出しを積み重ねて複雑なタスクをこなすパイプラインの構築が実現している。 しかし、この種の手法は、狭い情報カバレッジと低いフォールトトレランスの2つの制限に直面している。 そこで本研究では,アソシエイトと呼ばれる新しい手法を提案する。 入力クエリが与えられた後、ALLIESはLSMを利用して元のクエリに関連する新しいクエリを反復的に生成し、反復的推論プロセスを可能にする。 元のクエリのスコープを反復的に精錬して拡張することで、アソシエイトは検索によって直接取得できない隠れた知識を捕捉し、活用する。 ゼロショットオープンドメイン質問応答(ODQA)をアプリケーションシーンとして、NQ、WebQ、TriviaQAといった広く使われているベンチマークでALLIESを評価する。 実験の結果、ALLIESは他のゼロショットベースラインよりも大幅に優れており、これらの課題に対処する効果が示されている。 私たちのコードはhttps://github.com/microsoft/SimXNS/tree/main/ALLIESで利用可能です。

With the advance of large language models (LLMs), the research field of LLM applications becomes more and more popular and the idea of constructing pipelines to accomplish complex tasks by stacking LLM API calls come true. However, this kind of methods face two limitations: narrow information coverage and low fault tolerance. In this work, we propose a novel method called ALLIES. Given an input query, ALLIES leverages LLMs to iteratively generate new queries related to the original query, enabling an iterative reasoning process. By iteratively refining and expanding the scope of the original query, ALLIES captures and utilizes hidden knowledge that may not be directly obtainable through retrieval. We take zero-shot open-domain question answering (ODQA) as an application scene and evaluate ALLIES on the widely-used benchmarks, such as NQ, WebQ and TriviaQA. The experimental results demonstrate that ALLIES significantly outperforms other zero-shot baselines, indicating its effectiveness in tackling those challenges. Our code is available in https://github.com/microsoft/SimXNS/tree/main/ALLIES.
翻訳日:2023-10-20 20:10:42 公開日:2023-10-19
# マルチモーダルコントラスト表現の接続

Connecting Multi-modal Contrastive Representations ( http://arxiv.org/abs/2305.14381v2 )

ライセンス: Link先を確認
Zehan Wang, Yang Zhao, Xize Cheng, Haifeng Huang, Jiageng Liu, Li Tang, Linjun Li, Yongqi Wang, Aoxiong Yin, Ziang Zhang, Zhou Zhao(参考訳) マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に整合した共有空間に符号化することを目的としている。 このパラダイムは、様々なモードにわたる多くの下流タスクにおいて顕著な一般化能力を示す。 しかし、大量の高品質のデータペアへの依存は、さらなるモダリティへのさらなる発展を制限する。 本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習する新しい学習方法を提案する。 具体的には、 (A, B) と (B, C) のモダリティ対上で事前訓練された2つの既存の MCR について、それらを新しい空間に投影し、重なり合うモダリティ B からのデータを新しい空間に整列させる。 一方、モダリティ対 (A, B) と (B, C) は既に各 MCR 内に整列しているので、重なり合うモダリティ対 (A, C) に重なり合うことで得られる接続も、非重なり合うモダリティ対 (A, C) に移すことができる。 C-MCRのポテンシャルを解き放つために, セマンティック・エンハンスド・インター・イントラMCR接続法を導入する。 まず、より堅牢なアライメントのために、異なるモダリティにまたがる埋め込みのセマンティック一貫性と完成性を強化する。 次に、MCR間アライメントを用いて接続を確立し、MCR内アライメントを用いて、重複しないモダリティからの入力に対する接続をより良く維持する。 C-MCRの有効性を示すために、テキストを介してCLIPとCLAPを接続し、CLIPとULIPを3次元言語表現のための画像を介して統合する。 注目すべきは、ペアデータを使用しないC-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のパフォーマンスを達成することである。 さらに、3D言語用のC-MCRは、ModelNet40上での高度なゼロショット3Dポイントクラウド分類の精度も達成している。

Multi-modal Contrastive Representation learning aims to encode different modalities into a semantically aligned shared space. This paradigm shows remarkable generalization ability on numerous downstream tasks across various modalities. However, the reliance on massive high-quality data pairs limits its further development on more modalities. This paper proposes a novel training-efficient method for learning MCR without paired data called Connecting Multi-modal Contrastive Representations (C-MCR). Specifically, given two existing MCRs pre-trained on (A, B) and (B, C) modality pairs, we project them to a new space and use the data from the overlapping modality B to aligning the two MCRs in the new space. Meanwhile, since the modality pairs (A, B) and (B, C) are already aligned within each MCR, the connection learned by overlapping modality can also be transferred to non-overlapping modality pair (A, C). To unleash the potential of C-MCR, we further introduce a semantic-enhanced inter- and intra-MCR connection method. We first enhance the semantic consistency and completion of embeddings across different modalities for more robust alignment. Then we utilize the inter-MCR alignment to establish the connection, and employ the intra-MCR alignment to better maintain the connection for inputs from non-overlapping modalities. To demonstrate the effectiveness of C-MCR, we connect CLIP and CLAP via texts to derive audio-visual representations, and integrate CLIP and ULIP via images for 3D-language representations. Remarkably, without using any paired data, C-MCR for audio-visual achieves state-of-the-art performance on audio-image retrieval, audio-visual source localization, and counterfactual audio-image recognition tasks. Furthermore, C-MCR for 3D-language also attains advanced zero-shot 3D point cloud classification accuracy on ModelNet40.
翻訳日:2023-10-20 20:10:02 公開日:2023-10-19
# マルチモーダルプリトレーニングにおける視覚関係の弱教師付き学習

Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining ( http://arxiv.org/abs/2305.14281v2 )

ライセンス: Link先を確認
Emanuele Bugliarello, Aida Nematzadeh, Lisa Anne Hendricks(参考訳) 視覚・言語事前学習における最近の研究は、オブジェクト検出データからの教師付き信号を調べ、より精密なマルチモーダル表現を学習している。 そこで本研究では,小規模の視覚関係データから,どのように監視を行うかを検討する。 特に,マルチモーダルな設定で視覚エンティティをコンテキスト化するための2つの事前学習手法を提案する。 言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。 マスキング関係予測により、視覚的にマスキングされたコンテキストを持つ画像領域からのエンティティの関連をさらに促進する。 大量のwebデータに事前学習された強力なベースラインに適用すると,粗粒度と細粒度の両方のタスクにおけるゼロショット評価が,弱教師付き関係データからマルチモーダル表現を学習する手法の有効性を示す。

Recent work in vision-and-language pretraining has investigated supervised signals from object detection data to learn better, fine-grained multimodal representations. In this work, we take a step further and explore how we can tap into supervision from small-scale visual relation data. In particular, we propose two pretraining approaches to contextualise visual entities in a multimodal setup. With verbalised scene graphs, we transform visual relation triplets into structured captions, and treat them as additional image descriptions. With masked relation prediction, we further encourage relating entities from image regions with visually masked contexts. When applied to strong baselines pretrained on large amounts of Web data, zero-shot evaluations on both coarse-grained and fine-grained tasks show the efficacy of our methods in learning multimodal representations from weakly-supervised relations data.
翻訳日:2023-10-20 20:09:24 公開日:2023-10-19
# 科学文献理解のためのマルチタスクコントラスト学習モデル

Pre-training Multi-task Contrastive Learning Models for Scientific Literature Understanding ( http://arxiv.org/abs/2305.14232v2 )

ライセンス: Link先を確認
Yu Zhang, Hao Cheng, Zhihong Shen, Xiaodong Liu, Ye-Yi Wang, Jianfeng Gao(参考訳) 科学文献理解タスクは、科学的発見を加速する可能性から、大きな注目を集めている。 事前訓練された言語モデル(LM)は、特に対照的な学習によって調整された場合、これらのタスクにおいて有効性を示す。 しかし、複数の異種タスク(例えば、極端なマルチラベルの紙分類、引用予測、文学探索など)で事前学習データを共同利用することは、ほとんど未定である。 このギャップを埋めるために,タスク固有のスキルが相互に干渉することを防ぐとともに,科学文献理解タスク間の共通知識共有を容易にするマルチタスクコントラスト学習フレームワークSciMultを提案する。 具体的には、タスク対応の特殊化と命令のチューニングという2つのテクニックを探求する。 前者はタスク対応サブレイヤを備えたMixture-of-Experts Transformerアーキテクチャを採用し、後者はタスク対応の出力を生成するために入力テキストにタスク固有の命令をプリペンドする。 ベンチマークデータセットの包括的なコレクションに関する広範囲な実験により、タスクアウェア特殊化戦略の有効性が検証された。 コード、データセット、事前学習されたモデルはhttps://scimult.github.io/にある。

Scientific literature understanding tasks have gained significant attention due to their potential to accelerate scientific discovery. Pre-trained language models (LMs) have shown effectiveness in these tasks, especially when tuned via contrastive learning. However, jointly utilizing pre-training data across multiple heterogeneous tasks (e.g., extreme multi-label paper classification, citation prediction, and literature search) remains largely unexplored. To bridge this gap, we propose a multi-task contrastive learning framework, SciMult, with a focus on facilitating common knowledge sharing across different scientific literature understanding tasks while preventing task-specific skills from interfering with each other. To be specific, we explore two techniques -- task-aware specialization and instruction tuning. The former adopts a Mixture-of-Experts Transformer architecture with task-aware sub-layers; the latter prepends task-specific instructions to the input text so as to produce task-aware outputs. Extensive experiments on a comprehensive collection of benchmark datasets verify the effectiveness of our task-aware specialization strategy, where we outperform state-of-the-art scientific pre-trained LMs. Code, datasets, and pre-trained models can be found at https://scimult.github.io/.
翻訳日:2023-10-20 20:09:07 公開日:2023-10-19
# ユーザフィードバックの可能性を解き放つ:対話システム強化のためのユーザシミュレータとしての大規模言語モデル活用

Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System ( http://arxiv.org/abs/2306.09821v2 )

ライセンス: Link先を確認
Zhiyuan Hu, Yue Feng, Anh Tuan Luu, Bryan Hooi, Aldo Lipani(参考訳) 対話システムと大規模言語モデル(LLM)が注目されている。 しかし、タスク指向対話(TOD)モデルとしてのLLMの直接利用は、タスク固有モデルに比べて性能が劣っていることが判明した。 それにもかかわらず、LLMの潜在能力を認め、その優れた能力を活用するための改良されたアプローチを検討することが重要である。 llmsを活用するという目標に動機づけられ,より小さなtodモデルと組み合わせるために,ugro(user-guided response optimization)と呼ばれる代替手法を提案する。 このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。 LLMによって生成された満足度フィードバックを利用することで、UGROはさらに教師付き微調整TODモデルを最適化する。 具体的には、TODモデルは対話履歴を入力として取り、ユーザシミュレータのフィードバックの助けを借りて、ユーザの要求を満たす高満足度応答を生成する。 2つのTODベンチマークの実証実験を通じて,本手法の有効性を検証した。 その結果,従来のSOTA(State-of-the-art)よりも優れた結果が得られた。

Dialogue systems and large language models (LLMs) have gained considerable attention. However, the direct utilization of LLMs as task-oriented dialogue (TOD) models has been found to underperform compared to smaller task-specific models. Nonetheless, it is crucial to acknowledge the significant potential of LLMs and explore improved approaches for leveraging their impressive abilities. Motivated by the goal of leveraging LLMs, we propose an alternative approach called User-Guided Response Optimization (UGRO) to combine it with a smaller TOD model. This approach uses LLM as annotation-free user simulator to assess dialogue responses, combining them with smaller fine-tuned end-to-end TOD models. By utilizing the satisfaction feedback generated by LLMs, UGRO further optimizes the supervised fine-tuned TOD model. Specifically, the TOD model takes the dialogue history as input and, with the assistance of the user simulator's feedback, generates high-satisfaction responses that meet the user's requirements. Through empirical experiments on two TOD benchmarks, we validate the effectiveness of our method. The results demonstrate that our approach outperforms previous state-of-the-art (SOTA) results.
翻訳日:2023-10-20 20:00:51 公開日:2023-10-19
# WSPAlign: 大規模監視スパン予測による単語アライメント事前学習

WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised Span Prediction ( http://arxiv.org/abs/2306.05644v2 )

ライセンス: Link先を確認
Qiyu Wu, Masaaki Nagata, Yoshimasa Tsuruoka(参考訳) 既存の単語アライメント手法のほとんどは手動アライメントデータセットや並列コーパスに依存しており、その有用性を制限している。 本稿では,手動データへの依存を緩和するために,正文,完全整列文,平行文の要求を緩和することで,監督の源泉を広げる。 具体的には、ノイズ、部分的なアライメント、および非並列段落を作成します。 次に、このような大規模弱教師付きデータセットを用いて、スパン予測による単語アライメント事前学習を行う。 様々な設定による大規模な実験は、WSPAlignという名前の我々のアプローチが、手動データなしで単語整合を事前訓練するための効果的でスケーラブルな方法であることを実証的に示している。 標準ベンチマークを微調整すると、WSPAlignはF1では3.3~6.1点、AERでは1.5~6.1点の改善により、新しい最先端技術を設定した。 さらに、wspalignは、none-shot、zero-shot、cross-lingualのテストで対応するベースラインと比較しても、競争力のあるパフォーマンスを実現しています。

Most existing word alignment methods rely on manual alignment datasets or parallel corpora, which limits their usefulness. Here, to mitigate the dependence on manual data, we broaden the source of supervision by relaxing the requirement for correct, fully-aligned, and parallel sentences. Specifically, we make noisy, partially aligned, and non-parallel paragraphs. We then use such a large-scale weakly-supervised dataset for word alignment pre-training via span prediction. Extensive experiments with various settings empirically demonstrate that our approach, which is named WSPAlign, is an effective and scalable way to pre-train word aligners without manual data. When fine-tuned on standard benchmarks, WSPAlign has set a new state-of-the-art by improving upon the best-supervised baseline by 3.3~6.1 points in F1 and 1.5~6.1 points in AER. Furthermore, WSPAlign also achieves competitive performance compared with the corresponding baselines in few-shot, zero-shot and cross-lingual tests, which demonstrates that WSPAlign is potentially more practical for low-resource languages than existing methods.
翻訳日:2023-10-20 20:00:32 公開日:2023-10-19
# 拡散モデルの設計基礎について:サーベイ

On the Design Fundamentals of Diffusion Models: A Survey ( http://arxiv.org/abs/2306.04542v3 )

ライセンス: Link先を確認
Ziyi Chang, George Alex Koulieris, Hubert P. H. Shum(参考訳) 拡散モデルは生成モデルであり、徐々にノイズを加えて除去し、データ生成のためのトレーニングデータの基盤となる分布を学習する。 拡散モデルの構成要素は、多くの設計選択によって大きな注目を集めている。 既存のレビューは主に高レベルのソリューションに焦点を当てており、コンポーネントの設計基本にはあまり触れていない。 本研究は拡散モデルにおけるコンポーネント設計の選択に関する包括的かつコヒーレントなレビューを提供することによって,このギャップに対処しようとするものである。 具体的には,前処理,逆処理,サンプリング手順という3つの重要なコンポーネントに従って,このレビューを整理した。 これにより、拡散モデルに関するきめ細かい視点を提供し、個々の成分の分析、設計選択の適用可能性、拡散モデルの実装に関する今後の研究の恩恵を受けることができます。

Diffusion models are generative models, which gradually add and remove noise to learn the underlying distribution of training data for data generation. The components of diffusion models have gained significant attention with many design choices proposed. Existing reviews have primarily focused on higher-level solutions, thereby covering less on the design fundamentals of components. This study seeks to address this gap by providing a comprehensive and coherent review on component-wise design choices in diffusion models. Specifically, we organize this review according to their three key components, namely the forward process, the reverse process, and the sampling procedure. This allows us to provide a fine-grained perspective of diffusion models, benefiting future studies in the analysis of individual components, the applicability of design choices, and the implementation of diffusion models.
翻訳日:2023-10-20 20:00:12 公開日:2023-10-19
# スキーマファースト! MASCHInEを用いた意味論のキャプチャによる多言語知識グラフ埋め込みの学習

Schema First! Learn Versatile Knowledge Graph Embeddings by Capturing Semantics with MASCHInE ( http://arxiv.org/abs/2306.03659v2 )

ライセンス: Link先を確認
Nicolas Hubert, Heiko Paulheim, Pierre Monnin, Armelle Brun, Davy Monticolo(参考訳) 近年,知識グラフ埋め込みモデル (KGEMs) が注目されている。 これらのモデルは知識グラフ実体と関係、すなわち知識グラフ埋め込み(KGE)のベクトル表現を学ぶ。 汎用的なKGEを学習することは、幅広いタスクに役立てるのが望ましい。 しかしながら、KGEMは通常、特定のタスクのためにトレーニングされるため、組み込みはタスクに依存している。 平行して、KGEMが実際に基礎となるエンティティと関係(例えば、異なるエンティティよりも近いプロジェクト類似のエンティティ)のセマンティック表現を作成するという仮定が問題視されている。 本研究では,RDF/S情報を利用するKGの小型化バージョンを生成するためのヒューリスティックスを設計する。 学習されたプロトグラフベースの埋め込みは、KGのセマンティクスをカプセル化することを目的としており、KGEの学習に利用することができる。 様々な評価ベンチマークによる広範囲な実験は、この手法の健全性を示しており、我々はModular and Agnostic SCHema-based Integration of protograph Embeddings (MASCHInE)と呼ぶ。 特に、MASCHInEはより汎用的なKGEを生成し、エンティティクラスタリングやノード分類タスクのパフォーマンスを大幅に向上させる。 リンク予測では、MASCHinEを用いることで、同等のランクベースの性能を持つ意味論的に有効な予測の数が大幅に増加する。

Knowledge graph embedding models (KGEMs) have gained considerable traction in recent years. These models learn a vector representation of knowledge graph entities and relations, a.k.a. knowledge graph embeddings (KGEs). Learning versatile KGEs is desirable as it makes them useful for a broad range of tasks. However, KGEMs are usually trained for a specific task, which makes their embeddings task-dependent. In parallel, the widespread assumption that KGEMs actually create a semantic representation of the underlying entities and relations (e.g., project similar entities closer than dissimilar ones) has been challenged. In this work, we design heuristics for generating protographs -- small, modified versions of a KG that leverage RDF/S information. The learnt protograph-based embeddings are meant to encapsulate the semantics of a KG, and can be leveraged in learning KGEs that, in turn, also better capture semantics. Extensive experiments on various evaluation benchmarks demonstrate the soundness of this approach, which we call Modular and Agnostic SCHema-based Integration of protograph Embeddings (MASCHInE). In particular, MASCHInE helps produce more versatile KGEs that yield substantially better performance for entity clustering and node classification tasks. For link prediction, using MASCHinE substantially increases the number of semantically valid predictions with equivalent rank-based performance.
翻訳日:2023-10-20 19:59:59 公開日:2023-10-19
# 事前学習モデルの可逆化:パラメータからメモリ効率の良い微調整へ

Make Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning ( http://arxiv.org/abs/2306.00477v4 )

ライセンス: Link先を確認
Baohao Liao, Shaomu Tan, Christof Monz(参考訳) プレトレーニング言語モデル(PLM)のパラメータ効率細調整(PEFT)は、性能を犠牲にすることなく少数のパラメータのみをトレーニングし、PLMのサイズを増大させるデファクト学習パラダイムとなるという、非常に成功したアプローチとして登場した。 しかし、既存のpeftメソッドは、グラデーション計算のための中間アクティベーションの大部分をキャッシュする必要があるため、メモリ効率は高くない。 アクティベーションメモリを減らす効果的な方法の一つは可逆モデルを適用することであるので、中間のアクティベーションはキャッシュする必要がなく、再計算できる。 しかしながら、可逆的なモデルが現在リリースされているPLMとは異なるアーキテクチャを持つため、PLMを可逆的な変種に変更することは簡単ではない。 本稿では,既存のPEFT法の成功の鍵となる要因を最初に検討し,PEFT法の初期化においてPLMの開始点を保存することが重要であることを認識した。 そこで本研究では, PLM にアダプタを挿入し, PLM の開始点を保存し, 追加の事前学習なしに可逆化するメモリ効率向上ファインタニング (MEFT) を提案する。 GLUEベンチマークのMEFTとBERT,RoBERTa,BART,OPTの5つのバックボーンを用いた質問応答タスクの評価を行った。 MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。 さらに, MEFT は GLUE のスコアと質問応答タスクのスコアをフル微調整と同等に達成している。 画像分類作業にも同様の発見が観察されている。

Parameter-efficient fine-tuning (PEFT) of pre-trained language models (PLMs) has emerged as a highly successful approach, with training only a small number of parameters without sacrificing performance and becoming the de-facto learning paradigm with the increasing size of PLMs. However, existing PEFT methods are not memory-efficient, because they still require caching most of the intermediate activations for the gradient calculation, akin to fine-tuning. One effective way to reduce the activation memory is to apply a reversible model, so the intermediate activations are not necessary to be cached and can be recomputed. Nevertheless, modifying a PLM to its reversible variant is not straightforward, since the reversible model has a distinct architecture from the currently released PLMs. In this paper, we first investigate what is a key factor for the success of existing PEFT methods, and realize that it's essential to preserve the PLM's starting point when initializing a PEFT method. With this finding, we propose memory-efficient fine-tuning (MEFT) that inserts adapters into a PLM, preserving the PLM's starting point and making it reversible without additional pre-training. We evaluate MEFT on the GLUE benchmark and five question-answering tasks with various backbones, BERT, RoBERTa, BART and OPT. MEFT significantly reduces the activation memory up to 84% of full fine-tuning with a negligible amount of trainable parameters. Moreover, MEFT achieves the same score on GLUE and a comparable score on the question-answering tasks as full fine-tuning. A similar finding is also observed for the image classification task.
翻訳日:2023-10-20 19:59:31 公開日:2023-10-19
# 言語モデルを用いたRed Teaming Language Model Detector

Red Teaming Language Model Detectors with Language Models ( http://arxiv.org/abs/2305.19713v2 )

ライセンス: Link先を確認
Zhouxing Shi, Yihan Wang, Fan Yin, Xiangning Chen, Kai-Wei Chang, Cho-Jui Hsieh(参考訳) 大規模言語モデル(LLM)の流行と強力な能力は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。 LLMの潜在的な誤用を防止するため、最近の研究でLLM生成テキストを検出し、LLMを保護するアルゴリズムが提案されている。 本稿では,これらllm検出器のロバスト性と信頼性について検討する。 我々は2種類の攻撃戦略を研究する。 1) LLMの出力中の特定の単語を,その文脈が与えられた同義語に置き換える。 2) 生成者の書き方を変更するための指示書を自動で検索する。 どちらの戦略も補助的なLCMを利用して単語置換や命令プロンプトを生成する。 従来の研究と異なり、補助LDMを検出器で保護する難易度の設定も検討している。 実験により,本研究における全検出器の性能を効果的に損なうことが判明し,llm生成テキスト検出システムの堅牢性向上を急務とする必要性が示唆された。

The prevalence and strong capability of large language models (LLMs) present significant safety and ethical risks if exploited by malicious users. To prevent the potentially deceptive usage of LLMs, recent works have proposed algorithms to detect LLM-generated text and protect LLMs. In this paper, we investigate the robustness and reliability of these LLM detectors under adversarial attacks. We study two types of attack strategies: 1) replacing certain words in an LLM's output with their synonyms given the context; 2) automatically searching for an instructional prompt to alter the writing style of the generation. In both strategies, we leverage an auxiliary LLM to generate the word replacements or the instructional prompt. Different from previous works, we consider a challenging setting where the auxiliary LLM can also be protected by a detector. Experiments reveal that our attacks effectively compromise the performance of all detectors in the study with plausible generations, underscoring the urgent need to improve the robustness of LLM-generated text detection systems.
翻訳日:2023-10-20 19:59:03 公開日:2023-10-19
# 建設現場での人間・機械衝突警報のための単眼2次元カメラによる近接監視

Monocular 2D Camera-based Proximity Monitoring for Human-Machine Collision Warning on Construction Sites ( http://arxiv.org/abs/2305.17931v2 )

ライセンス: Link先を確認
Yuexiong Ding, Xiaowei Luo(参考訳) 機械事故は建設現場の被害の主な原因の1つである。 人間と機械の衝突を避けるために労働者の近さを監視することは、建設安全管理に大きな関心を呼んでいる。 既存の手法は、厳重でコストがかかりすぎて広範囲に適用できないか、正確な監視のための空間認識が欠けている。 そこで本研究では,2次元画像から空間情報を知覚する単眼的3次元物体検出モデルと,近接を危険,潜在的に危険,懸念,安全の4つのカテゴリとして識別する後処理分類モジュールを統合した,一般の2次元カメラのみを用いた近接監視手法を提案する。 3Dアノテーション付き22000の画像を含む仮想データセットを構築し、システムの開発と評価を容易にするために公開する。 実験の結果、トレーニングされた3dオブジェクト検出モデルは20m以内で75%のゆるいapを達成した。 さらに、実装されたシステムは、リアルタイムかつカメラキャリア非依存で、異なるサイズのマシンの特定の設定下で、およそ50メートル以内に0.8のf1を達成している。 本研究では,2次元カメラのみを用いた近接監視の可能性と実現可能性を明らかにし,人間と機械の衝突を早期に警告する新たな有望かつ経済的方法を提供する。

Accident of struck-by machines is one of the leading causes of casualties on construction sites. Monitoring workers' proximities to avoid human-machine collisions has aroused great concern in construction safety management. Existing methods are either too laborious and costly to apply extensively, or lacking spatial perception for accurate monitoring. Therefore, this study proposes a novel framework for proximity monitoring using only an ordinary 2D camera to realize real-time human-machine collision warning, which is designed to integrate a monocular 3D object detection model to perceive spatial information from 2D images and a post-processing classification module to identify the proximity as four predefined categories: Dangerous, Potentially Dangerous, Concerned, and Safe. A virtual dataset containing 22000 images with 3D annotations is constructed and publicly released to facilitate the system development and evaluation. Experimental results show that the trained 3D object detection model achieves 75% loose AP within 20 meters. Besides, the implemented system is real-time and camera carrier-independent, achieving an F1 of roughly 0.8 within 50 meters under specified settings for machines of different sizes. This study preliminarily reveals the potential and feasibility of proximity monitoring using only a 2D camera, providing a new promising and economical way for early warning of human-machine collisions.
翻訳日:2023-10-20 19:58:13 公開日:2023-10-19
# navgpt: 大きな言語モデルを用いた視覚言語ナビゲーションにおける明示的な推論

NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models ( http://arxiv.org/abs/2305.16986v3 )

ライセンス: Link先を確認
Gengze Zhou, Yicong Hong, Qi Wu(参考訳) 前例のない規模のデータで訓練されたChatGPTやGPT-4のような大規模言語モデル(LLM)は、モデルスケーリングによる重要な推論能力の出現を示している。 このような傾向は、LLMを無制限の言語データで訓練する可能性を強調し、普遍的なエンボディエージェントの開発を進めた。 本研究では,LLMに基づく指示追従ナビゲーションエージェントであるNavGPTを導入し,視覚・言語ナビゲーション(VLN)のためのゼロショットシーケンシャル動作予測を行うことにより,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにする。 それぞれのステップにおいて、NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論し、ターゲットに近づく決定を下す。 包括的実験を通じて,NavGPTは,ナビゲーションタスク解決に関する共通知識の統合,観察されたシーンからのランドマークの識別,ナビゲーション進行の追跡,計画調整による例外への適応など,ナビゲーションの高レベルな計画を実行することができることを示す。 さらに, llmsは, 経路に沿った観測や行動から高品質なナビゲーション命令を生成できると同時に, エージェントのナビゲーション履歴に基づいて, 正確なトップダウンメトリック軌跡を描画できることを示した。 NavGPTをゼロショットのR2Rタスクに使用する性能は訓練されたモデルにはまだ及ばないが、視覚ナビゲーションエージェントとしてLLMにマルチモーダリティ入力を適用し、学習ベースモデルの恩恵を受けるためにLLMの明示的な推論を適用することを提案している。

Trained with an unprecedented scale of data, large language models (LLMs) like ChatGPT and GPT-4 exhibit the emergence of significant reasoning abilities from model scaling. Such a trend underscored the potential of training LLMs with unlimited language data, advancing the development of a universal embodied agent. In this work, we introduce the NavGPT, a purely LLM-based instruction-following navigation agent, to reveal the reasoning capability of GPT models in complex embodied scenes by performing zero-shot sequential action prediction for vision-and-language navigation (VLN). At each step, NavGPT takes the textual descriptions of visual observations, navigation history, and future explorable directions as inputs to reason the agent's current status, and makes the decision to approach the target. Through comprehensive experiments, we demonstrate NavGPT can explicitly perform high-level planning for navigation, including decomposing instruction into sub-goal, integrating commonsense knowledge relevant to navigation task resolution, identifying landmarks from observed scenes, tracking navigation progress, and adapting to exceptions with plan adjustment. Furthermore, we show that LLMs is capable of generating high-quality navigational instructions from observations and actions along a path, as well as drawing accurate top-down metric trajectory given the agent's navigation history. Despite the performance of using NavGPT to zero-shot R2R tasks still falling short of trained models, we suggest adapting multi-modality inputs for LLMs to use as visual navigation agents and applying the explicit reasoning of LLMs to benefit learning-based models.
翻訳日:2023-10-20 19:57:49 公開日:2023-10-19
# 電力消費予測のためのLSTMとBLSTMディープニューラルネットワークの比較研究

Preliminary studies: Comparing LSTM and BLSTM Deep Neural Networks for Power Consumption Prediction ( http://arxiv.org/abs/2305.16546v2 )

ライセンス: Link先を確認
Davi Guimar\~aes da Silva, Anderson Alvarenga de Moura Meneses(参考訳) 電力消費予測手法は、エネルギー効率に関する意思決定や、エネルギー市場の動態における需要予測など、様々な理由から検討されている。 本研究の目的は、単変量電気消費時系列(TS)の短期予測において、Long Short-Term Memory(LSTM)とBi-directional LSTM(BLSTM)の2つのディープラーニングモデルの比較である。 データセット(DS)は、異なるコンテキストとスケールで選択され、モデルの堅牢性の評価を目的としている。 電力消費に関する4つのDSが使用された。 (a)フランスの世帯 (b)ブラジルのサンタジェムにある大学ビル (c)モロッコの T'etouan city zones、及び (c)シンガポールは電気需要を集約した。 測定値 rmse, mae, mape, r2 をtsクロスバリデーション方式で計算した。 フリードマンの試験は正規化rmse (nrmse) の結果に適用され、blstmは統計的に有意な差(p = 0.0455)を持つlstmよりも優れており、双方向の重み付け更新によって電力消費の異なるスケールでのlstm性能が大幅に向上するという事実を裏付けるものであった。

Electric consumption prediction methods are investigated for many reasons such as decision-making related to energy efficiency as well as for anticipating demand in the energy market dynamics. The objective of the present work is the comparison between two Deep Learning models, namely the Long Short-Term Memory (LSTM) and Bi-directional LSTM (BLSTM) for univariate electric consumption Time Series (TS) short-term forecast. The Data Sets (DSs) were selected for their different contexts and scales, aiming the assessment of the models' robustness. Four DSs were used, related to the power consumption of: (a) a household in France; (b) a university building in Santar\'em, Brazil; (c) the T\'etouan city zones, in Morocco; and (c) the Singapore aggregated electric demand. The metrics RMSE, MAE, MAPE and R2 were calculated in a TS cross-validation scheme. The Friedman's test was applied to normalized RMSE (NRMSE) results, showing that BLSTM outperforms LSTM with statistically significant difference (p = 0.0455), corroborating the fact that bidirectional weight updating improves significantly the LSTM performance concerning different scales of electric power consumption.
翻訳日:2023-10-20 19:57:17 公開日:2023-10-19
# 有望な有向多重グラフ用グラフニューラルネットワーク

Provably Powerful Graph Neural Networks for Directed Multigraphs ( http://arxiv.org/abs/2306.11586v2 )

ライセンス: Link先を確認
B\'eni Egressy, Luc von Niederh\"ausern, Jovan Blanusa, Erik Altman, Roger Wattenhofer, Kubilay Atasu(参考訳) 本稿では,標準メッセージパスグラフニューラルネットワーク(GNN)を実証可能な有向多重グラフニューラルネットワークに変換するための,単純な適応の集合を解析する。 適応には、マルチグラフポート番号、ego ID、リバースメッセージパッシングが含まれる。 これらの組み合わせが任意の有向部分グラフパターンの検出を可能にすることを理論的に証明する。 提案手法の有効性を検証するために, 合成サブグラフ検出タスクの実験を行い, ほぼ完璧な結果を得た。 さらに,提案手法を2つの財務犯罪分析課題に適用した。 我々は、マネーロンダリングトランザクションの検出における劇的な改善、標準メッセージパスGNNのマイノリティークラスF1スコアの最大30%向上、ツリーベースおよびGNNベースラインの緊密な整合性や性能向上について観察する。 同様に、実際のフィッシング検出データセットで印象的な結果が観測され、3つの標準GNNのF1スコアが約15%向上し、すべてのベースラインを上回っている。

This paper analyses a set of simple adaptations that transform standard message-passing Graph Neural Networks (GNN) into provably powerful directed multigraph neural networks. The adaptations include multigraph port numbering, ego IDs, and reverse message passing. We prove that the combination of these theoretically enables the detection of any directed subgraph pattern. To validate the effectiveness of our proposed adaptations in practice, we conduct experiments on synthetic subgraph detection tasks, which demonstrate outstanding performance with almost perfect results. Moreover, we apply our proposed adaptations to two financial crime analysis tasks. We observe dramatic improvements in detecting money laundering transactions, improving the minority-class F1 score of a standard message-passing GNN by up to 30%, and closely matching or outperforming tree-based and GNN baselines. Similarly impressive results are observed on a real-world phishing detection dataset, boosting three standard GNNs' F1 scores by around 15% and outperforming all baselines.
翻訳日:2023-10-20 19:51:16 公開日:2023-10-19
# 一貫性チェックによる超人モデルの評価

Evaluating Superhuman Models with Consistency Checks ( http://arxiv.org/abs/2306.09983v3 )

ライセンス: Link先を確認
Lukas Fluri, Daniel Paleka, Florian Tram\`er(参考訳) もし機械学習モデルが様々な推論や意思決定タスクで超人的能力を達成するならば、人間は必ずしも基礎的真理の貧弱なプロキシであるので、そのようなモデルを評価するにはどうすればよいだろうか? 本稿では,一貫性チェックを用いた超人的モデル評価フレームワークを提案する。 我々の前提は、超人的決定の正しさは評価できないかもしれないが、モデルの決定がある種の論理的、人間解釈可能な規則を満たさなければ、間違いを生じさせる。 我々は,超人的モデル能力によって決定の正しさを評価するのが困難である3つの課題,すなわちチェスのポジションの評価,将来の出来事の予測,法的判断などにおいて,我々の枠組みをインスタンス化する。 これらのタスクにおけるモデルの(おそらく超人的な)性能に関わらず、意思決定の論理的不整合を発見できることを示す。 例えば、反対のバリュエーションを意味的に同一のボードに割り当てるチェスエンジン、スポーツ記録が時間とともに単調に進化すると予測するgpt-4、犯罪記録に重罪を加えるだけで被告に保釈を割り当てるaiジャッジなどである。

If machine learning models were to achieve superhuman abilities at various reasoning or decision-making tasks, how would we go about evaluating such models, given that humans would necessarily be poor proxies for ground truth? In this paper, we propose a framework for evaluating superhuman models via consistency checks. Our premise is that while the correctness of superhuman decisions may be impossible to evaluate, we can still surface mistakes if the model's decisions fail to satisfy certain logical, human-interpretable rules. We instantiate our framework on three tasks where correctness of decisions is hard to evaluate due to either superhuman model abilities, or to otherwise missing ground truth: evaluating chess positions, forecasting future events, and making legal judgments. We show that regardless of a model's (possibly superhuman) performance on these tasks, we can discover logical inconsistencies in decision making. For example: a chess engine assigning opposing valuations to semantically identical boards; GPT-4 forecasting that sports records will evolve non-monotonically over time; or an AI judge assigning bail to a defendant only after we add a felony to their criminal record.
翻訳日:2023-10-20 19:50:53 公開日:2023-10-19
# 高調波電位井戸における傾斜線形及び二次バンド接触分散に対するファノ共鳴

Fano resonances for tilted linear and quadratic band touching dispersions in a harmonically driven potential well ( http://arxiv.org/abs/2306.08759v2 )

ライセンス: Link先を確認
Anton Gregefalk, Annica Black-Schaffer, Tanay Nag(参考訳) 傾き線形および2次帯域接触分散モデルを考えると、横方向線形傾きが伝送スペクトルに与える影響を、高調波駆動電位配向により縦方向に解析する。 フロッケ散乱行列形式を用いることで、ファノ共鳴はフロッケサイドバンドと準束縛状態のマッチングの結果であり、傾きはエネルギーと波のベクトルを再正規化する。 伝送プロファイルにおいて, 負の共鳴エネルギーは, 横運動量の大きさが大きくなるにつれて, 線形(四角形)のバンドタッチにおいて減少する(増加)。 逆運動量と傾きの積の符号は、両方のバンド分散のトテッドケースに対するファノ共鳴エネルギーの相対的なシフトも決定し、傾き系のファノ共鳴のチューニング可能性を示している。 重要なことに、横モーメント方向の関数としてファノ共鳴エネルギーを測定することにより、傾き強度を直接決定することもできる。 さらに,ファノ共鳴エネルギーの周囲に反射領域とゆらぎがある場合のショットノイズスペクトルとその差特性について検討した。 興味深いことに、差動ショットノイズと透過スペクトルはどちらも同じ方法で定性的に振る舞うため、駆動固体系の将来の実験において重要な観測材料となる。

Considering models with tilted linear and quadratic band touching dispersions, we analyze the effect of the transverse linear tilt on the transmission spectra through a harmonically driven potential well oriented longitudinally. Employing the Floquet scattering matrix formalism, we find Fano resonances as an outcome of matching between the Floquet sidebands and quasi-bound states, where the tilt renormalizes their energies and wave vectors. We find that the Fano resonance energy decreases (increases) for linear (quadratic) band touchings as the magnitude of the transverse momentum increases, indicating a distinct signature of the underlying band dispersion in the transmission profile. The sign of the product of the transverse momentum and the tilt also determines the relative shift in the Fano resonance energy with respect to the untilted case for both band dispersions, suggesting a possible tunability of the Fano resonance for tilted systems. Importantly, the tilt strength can also be directly determined by measuring the Fano resonance energy as function of the transverse momenta direction. We furthermore study the shot noise spectra and their differential property where we find an inflection region and undulation, respectively, around the Fano resonance energy. Interestingly, differential shot noise and transmission spectra both qualitatively behave in a similar fashion and might thus serve as important observables for future experiments on driven solid-state systems.
翻訳日:2023-10-20 19:50:28 公開日:2023-10-19
# 分散学習のダイナミクスにおける人口の力

The Power of Populations in Decentralized Learning Dynamics ( http://arxiv.org/abs/2306.08670v2 )

ライセンス: Link先を確認
John Lazarsfeld, Dan Alistarh(参考訳) 我々は,ゴシップモデルにおけるメモリ制限ノード数$n$の分散マルチアームバンディットについて検討し,各ラウンドにおいて各ノードが$m$のアームの1つを局所的に採用し,アームの分布から引き出された報酬を観測し,次にランダムにサンプリングされた隣人と通信し,次のラウンドでその方針を決定する。 各ノードの決定は完全にローカルであり、最近取得した報酬とサンプルした隣接ノードのみに依存する。 我々は,これらの分散ダイナミクスのグローバル進化と,ある種の「ゼロサム」乗算重み更新アルゴリズムとの関係を示し,これらの自然プロトコルの集団レベルの後悔を分析するための汎用フレームワークを開発した。 この枠組みを用いて、固定的な報酬設定(各腕の分布の平均が時間とともに固定される)と敵対的な報酬設定(時間とともに変化しうる手段)について、幅広いパラメータ規則(すなわち、人口と武器の数)の下でサブ線形後悔境界を導出する。 さらに,これらのプロトコルは,確率的勾配 oracle から報酬分布が生成される場合に,simplex 上の凸関数を近似的に最適化できることを示した。

We study a distributed multi-armed bandit setting among a population of $n$ memory-constrained nodes in the gossip model: at each round, every node locally adopts one of $m$ arms, observes a reward drawn from the arm's (adversarially chosen) distribution, and then communicates with a randomly sampled neighbor, exchanging information to determine its policy in the next round. We introduce and analyze several families of dynamics for this task that are decentralized: each node's decision is entirely local and depends only on its most recently obtained reward and that of the neighbor it sampled. We show a connection between the global evolution of these decentralized dynamics with a certain class of "zero-sum" multiplicative weights update algorithms, and we develop a general framework for analyzing the population-level regret of these natural protocols. Using this framework, we derive sublinear regret bounds under a wide range of parameter regimes (i.e., the size of the population and number of arms) for both the stationary reward setting (where the mean of each arm's distribution is fixed over time) and the adversarial reward setting (where means can vary over time). Further, we show that these protocols can approximately optimize convex functions over the simplex when the reward distributions are generated from a stochastic gradient oracle.
翻訳日:2023-10-20 19:50:02 公開日:2023-10-19
# ArtWhisperer:芸術創造における人間とAIのインタラクションを特徴付けるデータセット

ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations ( http://arxiv.org/abs/2306.08141v2 )

ライセンス: Link先を確認
Kailas Vodrahalli and James Zou(参考訳) 生成的AIがより普及するにつれて、人間がそのようなモデルとどのように相互作用するかを研究することが重要である。 本研究では,テキストから画像へのモデルを用いて目標画像を生成する方法について検討する。 このインタラクションを研究するために,artwhispererを開発した。artwhispererは,ユーザがターゲットイメージを与えられるオンラインゲームで,ターゲットと同じようなイメージを生成するプロンプトを反復的に発見する作業を行う。 このゲームを通じて5万以上の人間-aiインタラクションを記録し,それぞれのインタラクションは,ユーザが生成した1つのテキストプロンプトと対応する画像に対応する。 その多くは、ユーザがターゲットイメージの最良のプロンプトを見つけるために反復的なインタラクションであり、これは人間とAIのコラボレーションを研究するためのユニークなシーケンシャルデータセットである。 本データセットの初期分析では,迅速なインタラクションとユーザ戦略のいくつかの特徴を同定する。 人々は多様なプロンプトを提出し、類似した画像を生成するさまざまなテキスト記述を発見できる。 興味深いことに、ユーザがより良いプロンプトを見つけるため、迅速な多様性は低下しない。 さらに,データセットを用いたaiのステアビリティを定量化する新しい指標を提案する。 我々は、タスクを適切に完了するために必要な相互作用の期待数として、ステアビリティを定義する。 この値は、各目標タスクにマルコフ連鎖を適合させ、マルコフ連鎖の適切なスコアに到達するための期待時間を計算することで推定する。 我々は、異なるタイプのターゲットイメージと2つの異なるモデルでAIのステアビリティを定量化し比較し、都市と自然世界のイメージが芸術的、幻想的なイメージよりもステアビリティが高いことを発見した。 これらの知見は、AIとAIの相互作用に関する洞察を与え、AIのステアビリティを評価する具体的な方法を示し、ArtWhispererデータセットの汎用性を実証する。

As generative AI becomes more prevalent, it is important to study how human users interact with such models. In this work, we investigate how people use text-to-image models to generate desired target images. To study this interaction, we created ArtWhisperer, an online game where users are given a target image and are tasked with iteratively finding a prompt that creates a similar-looking image as the target. Through this game, we recorded over 50,000 human-AI interactions; each interaction corresponds to one text prompt created by a user and the corresponding generated image. The majority of these are repeated interactions where a user iterates to find the best prompt for their target image, making this a unique sequential dataset for studying human-AI collaborations. In an initial analysis of this dataset, we identify several characteristics of prompt interactions and user strategies. People submit diverse prompts and are able to discover a variety of text descriptions that generate similar images. Interestingly, prompt diversity does not decrease as users find better prompts. We further propose a new metric to quantify the steerability of AI using our dataset. We define steerability as the expected number of interactions required to adequately complete a task. We estimate this value by fitting a Markov chain for each target task and calculating the expected time to reach an adequate score in the Markov chain. We quantify and compare AI steerability across different types of target images and two different models, finding that images of cities and natural world images are more steerable than artistic and fantasy images. These findings provide insights into human-AI interaction behavior, present a concrete method of assessing AI steerability, and demonstrate the general utility of the ArtWhisperer dataset.
翻訳日:2023-10-20 19:49:36 公開日:2023-10-19
# 新しい量子機械学習アルゴリズム:量子条件マスター方程式に触発された分割隠れ量子マルコフモデル

A new quantum machine learning algorithm: split hidden quantum Markov model inspired by quantum conditional master equation ( http://arxiv.org/abs/2307.08640v2 )

ライセンス: Link先を確認
Xiao-Yu Li, Qin-Sheng Zhu, Yong Hu, Hao Wu, Guo-Wu Yang, Lian-Hui Yu, Geng Chen(参考訳) 隠れマルコフモデル(hidden quantum markov model, hqmm)は、時系列データの解析や量子領域の確率過程の研究において、古典的な隠れマルコフモデルよりも高い精度と効率性を持つ。 本研究では,量子システムの内部状態間の相互接続を実証するために,条件付きマスター方程式を微調整条件で利用し,隠れ量子マルコフ過程を実装するための分割HQMM(SHQMM)を導入した。 実験結果から,本モデルは従来のモデルよりも性能とロバスト性において優れていることが示唆された。 さらに,量子条件マスター方程式をHQMMに関連付けることで,HQMMのパラメータを解く新しい学習アルゴリズムを構築した。 最後に,本研究では,量子輸送系がHQMMの物理表現とみなすことができることを示す。 shqmmと付随するアルゴリズムは、物理的に実装された量子システムと時系列を分析する新しい手法である。

The Hidden Quantum Markov Model (HQMM) has significant potential for analyzing time-series data and studying stochastic processes in the quantum domain due to its greater accuracy and efficiency than the classical hidden Markov model. In this work, we introduced the split HQMM (SHQMM) for implementing the hidden quantum Markov process, utilizing the conditional master equation with a fine balance condition to demonstrate the interconnections among the internal states of the quantum system. The experimental results suggest that our model outperforms previous models in terms of performance and robustness. Additionally, we establish a new learning algorithm to solve parameters in HQMM by relating the quantum conditional master equation to the HQMM. Finally, our study provides clear evidence that the quantum transport system can be considered a physical representation of HQMM. The SHQMM with accompanying algorithms present a novel method to analyze quantum systems and time series grounded in physical implementation.
翻訳日:2023-10-20 19:39:28 公開日:2023-10-19
# 多項式カオス展開と深層生成ネットワークを用いたベイズトモグラフィ

Bayesian tomography using polynomial chaos expansion and deep generative networks ( http://arxiv.org/abs/2307.04228v4 )

ライセンス: Link先を確認
Giovanni Angelo Meles, Macarena Amaya, Shiran Levy, Stefano Marelli, Niklas Linde(参考訳) マルコフ連鎖モンテカルロ法(MCMC)の実装は、事前情報の正確な表現と確率の効率的な評価という2つの根本的な課題に直面する必要がある。 主成分分析(PCA)とその関連技術は、例えば多項式カオス展開(PCE)を用いて、事前分布の定義とサンプリング、および正確な代理モデルのトレーニングを容易にする。 しかし、鋭いコントラストを持つ複雑な地質学的先行は、深部生成モデル(DGM)のようなより複雑な次元-縮小技術を必要とする。 そのようなモデルの低次元潜在空間で定義される低次元の事前確率分布をサンプリングすることにより、通常は非線形であるジェネレータの価格で物理領域を効率的にサンプリングすることができる。 潜在パラメータと前方モデリングの出力の間の複雑な非線形関係を捉えることができるサロゲートのトレーニングは、注目すべき課題である。 実際、PCEモデルは、入力-出力関係が比較的低次多変量多項式によって効果的に近似できる場合に高い精度を提供するが、この条件は通常、DGMから派生した潜時変数を用いることで満たされない。 本稿では,変分オートエンコーダ(VAE)の優れた再構成性能とPCA-PCEサロゲートモデリングの精度をベイズ地中レーダ(GPR)トモグラフィーの文脈で組み合わせた戦略を提案する。 MCMCプロセス内では、VOEのパラメトリゼーションが事前の探査とサンプル提案に利用される。 同時に,VAEサンプルのグローバルまたはローカルに定義された主成分を検査対象とするPCEを用いて代理モデリングを行う。

Implementations of Markov chain Monte Carlo (MCMC) methods need to confront two fundamental challenges: accurate representation of prior information and efficient evaluation of likelihoods. Principal component analysis (PCA) and related techniques can in some cases facilitate the definition and sampling of the prior distribution, as well as the training of accurate surrogate models, using for instance, polynomial chaos expansion (PCE). However, complex geological priors with sharp contrasts necessitate more complex dimensionality-reduction techniques, such as, deep generative models (DGMs). By sampling a low-dimensional prior probability distribution defined in the low-dimensional latent space of such a model, it becomes possible to efficiently sample the physical domain at the price of a generator that is typically highly non-linear. Training a surrogate that is capable of capturing intricate non-linear relationships between latent parameters and outputs of forward modeling presents a notable challenge. Indeed, while PCE models provide high accuracy when the input-output relationship can be effectively approximated by relatively low-degree multivariate polynomials, this condition is typically not met when employing latent variables derived from DGMs. In this contribution, we present a strategy combining the excellent reconstruction performances of a variational autoencoder (VAE) with the accuracy of PCA-PCE surrogate modeling in the context of Bayesian ground penetrating radar (GPR) traveltime tomography. Within the MCMC process, the parametrization of the VAE is leveraged for prior exploration and sample proposals. Concurrently, surrogate modeling is conducted using PCE, which operates on either globally or locally defined principal components of the VAE samples under examination.
翻訳日:2023-10-20 19:39:11 公開日:2023-10-19
# URL: 転送可能な不確実性推定のための表現学習ベンチマーク

URL: A Representation Learning Benchmark for Transferable Uncertainty Estimates ( http://arxiv.org/abs/2307.03810v2 )

ライセンス: Link先を確認
Michael Kirchhof and B\'alint Mucs\'anyi and Seong Joon Oh and Enkelejda Kasneci(参考訳) 表現学習は、新しいデータセットに転送する際に価値ある出発点として機能する、事前学習されたモデルの開発に大きく寄与した。 信頼性の高い機械学習と不確実性定量化の需要が高まっているため、組み込みだけでなく、転送可能な不確実性推定を提供する事前学習モデルが必要となる。 このようなモデルの開発を導くために,不確実性認識表現学習(URL)ベンチマークを提案する。 表現の転送可能性に加えて、新しい計量を用いて不確実性推定のゼロショット転送可能性も測定する。 imagenetで事前トレーニングされ、8つの下流データセットに転送される11の不確実性定量化器を評価するためにurlを適用する。 表現自体の不確実性に焦点を当てたアプローチや,上流クラスの確率に基づく予測リスクを直接上回る予測リスクを推定する手法を見出した。 しかし、転送可能な不確実性定量化を達成することは、未解決の課題である。 本研究は,従来の表現学習目標と必ずしも相反するものではないことを示唆する。 コードはhttps://github.com/mkirchhof/urlで提供される。

Representation learning has significantly driven the field to develop pretrained models that can act as a valuable starting point when transferring to new datasets. With the rising demand for reliable machine learning and uncertainty quantification, there is a need for pretrained models that not only provide embeddings but also transferable uncertainty estimates. To guide the development of such models, we propose the Uncertainty-aware Representation Learning (URL) benchmark. Besides the transferability of the representations, it also measures the zero-shot transferability of the uncertainty estimate using a novel metric. We apply URL to evaluate eleven uncertainty quantifiers that are pretrained on ImageNet and transferred to eight downstream datasets. We find that approaches that focus on the uncertainty of the representation itself or estimate the prediction risk directly outperform those that are based on the probabilities of upstream classes. Yet, achieving transferable uncertainty quantification remains an open challenge. Our findings indicate that it is not necessarily in conflict with traditional representation learning goals. Code is provided under https://github.com/mkirchhof/url .
翻訳日:2023-10-20 19:38:44 公開日:2023-10-19
# Voicebox: テキストによる多言語ユニバーサル音声生成

Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale ( http://arxiv.org/abs/2306.15687v2 )

ライセンス: Link先を確認
Matthew Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar, Wei-Ning Hsu(参考訳) GPTやDALL-Eのような大規模な生成モデルは、研究コミュニティに革命をもたらした。 これらのモデルは高忠実度出力を生成するだけでなく、明示的に教えられていないタスクを解く一般論者でもある。 対照的に、音声生成モデルは、スケールやタスクの一般化の観点からはまだ原始的である。 本稿では,音声合成モデルとして最も多彩な音声合成モデルであるvoiceboxを提案する。 voiceboxはノンリグレッシブなフローマッチングモデルで、音声コンテキストとテキストを入力し、フィルタや拡張されていない5万時間以上の音声でトレーニングする。 GPTと同様に、Voiceboxはコンテキスト内学習を通じてさまざまなタスクを実行できるが、将来的なコンテキストでも条件付けできるため、より柔軟である。 Voiceboxはモノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用することができる。 特にVoiceboxは、最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%ワードエラー率)とオーディオの類似性(0.580対0.681)の両方で、20倍高速である。 オーディオサンプルは \url{https://voicebox.metademolab.com} で見ることができる。

Large-scale generative models such as GPT and DALL-E have revolutionized the research community. These models not only generate high fidelity outputs, but are also generalists which can solve tasks not explicitly taught. In contrast, speech generative models are still primitive in terms of scale and task generalization. In this paper, we present Voicebox, the most versatile text-guided generative model for speech at scale. Voicebox is a non-autoregressive flow-matching model trained to infill speech, given audio context and text, trained on over 50K hours of speech that are not filtered or enhanced. Similar to GPT, Voicebox can perform many different tasks through in-context learning, but is more flexible as it can also condition on future context. Voicebox can be used for mono or cross-lingual zero-shot text-to-speech synthesis, noise removal, content editing, style conversion, and diverse sample generation. In particular, Voicebox outperforms the state-of-the-art zero-shot TTS model VALL-E on both intelligibility (5.9% vs 1.9% word error rates) and audio similarity (0.580 vs 0.681) while being up to 20 times faster. Audio samples can be found in \url{https://voicebox.metademolab.com}.
翻訳日:2023-10-20 19:38:15 公開日:2023-10-19
# TransDisを用いた中国語の多様性思考の自動評価:トランスフォーマーに基づく言語モデルアプローチ

Automatic Assessment of Divergent Thinking in Chinese Language with TransDis: A Transformer-Based Language Model Approach ( http://arxiv.org/abs/2306.14790v2 )

ライセンス: Link先を確認
Tianchen Yang, Qifan Zhang, Zhaoyang Sun, and Yubo Hou(参考訳) 言語モデルは、創造的思考の質を客観的に測定するために意味的距離を生成する自動創造性評価にますます人気がある。 しかし、現在中国語における創造的アイデアを評価するための自動評価システムが欠落している。 このギャップに対処するためにtransdisを開発した。transdisはトランスフォーマーベースの言語モデルを使用したスコアリングシステムで、中国語の代替用途タスク(aut)応答に対して、正当な独自性(品質)と柔軟性(多様性)を提供する。 研究1では、3つのトランスフォーマーモデルからなる潜在モデル評価原性因子が、人間の原性評価を強く予測し、モデル評価原性因子が人間の柔軟性評価と強く相関することを示した。 基準妥当性分析の結果、モデル評価の独創性と柔軟性は他の創造性指標と正の相関を示し、人間の評価に類似した妥当性を示した。 研究2と3では、トランスディスは創造的対共通利用(study 2)を効果的に指示し、参加者は柔軟な対永続的な方法でアイデアを生み出すように指示した(study 3)。 以上の結果から,transdisは中国語におけるアイデアの独創性と柔軟性を測定するための信頼性と低コストのツールであり,他の言語における自動創造性評価への道を開く可能性を示唆する。 私たちは、中国語や他の50以上の言語(https://osf.io/59jv2/)でAUTレスポンスの独創性と柔軟性を計算するオープンプラットフォームを提供しています。

Language models have been increasingly popular for automatic creativity assessment, generating semantic distances to objectively measure the quality of creative ideas. However, there is currently a lack of an automatic assessment system for evaluating creative ideas in the Chinese language. To address this gap, we developed TransDis, a scoring system using transformer-based language models, capable of providing valid originality (quality) and flexibility (variety) scores for Alternative Uses Task (AUT) responses in Chinese. Study 1 demonstrated that the latent model-rated originality factor, comprised of three transformer-based models, strongly predicted human originality ratings, and the model-rated flexibility strongly correlated with human flexibility ratings as well. Criterion validity analyses indicated that model-rated originality and flexibility positively correlated to other creativity measures, demonstrating similar validity to human ratings. Study 2 & 3 showed that TransDis effectively distinguished participants instructed to provide creative vs. common uses (Study 2) and participants instructed to generate ideas in a flexible vs. persistent way (Study 3). Our findings suggest that TransDis can be a reliable and low-cost tool for measuring idea originality and flexibility in Chinese language, potentially paving the way for automatic creativity assessment in other languages. We offer an open platform to compute originality and flexibility for AUT responses in Chinese and over 50 other languages (https://osf.io/59jv2/).
翻訳日:2023-10-20 19:37:26 公開日:2023-10-19
# Learning-to-Rank Meets Language: 正規分類のための言語駆動順序付けの強化

Learning-to-Rank Meets Language: Boosting Language-Driven Ordering Alignment for Ordinal Classification ( http://arxiv.org/abs/2306.13856v2 )

ライセンス: Link先を確認
Rui Wang, Peipei Li, Huaibo Huang, Chunshui Cao, Ran He, Zhaofeng He(参考訳) 順序分類のための新しい言語駆動順序付け手法を提案する。 順序分類のラベルには追加の順序関係が含まれており、トレーニングデータのみに依存する場合、オーバーフィットしやすい。 最近の事前訓練された視覚言語モデルの発展は、人間の言語における豊かな序列を、元のタスクを視覚言語アライメントタスクに変換することによって活用することを促す。 そこで本稿では,L2RCLIPを提案する。 まず,従来のランクプロンプトの順序付け関係を強化するために,RandFormerという補完的なプロンプトチューニング手法を導入する。 トークンレベルの注意と、単語埋め込み空間における残差スタイルのプロンプトブレンドを用いる。 第二に,言語事前化をさらに取り入れるために,バニラクロスエントロピー損失の近似境界最適化を再検討し,それをクロスモーダル埋め込み空間に再構成する。 そこで本研究では,テキストと画像がセマンティックアライメントと秩序アライメントの両方を維持できるCLIP特徴空間を洗練するための,クロスモーダルな順序対ロスを提案する。 顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,審美評価など,3つの日常的分類課題に対する広範囲な実験は,その有望な性能を示す。

We present a novel language-driven ordering alignment method for ordinal classification. The labels in ordinal classification contain additional ordering relations, making them prone to overfitting when relying solely on training data. Recent developments in pre-trained vision-language models inspire us to leverage the rich ordinal priors in human language by converting the original task into a vision-language alignment task. Consequently, we propose L2RCLIP, which fully utilizes the language priors from two perspectives. First, we introduce a complementary prompt tuning technique called RankFormer, designed to enhance the ordering relation of original rank prompts. It employs token-level attention with residual-style prompt blending in the word embedding space. Second, to further incorporate language priors, we revisit the approximate bound optimization of vanilla cross-entropy loss and restructure it within the cross-modal embedding space. Consequently, we propose a cross-modal ordinal pairwise loss to refine the CLIP feature space, where texts and images maintain both semantic alignment and ordering alignment. Extensive experiments on three ordinal classification tasks, including facial age estimation, historical color image (HCI) classification, and aesthetic assessment demonstrate its promising performance.
翻訳日:2023-10-20 19:36:59 公開日:2023-10-19
# 与えられた平均値の集合から量子フィッシャー情報を認証する:半定値プログラミングアプローチ

Certifying the quantum Fisher information from a given set of mean values: a semidefinite programming approach ( http://arxiv.org/abs/2306.12711v3 )

ライセンス: Link先を確認
Guillem M\"uller-Rigat, Anubhav Kumar Srivastava, Stanis{\l}aw Kurdzia{\l}ek, Grzegorz Rajchel-Mieldzio\'c, Maciej Lewenstein and Ir\'en\'ee Fr\'erot(参考訳) 平均値の任意のデータセットと互換性のある最小の量子フィッシャー情報を見つけるための半定値プログラミングアルゴリズムを提案する。 この認証タスクは、量子状態の完全な知識を必要とせずに、気象学応用のための量子システムのリソース内容の定量化を可能にする。 量子スピンアンサンブルを研究するアルゴリズムを実装した。 我々はまずディッケ状態に注目し,文献におけるこれまでの結果に挑戦し補完する。 次に, 1軸ねじれ力学で発生した状態について検討し, 特に, 小系の4次モーメントや任意系サイズのパリティ測定などの単純な集合スピン観測器を用いて, いわゆる多頭猫状態の計量的パワーを証明できることを見出した。

We introduce a semidefinite programming algorithm to find the minimal quantum Fisher information compatible with an arbitrary dataset of mean values. This certification task allows one to quantify the resource content of a quantum system for metrology applications without complete knowledge of the quantum state. We implement the algorithm to study quantum spin ensembles. We first focus on Dicke states, where our findings challenge and complement previous results in the literature. We then investigate states generated during the one-axis twisting dynamics, where in particular we find that the metrological power of the so-called multi-headed cat states can be certified using simple collective spin observables, such as fourth-order moments for small systems, and parity measurements for arbitrary system sizes.
翻訳日:2023-10-20 19:36:37 公開日:2023-10-19
# ニット力センサの不整合に対する機械学習による補償

Machine Learning Based Compensation for Inconsistencies in Knitted Force Sensors ( http://arxiv.org/abs/2306.12129v2 )

ライセンス: Link先を確認
Roland Aigner and Andreas St\"ockl(参考訳) 編物センサーは、オフセット、リラクゼーション、ドリフトなどの自然効果のためにしばしば不整合に苦しむ。 これらの特性を組み合わせることで、センサーデータから物理アクチュエータへの確実にマッピングが困難になる。 本稿では,簡単な前処理と組み合わせて,最小の人工ニューラルネットワーク (ann) を用いた処理を適用することで,これに対抗する手法を示す。 再サンプリングされたセンサ信号に多数の指数的スムースティングフィルタを適用し、異なるレベルのセンサデータを保存し、組み合わせることで、以前のセンサアクティベーションの適切な状態を表す特徴を創出する。 合計8個のニューロンを持つ3層ANNをトレーニングすることにより,センサ読み取りとアクティベーション力のマッピングを大幅に改善する。 また, 本手法は, 材料や構造の観点から, 合理的に異なる組成のセンサに変換され, ひずみなどの関連する物理的特徴にも応用できることを示した。

Knitted sensors frequently suffer from inconsistencies due to innate effects such as offset, relaxation, and drift. These properties, in combination, make it challenging to reliably map from sensor data to physical actuation. In this paper, we demonstrate a method for counteracting this by applying processing using a minimal artificial neural network (ANN) in combination with straightforward pre-processing. We apply a number of exponential smoothing filters on a re-sampled sensor signal, to produce features that preserve different levels of historical sensor data and, in combination, represent an adequate state of previous sensor actuation. By training a three-layer ANN with a total of 8 neurons, we manage to significantly improve the mapping between sensor reading and actuation force. Our findings also show that our technique translates to sensors of reasonably different composition in terms of material and structure, and it can furthermore be applied to related physical features such as strain.
翻訳日:2023-10-20 19:36:23 公開日:2023-10-19
# Amazon-M2:レコメンデーションとテキスト生成のための多言語マルチローカルショッピングセッションデータセット

Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation ( http://arxiv.org/abs/2307.09688v2 )

ライセンス: Link先を確認
Wei Jin, Haitao Mao, Zheng Li, Haoming Jiang, Chen Luo, Hongzhi Wen, Haoyu Han, Hanqing Lu, Zhengyang Wang, Ruirui Li, Zhen Li, Monica Xiao Cheng, Rahul Goutam, Haiyang Zhang, Karthik Subbian, Suhang Wang, Yizhou Sun, Jiliang Tang, Bing Yin, Xianfeng Tang(参考訳) 顧客ショッピングの意図をモデル化することは、ユーザー体験やエンゲージメントに直接影響を与えるため、eコマースにとって重要なタスクです。 したがって、パーソナライズドレコメンデーションの提供には、顧客の好みを正確に理解することが不可欠である。 顧客セッションデータを利用して次のインタラクションを予測するセッションベースのレコメンデーションが人気を集めている。 しかし、既存のセッションデータセットにはアイテム属性、ユーザの多様性、データセットスケールの制限がある。 その結果、ユーザー行動や嗜好のスペクトルを包括的に捉えることはできない。 このギャップを埋めるために、Amazon Multilingual Multi-locale Shopping Session Dataset、すなわちAmazon-M2を紹介します。 6つの異なる地域からの数百万のユーザセッションで構成された最初の多言語データセットで、製品の主要言語は英語、ドイツ語、日本語、フランス語、イタリア語、スペイン語である。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を強化するのに役立つことだ。 データセットの可能性をテストするために,(1)次製品推薦,(2)ドメインシフトを伴う次製品推薦,(3)次製品タイトル生成という3つのタスクを導入する。 上記のタスクで、提案するデータセットに様々なアルゴリズムをベンチマークし、さらなる研究と実践のための新たな洞察を導きます。 さらに、提案されたデータセットとタスクに基づいて、kdd cup 2023でコンペを主催し、何千ものユーザと応募者を魅了しました。 勝利したソリューションと関連するワークショップは、当社のwebサイトhttps://kddcup23.github.io/で閲覧できます。

Modeling customer shopping intentions is a crucial task for e-commerce, as it directly impacts user experience and engagement. Thus, accurately understanding customer preferences is essential for providing personalized recommendations. Session-based recommendation, which utilizes customer session data to predict their next interaction, has become increasingly popular. However, existing session datasets have limitations in terms of item attributes, user diversity, and dataset scale. As a result, they cannot comprehensively capture the spectrum of user behaviors and preferences. To bridge this gap, we present the Amazon Multilingual Multi-locale Shopping Session Dataset, namely Amazon-M2. It is the first multilingual dataset consisting of millions of user sessions from six different locales, where the major languages of products are English, German, Japanese, French, Italian, and Spanish. Remarkably, the dataset can help us enhance personalization and understanding of user preferences, which can benefit various existing tasks as well as enable new tasks. To test the potential of the dataset, we introduce three tasks in this work: (1) next-product recommendation, (2) next-product recommendation with domain shifts, and (3) next-product title generation. With the above tasks, we benchmark a range of algorithms on our proposed dataset, drawing new insights for further research and practice. In addition, based on the proposed dataset and tasks, we hosted a competition in the KDD CUP 2023 and have attracted thousands of users and submissions. The winning solutions and the associated workshop can be accessed at our website https://kddcup23.github.io/.
翻訳日:2023-10-20 19:30:15 公開日:2023-10-19
# Face-PAST: 顔の姿勢認識とスタイル伝達ネットワーク

Face-PAST: Facial Pose Awareness and Style Transfer Networks ( http://arxiv.org/abs/2307.09020v2 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Lewis Nkenyereye, Jiseok Yoon, Ik Hyun Lee, Kapal Dev(参考訳) eXtended Reality (XR)、Metaverse、Non-Fungible Tokens (NFTs)などの新興技術の台頭により、顔の移動は研究者の間で非常に人気がある。 さらに、StyleGAN法は、転送学習戦略とともに、限られたデータの問題をある程度減らした。 しかし、StyleGANメソッドのほとんどは、顔画像にアーティファクトを追加しながら、スタイルを過度に適合させる。 本稿では,高品質なスタイリング画像を生成しつつ,顔の詳細や構造を保存した顔ポーズ認識とスタイル転送(Face-PAST)ネットワークを提案する。 デュアルスタイルGANは我々の研究を刺激するが、対照的に、我々の研究は、変換符号化ブロックの代わりに残留変調ブロックを持つ外部スタイルパスのトレーニング済みスタイル生成ネットワークを使用する。 さらに、ゲートマッピングユニットと顔の構造、アイデンティティ、セグメンテーションの損失を利用して、顔の構造と詳細を保存します。 これにより、高品質なスタイリング画像を生成しながら、非常に限られた量のデータでネットワークをトレーニングすることができる。 学習過程はカリキュラム学習戦略に適応し、生成空間における効率的で柔軟なスタイルの混合を行う。 我々は、既存の最先端手法と比較して、Face-PASTの優位性を示す広範囲な実験を行った。

Facial style transfer has been quite popular among researchers due to the rise of emerging technologies such as eXtended Reality (XR), Metaverse, and Non-Fungible Tokens (NFTs). Furthermore, StyleGAN methods along with transfer-learning strategies have reduced the problem of limited data to some extent. However, most of the StyleGAN methods overfit the styles while adding artifacts to facial images. In this paper, we propose a facial pose awareness and style transfer (Face-PAST) network that preserves facial details and structures while generating high-quality stylized images. Dual StyleGAN inspires our work, but in contrast, our work uses a pre-trained style generation network in an external style pass with a residual modulation block instead of a transform coding block. Furthermore, we use the gated mapping unit and facial structure, identity, and segmentation losses to preserve the facial structure and details. This enables us to train the network with a very limited amount of data while generating high-quality stylized images. Our training process adapts curriculum learning strategy to perform efficient and flexible style mixing in the generative space. We perform extensive experiments to show the superiority of Face-PAST in comparison to existing state-of-the-art methods.
翻訳日:2023-10-20 19:29:48 公開日:2023-10-19
# 正確なポリゴンと楕円フィッティングのための最適最小二乗法

Optimised Least Squares Approach for Accurate Polygon and Ellipse Fitting ( http://arxiv.org/abs/2307.06528v2 )

ライセンス: Link先を確認
Yiming Quan, Shian Chen(参考訳) 本研究では,多角形と楕円形をデータ点に合わせるための最小二乗法を提案する。 この方法は、単位形状を正確に近似する三角適合関数に基づいており、最小の適合パラメータを持つ様々な幾何学形状に適用できる。 さらに,提案手法は制約を必要とせず,不完全なデータを処理できる。 この方法は合成および実世界のデータセット上で検証され、ポリゴンおよび楕円フィッティングの文献における既存の方法と比較される。 実験結果から,本手法は高い精度を達成し,特にノイズのないデータに対して,根-平均-二乗誤差の点で基準法を上回った。 提案手法はコンピュータビジョンおよび幾何処理アプリケーションにおける形状適合のための強力なツールである。

This study presents a generalised least squares based method for fitting polygons and ellipses to data points. The method is based on a trigonometric fitness function that approximates a unit shape accurately, making it applicable to various geometric shapes with minimal fitting parameters. Furthermore, the proposed method does not require any constraints and can handle incomplete data. The method is validated on synthetic and real-world data sets and compared with the existing methods in the literature for polygon and ellipse fitting. The test results show that the method achieves high accuracy and outperforms the referenced methods in terms of root-mean-square error, especially for noise-free data. The proposed method is a powerful tool for shape fitting in computer vision and geometry processing applications.
翻訳日:2023-10-20 19:29:04 公開日:2023-10-19
# モバイル操作のための階層型対話型多目的探索の学習

Learning Hierarchical Interactive Multi-Object Search for Mobile Manipulation ( http://arxiv.org/abs/2307.06125v3 )

ライセンス: Link先を確認
Fabian Schmalstieg, Daniel Honerkamp, Tim Welschehold, Abhinav Valada(参考訳) 既存のオブジェクト検索アプローチでは、ロボットは自由経路を探索できるが、構造化されていない人間中心の環境で動作するロボットは、必要に応じて環境を操作する必要がある。 本研究では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索して対象物を見つける,インタラクティブな多目的探索タスクを提案する。 これらの新しい課題は、未探索の環境で操作とナビゲーションのスキルを組み合わせることを必要とする。 本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。 これを実現するために,セマンティックマップメモリ周辺の抽象的なハイレベルなアクション空間を設計し,探索環境をインスタンスナビゲーションポイントとして活用する。 我々はシミュレーションと実世界において、HIMOSの意思決定がゼロショット方式で効果的に新しい環境へ移行することを示す広範な実験を行った。 目に見えないサブポリティシー、実行時の失敗、そして異なるロボットキネマティクスに対する堅牢性を示す。 これらの機能は、具体化されたAIや現実世界のユースケースにまたがる幅広いダウンストリームタスクへの扉を開く。

Existing object-search approaches enable robots to search through free pathways, however, robots operating in unstructured human-centered environments frequently also have to manipulate the environment to their needs. In this work, we introduce a novel interactive multi-object search task in which a robot has to open doors to navigate rooms and search inside cabinets and drawers to find target objects. These new challenges require combining manipulation and navigation skills in unexplored environments. We present HIMOS, a hierarchical reinforcement learning approach that learns to compose exploration, navigation, and manipulation skills. To achieve this, we design an abstract high-level action space around a semantic map memory and leverage the explored environment as instance navigation points. We perform extensive experiments in simulation and the real world that demonstrate that, with accurate perception, the decision making of HIMOS effectively transfers to new environments in a zero-shot manner. It shows robustness to unseen subpolicies, failures in their execution, and different robot kinematics. These capabilities open the door to a wide range of downstream tasks across embodied AI and real-world use cases.
翻訳日:2023-10-20 19:28:52 公開日:2023-10-19
# ベイズアグリゲータを用いた深部確率的運動プリミティブ

Deep Probabilistic Movement Primitives with a Bayesian Aggregator ( http://arxiv.org/abs/2307.05141v2 )

ライセンス: Link先を確認
Michael Przystupa, Faezeh Haghverd, Martin Jagersand, Samuele Tosatto(参考訳) 運動プリミティブは、限られたデモから始まるロボットの動きを再現する訓練可能なパラメトリックモデルである。 従来の研究では、動作の時間的変調(より早いか遅いか)、混合(2つの動きを1つにマージする)、介在点条件付け(ある特定の介在点を満たす運動を制限する)、文脈条件付け(例えば、観測変数に基づく動きの生成)を可能とし、高いサンプル効率と一般化力を示す単純な線形モデルが提案されていた。 従来の研究では、入力条件や時間変調表現でタスクを実行する能力を示したニューラルネットワークベースのモータープリミティブモデルが提案されていた。 しかしながら、ニューラルネットワークプリミティブの潜在的な用途を制限し、以前のすべての操作が可能な単一の統一されたディープモータープリミティブモデルが提案されていない。 本稿では,上述のすべての操作をエンコードし,より健全なコンテキストコンディショニングとブレンドを可能にするベイズコンテキストアグリゲータを用いたディープムーブメントプリミティブアーキテクチャを提案する。 提案手法は, 線形移動プリミティブの操作を維持しながら, ベースラインと比較して, 多様な入力選択の複雑な動作を再現できることを示す。

Movement primitives are trainable parametric models that reproduce robotic movements starting from a limited set of demonstrations. Previous works proposed simple linear models that exhibited high sample efficiency and generalization power by allowing temporal modulation of movements (reproducing movements faster or slower), blending (merging two movements into one), via-point conditioning (constraining a movement to meet some particular via-points) and context conditioning (generation of movements based on an observed variable, e.g., position of an object). Previous works have proposed neural network-based motor primitive models, having demonstrated their capacity to perform tasks with some forms of input conditioning or time-modulation representations. However, there has not been a single unified deep motor primitive's model proposed that is capable of all previous operations, limiting neural motor primitive's potential applications. This paper proposes a deep movement primitive architecture that encodes all the operations above and uses a Bayesian context aggregator that allows a more sound context conditioning and blending. Our results demonstrate our approach can scale to reproduce complex motions on a larger variety of input choices compared to baselines while maintaining operations of linear movement primitives provide.
翻訳日:2023-10-20 19:28:35 公開日:2023-10-19
# イベントカメラを用いた常時光流量推定

Towards Anytime Optical Flow Estimation with Event Cameras ( http://arxiv.org/abs/2307.05033v2 )

ライセンス: Link先を確認
Yaozu Ye, Hao Shi, Kailun Yang, Ze Wang, Xiaoting Yin, Yining Lin, Mao Liu, Yaonan Wang, Kaiwei Wang(参考訳) 光流量推定は自動運転の分野では基本的な課題である。 イベントカメラはマイクロ秒のログブライトネス変化に対応できる。 変化領域のみに応答する特性は光流量推定に特に適している。 イベントカメラの超低遅延応答速度とは対照的に、イベントカメラで収集された既存のデータセットは、フレームレートの光学フローグランド真実(例えば10hz)しか提供せず、イベント駆動光フローの可能性を著しく制限している。 この課題に対処するため、我々は高フレームレートで低レイテンシなイベント表現であるUnified Voxel Gridをネットワークビンにビンで順次送り込みました。 次に,低フレームレートの光フロー基盤のみを監督対象とする高フレームレートのイベント光フローを生成する,イベントベースのanytime flow推定ネットワークであるeva-flowを提案する。 eva-flowの重要なコンポーネントは、時間的に高密度な光流を予測し、空間-時空間運動微細化によって精度を向上させるstacked spatiotemporal motionfine (smr)モジュールです。 SMRモジュールで使用される時差特性のワープは、中間光学フローを暗黙的に監視する。 さらに, 基底真理の欠如による中間光流の教師なし評価のために, RFWL (Rectified Flow Warp Loss) を導入する。 これは、私たちの知る限りでは、イベントカメラによる任意の時間光フロー推定に焦点を当てた最初の仕事です。 MVSEC, DESC, およびEVA-FlowSetの総合的な実験により, EVA-Flowは競争性能, 超低レイテンシ (5ms), 高速推論 (9.2ms) , 時差運動推定 (200Hz) , 強い一般化を実現することが示された。 私たちのコードはhttps://github.com/Yaozhuwa/EVA-Flowで公開されます。

Optical flow estimation is a fundamental task in the field of autonomous driving. Event cameras are capable of responding to log-brightness changes in microseconds. Its characteristic of producing responses only to the changing region is particularly suitable for optical flow estimation. In contrast to the super low-latency response speed of event cameras, existing datasets collected via event cameras, however, only provide limited frame rate optical flow ground truth, (e.g., at 10Hz), greatly restricting the potential of event-driven optical flow. To address this challenge, we put forward a high-frame-rate, low-latency event representation Unified Voxel Grid, sequentially fed into the network bin by bin. We then propose EVA-Flow, an EVent-based Anytime Flow estimation network to produce high-frame-rate event optical flow with only low-frame-rate optical flow ground truth for supervision. The key component of our EVA-Flow is the stacked Spatiotemporal Motion Refinement (SMR) module, which predicts temporally dense optical flow and enhances the accuracy via spatial-temporal motion refinement. The time-dense feature warping utilized in the SMR module provides implicit supervision for the intermediate optical flow. Additionally, we introduce the Rectified Flow Warp Loss (RFWL) for the unsupervised evaluation of intermediate optical flow in the absence of ground truth. This is, to the best of our knowledge, the first work focusing on anytime optical flow estimation via event cameras. A comprehensive variety of experiments on MVSEC, DESC, and our EVA-FlowSet demonstrates that EVA-Flow achieves competitive performance, super-low-latency (5ms), fastest inference (9.2ms), time-dense motion estimation (200Hz), and strong generalization. Our code will be available at https://github.com/Yaozhuwa/EVA-Flow.
翻訳日:2023-10-20 19:28:08 公開日:2023-10-19
# 散逸結合光力学系における量子非線形効果

Quantum Nonlinear Effect in Dissipatively Coupled Optomechanical System ( http://arxiv.org/abs/2309.03719v2 )

ライセンス: Link先を確認
Wen-Quan Yang, Wei Niu, Yong-Hong Ma, and Wen-Zhao Zhang(参考訳) フル量子アプローチは、ミシェルソン・サニャック干渉計光学系の量子非線形特性を研究するために用いられる。 効果的なハミルトニアンは、散逸結合と分散結合の両方が虚数と実数の非線形性を持つことを示した。 そして予期せぬことに、散逸結合によって引き起こされる非線形性は非エルミートハミルトン的性質を持つ。 分散結合の量子的性質を、従来の系の散逸を超えて保護することができる。 この保護機構により、双曲関数 $J^2 = \Delta_c \Delta_e$ のパラメータ領域に強い量子非線形効果を示すことができる。 さらに, 分散結合と散逸結合の助けを借りて, 強い結合状態でも弱い結合状態でも強い結合防止効果を得ることができる。 強い量子非線形効果を実験的に実現し研究するための新しい視点を提供するかもしれない。

A full-quantum approach is used to study quantum nonlinear properties of a compound Michelson-Sagnac interferometer optomechanical system. The effective Hamiltonian shows that both dissipative and dispersive couplings possess imaginary- and real-Kerr nonlinearities. And unexpectedly, the nonlinearities caused by the dissipative coupling have non-Hermitian Hamiltonian-like properties. It can protect the quantum nature of the dispersive coupling beyond the traditional dissipation of the system. This protection mechanism allows the system to exhibit strong quantum nonlinear effects in the parameter region of the hyperbolic function $J^2 = \Delta_c \Delta_e$. Moreover, we can obtain strong anti-bunching effects whether in strong or weak coupling regimes with the help of the dispersive and dissipative couplings jointly. It may provide a new perspective to experimentally realize and study the strong quantum nonlinear effects.
翻訳日:2023-10-20 19:18:57 公開日:2023-10-19
# 対称性分解エンタングルメントエントロピー,スペクトルと境界等角場理論

Symmetry-resolved Entanglement Entropy, Spectra & Boundary Conformal Field Theory ( http://arxiv.org/abs/2309.03287v2 )

ライセンス: Link先を確認
Yuya Kusuki, Sara Murciano, Hirosi Ooguri and Sridip Pal(参考訳) 我々は、任意の有限あるいはコンパクトリー群の下で不変である1+1$D共形場理論(CFT)の基底状態における1つの単一区間における対称性分解(SR)絡み合いエントロピー(EE)の包括的解析を行う。 我々は境界CFTアプローチを用いて全EEの研究を行い、SREEの普遍的な先行順序の挙動とその最初の修正を可能にし、考慮中の既約表現に明示的に依存し、絡み合いの公平さを損なう。 これらの計算を行うための2つの異なるスキームを提案する。 第一は、還元密度行列の荷電モーメントの評価に依存する。 これは、理論の境界状態に対して対称性を生成する欠陥線の作用を研究することを含む。 この視点はまた、異常対称性が存在する場合の対称性分解の研究の不可能性について議論する道を開く。 第2のスキームは、SREEとオービフォールドCFTの分割関数とを並列に描画する。 このアプローチにより、チャージモーメントを使わずにSREEを直接計算できる。 この観点からは、異常対称性に対する対称性解決されたEEを定義することは、障害からガウイングへと生じる。 最後に、有限対称性群の下でのCFT不変量に対する対称性分解エンタングルメントスペクトルを導出する。 コンパクトリー群を持つ CFT の同様の問題を再検討し、$U(1)$解決絡み合いスペクトルに対する改善公式を明示的に導出する。 タウバー形式を用いて、上述のeeスペクトルを最適下界と上界を証明して厳密に推定することができる。 アーベルの場合、境界上で数値的なチェックを行い、完全一致を求める。

We perform a comprehensive analysis of the symmetry-resolved (SR) entanglement entropy (EE) for one single interval in the ground state of a $1+1$D conformal field theory (CFT), that is invariant under an arbitrary finite or compact Lie group, $G$. We utilize the boundary CFT approach to study the total EE, which enables us to find the universal leading order behavior of the SREE and its first correction, which explicitly depends on the irreducible representation under consideration and breaks the equipartition of entanglement. We present two distinct schemes to carry out these computations. The first relies on the evaluation of the charged moments of the reduced density matrix. This involves studying the action of the defect-line, that generates the symmetry, on the boundary states of the theory. This perspective also paves the way for discussing the infeasibility of studying symmetry resolution when an anomalous symmetry is present. The second scheme draws a parallel between the SREE and the partition function of an orbifold CFT. This approach allows for the direct computation of the SREE without the need to use charged moments. From this standpoint, the infeasibility of defining the symmetry-resolved EE for an anomalous symmetry arises from the obstruction to gauging. Finally, we derive the symmetry-resolved entanglement spectra for a CFT invariant under a finite symmetry group. We revisit a similar problem for CFT with compact Lie group, explicitly deriving an improved formula for $U(1)$ resolved entanglement spectra. Using the Tauberian formalism, we can estimate the aforementioned EE spectra rigorously by proving an optimal lower and upper bound on the same. In the abelian case, we perform numerical checks on the bound and find perfect agreement.
翻訳日:2023-10-20 19:18:44 公開日:2023-10-19
# ML支援OTFS vs. OFDM適応モデム

An ML-assisted OTFS vs. OFDM adaptable modem ( http://arxiv.org/abs/2309.01319v2 )

ライセンス: Link先を確認
I. Zakir Ahmed and Hamid R. Sadjadpour(参考訳) Orthogonal-Time-Frequency-Space (OTFS)シグナルは、高モビリティシナリオに影響を与える二重分散チャネルに耐性があることが知られている。 一方,Orthogonal-Frequency-Division-Multiplexing(OFDM)波形は,レガシアーキテクチャの再利用,レシーバ設計の簡易化,低複雑さ検出といったメリットを享受する。 OFDMとOTFSのパフォーマンスを比較するいくつかの研究は、高い運動条件を超えるシステムパラメータの多さによる混合結果を示している。 本稿では,シミュレーションを用いてこの観察を例示し,送信機におけるotfsまたはofdm信号処理チェーンと,最適平均二乗誤差(mse)性能の受信機を切り替えるディープニューラルネットワーク(dnn)に基づく適応方式を提案する。 DNN分類器は、チャネル条件、受信SNR、変調フォーマットを観察して、2つのスキームを切り替えるように訓練される。 我々は,OTFS,OFDM,提案したスイッチングウェーブフォーム方式の性能を比較した。 シミュレーションにより,DNNを用いた提案方式の方が優れた性能を示し,通信のMSE性能を大幅に向上させた。

The Orthogonal-Time-Frequency-Space (OTFS) signaling is known to be resilient to doubly-dispersive channels, which impacts high mobility scenarios. On the other hand, the Orthogonal-Frequency-Division-Multiplexing (OFDM) waveforms enjoy the benefits of the reuse of legacy architectures, simplicity of receiver design, and low-complexity detection. Several studies that compare the performance of OFDM and OTFS have indicated mixed outcomes due to the plethora of system parameters at play beyond high-mobility conditions. In this work, we exemplify this observation using simulations and propose a deep neural network (DNN)-based adaptation scheme to switch between using either an OTFS or OFDM signal processing chain at the transmitter and receiver for optimal mean-squared-error (MSE) performance. The DNN classifier is trained to switch between the two schemes by observing the channel condition, received SNR, and modulation format. We compare the performance of the OTFS, OFDM, and the proposed switched-waveform scheme. The simulations indicate superior performance with the proposed scheme with a well-trained DNN, thus improving the MSE performance of the communication significantly.
翻訳日:2023-10-20 19:18:14 公開日:2023-10-19
# ゆるやかな文脈に敏感な言語を学ぶトランスフォーマーの能力評価

Evaluating Transformer's Ability to Learn Mildly Context-Sensitive Languages ( http://arxiv.org/abs/2309.00857v2 )

ライセンス: Link先を確認
Shunjie Wang, Shane Steinert-Threlkeld(参考訳) トランスフォーマーがNLPタスクでうまく機能しているにもかかわらず、最近の研究は、自己注意は理論上は通常の言語や文脈のない言語でも学習に限られていることを示唆している。 これらの知見は, 文脈に敏感であると考えられる自然言語のモデリングにおいて, その意味について考えるきっかけとなった。 我々はTransformerの様々な複雑さの文脈に敏感な言語を学習する能力をテストするとともに、それらが不明瞭な分布データによく当てはまることを確かめるが、長い文字列に外挿する能力はLSTMよりも悪い。 分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,そのモデルが言語を解くのに役立った可能性が示唆された。

Despite the fact that Transformers perform well in NLP tasks, recent studies suggest that self-attention is theoretically limited in learning even some regular and context-free languages. These findings motivated us to think about their implications in modeling natural language, which is hypothesized to be mildly context-sensitive. We test the Transformer's ability to learn mildly context-sensitive languages of varying complexities, and find that they generalize well to unseen in-distribution data, but their ability to extrapolate to longer strings is worse than that of LSTMs. Our analyses show that the learned self-attention patterns and representations modeled dependency relations and demonstrated counting behavior, which may have helped the models solve the languages.
翻訳日:2023-10-20 19:17:53 公開日:2023-10-19
# copiloting the copilots: プログラムの自動修復のための補完エンジンを備えた大型言語モデルの使用

Copiloting the Copilots: Fusing Large Language Models with Completion Engines for Automated Program Repair ( http://arxiv.org/abs/2309.00608v2 )

ライセンス: Link先を確認
Yuxiang Wei, Chunqiu Steven Xia, Lingming Zhang(参考訳) 自動プログラム修復(APR)において、汎用プログラミング言語で現実世界のシステムに対して正しいパッチを合成することは困難である。 最近の大規模言語モデル(llm)は、様々なコーディングタスクの開発者を支援する上で有用な"コパイロット"であることが示されており、パッチ合成にも直接適用されている。 しかし、ほとんどのLLMはプログラムをトークンのシーケンスとして扱うため、ターゲットプログラミング言語の基本的なセマンティクス制約に無関係である。 この結果、多くの静的に無効なパッチが生まれ、この技術の実用性を妨げている。 そこで本稿では,修復プロセス中により有効なパッチを合成することにより,AIの"コパイロット"(LLM)をさらに協調するフレームワークであるRepilotを提案する。 我々の重要な洞察は、多くのLLMが自動回帰的に(トークン単位のトークン)出力を生成し、人間の記述プログラムに似ており、コンプリーションエンジンを通じて大幅に向上しガイドすることができるということである。 RepilotはLLMとCompletion Engineの相互作用を通じて、候補パッチを相乗的に合成する 1) LLMが提案する実用不可能なトークンを削除し、 2) 完了エンジンが提供する提案に基づいてトークンを積極的に完了させる。 広く使用されているDefects4j 1.2と2.0データセットのサブセットに対する評価では、Repilotがそれぞれ66と50のバグを修正し、14と16のバグを修正した。 さらに重要なことに、同じ世代の予算が与えられた場合、repilotはベースllmよりも正当で正しいパッチを生成することができる。

During Automated Program Repair (APR), it can be challenging to synthesize correct patches for real-world systems in general-purpose programming languages. Recent Large Language Models (LLMs) have been shown to be helpful "copilots" in assisting developers with various coding tasks, and have also been directly applied for patch synthesis. However, most LLMs treat programs as sequences of tokens, meaning that they are ignorant of the underlying semantics constraints of the target programming language. This results in plenty of statically invalid generated patches, impeding the practicality of the technique. Therefore, we propose Repilot, a framework to further copilot the AI "copilots" (i.e., LLMs) by synthesizing more valid patches during the repair process. Our key insight is that many LLMs produce outputs autoregressively (i.e., token by token), resembling human writing programs, which can be significantly boosted and guided through a Completion Engine. Repilot synergistically synthesizes a candidate patch through the interaction between an LLM and a Completion Engine, which 1) prunes away infeasible tokens suggested by the LLM and 2) proactively completes the token based on the suggestions provided by the Completion Engine. Our evaluation on a subset of the widely-used Defects4j 1.2 and 2.0 datasets shows that Repilot fixes 66 and 50 bugs, respectively, surpassing the best-performing baseline by 14 and 16 bugs fixed. More importantly, Repilot is capable of producing more valid and correct patches than the base LLM when given the same generation budget.
翻訳日:2023-10-20 19:17:39 公開日:2023-10-19
# 強不均質赤外域における2次元材料の光応答に及ぼす直接双極子-双極子相互作用の影響

Influence of direct dipole-dipole interactions on the optical response of 2D materials in strongly inhomogeneous infrared cavity fields ( http://arxiv.org/abs/2308.13413v2 )

ライセンス: Link先を確認
Sofia Ribeiro, Javier Aizpurua, Ruben Esteban(参考訳) 2次元(2D)材料は、例えば自己集合分子単分子膜またはファンデルウォール材の単層によって形成され、フォトニックナノキャビティと効率よく結合し、強い結合状態に達する可能性がある。 カップリングは古典的な調和振動子モデルやキャビティ量子電磁力学ハミルトニアンを用いてモデル化することができ、単層内の直接双極子-双極子相互作用をしばしば無視する。 ここでは、これらの直接双極子-双極子相互作用を含む系の全ハミルトニアンを対角化する。 典型的な2Dシステムの光学特性に対する主な効果は、単にナノフォトニックモードと結合する単層の明るい集合励起の有効エネルギーを再正常化することである。 一方,極端磁場閉じ込めの状況では,直接双極子-双極子相互作用を含む大きな遷移双極子モーメントと低損失の状況は,多くの集合状態が参加する光学的応答を正確に捉えるために重要であることを示す。 この結果を定量化するために, 直接相互作用が光学応答を強く変化させる条件を示す簡単な方程式を提案する。

A two-dimensional (2D) material, formed for example by a self-assembled molecular monolayer or by a single layer of a van der Walls material, can couple efficiently with photonic nanocavities, potentially reaching the strong coupling regime. The coupling can be modelled using classical harmonic oscillator models or cavity quantum electrodynamics Hamiltonians that often neglect the direct dipole-dipole interactions within the monolayer. Here, we diagonalize the full Hamiltonian of the system, including these direct dipole-dipole interactions. The main effect on the optical properties of a typical 2D system is simply to renormalize the effective energy of the bright collective excitation of the monolayer that couples with the nanophotonic mode. On the other hand, we show that for situations of extreme field confinement, large transition dipole moments and low losses, fully including the direct dipole-dipole interactions is critical to correctly capture the optical response, with many collective states participating in it. To quantify this result, we propose a simple equation that indicates the condition for which the direct interactions strongly modify the optical response.
翻訳日:2023-10-20 19:17:14 公開日:2023-10-19
# Webスケール2D&3D医療データを活用した放射線学一般基盤モデルに向けて

Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data ( http://arxiv.org/abs/2308.02463v4 )

ライセンス: Link先を確認
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang and Weidi Xie(参考訳) 本研究では,RadFMと呼ばれるRadlogy Foundation Modelの開発を目標とし,データセットの構築,モデル設計,徹底的な評価の観点から基礎モデルの構築を検討する。 i) 大規模医療用マルチモーダルデータセット medmd を構築し,16m 2d と 3d の医療スキャンと,さまざまなデータフォーマット,モダリティ,タスクにわたって高品質なテキスト記述やレポートを提供し,5,000 以上の異なる疾患をカバーする。 我々の知る限り、これは2Dスキャンと3Dスキャンの両方を備えた最初の大規模で高品質な医用ビジュアル言語データセットである; (ii)、視覚条件付き生成前トレーニングを可能にするアーキテクチャ、すなわち、2Dまたは3D医療スキャンとのテキスト入力の統合を可能にし、多様な放射線学的タスクに対する応答を生成するアーキテクチャを提案する。 The model was initially pre-trained on MedMD and subsequently fine-tuned on the domain-specific dataset, which is a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs, termed as RadMD; (iii), we propose a new evaluation benchmark, RadBench, that comprises five tasks, including modality recognition, disease diagnosis, visual question answering, report generation and rationale diagnosis, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. radbench の自動評価と人間評価の両方を行い,radfm は既存のマルチモーダル基礎モデルを大きく上回っている。 コード、データ、モデルチェックポイントはすべて、この分野におけるさらなる研究と開発を促進するために公開されます。

In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM.We consider the construction of foundational models from the perspectives of dataset construction, model design, and thorough evaluation. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, which consists of 16M 2D and 3D medical scans with high-quality text descriptions or reports across various data formats, modalities, and tasks, covering over 5000 distinct diseases. To the best of our knowledge, this is the first large-scale, high-quality, medical visual-language dataset, with both 2D and 3D scans; (ii ), we propose an architecture that enables visually conditioned generative pre-training, i.e., allowing for integration of text input with 2D or 3D medical scans, and generate responses for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently fine-tuned on the domain-specific dataset, which is a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs, termed as RadMD; (iii), we propose a new evaluation benchmark, RadBench, that comprises five tasks, including modality recognition, disease diagnosis, visual question answering, report generation and rationale diagnosis, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. We conduct both automatic and human evaluation on RadBench, in both cases, RadFM significantly outperforms existing multi-modal foundation models. The codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.
翻訳日:2023-10-20 19:16:25 公開日:2023-10-19
# direct inversion: 3行のコードで拡散ベースの編集を促進する

Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code ( http://arxiv.org/abs/2310.01506v2 )

ライセンス: Link先を確認
Xuan Ju, Ailing Zeng, Yuxuan Bian, Shaoteng Liu, Qiang Xu(参考訳) テキスト誘導拡散モデルは画像生成と編集に革命をもたらし、例外的なリアリズムと多様性を提供している。 具体的には、ターゲットプロンプトに応じてソース画像が編集される拡散ベース編集の文脈において、拡散モデルを介してソース画像に対応するノイズの潜在ベクトルを取得して処理を開始する。 このベクトルはその後、編集のために別々のソースとターゲット拡散ブランチに供給される。 この反転過程の精度は、最終的な編集結果に大きく影響し、ソース画像の必須コンテンツ保存と、ターゲットプロンプトに応じた編集忠実度の両方に影響を与える。 先行反転技術は、ソースとターゲットの拡散ブランチの両方で統一解を見つけることを目的としている。 しかし,本研究の理論的・実証的分析により,本質的コンテンツの保存と編集の忠実性を確保するための責任が分担されることが判明した。 この知見に基づいて、3行のコードで両方のブランチの最適なパフォーマンスを実現する新技術であるDirect Inversionを紹介する。 画像編集性能を評価するために,多様なシーンと編集タイプを示す700画像の編集ベンチマークpie-benchと,多彩なアノテーションと総合的な評価指標を提案する。 最先端の最適化に基づく逆変換技術と比較して、我々のソリューションは8つの編集方法にまたがる優れた性能を得るだけでなく、ほぼ1桁のスピードアップも達成する。

Text-guided diffusion models have revolutionized image generation and editing, offering exceptional realism and diversity. Specifically, in the context of diffusion-based editing, where a source image is edited according to a target prompt, the process commences by acquiring a noisy latent vector corresponding to the source image via the diffusion model. This vector is subsequently fed into separate source and target diffusion branches for editing. The accuracy of this inversion process significantly impacts the final editing outcome, influencing both essential content preservation of the source image and edit fidelity according to the target prompt. Prior inversion techniques aimed at finding a unified solution in both the source and target diffusion branches. However, our theoretical and empirical analyses reveal that disentangling these branches leads to a distinct separation of responsibilities for preserving essential content and ensuring edit fidelity. Building on this insight, we introduce "Direct Inversion," a novel technique achieving optimal performance of both branches with just three lines of code. To assess image editing performance, we present PIE-Bench, an editing benchmark with 700 images showcasing diverse scenes and editing types, accompanied by versatile annotations and comprehensive evaluation metrics. Compared to state-of-the-art optimization-based inversion techniques, our solution not only yields superior performance across 8 editing methods but also achieves nearly an order of speed-up.
翻訳日:2023-10-20 19:10:28 公開日:2023-10-19
# 大規模言語モデル評価のためのメタセマンティックテンプレート

Meta Semantic Template for Evaluation of Large Language Models ( http://arxiv.org/abs/2310.01448v2 )

ライセンス: Link先を確認
Yachuan Liu, Liang Chen, Jindong Wang, Qiaozhu Mei, Xing Xie(参考訳) 大規模言語モデル(LLM)は、言語のセマンティクスを本当に理解しているか、あるいは単にトレーニングデータを記憶しているか? LLMのデータ汚染に関する最近の懸念は、LCMの評価研究を行うコミュニティの意識を高めている。 本稿では,メタセマンティックテンプレートを作成する手法であるMSTempを提案し,LLMのセマンティック理解能力を評価する。 mstempの中核は、既存のベンチマークデータセットを直接評価することではなく、既存のデータセットを種として使用する新しいout-of-distribution(ood)評価セットを生成することである。 具体的には、ある文に対して、MSTempは別の言語モデルを利用して意味を保ちながら新しいサンプルを生成する。 新しいサンプルは、元の文のセマンティックテンプレートと呼ばれる。 そして、MSTempは、意味テンプレート上で文解析とランダムな単語置換によって評価サンプルを生成する。 mstempは柔軟性が高く、動的で、コスト効率が高い。 最初の実験では、MSTemp生成サンプルは、既存のデータセットをシードとして使用することで、LLMの性能を大幅に低下させることができることを示した。 今後のLCM評価研究に光を当てることが期待できる。

Do large language models (LLMs) genuinely understand the semantics of the language, or just memorize the training data? The recent concern on potential data contamination of LLMs has raised awareness of the community to conduct research on LLMs evaluation. In this paper, we propose MSTemp, an approach that creates meta semantic templates to evaluate the semantic understanding ability of LLMs. The core of MSTemp is not to perform evaluation directly on existing benchmark datasets, but to generate new out-of-distribution (OOD) evaluation sets using existing datasets as seeds. Specifically, for a given sentence, MSTemp leverages another language model to generate new samples while preserving its semantics. The new samples are called semantic templates to the original sentence. Then, MSTemp generates evaluation samples via sentence parsing and random word replacement on the semantic templates. MSTemp is highly flexible, dynamic, and cost-effective. Our initial experiments show that MSTemp-generated samples can significantly reduce the performance of LLMs using existing datasets as seeds. We hope this initial work can shed light on future research of LLMs evaluation.
翻訳日:2023-10-20 19:10:05 公開日:2023-10-19
# 現代のネットワークのためのパスノルムツールキット:結果、約束、挑戦

A path-norm toolkit for modern networks: consequences, promises and challenges ( http://arxiv.org/abs/2310.01225v2 )

ライセンス: Link先を確認
Antoine Gonon, Nicolas Brisebarre, Elisa Riccietti, R\'emi Gribonval(参考訳) この研究は、経路ノルムに関する最初のツールキットを導入し、バイアスのある一般的なDAG ReLUネットワークを網羅し、接続をスキップし、順序統計(最大プーリング、GroupSortなど)の抽出に基づいて操作する。 このツールキットにより、最も広く適用可能なパスノルムベースのものだけでなく、このタイプの最も鋭い境界を回復または打ち負かす現代のニューラルネットワークの一般化境界を確立することができる。 これらの拡張パスノルムは、計算の容易さ、ネットワークの対称性の下での不変性、および演算子のノルムの積と比較してフィードフォワードネットワークのシャープネスの改善など、パスノルムの通常の利点をさらに享受する。 ツールキットの汎用性と実装の容易さにより、imagenet上で最もシャープなresnet境界を数値的に評価することで、パスノルムベースの一般化境界の具体的な約束に挑戦できる。

This work introduces the first toolkit around path-norms that is fully able to encompass general DAG ReLU networks with biases, skip connections and any operation based on the extraction of order statistics: max pooling, GroupSort etc. This toolkit notably allows us to establish generalization bounds for modern neural networks that are not only the most widely applicable path-norm based ones, but also recover or beat the sharpest known bounds of this type. These extended path-norms further enjoy the usual benefits of path-norms: ease of computation, invariance under the symmetries of the network, and improved sharpness on feedforward networks compared to the product of operators' norms, another complexity measure most commonly used. The versatility of the toolkit and its ease of implementation allow us to challenge the concrete promises of path-norm-based generalization bounds, by numerically evaluating the sharpest known bounds for ResNets on ImageNet.
翻訳日:2023-10-20 19:09:46 公開日:2023-10-19
# 識別器批判ギャップによる言語モデルにおける価値理解の測定

Measuring Value Understanding in Language Models through Discriminator-Critique Gap ( http://arxiv.org/abs/2310.00378v3 )

ライセンス: Link先を確認
Zhaowei Zhang, Fengshuo Bai, Jun Gao, Yaodong Yang(参考訳) 近年,Large Language Models (LLMs) の進歩により,人的価値との相違に対する懸念が高まっている。 しかし、これらの値の把握は複雑で適応性が高いため複雑である。 LLMの真に理解するためには、"know what"と"know why"の両方を考慮する必要があります。 この目的のために,人間の価値観に関連する差別的批判的ギャップを測定することで,「何を知るか」と「なぜ知るか」の両方を定量的に評価する価値理解計測(VUM)フレームワークを提案する。 シュワルツ値サーベイを用いて評価値を特定し,GPT-4を用いた1000レベル対話データセットを開発する。 本評価では,LCMの出力値の基準値に対するアライメントと,LCMの応答がGPT-4のアノテーションに対する値認識の理由とどのように一致しているかを考察する。 我々は,5つの代表LSMを評価し,スケーリング法則が「何を知るか」に大きく影響しているが,高い水準を維持している「なぜ知るか」にはあまり影響しないことを示す。 このことは、LLMが提供されたコンテキストに基づいて、その固有の価値を真に理解せず、潜在的なリスクを示す、もっともらしい説明を行うかもしれないことを示唆している。

Recent advancements in Large Language Models (LLMs) have heightened concerns about their potential misalignment with human values. However, evaluating their grasp of these values is complex due to their intricate and adaptable nature. We argue that truly understanding values in LLMs requires considering both "know what" and "know why". To this end, we present the Value Understanding Measurement (VUM) framework that quantitatively assesses both "know what" and "know why" by measuring the discriminator-critique gap related to human values. Using the Schwartz Value Survey, we specify our evaluation values and develop a thousand-level dialogue dataset with GPT-4. Our assessment looks at both the value alignment of LLM's outputs compared to baseline answers and how LLM responses align with reasons for value recognition versus GPT-4's annotations. We evaluate five representative LLMs and provide strong evidence that the scaling law significantly impacts "know what" but not much on "know why", which has consistently maintained a high level. This may further suggest that LLMs might craft plausible explanations based on the provided context without truly understanding their inherent value, indicating potential risks.
翻訳日:2023-10-20 19:09:27 公開日:2023-10-19
# バランスのとれた低光画像強調のための共同補正と補正

Joint Correcting and Refinement for Balanced Low-Light Image Enhancement ( http://arxiv.org/abs/2309.16128v2 )

ライセンス: Link先を確認
Nana Yu, Hong Shi and Yahong Han(参考訳) 低照度画像強調タスクは、明るさ、色、照明の適切なバランスを要求する。 既存の手法では、このバランスにどのように注意を払うかを考えることなく、画像の一面にフォーカスすることが多いが、色歪みや過剰露光などの問題を引き起こす。 これは人間の視覚知覚と高レベルの視覚モデルの性能の両方に深刻な影響を及ぼす。 本研究は, 輝度, 色, 照明のバランスをより効果的に調整できる新しい相乗構造を提案する。 具体的には、主に明るさ、色、照明の輝度のバランスをとる3つの段階からなる、いわゆるJCRNet(Joint Correcting and Refinement Network)を提案する。 ステージ1: 基本エンコーダデコーダとローカル監視機構を用いて, ローカル情報とより包括的な詳細情報を抽出して拡張する。 ステージ2: 横断的な特徴伝達と空間的特徴変換により、色補正と特徴改善がさらに促進される。 ステージ3: 予測された真実像と地上の真実像の残差をモデルに埋め込むための動的照明調整手法を用いて、照明バランスを適応的に調整する。 広範な実験により,提案手法は,ベンチマークデータセット9点において,21の最先端手法よりも総合的な性能向上を示すことが示された。 さらに、より説得力のある実験を行い、下流視覚タスク(例えば、唾液度検出)における我々のアプローチの有効性を検証する。 いくつかの拡張モデルと比較して,提案手法はセグメント化結果と定量化指標を効果的に改善する。 ソースコードはhttps://github.com/woshiyll/JCRNetで入手できる。

Low-light image enhancement tasks demand an appropriate balance among brightness, color, and illumination. While existing methods often focus on one aspect of the image without considering how to pay attention to this balance, which will cause problems of color distortion and overexposure etc. This seriously affects both human visual perception and the performance of high-level visual models. In this work, a novel synergistic structure is proposed which can balance brightness, color, and illumination more effectively. Specifically, the proposed method, so-called Joint Correcting and Refinement Network (JCRNet), which mainly consists of three stages to balance brightness, color, and illumination of enhancement. Stage 1: we utilize a basic encoder-decoder and local supervision mechanism to extract local information and more comprehensive details for enhancement. Stage 2: cross-stage feature transmission and spatial feature transformation further facilitate color correction and feature refinement. Stage 3: we employ a dynamic illumination adjustment approach to embed residuals between predicted and ground truth images into the model, adaptively adjusting illumination balance. Extensive experiments demonstrate that the proposed method exhibits comprehensive performance advantages over 21 state-of-the-art methods on 9 benchmark datasets. Furthermore, a more persuasive experiment has been conducted to validate our approach the effectiveness in downstream visual tasks (e.g., saliency detection). Compared to several enhancement models, the proposed method effectively improves the segmentation results and quantitative metrics of saliency detection. The source code will be available at https://github.com/woshiyll/JCRNet.
翻訳日:2023-10-20 19:09:05 公開日:2023-10-19
# NLPBench: NLP問題を解決するための大規模言語モデルの評価

NLPBench: Evaluating Large Language Models on Solving NLP Problems ( http://arxiv.org/abs/2309.15630v4 )

ライセンス: Link先を確認
Linxin Song, Jieyu Zhang, Lechao Cheng, Pengyuan Zhou, Tianyi Zhou, Irene Li(参考訳) 近年の大規模言語モデル(LLM)の発展により,自然言語処理(NLP)の能力向上が期待されている。 これらの成功にもかかわらず、LPMのNLP問題解決能力に関する多くの研究が続いている。 この領域のギャップを埋めるために,イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 NLPBenchは、複数のサブクエストが同じ公開情報を共有し、複数の選択、短い答え、数学を含む多様な質問タイプを共有する、コンテキストを持った質問を含んでいる。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMを主軸として, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略を取り入れた評価を行った。 本研究は, LLAMA-2 (13b) などの小型モデルにおいて, 先進的なプロンプト戦略の有効性が矛盾し, LLM性能を損なう可能性があることを示す。 さらに,LLMの科学的問題解決技術に特有の欠点が指摘され,論理的分解や推論の弱点が顕著に影響した。

Recent developments in large language models (LLMs) have shown promise in enhancing the capabilities of natural language processing (NLP). Despite these successes, there remains a dearth of research dedicated to the NLP problem-solving abilities of LLMs. To fill the gap in this area, we present a unique benchmarking dataset, NLPBench, comprising 378 college-level NLP questions spanning various NLP topics sourced from Yale University's prior final exams. NLPBench includes questions with context, in which multiple sub-questions share the same public information, and diverse question types, including multiple choice, short answer, and math. Our evaluation, centered on LLMs such as GPT-3.5/4, PaLM-2, and LLAMA-2, incorporates advanced prompting strategies like the chain-of-thought (CoT) and tree-of-thought (ToT). Our study reveals that the effectiveness of the advanced prompting strategies can be inconsistent, occasionally damaging LLM performance, especially in smaller models like the LLAMA-2 (13b). Furthermore, our manual assessment illuminated specific shortcomings in LLMs' scientific problem-solving skills, with weaknesses in logical decomposition and reasoning notably affecting results.
翻訳日:2023-10-20 19:08:40 公開日:2023-10-19
# 大規模言語モデルを用いた学習者支援型マルチチョイス質問説明の自己強化の検討

Exploring Self-Reinforcement for Improving Learnersourced Multiple-Choice Question Explanations with Large Language Models ( http://arxiv.org/abs/2309.10444v2 )

ライセンス: Link先を確認
Qiming Bao, Juho Leinonen, Alex Yuxuan Peng, Wanjun Zhong, Tim Pistotti, Alice Huang, Paul Denny, Michael Witbrock and Jiamou Liu(参考訳) learnersourcingは、学生が仲間と学習リソースを生成、共有することです。 複数項目の質問を学習する場合、生成された質問の説明を作成することは、関連する概念をより深く理解するための重要なステップです。 しかし, 被験者の理解が限られており, 疑問の根幹, 気晴らし, 正解を単に再現する傾向があるため, 効果的な説明を学生が行うことはしばしば困難である。 そこで本研究では,説明を自動的に生成・評価することを目的として,自己強化型大規模言語モデルフレームワークを提案する。 このフレームワークは,3つのモジュールを構成し,学生による説明を生成し,これらの説明を評価し,その品質を保証し,説明を反復的に強化する。 説明の評価スコアが定義しきい値を下回ると、フレームワークは繰り返し説明を洗練し、再評価する。 重要な点として,本フレームワークは,学生が適切な学級レベルで説明を行う方法をエミュレートする。 評価のために,人間の被験者マッターの専門家に,学生が生成した説明と,オープンソースの大規模言語モデルvicuna-13b(vicuna-13bのバージョン)とgpt-4による説明を比較してもらった。 他の大きな言語モデルと比較すると、gpt-4は説明の生成において高い創造性を示した。 また, GPT-4による説明は, 他のモデルによる説明と, 学生による説明の両方よりも, 人間の専門家による評価が高かった。 本研究は,学習者の学習指導経験の充実と,大規模言語モデルの教育応用能力の向上に寄与する。

Learnersourcing involves students generating and sharing learning resources with their peers. When learnersourcing multiple-choice questions, creating explanations for the generated questions is a crucial step as it facilitates a deeper understanding of the related concepts. However, it is often difficult for students to craft effective explanations due to limited subject understanding and a tendency to merely restate the question stem, distractors, and correct answer. To help scaffold this task, in this work we propose a self-reinforcement large-language-model framework, with the goal of generating and evaluating explanations automatically. Comprising three modules, the framework generates student-aligned explanations, evaluates these explanations to ensure their quality and iteratively enhances the explanations. If an explanation's evaluation score falls below a defined threshold, the framework iteratively refines and reassesses the explanation. Importantly, our framework emulates the manner in which students compose explanations at the relevant grade level. For evaluation, we had a human subject-matter expert compare the explanations generated by students with the explanations created by the open-source large language model Vicuna-13B, a version of Vicuna-13B that had been fine-tuned using our method, and by GPT-4. We observed that, when compared to other large language models, GPT-4 exhibited a higher level of creativity in generating explanations. We also found that explanations generated by GPT-4 were ranked higher by the human expert than both those created by the other models and the original student-created explanations. Our findings represent a significant advancement in enriching the learnersourcing experience for students and enhancing the capabilities of large language models in educational applications.
翻訳日:2023-10-20 19:07:50 公開日:2023-10-19
# カーネル密度積分変換

The Kernel Density Integral Transformation ( http://arxiv.org/abs/2309.10194v2 )

ライセンス: Link先を確認
Calvin McCarter(参考訳) 機械学習や統計手法を表データに適用する場合、機能前処理は引き続き重要な役割を果たす。 本稿では,カーネル密度積分変換を特徴前処理のステップとして用いることを提案する。 提案手法は,線形min-maxスケーリングと量子化変換の2つの主要な特徴前処理手法を制約ケースとして仮定する。 ハイパーパラメータチューニングなしでは、カーネル密度積分変換はいずれの手法の簡単なドロップイン置換として利用でき、それぞれの弱点から保護できることを示した。 あるいは、連続した1つのハイパーパラメータをチューニングすることで、これらの手法を頻繁に上回る。 最後に,カーネル密度変換が統計的データ解析,特に相関解析や一変量クラスタリングに利益をもたらすことを示す。

Feature preprocessing continues to play a critical role when applying machine learning and statistical methods to tabular data. In this paper, we propose the use of the kernel density integral transformation as a feature preprocessing step. Our approach subsumes the two leading feature preprocessing methods as limiting cases: linear min-max scaling and quantile transformation. We demonstrate that, without hyperparameter tuning, the kernel density integral transformation can be used as a simple drop-in replacement for either method, offering protection from the weaknesses of each. Alternatively, with tuning of a single continuous hyperparameter, we frequently outperform both of these methods. Finally, we show that the kernel density transformation can be profitably applied to statistical data analysis, particularly in correlation analysis and univariate clustering.
翻訳日:2023-10-20 19:07:18 公開日:2023-10-19
# 量子接続、電荷および仮想粒子

Quantum connection, charges and virtual particles ( http://arxiv.org/abs/2310.06507v2 )

ライセンス: Link先を確認
Alexander D. Popov(参考訳) 幾何学的には、量子力学は古典的な粒子相空間上の複素直線束 $L_\hbar$ で定義される: $T^*{R}^3\cong{R}^6$ で、座標は $x^a$ と momenta $p_a$, $a,...=1,2,3$ である。 この量子バンドル $L_\hbar$ には接続 $A_\hbar$ が与えられ、そのセクションはシュリンガー方程式に従う標準波動関数 $\psi$ である。 共変微分の成分 $\nabla_{a_\hbar}^{}$ in $l_\hbar$ は作用素 ${\hat x}^a$ と ${\hat p}_a$ と等価である。 束 $L_\hbar=: L_{C}^+$ は対称性群 U(1)$_\hbar$ に関連付けられ、群 U(1)$_\hbar$ の生成元の固有値である量子電荷 $q=1$ の粒子を記述する。 複素共役束 $L^-_{C}:={\overline{L_{C}^+}}$ は量子電荷 $q=-1$ の反粒子を記述する。 L_{C}^\pm$ と接続 $A_\hbar$ を相対論的位相空間 $T^*{R}^{3,1}$ に持ち上げ、粒子と反粒子の両方を記述するディラックスピノルバンドルに結合する。 自由相対論的クォークとレプトンはミンコフスキー空間${R}^{3,1}$上のディラック方程式によって記述される。 この方程式は、バンドル上での量子接続 $a_\hbar$ との相互作用を含まない: $l^\pm_{c}\to t^*{r}^{3,1}$ なぜなら、$a_\hbar$ は $t^*{r}^{3,1}$ の $p_a$-directions に沿ってのみ非有界成分を持つからである。 素フェルミオン$\Psi$と量子接続$A_\hbar$ on $L_{C}^\pm$との相互作用を可能にするため、$\Psi$が$t$と$x^a$にのみ依存する条件を維持しながら、ダイラック方程式を位相空間に拡張する。 拡張方程式は、離散エネルギー値とコヒーレント状態のウェーブパケットを持つ振動子型解の無限個数を持つ。 これらの正規化解は、質量殻ハイパーボロイドの外に住む仮想粒子や反粒子を記述している。 自由粒子への遷移は、圧縮されたコヒーレント状態を通じて可能である。

Geometrically, quantum mechanics is defined by a complex line bundle $L_\hbar$ over the classical particle phase space $T^*{R}^3\cong{R}^6$ with coordinates $x^a$ and momenta $p_a$, $a,...=1,2,3$. This quantum bundle $L_\hbar$ is endowed with a connection $A_\hbar$, and its sections are standard wave functions $\psi$ obeying the Schr\"odinger equation. The components of covariant derivatives $\nabla_{A_\hbar}^{}$ in $L_\hbar$ are equivalent to operators ${\hat x}^a$ and ${\hat p}_a$. The bundle $L_\hbar=: L_{C}^+$ is associated with symmetry group U(1)$_\hbar$ and describes particles with quantum charge $q=1$ which is eigenvalue of the generator of the group U(1)$_\hbar$. The complex conjugate bundle $L^-_{C}:={\overline{L_{C}^+}}$ describes antiparticles with quantum charge $q=-1$. We will lift the bundles $L_{C}^\pm$ and connection $A_\hbar$ on them to the relativistic phase space $T^*{R}^{3,1}$ and couple them to the Dirac spinor bundle describing both particles and antiparticles. Free relativistic quarks and leptons are described by the Dirac equation on Minkowski space ${R}^{3,1}$. This equation does not contain interaction with the quantum connection $A_\hbar$ on bundles $L^\pm_{C}\to T^*{R}^{3,1}$ because $A_\hbar$ has non-vanishing components only along $p_a$-directions in $T^*{R}^{3,1}$. To enable the interaction of elementary fermions $\Psi$ with quantum connection $A_\hbar$ on $L_{C}^\pm$, we will extend the Dirac equation to the phase space while maintaining the condition that $\Psi$ depends only on $t$ and $x^a$. The extended equation has an infinite number of oscillator-type solutions with discrete energy values as well as wave packets of coherent states. We argue that all these normalized solutions describe virtual particles and antiparticles living outside the mass shell hyperboloid. The transition to free particles is possible through squeezed coherent states.
翻訳日:2023-10-20 18:59:44 公開日:2023-10-19
# 多言語エンコーダポテンシャルを解き放つ:確率校正によるゼロショット性能の向上

Unleashing the Multilingual Encoder Potential: Boosting Zero-Shot Performance via Probability Calibration ( http://arxiv.org/abs/2310.05069v2 )

ライセンス: Link先を確認
Ercong Nie, Helmut Schmid, Hinrich Sch\"utze(参考訳) 事前訓練された多言語エンコーダモデルは、入力例をクローゼスタイルのプロンプトに変換することで、ゼロショット多言語タスクや言語探索を直接実行することができる。 これは、モデルパラメータの更新を必要とせず、マスクされたトークン位置でラベル語の確率を予測することで達成される。 しかし,本手法の性能は,事前学習中に頻繁に発生するラベル単語の予測に対するモデルのバイアスによって制限される。 これらの単語は一般的に高い確率を受ける。 この問題に対処するため、モデルによって予測されるラベル語の確率を変化させるキャリブレーション手法とモデルを組み合わせる。 まず,提案手法の有効性を,ゼロショットと少数ショットの両シナリオにおいて,既存のモノリンガルエンコーダの手法とともに検証した。 その後,このキャリブレーション手法を多言語エンコーダに適用し,様々なタスクで性能が大幅に向上した。

Pretrained multilingual encoder models can directly perform zero-shot multilingual tasks or linguistic probing by reformulating the input examples into cloze-style prompts. This is accomplished by predicting the probabilities of the label words at the masked token position, without requiring any updates to the model parameters. However, the performance of this method is limited by the model's bias toward predicting label words which frequently occurred during the pretraining. These words typically receive high probabilities. To address this issue, we combine the models with calibration techniques which modify the probabilities of label words predicted by the models. We first validate the effectiveness of a proposed simple calibration method together with other existing techniques on monolingual encoders in both zero- and few-shot scenarios. We subsequently employ these calibration techniques on multilingual encoders, resulting in substantial performance improvements across a wide range of tasks.
翻訳日:2023-10-20 18:58:58 公開日:2023-10-19
# フェデレーション学習におけるデジタル倫理

Digital Ethics in Federated Learning ( http://arxiv.org/abs/2310.03178v2 )

ライセンス: Link先を確認
Liangqi Yuan and Ziran Wang and Christopher G. Brinton(参考訳) IoT(Internet of Things)は一貫して大量のデータを生成し、データのプライバシ保護とデータ誤使用の制限に対する懸念が高まっている。 フェデレーション学習(fl)は,生のユーザデータではなく機械学習(ml)モデルパラメータを共有することで,複数当事者間の協調機能を促進する。 本稿では,FLのクライアントとして人間中心のデバイスが使用される場合に生じる,デジタル倫理上の懸念を強調する。 具体的には、クライアントとサーバ間の視点や目的の違いから、ゲームダイナミクス、公正性、インセンティブ、継続性の課題が発生する。 我々は、これらの課題とその解決策を、クライアントとサーバの両方の観点から、そして集中型および分散型flの観点から分析する。 最後に、今後の開発の方向性として、人間中心のIoTにおけるFLの機会を探る。

The Internet of Things (IoT) consistently generates vast amounts of data, sparking increasing concern over the protection of data privacy and the limitation of data misuse. Federated learning (FL) facilitates collaborative capabilities among multiple parties by sharing machine learning (ML) model parameters instead of raw user data, and it has recently gained significant attention for its potential in privacy preservation and learning efficiency enhancement. In this paper, we highlight the digital ethics concerns that arise when human-centric devices serve as clients in FL. More specifically, challenges of game dynamics, fairness, incentive, and continuity arise in FL due to differences in perspectives and objectives between clients and the server. We analyze these challenges and their solutions from the perspectives of both the client and the server, and through the viewpoints of centralized and decentralized FL. Finally, we explore the opportunities in FL for human-centric IoT as directions for future development.
翻訳日:2023-10-20 18:58:28 公開日:2023-10-19
# DQ-LoRe: 文脈内学習のための低ランク近似型デュアルクェリ

DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning ( http://arxiv.org/abs/2310.02954v3 )

ライセンス: Link先を確認
Jing Xiong, Zixuan Li, Chuanyang Zheng, Zhijiang Guo, Yichun Yin, Enze Xie, Zhicheng Yang, Qingxing Cao, Haiming Wang, Xiongwei Han, Jing Tang, Chengming Li, Xiaodan Liang(参考訳) 自然言語処理の最近の進歩は、主にLarge Language Models (LLM) によって推進され、文脈内学習に根ざした顕著な能力を示している。 複雑な推論タスクにおいてLLMを導くための有望な道は、Chain-of-Thought(CoT)パラダイムにおける中間的推論ステップの利用である。 それでも、中核的な課題は、インコンテキスト学習を促進するための例題の効果的な選択にある。 本研究では、DQ-LoRe(Dual Queries and Low-rank approximation Re- rank)を利用して、文脈内学習のための例を自動選択するフレームワークを提案する。 Dual Queries はまず LLM に問い合わせて、COT などの LLM 生成した知識を取得し、次に検索者に対して質問と知識の両方を通して最終例を得る。 さらに第2の質問に対して,loreは,入力質問の知識との密接な一致を保証し,例題選択を洗練するために,次元性低減手法を採用している。 広範な実験により, dq-lore は gpt-4 のexemplars の自動選択において, 従来の最先端手法を大幅に上回り, 92.5% から 94.2% に向上した。 総合分析の結果,dq-loreは,特に分布シフトを特徴とするシナリオにおいて,性能と適応性の両方において,検索ベースアプローチを一貫して上回っていることが明らかとなった。 DQ-LoReはコンテキスト内学習の境界を押し上げ、複雑な推論問題に対処するための新たな道を開く。 私たちはすぐにコードをリリースします。

Recent advances in natural language processing, primarily propelled by Large Language Models (LLMs), have showcased their remarkable capabilities grounded in in-context learning. A promising avenue for guiding LLMs in intricate reasoning tasks involves the utilization of intermediate reasoning steps within the Chain-of-Thought (CoT) paradigm. Nevertheless, the central challenge lies in the effective selection of exemplars for facilitating in-context learning. In this study, we introduce a framework that leverages Dual Queries and Low-rank approximation Re-ranking (DQ-LoRe) to automatically select exemplars for in-context learning. Dual Queries first query LLM to obtain LLM-generated knowledge such as CoT, then query the retriever to obtain the final exemplars via both question and the knowledge. Moreover, for the second query, LoRe employs dimensionality reduction techniques to refine exemplar selection, ensuring close alignment with the input question's knowledge. Through extensive experiments, we demonstrate that DQ-LoRe significantly outperforms prior state-of-the-art methods in the automatic selection of exemplars for GPT-4, enhancing performance from 92.5% to 94.2%. Our comprehensive analysis further reveals that DQ-LoRe consistently outperforms retrieval-based approaches in terms of both performance and adaptability, especially in scenarios characterized by distribution shifts. DQ-LoRe pushes the boundaries of in-context learning and opens up new avenues for addressing complex reasoning challenges. We will release the code soon.
翻訳日:2023-10-20 18:58:14 公開日:2023-10-19
# 複数構成問題の解決:Choco Solverによる性能解析

Solving Multi-Configuration Problems: A Performance Analysis with Choco Solver ( http://arxiv.org/abs/2310.02658v2 )

ライセンス: Link先を確認
Benjamin Ritz, Alexander Felfernig, Viet-Man Le, Sebastian Lubos(参考訳) 多くのシナリオにおいて、コンフィギュレータは、単一のユーザの好みを満たすソリューションの構成をサポートする。 emph{multi-configuration}の概念は、一連の設定を設定するという考え方に基づいている。 このような機能は、パーソナライズされた試験の構成、プロジェクトチームの構成、観光グループ(例えば、特定の都市を訪れる場合)の個々のメンバーに対する異なるトリップの構成といったシナリオに関係しています。 本稿では,マルチコンフィギュレーションの個人化試験への適用例を示す。 また、対応するパフォーマンス問題に対する洞察を得るのに役立つ制約解決器のパフォーマンス分析も提供します。

In many scenarios, configurators support the configuration of a solution that satisfies the preferences of a single user. The concept of \emph{multi-configuration} is based on the idea of configuring a set of configurations. Such a functionality is relevant in scenarios such as the configuration of personalized exams, the configuration of project teams, and the configuration of different trips for individual members of a tourist group (e.g., when visiting a specific city). In this paper, we exemplify the application of multi-configuration for generating individualized exams. We also provide a constraint solver performance analysis which helps to gain some insights into corresponding performance issues.
翻訳日:2023-10-20 18:57:46 公開日:2023-10-19
# SNIP:統一事前学習による数学的記号と数値領域のブリッジ

SNIP: Bridging Mathematical Symbolic and Numeric Realms with Unified Pre-training ( http://arxiv.org/abs/2310.02227v2 )

ライセンス: Link先を確認
Kazem Meidani, Parshin Shojaee, Chandan K. Reddy, Amir Barati Farimani(参考訳) 複雑な自然現象のモデル化に記号的数理方程式が不可欠である時代には、科学的な探究には観察の収集と数学的表現への翻訳がしばしば必要となる。 近年,データから洞察を抽出する強力なツールとしてディープラーニングが登場している。 しかしながら、既存のモデルは典型的には数値的あるいは記号的ドメインを専門とし、通常は特定のタスクに合わせた教師付き方法で訓練される。 このアプローチは、記号方程式とその数値方程式の間のタスクに依存しない統一的な理解から生じる実質的な利益を無視している。 このギャップを埋めるために,シンボルドメインと数値ドメインの対比学習を併用し,事前学習における相互類似性を高めるシンボリック・数値統合事前学習であるSNIPを導入する。 潜時空間解析を行うことにより,SNIPが表現のクロスドメインな洞察を提供し,記号的指導によって数値データの埋め込みが促進されることを示す。 我々は,記号型から数値型への数学的性質予測や,記号型回帰と呼ばれる数値型から記号型への方程式発見など,SNIPを多種多様なタスクで評価する。 その結果、SNIPは様々なタスクに効果的に移行し、完全に教師されたベースラインを一貫して上回り、既存のタスク固有の手法と強く競合することがわかった。

In an era where symbolic mathematical equations are indispensable for modeling complex natural phenomena, scientific inquiry often involves collecting observations and translating them into mathematical expressions. Recently, deep learning has emerged as a powerful tool for extracting insights from data. However, existing models typically specialize in either numeric or symbolic domains, and are usually trained in a supervised manner tailored to specific tasks. This approach neglects the substantial benefits that could arise from a task-agnostic unified understanding between symbolic equations and their numeric counterparts. To bridge the gap, we introduce SNIP, a Symbolic-Numeric Integrated Pre-training, which employs joint contrastive learning between symbolic and numeric domains, enhancing their mutual similarities in the pre-trained embeddings. By performing latent space analysis, we observe that SNIP provides cross-domain insights into the representations, revealing that symbolic supervision enhances the embeddings of numeric data and vice versa. We evaluate SNIP across diverse tasks, including symbolic-to-numeric mathematical property prediction and numeric-to-symbolic equation discovery, commonly known as symbolic regression. Results show that SNIP effectively transfers to various tasks, consistently outperforming fully supervised baselines and competing strongly with established task-specific methods, especially in few-shot learning scenarios where available data is limited.
翻訳日:2023-10-20 18:57:36 公開日:2023-10-19
# OceanGPT: 海洋科学タスクのための大規模言語モデル

OceanGPT: A Large Language Model for Ocean Science Tasks ( http://arxiv.org/abs/2310.02031v3 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Daxiong Ji, Guozhou Zheng, Huajun Chen(参考訳) 生命と生物多様性の貯水池である海洋科学は、地球の表面の70%以上を海洋がカバーしていることを考えると、非常に重要である。 近年,Large Language Models (LLM) の進歩が科学のパラダイムを変えつつある。 他の領域での成功にもかかわらず、現在のLLMは海洋学者のようなドメインの専門家のニーズに応えられず、海洋科学のためのLLMのポテンシャルは過小評価されている。 内在的な理由は、海洋データの巨大で複雑な性質と、より高い粒度と知識の豊かさの必要性である。 これらの問題を緩和するため,海洋分野における初のLCMであるOceanGPTを紹介した。 マルチエージェント協調に基づく命令を生成する,大量の海洋ドメイン命令データを自動的に取得する新しいフレームワークであるDoInstructを提案する。 さらに,海洋域におけるLLMの能力を評価するため,最初の海洋学ベンチマークであるOceanBenchを構築した。 総合的な実験ではあるが、OceanGPTは海洋科学のタスクの高度な知識知識を示すだけでなく、海洋技術における予備的なインテリジェンス能力も得る。 コード、データ、チェックポイントは近々https://github.com/zjunlp/KnowLM.comで公開される。

Ocean science, which delves into the oceans that are reservoirs of life and biodiversity, is of great significance given that oceans cover over 70% of our planet's surface. Recently, advances in Large Language Models (LLMs) have transformed the paradigm in science. Despite the success in other domains, current LLMs often fall short in catering to the needs of domain experts like oceanographers, and the potential of LLMs for ocean science is under-explored. The intrinsic reason may be the immense and intricate nature of ocean data as well as the necessity for higher granularity and richness in knowledge. To alleviate these issues, we introduce OceanGPT, the first-ever LLM in the ocean domain, which is expert in various ocean science tasks. We propose DoInstruct, a novel framework to automatically obtain a large volume of ocean domain instruction data, which generates instructions based on multi-agent collaboration. Additionally, we construct the first oceanography benchmark, OceanBench, to evaluate the capabilities of LLMs in the ocean domain. Though comprehensive experiments, OceanGPT not only shows a higher level of knowledge expertise for oceans science tasks but also gains preliminary embodied intelligence capabilities in ocean technology. Codes, data and checkpoints will soon be available at https://github.com/zjunlp/KnowLM.
翻訳日:2023-10-20 18:57:11 公開日:2023-10-19
# 計算トポロジーのためのChatGPT

ChatGPT for Computational Topology ( http://arxiv.org/abs/2310.07570v2 )

ライセンス: Link先を確認
Jian Liu, Li Shen and Guo-Wei Wei(参考訳) ChatGPTは、人工知能(AI)分野における重要なマイルストーンであり、多様なドメインにまたがる幅広い応用を見つける。 しかし、数学的文脈におけるその有効性は、概念的誤りに対する感受性に幾らか制約されている。 同時に、比較的新しい分野であるトポロジカルデータ分析(TDA)も近年大きな関心を集めている。 それでも、TDAの進歩は、計算アルゴリズムの限られた理解と理論家間のコーディング能力によって妨げられている。 この研究は、理論トポロジ的概念とそれらの計算トポロジにおける実践的実装のギャップをChatGPTを利用して埋める試みである。 計算経験やコーディングスキルを欠いた純粋理論家が,ChatGPTの助けを借りて,数学的定式化や概念を計算トポロジの関数コードに効果的に変換する方法について紹介する。 我々の戦略は、数学者が純粋な数学的概念に基づいてChatGPTを訓練し、ChatGPTを計算トポロジコードの生成に向けて制御し、確立した例を用いて生成したコードを検証する生産的プロセスの概要である。 我々の特定のケーススタディは、単純複体に対するベッチ数、ラプラシアン行列、ディラック行列の計算と、様々なホモロジーやラプラシアンの持続を包含する。 さらに,近年開発されたハイパーグラフとダイアグラムの位相理論におけるchatgptの応用について検討する。 この研究は、純粋数学理論を実用的な計算ツールに効果的に変換するための最初のステップとなり、様々な分野にまたがる実際の応用を可能にする究極のゴールである。

ChatGPT represents a significant milestone in the field of artificial intelligence (AI), finding widespread applications across diverse domains. However, its effectiveness in mathematical contexts has been somewhat constrained by its susceptibility to conceptual errors. Concurrently, topological data analysis (TDA), a relatively new discipline, has garnered substantial interest in recent years. Nonetheless, the advancement of TDA is impeded by the limited understanding of computational algorithms and coding proficiency among theoreticians. This work endeavors to bridge the gap between theoretical topological concepts and their practical implementation in computational topology through the utilization of ChatGPT. We showcase how a pure theoretician, devoid of computational experience and coding skills, can effectively transform mathematical formulations and concepts into functional code for computational topology with the assistance of ChatGPT. Our strategy outlines a productive process wherein a mathematician trains ChatGPT on pure mathematical concepts, steers ChatGPT towards generating computational topology code, and subsequently validates the generated code using established examples. Our specific case studies encompass the computation of Betti numbers, Laplacian matrices, and Dirac matrices for simplicial complexes, as well as the persistence of various homologies and Laplacians. Furthermore, we explore the application of ChatGPT in computing recently developed topological theories for hypergraphs and digraphs. This work serves as an initial step towards effectively transforming pure mathematical theories into practical computational tools, with the ultimate goal of enabling real applications across diverse fields.
翻訳日:2023-10-20 18:50:27 公開日:2023-10-19
# romo: 検索エンハンスドオフラインモデルに基づく最適化

ROMO: Retrieval-enhanced Offline Model-based Optimization ( http://arxiv.org/abs/2310.07560v2 )

ライセンス: Link先を確認
Mingcheng Chen, Haoran Zhao, Yuxiang Zhao, Hulei Fan, Hongqiao Gao, Yong Yu, Zheng Tian(参考訳) データ駆動型ブラックボックスモデルベース最適化(MBO)の問題は、静的なオフラインデータセットに基づいてブラックボックスターゲット関数を最大化する全領域にわたる設計を見つけることを目標とする、多くの実用的なアプリケーションシナリオで発生します。 本研究では,設計空間の一部のみを最適化でき,残りは環境によって制約される,より一般的だが挑戦的な mbo 設定 (constricted mbo (combo)) を考える。 CoMBOから生じる新しい課題は、制約を満たすほとんどの観察された設計は、評価において平凡であるということである。 したがって、従来のmbo設定で観察された設計をさらに強化するのではなく、所定の制約を維持しながら、オフラインデータセットでこれらの中間設計を最適化することに注力する。 本研究では,オフラインデータセットを検索し,関連するサンプルを集約して信頼できる予測を行い,勾配に基づく最適化に使用する,新たな導出可能なフォワードアプローチであるromoを提案する。 ROMOは実装が簡単で、CoMBO設定における最先端のアプローチよりも優れている。 実験では,合成ハートマン(3d)関数データセット,産業用cioデータセット,修正されたタスク群を設計ベンチマークで実験する。 その結果,ROMOは幅広い制約付き最適化タスクにおいて良好に動作することがわかった。

Data-driven black-box model-based optimization (MBO) problems arise in a great number of practical application scenarios, where the goal is to find a design over the whole space maximizing a black-box target function based on a static offline dataset. In this work, we consider a more general but challenging MBO setting, named constrained MBO (CoMBO), where only part of the design space can be optimized while the rest is constrained by the environment. A new challenge arising from CoMBO is that most observed designs that satisfy the constraints are mediocre in evaluation. Therefore, we focus on optimizing these mediocre designs in the offline dataset while maintaining the given constraints rather than further boosting the best observed design in the traditional MBO setting. We propose retrieval-enhanced offline model-based optimization (ROMO), a new derivable forward approach that retrieves the offline dataset and aggregates relevant samples to provide a trusted prediction, and use it for gradient-based optimization. ROMO is simple to implement and outperforms state-of-the-art approaches in the CoMBO setting. Empirically, we conduct experiments on a synthetic Hartmann (3D) function dataset, an industrial CIO dataset, and a suite of modified tasks in the Design-Bench benchmark. Results show that ROMO performs well in a wide range of constrained optimization tasks.
翻訳日:2023-10-20 18:49:58 公開日:2023-10-19
# KwaiYiiMath:テクニカルレポート

KwaiYiiMath: Technical Report ( http://arxiv.org/abs/2310.07488v2 )

ライセンス: Link先を確認
Jiayi Fu, Lei Lin, Xiaoyang Gao, Pengli Liu, Zhengzong Chen, Zhirui Yang, Shengnan Zhang, Xue Zheng, Yan Li, Yuliang Liu, Xucheng Ye, Yiqiao Liao, Chao Liao, Bin Chen, Chengru Song, Junchen Wan, Zijia Lin, Fuzheng Zhang, Zhongyuan Wang, Di Zhang, Kun Gai(参考訳) 大規模言語モデル(LLM)の最近の進歩は、多段階推論を必要とする数学的タスクであっても、様々な自然言語処理(NLP)下流タスクを扱う際、顕著な能力を示している。 本報告では,英語と中国語の数学的タスクを含む,スーパービジョンファインチューニング(SFT)と強化学習(RLHF)を適用することで,KwaiYiiBase1の数学的推論能力を向上するKwaiYiiMathを紹介する。 また, モデルが生成した問題解決過程の正しさを評価するために, 188例からなる小型の中国小学校数学テストセット(KMath)を構築した。 実験により、KwaiYiiMathはGSM8k, CMath, KMathの最先端(SOTA)性能を同様のサイズモデルと比較できることが示された。

Recent advancements in large language models (LLMs) have demonstrated remarkable abilities in handling a variety of natural language processing (NLP) downstream tasks, even on mathematical tasks requiring multi-step reasoning. In this report, we introduce the KwaiYiiMath which enhances the mathematical reasoning abilities of KwaiYiiBase1, by applying Supervised Fine-Tuning (SFT) and Reinforced Learning from Human Feedback (RLHF), including on both English and Chinese mathematical tasks. Meanwhile, we also constructed a small-scale Chinese primary school mathematics test set (named KMath), consisting of 188 examples to evaluate the correctness of the problem-solving process generated by the models. Empirical studies demonstrate that KwaiYiiMath can achieve state-of-the-art (SOTA) performance on GSM8k, CMath, and KMath compared with the similar size models, respectively.
翻訳日:2023-10-20 18:49:37 公開日:2023-10-19
# Jaeger: 結合型マルチトランスフォーマーVQAモデル

Jaeger: A Concatenation-Based Multi-Transformer VQA Model ( http://arxiv.org/abs/2310.07091v2 )

ライセンス: Link先を確認
Jieting Long, Zewei Shi, Penghao Jiang, Yidong Gan(参考訳) 文書に基づく視覚質問応答は,言語感覚の曖昧さと細粒度マルチモーダル検索の間の課題となる。 大規模言語とオープンワールド事前モデルの利用による文書ベースの質問応答の進歩が促進されているが、長文の応答時間、長文の推論時間、マッチングにおける不正確さなど、いくつかの課題が続いている。 これらの課題を克服するために,結合型マルチトランスフォーマーVQAモデルであるJaegarを提案する。 本稿では,RoBERTa large\cite{2} と GPT2-xl\cite{3} を特徴抽出器として活用する。 その後、両方のモデルからの出力を結合プロセスに入力する。 この操作により、モデルは様々なソースからの情報を同時に考慮し、表現能力を高めることができる。 事前学習したモデルを特徴抽出に活用することにより,これらのモデルの性能を結合によって増幅する可能性を秘めている。 結合後、出力特性に次元性低減を適用し、モデルの計算効率と推論時間を削減する。 その結果,提案手法はPDF-VQAデータセットのタスクC上での競合性能を実証した。 ユーザが新しいデータを追加する場合、以前のセクションで提供された命令に従ってスタイルにしておく必要がある。

Document-based Visual Question Answering poses a challenging task between linguistic sense disambiguation and fine-grained multimodal retrieval. Although there has been encouraging progress in document-based question answering due to the utilization of large language and open-world prior models\cite{1}, several challenges persist, including prolonged response times, extended inference durations, and imprecision in matching. In order to overcome these challenges, we propose Jaegar, a concatenation-based multi-transformer VQA model. To derive question features, we leverage the exceptional capabilities of RoBERTa large\cite{2} and GPT2-xl\cite{3} as feature extractors. Subsequently, we subject the outputs from both models to a concatenation process. This operation allows the model to consider information from diverse sources concurrently, strengthening its representational capability. By leveraging pre-trained models for feature extraction, our approach has the potential to amplify the performance of these models through concatenation. After concatenation, we apply dimensionality reduction to the output features, reducing the model's computational effectiveness and inference time. Empirical results demonstrate that our proposed model achieves competitive performance on Task C of the PDF-VQA Dataset. If the user adds any new data, they should make sure to style it as per the instructions provided in previous sections.
翻訳日:2023-10-20 18:49:20 公開日:2023-10-19
# DiPS: 弱教師付きオブジェクトローカライゼーションのための自己スーパーバイザ付き擬似ラベルサンプリング

DiPS: Discriminative Pseudo-Label Sampling with Self-Supervised Transformers for Weakly Supervised Object Localization ( http://arxiv.org/abs/2310.06196v2 )

ライセンス: Link先を確認
Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Aydin Sarraf, Eric Granger(参考訳) 自己監督型視覚変換器(SST)は、画像内の異なる物体をハイライトするリッチなローカライゼーションマップを生成する大きな可能性を示している。 しかし、モデルが教師なしであるため、これらの地図はクラスに依存しないままである。 彼らはしばしば、イメージを異なるオブジェクトを含む複数のマップに分解し、背景ノイズオブジェクトと関心のあるオブジェクトを区別できない傾向がある。 本稿では,識別的擬似ラベルサンプリング (DiPS) を導入し,これらのクラス非依存マップを画像分類ラベルのみの弱教師付きオブジェクトローカライゼーション (WSOL) に活用する。 複数の注意マップが与えられた場合、DiPSは、各注意マップの最も識別性の高い領域を特定するために、事前訓練された分類器に依存する。 これにより、選択されたROIが背景オブジェクトを破棄しながら正しいイメージオブジェクトをカバーすることが保証され、オブジェクトの異なる部分をカバーするための多様で差別的な提案の豊富なプールを提供する。 その後、これらの提案は、分類およびローカライゼーションタスクを実行するために設計された新しいトランスフォーマーベースのWSOLモデルをトレーニングするために擬似ラベルとして使用される。 標準的なWSOLメソッドとは異なり、DiPSはトランスフォーマーエンコーダと専用出力ヘッドを使用して各タスクのパフォーマンスを最適化する。 1つの提案に過度に適合せず、より良い対象カバレッジを促進するために、トレーニングステップ毎にトレーニング画像の上位1つに1つの提案をランダムに選択する。 CUB,ILSVRC,OpenImages,TelDroneの各データセットに対する実験結果から,我々のアーキテクチャとトランスフォーマーベースの提案を組み合わせることで,最先端の手法よりも優れたローカライゼーション性能が得られることが示された。

Self-supervised vision transformers (SSTs) have shown great potential to yield rich localization maps that highlight different objects in an image. However, these maps remain class-agnostic since the model is unsupervised. They often tend to decompose the image into multiple maps containing different objects while being unable to distinguish the object of interest from background noise objects. In this paper, Discriminative Pseudo-label Sampling (DiPS) is introduced to leverage these class-agnostic maps for weakly-supervised object localization (WSOL), where only image-class labels are available. Given multiple attention maps, DiPS relies on a pre-trained classifier to identify the most discriminative regions of each attention map. This ensures that the selected ROIs cover the correct image object while discarding the background ones, and, as such, provides a rich pool of diverse and discriminative proposals to cover different parts of the object. Subsequently, these proposals are used as pseudo-labels to train our new transformer-based WSOL model designed to perform classification and localization tasks. Unlike standard WSOL methods, DiPS optimizes performance in both tasks by using a transformer encoder and a dedicated output head for each task, each trained using dedicated loss functions. To avoid overfitting a single proposal and promote better object coverage, a single proposal is randomly selected among the top ones for a training image at each training step. Experimental results on the challenging CUB, ILSVRC, OpenImages, and TelDrone datasets indicate that our architecture, in combination with our transformer-based proposals, can yield better localization performance than state-of-the-art methods.
翻訳日:2023-10-20 18:48:59 公開日:2023-10-19
# caw-coref:コラボレーティブアウェアワードレベルのコリファレンス解決

CAW-coref: Conjunction-Aware Word-level Coreference Resolution ( http://arxiv.org/abs/2310.06165v2 )

ライセンス: Link先を確認
Karel D'Oosterlinck, Semere Kiros Bitew, Brandon Papineau, Christopher Potts, Thomas Demeester, Chris Develder(参考訳) 最先端のコリファレンスレゾリューションシステムはドキュメント毎の複数のllmコールに依存するため、多くのユースケース(例えば、大きなコーパスによる情報抽出)では禁止的に高価である。 wl-coref (leading word-level coreference system) は sota システムの性能の96.6%を達成するが、より効率的である。 本稿では,WL-corefの日常的かつ重要な障害事例を特定する。 我々は,OntoNotesテストセットの性能を0.9%F1で改善し,効率的な単語レベルのコア参照解決と高価なSOTAアプローチのギャップを34.6%削減する,シンプルで効果的なソリューションを提供する。 私たちのConjunction-Aware Word-level coreference model (CAW-coref)とコードはhttps://github.com/KarelDO/wl-coref.comで公開されている。

State-of-the-art coreference resolutions systems depend on multiple LLM calls per document and are thus prohibitively expensive for many use cases (e.g., information extraction with large corpora). The leading word-level coreference system (WL-coref) attains 96.6% of these SOTA systems' performance while being much more efficient. In this work, we identify a routine yet important failure case of WL-coref: dealing with conjoined mentions such as 'Tom and Mary'. We offer a simple yet effective solution that improves the performance on the OntoNotes test set by 0.9% F1, shrinking the gap between efficient word-level coreference resolution and expensive SOTA approaches by 34.6%. Our Conjunction-Aware Word-level coreference model (CAW-coref) and code is available at https://github.com/KarelDO/wl-coref.
翻訳日:2023-10-20 18:48:24 公開日:2023-10-19
# 文脈手がかりと役割関連による文書レベルのイベント引数抽出の強化

Enhancing Document-level Event Argument Extraction with Contextual Clues and Role Relevance ( http://arxiv.org/abs/2310.05991v2 )

ライセンス: Link先を確認
Wanlong Liu, Shaohuan Cheng, Dingyi Zeng, Hong Qu(参考訳) 文書レベルのイベント引数抽出は、文レベルの文よりも長い入力とクロスセンテンス推論の新たな課題を提起する。 しかしながら、ほとんどの先行研究は、各イベントにおける候補引数とイベントトリガーの関係を把握し、2つの重要なポイントを無視している。 a) 暗黙の文脈的手がかり情報 b) 議論の役割の関連性 本稿では,span-trigger-based context pooling and latent role guidance(span-trigger-based context pooling)モデルを提案する。 STCP(Span-Trigger-based Contextual Pooling)は、事前訓練されたモデルから特定の引数-トリガーペアのコンテキストアテンション重みに基づいて、非議論的手がかり語の情報を適応的に選択・集約する。 Role-based Latent Information Guidance (RLIG)モジュールは、潜在ロール表現を構築し、ロール間エンコーディングを通じて相互作用させ、意味的関連性をキャプチャし、それらを候補引数にマージする。 STCPとRLIGはいずれもベースモデルと比較して1%以上の新しいパラメータを導入せず、コンパクトで移植可能な他のイベント抽出モデルにも容易に適用できる。 2つの公開データセットの実験により、SCPRGは、それぞれRAMSとWikiEventsの1.13 F1と2.64 F1の改善により、従来の最先端メソッドよりも優れていたことが示されている。 さらなる分析は、我々のモデルの解釈可能性を示す。

Document-level event argument extraction poses new challenges of long input and cross-sentence inference compared to its sentence-level counterpart. However, most prior works focus on capturing the relations between candidate arguments and the event trigger in each event, ignoring two crucial points: a) non-argument contextual clue information; b) the relevance among argument roles. In this paper, we propose a SCPRG (Span-trigger-based Contextual Pooling and latent Role Guidance) model, which contains two novel and effective modules for the above problem. The Span-Trigger-based Contextual Pooling(STCP) adaptively selects and aggregates the information of non-argument clue words based on the context attention weights of specific argument-trigger pairs from pre-trained model. The Role-based Latent Information Guidance (RLIG) module constructs latent role representations, makes them interact through role-interactive encoding to capture semantic relevance, and merges them into candidate arguments. Both STCP and RLIG introduce no more than 1% new parameters compared with the base model and can be easily applied to other event extraction models, which are compact and transplantable. Experiments on two public datasets show that our SCPRG outperforms previous state-of-the-art methods, with 1.13 F1 and 2.64 F1 improvements on RAMS and WikiEvents respectively. Further analyses illustrate the interpretability of our model.
翻訳日:2023-10-20 18:48:07 公開日:2023-10-19
# ゆるい唇シンク船:人間フィードバックからの強化学習における長さバイアスの軽減

Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2310.05199v3 )

ライセンス: Link先を確認
Wei Shen, Rui Zheng, Wenyu Zhan, Jun Zhao, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 人間のフィードバックからの強化学習は重要な橋渡しとなり、大きな言語モデルと人間と社会の価値観を結びつける。 このアライメントには、報酬モデルを学ぶために膨大な人間のフィードバックが必要であり、その後言語モデルの微調整に使用される。 しかし、報酬モデルが意図した目的を回避できるショートカットを見つけることがしばしばあり、人間がより長い反応を好むと誤解を招く。 長さバイアスの出現は、しばしばより長い出力を好むようモデルに誘導するが、これらの出力内で有用な情報の増加には相当しない。 本稿では,報酬モデルとシーケンス長の影響を分離するためにProduct-of-Experts(PoE)技術を適用した革新的なソリューションを提案する。 我々のフレームワークでは、主要な専門家は人間の意図を理解することに集中し、偏りのある専門家は長さバイアスの識別と捕捉を目標としています。 偏見の学習をさらに促進するために,偏見に着目した専門家に摂動を導入し,意味情報の流路を乱す。 提案手法の有効性を実験的に検証し,シーケンス長に関わらず,言語モデルの性能が向上したことを示す。

Reinforcement learning from human feedback serves as a crucial bridge, aligning large language models with human and societal values. This alignment requires a vast corpus of human feedback to learn a reward model, which is subsequently used to finetune language models. However, we have identified that the reward model often finds shortcuts to bypass its intended objectives, misleadingly assuming that humans prefer longer responses. The emergence of length bias often induces the model to favor longer outputs, yet it doesn't equate to an increase in helpful information within these outputs. In this paper, we propose an innovative solution, applying the Product-of-Experts (PoE) technique to separate reward modeling from the influence of sequence length. In our framework, the main expert concentrates on understanding human intents, while the biased expert targets the identification and capture of length bias. To further enhance the learning of bias, we introduce perturbations into the bias-focused expert, disrupting the flow of semantic information. Experimental results validate the effectiveness of our approach, indicating that language model performance is improved, irrespective of sequence length.
翻訳日:2023-10-20 18:47:40 公開日:2023-10-19
# 確率的有限状態オートマトンとしてのリカレントニューラルネットワークモデル

Recurrent Neural Language Models as Probabilistic Finite-state Automata ( http://arxiv.org/abs/2310.05161v2 )

ライセンス: Link先を確認
Anej Svete, Ryan Cotterell(参考訳) 言語モデル(lms)を十分に理解された形式主義の観点から研究することで、その能力と限界を正確に特徴づけることができる。 前回の研究では、非重み付き形式言語を認識する能力の観点から、recurrent neural network (rnn) lmsの表現能力を調査した。 しかし、LMは非重みのない形式言語を記述せず、むしろ文字列上の確率分布を定義する。 本研究では,RNN LMが表現できる確率分布のクラスについて検討する。 単純RNNは確率的有限状態オートマトンの部分クラスと等価であり、したがって有限状態モデルで表現可能な確率分布の厳密な部分集合をモデル化できることを示す。 さらに, 有限状態LMをRNNで表現する空間複雑性について検討した。 任意の決定論的有限状態LMをアルファベット$\Sigma$上の$N$状態で表現するために、RNNは$\Omega\left(N |\Sigma|\right)$ニューロンを必要とする。 これらの結果は、RNN LMが表現できる分布のクラスを特徴付けるための第一歩を示し、その能力と限界を理解するのに役立ちます。

Studying language models (LMs) in terms of well-understood formalisms allows us to precisely characterize their abilities and limitations. Previous work has investigated the representational capacity of recurrent neural network (RNN) LMs in terms of their capacity to recognize unweighted formal languages. However, LMs do not describe unweighted formal languages -- rather, they define probability distributions over strings. In this work, we study what classes of such probability distributions RNN LMs can represent, which allows us to make more direct statements about their capabilities. We show that simple RNNs are equivalent to a subclass of probabilistic finite-state automata, and can thus model a strict subset of probability distributions expressible by finite-state models. Furthermore, we study the space complexity of representing finite-state LMs with RNNs. We show that, to represent an arbitrary deterministic finite-state LM with $N$ states over an alphabet $\Sigma$, an RNN requires $\Omega\left(N |\Sigma|\right)$ neurons. These results present a first step towards characterizing the classes of distributions RNN LMs can represent and thus help us understand their capabilities and limitations.
翻訳日:2023-10-20 18:47:18 公開日:2023-10-19
# 蛋白質3dグラフ構造学習によるロバスト構造に基づくタンパク質特性予測

Protein 3D Graph Structure Learning for Robust Structure-based Protein Property Prediction ( http://arxiv.org/abs/2310.11466v2 )

ライセンス: Link先を確認
Yufei Huang, Siyuan Li, Jin Su, Lirong Wu, Odin Zhang, Haitao Lin, Jingqi Qi, Zihan Liu, Zhangyang Gao, Yuyang Liu, Jiangbin Zheng, Stan.ZQ.Li(参考訳) タンパク質構造に基づく特性予測は、タンパク質の機能予測や細胞内位置推定など、様々な生物学的タスクに有望なアプローチとして現れてきた。 既存の手法は実験的なタンパク質構造データに強く依存しており、これらのデータが利用できないシナリオでは失敗する。 AIツール(例えばAlphaFold2)からの予測されたタンパク質構造を代替として利用した。 しかし,現在の手法では予測精度が著しく低下する傾向がみられ,予測精度が低下する傾向がみられた。 同様の現象は一般の分野(コンピュータビジョンなど)でモデルロバスト性として広く研究されているが、タンパク質の性質予測への影響は未解明である。 本稿では,まず,予測構造を利用した場合の性能低下の原因を,構造表現学習の観点からバイアスを埋め込む構造に関連づけて検討する。 そこで本研究では,ロバストなタンパク質特性予測(pgsl-rp3)のためのタンパク質3dグラフ構造学習問題を特定し,ベンチマークデータセットを収集し,タンパク質構造埋め込みアライメント最適化フレームワーク(sao)を提案する。 大規模実験により,本フレームワークはモデルに依存しず,予測構造と実験構造の両方の特性予測の改善に有効であることが確認された。 ベンチマークデータセットとコードはコミュニティのためにリリースされる予定だ。

Protein structure-based property prediction has emerged as a promising approach for various biological tasks, such as protein function prediction and sub-cellular location estimation. The existing methods highly rely on experimental protein structure data and fail in scenarios where these data are unavailable. Predicted protein structures from AI tools (e.g., AlphaFold2) were utilized as alternatives. However, we observed that current practices, which simply employ accurately predicted structures during inference, suffer from notable degradation in prediction accuracy. While similar phenomena have been extensively studied in general fields (e.g., Computer Vision) as model robustness, their impact on protein property prediction remains unexplored. In this paper, we first investigate the reason behind the performance decrease when utilizing predicted structures, attributing it to the structure embedding bias from the perspective of structure representation learning. To study this problem, we identify a Protein 3D Graph Structure Learning Problem for Robust Protein Property Prediction (PGSL-RP3), collect benchmark datasets, and present a protein Structure embedding Alignment Optimization framework (SAO) to mitigate the problem of structure embedding bias between the predicted and experimental protein structures. Extensive experiments have shown that our framework is model-agnostic and effective in improving the property prediction of both predicted structures and experimental structures. The benchmark datasets and codes will be released to benefit the community.
翻訳日:2023-10-20 18:39:27 公開日:2023-10-19
# explore-instruct: 能動的探索によるドメイン固有の命令カバレッジの向上

Explore-Instruct: Enhancing Domain-Specific Instruction Coverage through Active Exploration ( http://arxiv.org/abs/2310.09168v2 )

ライセンス: Link先を確認
Fanqi Wan, Xinting Huang, Tao Yang, Xiaojun Quan, Wei Bi, Shuming Shi(参考訳) インストラクションチューニングは、拡張された多様性によって大幅に最適化され、より広い範囲のタスクを扱うことができるモデルとなる。 しかし、そのようなチューニングに使用される既存のデータは、個々のドメインの不十分なカバレッジを示すことが多く、これらの領域内のニュアンスな理解と相互作用の範囲を制限する。 そこで本研究では,Large Language Models (LLMs) による積極的な探索を通じて,ドメイン固有の命令チューニングに使用されるデータカバレッジを向上させる手法であるExplore-Instructを提案する。 Explore-Instructは、汎用的なドメインユースケースに基づいて、多種多様なドメイン中心の命令チューニングデータを得るための探索アルゴリズムを実装することで、さまざまなバリエーションや可能性を探究する。 データ中心分析は、ドメイン固有の命令カバレッジを改善するために提案手法の有効性を検証する。 さらに,本モデルの性能は,ドメイン固有のデータ拡張など,複数のベースラインにまたがる大幅な向上を示す。 本研究は,特にドメイン固有の文脈において,命令カバレッジを改善するための有望な機会を提供し,適応可能な言語モデルの開発を促進する。 私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/Explore-Instruct}で公開されています。

Instruction-tuning can be substantially optimized through enhanced diversity, resulting in models capable of handling a broader spectrum of tasks. However, existing data employed for such tuning often exhibit an inadequate coverage of individual domains, limiting the scope for nuanced comprehension and interactions within these areas. To address this deficiency, we propose Explore-Instruct, a novel approach to enhance the data coverage to be used in domain-specific instruction-tuning through active exploration via Large Language Models (LLMs). Built upon representative domain use cases, Explore-Instruct explores a multitude of variations or possibilities by implementing a search algorithm to obtain diversified and domain-focused instruction-tuning data. Our data-centric analysis validates the effectiveness of this proposed approach in improving domain-specific instruction coverage. Moreover, our model's performance demonstrates considerable advancements over multiple baselines, including those utilizing domain-specific data enhancement. Our findings offer a promising opportunity to improve instruction coverage, especially in domain-specific contexts, thereby advancing the development of adaptable language models. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/Explore-Instruct}.
翻訳日:2023-10-20 18:37:58 公開日:2023-10-19
# 高品質物体検出のためのランクDETR

Rank-DETR for High Quality Object Detection ( http://arxiv.org/abs/2310.08854v2 )

ライセンス: Link先を確認
Yifan Pu, Weicong Liang, Yiduo Hao, Yuhui Yuan, Yukang Yang, Chao Zhang, Han Hu, Gao Huang(参考訳) 現代の検出トランスフォーマー(detrs)は、オブジェクトクエリのセットを使用して、境界ボックスのリストを予測し、分類信頼度スコアでソートし、与えられた入力画像の最終的な検出結果としてトップランクの予測を選択する。 高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。 DETRベースの検出器では、分類スコアとローカライズ精度の相違により、トップランクのバウンディングボックスは精度の低いローカライズ品質に悩まされ、高品質な検出器の構築を妨げる。 そこで本研究では, ランク指向設計の一連の提案により, 単純かつ高性能なdetrに基づく物体検出手法を提案する。 私たちの重要な貢献は (i)ポジティブな予測を促し、ネガティブな予測を抑圧し、偽陽性率を下げることのできるランク指向アーキテクチャ設計 (ii)高いiou閾値下でapを増加させるために、ランキング中により正確な位置推定精度の予測を優先するランク指向損失関数とマッチングコスト設計。 本稿では,最近のSOTA法(H-DETRとDINO-DETR)の改善に本手法を適用し,ResNet-$50$,Swin-T,Swin-Lなどの異なるバックボーンを用いたCOCOオブジェクト検出結果について報告する。 コードは \url{https://github.com/LeapLabTHU/Rank-DETR} で公開されている。

Modern detection transformers (DETRs) use a set of object queries to predict a list of bounding boxes, sort them by their classification confidence scores, and select the top-ranked predictions as the final detection results for the given input image. A highly performant object detector requires accurate ranking for the bounding box predictions. For DETR-based detectors, the top-ranked bounding boxes suffer from less accurate localization quality due to the misalignment between classification scores and localization accuracy, thus impeding the construction of high-quality detectors. In this work, we introduce a simple and highly performant DETR-based object detector by proposing a series of rank-oriented designs, combinedly called Rank-DETR. Our key contributions include: (i) a rank-oriented architecture design that can prompt positive predictions and suppress the negative ones to ensure lower false positive rates, as well as (ii) a rank-oriented loss function and matching cost design that prioritizes predictions of more accurate localization accuracy during ranking to boost the AP under high IoU thresholds. We apply our method to improve the recent SOTA methods (e.g., H-DETR and DINO-DETR) and report strong COCO object detection results when using different backbones such as ResNet-$50$, Swin-T, and Swin-L, demonstrating the effectiveness of our approach. Code is available at \url{https://github.com/LeapLabTHU/Rank-DETR}.
翻訳日:2023-10-20 18:37:18 公開日:2023-10-19
# 知識ベース質問生成のための連鎖型大規模言語モデルの提案

Prompting Large Language Models with Chain-of-Thought for Few-Shot Knowledge Base Question Generation ( http://arxiv.org/abs/2310.08395v2 )

ライセンス: Link先を確認
Yuanyuan Liang, Jianing Wang, Hanlun Zhu, Lei Wang, Weining Qian, Yunshi Lan(参考訳) 知識ベースに関する質問生成タスク(KBQG)は、論理形式を自然言語質問に変換することを目的としている。 大規模質問注記の費用がかかるため、低リソースシナリオにおけるkbqgの手法を緊急に開発する必要がある。 しかし、現在の手法は微調整のための注釈データに大きく依存しており、わずかな質問生成には適していない。 大規模言語モデル(llm)の出現は、わずかなタスクでその印象的な一般化能力を示している。 推論のための文脈内学習戦略であるChain-of-Thought(CoT)にインスパイアされ、KBQGタスクを推論問題として定式化し、完全な質問の生成を一連のサブクエスト生成に分割する。 提案手法であるkqg-cotは,まず,論理形式の特徴を考慮したラベルなしデータプールから支援論理形式を検索する。 次に,選択した実演に基づいて複雑な質問を生成する推論連鎖を明示するプロンプトを記述する。 さらに迅速な品質を確保するため、KQG-CoTをKQG-CoT+に拡張する。 3つのKBQGデータセットに対して広範な実験を行う。 その結果,提案手法は評価されたデータセット上での他のプロンプトベースラインよりも一貫して優れていた。 注目すべきことに、我々のKQG-CoT+法は、それぞれBLEU-4、METEOR、ROUGE-L上の18.25、10.72、および10.18の絶対点の既存の数発のSoTA結果を上回る可能性がある。

The task of Question Generation over Knowledge Bases (KBQG) aims to convert a logical form into a natural language question. For the sake of expensive cost of large-scale question annotation, the methods of KBQG under low-resource scenarios urgently need to be developed. However, current methods heavily rely on annotated data for fine-tuning, which is not well-suited for few-shot question generation. The emergence of Large Language Models (LLMs) has shown their impressive generalization ability in few-shot tasks. Inspired by Chain-of-Thought (CoT) prompting, which is an in-context learning strategy for reasoning, we formulate KBQG task as a reasoning problem, where the generation of a complete question is splitted into a series of sub-question generation. Our proposed prompting method KQG-CoT first retrieves supportive logical forms from the unlabeled data pool taking account of the characteristics of the logical form. Then, we write a prompt to explicit the reasoning chain of generating complicated questions based on the selected demonstrations. To further ensure prompt quality, we extend KQG-CoT into KQG-CoT+ via sorting the logical forms by their complexity. We conduct extensive experiments over three public KBQG datasets. The results demonstrate that our prompting method consistently outperforms other prompting baselines on the evaluated datasets. Remarkably, our KQG-CoT+ method could surpass existing few-shot SoTA results of the PathQuestions dataset by 18.25, 10.72, and 10.18 absolute points on BLEU-4, METEOR, and ROUGE-L, respectively.
翻訳日:2023-10-20 18:36:51 公開日:2023-10-19
# 共変量シフト下におけるカーネル手法の統一解析に向けて

Towards a Unified Analysis of Kernel-based Methods Under Covariate Shift ( http://arxiv.org/abs/2310.08237v2 )

ライセンス: Link先を確認
Xingdong Feng, Xin He, Caixing Wang, Chao Wang, Jingnan Zhang(参考訳) 共変量シフト(covariate shift)は、ソースとターゲットデータの入力分布が実質的に異なる、実際には一般的に発生する。 様々な学習問題において実践的な重要性があるにもかかわらず、既存の手法の多くは特定の学習課題にのみ焦点をあてており、理論的にも数値的にも十分に検証されていない。 そこで本研究では,共変量シフト下での再生核ヒルベルト空間(rkhs)における一般非パラメトリック法の統一的解析を提案する。 提案手法は, 平均回帰, 量子回帰, 確率ベース分類, マージンベース分類などの特殊事例としてよく用いられる手法を含む, リッチ損失関数ファミリーに属する一般損失について理論的に検討した。 2種類の共変量シフト問題は本論文の焦点であり、一般損失関数に対して鋭い収束率を確立し、二乗損失を使用する文献において最適結果と一致する統一的理論解析を提供する。 合成および実例に関する広範囲な数値的研究により,本手法の有効性が検証された。

Covariate shift occurs prevalently in practice, where the input distributions of the source and target data are substantially different. Despite its practical importance in various learning problems, most of the existing methods only focus on some specific learning tasks and are not well validated theoretically and numerically. To tackle this problem, we propose a unified analysis of general nonparametric methods in a reproducing kernel Hilbert space (RKHS) under covariate shift. Our theoretical results are established for a general loss belonging to a rich loss function family, which includes many commonly used methods as special cases, such as mean regression, quantile regression, likelihood-based classification, and margin-based classification. Two types of covariate shift problems are the focus of this paper and the sharp convergence rates are established for a general loss function to provide a unified theoretical analysis, which concurs with the optimal results in literature where the squared loss is used. Extensive numerical studies on synthetic and real examples confirm our theoretical findings and further illustrate the effectiveness of our proposed method.
翻訳日:2023-10-20 18:36:19 公開日:2023-10-19
# 気候NLP:自然言語処理による気候変動に対する市民意識の分析

ClimateNLP: Analyzing Public Sentiment Towards Climate Change Using Natural Language Processing ( http://arxiv.org/abs/2310.08099v2 )

ライセンス: Link先を確認
Ajay Krishnan, V. S. Anoop(参考訳) 気候変動による人間の健康への影響は、前例がなく多様な課題を引き起こす。 確固とした証拠に基づく積極的措置が実施されない限り、これらの脅威はエスカレートし、人間の幸福を脅かし続けます。 情報通信技術の急速な進歩により、ソーシャルメディアプラットフォームの普及と利用が促進された。 個人は、TwitterやFacebookなどのプラットフォームを使用して、さまざまなテーマに対する意見、考え、批判を表現し、気候変動の急激な問題を含んでいる。 ソーシャルメディア上での気候変動関連コンテンツの拡散は、意味のある洞察を得るために包括的な分析を必要とする。 本稿では、自然言語処理(NLP)技術を用いて、気候変動に関する話題を分析し、気候変動に関連するツイートの感情を定量化する。 気候変動領域に特化した訓練済みモデルであるCurrentBERTを使用します。 その目的は、気候変動に関する世論のパターンを個人が表現し、明らかにすることにある。 ツイートの感情を分析することで、この批判的な世界的課題に対する大衆の認識、懸念、感情をより深く理解することができる。 この実験から得られた知見は、公衆の感情や気候変動に関するエンティティに関する貴重な洞察を発掘する。 政策立案者、研究者、組織は、こうした分析を利用して公衆の認識を理解し、影響力のあるアクターを特定し、気候変動問題に対処するための情報戦略を考案することができる。

Climate change's impact on human health poses unprecedented and diverse challenges. Unless proactive measures based on solid evidence are implemented, these threats will likely escalate and continue to endanger human well-being. The escalating advancements in information and communication technologies have facilitated the widespread availability and utilization of social media platforms. Individuals utilize platforms such as Twitter and Facebook to express their opinions, thoughts, and critiques on diverse subjects, encompassing the pressing issue of climate change. The proliferation of climate change-related content on social media necessitates comprehensive analysis to glean meaningful insights. This paper employs natural language processing (NLP) techniques to analyze climate change discourse and quantify the sentiment of climate change-related tweets. We use ClimateBERT, a pretrained model fine-tuned specifically for the climate change domain. The objective is to discern the sentiment individuals express and uncover patterns in public opinion concerning climate change. Analyzing tweet sentiments allows a deeper comprehension of public perceptions, concerns, and emotions about this critical global challenge. The findings from this experiment unearth valuable insights into public sentiment and the entities associated with climate change discourse. Policymakers, researchers, and organizations can leverage such analyses to understand public perceptions, identify influential actors, and devise informed strategies to address climate change challenges.
翻訳日:2023-10-20 18:35:59 公開日:2023-10-19
# コスト駆動ハードウェアソフトウェアによる機械学習パイプラインの最適化

Cost-Driven Hardware-Software Co-Optimization of Machine Learning Pipelines ( http://arxiv.org/abs/2310.07940v2 )

ライセンス: Link先を確認
Ravit Sharma, Wojciech Romaszkan, Feiqian Zhu, Puneet Gupta, Ankur Mehta(参考訳) 研究者たちは長年、スマートセンサーや家、都市など、モノのインターネットの普及によって実現される未来のビジョンを説いてきた。 このようなデバイスにインテリジェンスを埋め込むと、ディープニューラルネットワークが使われるようになる。 しかし、彼らのストレージと処理の要件は、安価な市販のプラットフォームでは禁じられている。 これらの要件を克服するには、広く適用可能なスマートデバイスを実現する必要がある。 モデルをより小さく、より効率的にする方法が数多く開発されているが、特定のシナリオに最も適したモデルがどれであるかを理解していない。 さらに重要なことは、エッジプラットフォームでは、コストとユーザエクスペリエンスから分離してこれらの選択を分析できないことです。 本研究では,メモリ,センサ,プロセッサなどのシステムコンポーネントと量子化,モデルスケーリング,マルチモダリティがどのように相互作用するかを概観する。 我々は、コスト、レイテンシ、ユーザエクスペリエンスの観点から、このハードウェア/ソフトウェア共同設計を行い、最もコストがかかるプラットフォームで最適なシステム設計とモデル展開のためのガイドラインを策定する。 我々は20ドルのesp-eyeボードを用いたエンド・ツー・エンドの生体認証システムを用いて,このアプローチを実証する。

Researchers have long touted a vision of the future enabled by a proliferation of internet-of-things devices, including smart sensors, homes, and cities. Increasingly, embedding intelligence in such devices involves the use of deep neural networks. However, their storage and processing requirements make them prohibitive for cheap, off-the-shelf platforms. Overcoming those requirements is necessary for enabling widely-applicable smart devices. While many ways of making models smaller and more efficient have been developed, there is a lack of understanding of which ones are best suited for particular scenarios. More importantly for edge platforms, those choices cannot be analyzed in isolation from cost and user experience. In this work, we holistically explore how quantization, model scaling, and multi-modality interact with system components such as memory, sensors, and processors. We perform this hardware/software co-design from the cost, latency, and user-experience perspective, and develop a set of guidelines for optimal system design and model deployment for the most cost-constrained platforms. We demonstrate our approach using an end-to-end, on-device, biometric user authentication system using a $20 ESP-EYE board.
翻訳日:2023-10-20 18:35:39 公開日:2023-10-19
# Fed-GraB: 自己調整型グラディエントバランサによる長期学習

Fed-GraB: Federated Long-tailed Learning with Self-Adjusting Gradient Balancer ( http://arxiv.org/abs/2310.07587v2 )

ライセンス: Link先を確認
Zikai Xiao, Zihan Chen, Songshang Liu, Hualiang Wang, Yang Feng, Jin Hao, Joey Tianyi Zhou, Jian Wu, Howard Hao Yang, Zuozhu Liu(参考訳) データプライバシと長期分布は、多くの現実世界のタスクで例外ではなく、標準である。 本稿では,各クライアントがローカルに異種データセットを持つフェデレーション・ロングテール・ラーニング(federated long-tailed learning, fed-lt)タスクについて検討する。 このような条件下では、既存のフェデレーション最適化と/または集中型ロングテール学習法はほとんど適用されない。 (a)世界的長期分布をプライバシー制約下で特徴付けること (b)頭部の不均衡に対処するために局所学習戦略を調整すること。 そこで本研究では,DPA(Direct Prior Analyzer)モジュールによって評価された大域的長期分布のフィードバックに基づいて,クライアントの勾配を閉ループで再重み付けする自己調整型グラディエント・バランサ(SGB)モジュールからなる,$\texttt{Fed-GraB}$という手法を提案する。 クライアントは$\texttt{Fed-GraB}$を使用することで、モデルトレーニングプロセス中にデータの不均一性によって引き起こされる分散ドリフトを効果的に軽減し、多数派クラスのパフォーマンスを維持しながら、少数派クラスのパフォーマンスを向上したグローバルモデルを得ることができる。 大規模な実験では、CIFAR-10-LT、CIFAR-100-LT、ImageNet-LT、iNaturalistなどの代表的なデータセットに対して、$\texttt{Fed-GraB}$が最先端のパフォーマンスを達成することが示されている。

Data privacy and long-tailed distribution are the norms rather than the exception in many real-world tasks. This paper investigates a federated long-tailed learning (Fed-LT) task in which each client holds a locally heterogeneous dataset; if the datasets can be globally aggregated, they jointly exhibit a long-tailed distribution. Under such a setting, existing federated optimization and/or centralized long-tailed learning methods hardly apply due to challenges in (a) characterizing the global long-tailed distribution under privacy constraints and (b) adjusting the local learning strategy to cope with the head-tail imbalance. In response, we propose a method termed $\texttt{Fed-GraB}$, comprised of a Self-adjusting Gradient Balancer (SGB) module that re-weights clients' gradients in a closed-loop manner, based on the feedback of global long-tailed distribution evaluated by a Direct Prior Analyzer (DPA) module. Using $\texttt{Fed-GraB}$, clients can effectively alleviate the distribution drift caused by data heterogeneity during the model training process and obtain a global model with better performance on the minority classes while maintaining the performance of the majority classes. Extensive experiments demonstrate that $\texttt{Fed-GraB}$ achieves state-of-the-art performance on representative datasets such as CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, and iNaturalist.
翻訳日:2023-10-20 18:35:22 公開日:2023-10-19
# MIMOビーム選択問題に対する量子計算:モデルと実験的解

Quantum Computing for MIMO Beam Selection Problem: Model and Optical Experimental Solution ( http://arxiv.org/abs/2310.12389v1 )

ライセンス: Link先を確認
Yuhong Huang, Wenxin Li, Chengkang Pan, Shuai Hou, Xian Lu, Chunfeng Cui, Jingwei Wen, Jiaqi Xu, Chongyu Cao, Yin Ma, Hai Wei, Kai Wen(参考訳) mimo(massive multi-input multiple-output)は、データレートの向上、信号品質の向上、挑戦的な環境でのカバレッジ向上などにより、近年広く普及している。 本稿では,NPハードで計算処理に難渋するMIMOビーム選択(MBS)問題について検討する。 この問題に対処するために、大規模組合せ最適化のためのより高速で効率的な解を提供する量子コンピューティングを考える。 MBSは二次的非有界バイナリ最適化形式で定式化され、コヒーレントイジングマシン(CIM)物理マシンで解決される。 本ソリューションの性能を,シミュレート・アニーリングとタブサーチの2つの古典的なヒューリスティックと比較した。 その結果, ビームの最適部分集合の選択において, CIMをベースとした解は, それぞれ261.23と20.6の係数で平均的な性能向上を示した。 本研究は,実用的5g操作への大きな期待を示し,通信における計算困難問題を解決するための量子コンピューティングの応用を促進する。

Massive multiple-input multiple-output (MIMO) has gained widespread popularity in recent years due to its ability to increase data rates, improve signal quality, and provide better coverage in challenging environments. In this paper, we investigate the MIMO beam selection (MBS) problem, which is proven to be NP-hard and computationally intractable. To deal with this problem, quantum computing that can provide faster and more efficient solutions to large-scale combinatorial optimization is considered. MBS is formulated in a quadratic unbounded binary optimization form and solved with Coherent Ising Machine (CIM) physical machine. We compare the performance of our solution with two classic heuristics, simulated annealing and Tabu search. The results demonstrate an average performance improvement by a factor of 261.23 and 20.6, respectively, which shows that CIM-based solution performs significantly better in terms of selecting the optimal subset of beams. This work shows great promise for practical 5G operation and promotes the application of quantum computing in solving computationally hard problems in communication.
翻訳日:2023-10-20 17:37:14 公開日:2023-10-19
# 勾配特徴学習によるニューラルネットワークの証明可能保証

Provable Guarantees for Neural Networks via Gradient Feature Learning ( http://arxiv.org/abs/2310.12408v1 )

ライセンス: Link先を確認
Zhenmei Shi, Junyi Wei, Yingyu Liang(参考訳) ニューラルネットワークは目覚ましい経験的性能を達成したが、現在の理論的分析は彼らの成功を理解するには不十分である。 本研究では,勾配降下法により学習した2層ネットワークの統一解析フレームワークを提案する。 このフレームワークは勾配からの特徴学習の原理を中心にしており、ガウスとパリティ関数の混合のようないくつかの原型問題に適用することでその効果が証明されている。 このフレームワークはまた、カーネルを越えた機能学習や宝くじの仮説といった興味深いネットワーク学習現象にも光を当てている。

Neural networks have achieved remarkable empirical performance, while the current theoretical analysis is not adequate for understanding their success, e.g., the Neural Tangent Kernel approach fails to capture their key feature learning ability, while recent analyses on feature learning are typically problem-specific. This work proposes a unified analysis framework for two-layer networks trained by gradient descent. The framework is centered around the principle of feature learning from gradients, and its effectiveness is demonstrated by applications in several prototypical problems, such as mixtures of Gaussians and parity functions. The framework also sheds light on interesting network learning phenomena such as feature learning beyond kernels and the lottery ticket hypothesis.
翻訳日:2023-10-20 17:28:51 公開日:2023-10-19
# ニューラルネットワークを用いた分類支援ロバスト多目的追跡

Classification-Aided Robust Multiple Target Tracking Using Neural Enhanced Message Passing ( http://arxiv.org/abs/2310.12407v1 )

ライセンス: Link先を確認
Xianglong Bai and Zengfu Wang and Quan Pan and Tao Yun and Hua Lan(参考訳) 本稿では,レーダーセンサによる計測を用いて,強い乱雑な環境下で未知のターゲットを追跡するという課題に対処する。 距離・ドップラースペクトル情報を活用することで, クラッタ拒否とデータ関連付けを強化するための追加情報として用いられる計測クラスを特定し, 目標追跡の堅牢性を高める。 まず,統一されたメッセージパッシングによって得られた信念をニューラルネットワークに付加情報として供給する,ニューラルエンハンスドメッセージパッシング手法を提案する。 出力信念は、元の信念を洗練するために使われる。 そこで我々は,ニューラル拡張メッセージパッシング技術を用いて,分類支援型頑健なマルチターゲット追跡アルゴリズムを提案する。 このアルゴリズムは、メッセージパスモジュール、ニューラルネットワークモジュール、およびデンプスターシェーファーモジュールの3つのモジュールで構成されている。 メッセージパッシングモジュールは、因子グラフによって統計モデルを表現するために使用され、その空間測定情報に基づいて、対象の運動状態、可視状態、およびデータ関連を推定する。 ニューラルネットワークモジュールは、レンジドップラースペクトルから特徴を抽出し、測定がターゲット生成かクラッタ生成かの信条を導出する。 Dempster-Shaferモジュールは、因子グラフとニューラルネットワークの両方から得られた信念を融合するために使用される。 その結果,提案アルゴリズムはモデル・アンド・データ駆動型フレームワークを採用し,クラッタ抑制とデータアソシエーションを効果的に向上させ,複数の目標追跡性能を大幅に向上させた。 本手法の有効性をシミュレーションと実データの両方を用いて検証し,実用的なレーダアプリケーションにおける課題追跡シナリオの処理能力を示す。

We address the challenge of tracking an unknown number of targets in strong clutter environments using measurements from a radar sensor. Leveraging the range-Doppler spectra information, we identify the measurement classes, which serve as additional information to enhance clutter rejection and data association, thus bolstering the robustness of target tracking. We first introduce a novel neural enhanced message passing approach, where the beliefs obtained by the unified message passing are fed into the neural network as additional information. The output beliefs are then utilized to refine the original beliefs. Then, we propose a classification-aided robust multiple target tracking algorithm, employing the neural enhanced message passing technique. This algorithm is comprised of three modules: a message-passing module, a neural network module, and a Dempster-Shafer module. The message-passing module is used to represent the statistical model by the factor graph and infers target kinematic states, visibility states, and data associations based on the spatial measurement information. The neural network module is employed to extract features from range-Doppler spectra and derive beliefs on whether a measurement is target-generated or clutter-generated. The Dempster-Shafer module is used to fuse the beliefs obtained from both the factor graph and the neural network. As a result, our proposed algorithm adopts a model-and-data-driven framework, effectively enhancing clutter suppression and data association, leading to significant improvements in multiple target tracking performance. We validate the effectiveness of our approach using both simulated and real data scenarios, demonstrating its capability to handle challenging tracking scenarios in practical radar applications.
翻訳日:2023-10-20 17:28:40 公開日:2023-10-19
# finentity:金融テキストのエンティティレベルの感情分類

FinEntity: Entity-level Sentiment Classification for Financial Texts ( http://arxiv.org/abs/2310.12406v1 )

ライセンス: Link先を確認
Yixuan Tang, Yi Yang, Allen H Huang, Andy Tam, Justin Z Tang(参考訳) 金融分野では、特定の金融機関に対する感情を正確に評価するには、エンティティレベルの感情分析が不可欠である。 我々の知る限り、この目的のために現在公開されているデータセットは存在しない。 本研究は,金融ニュースにおいて,金融エンティティと,その感情(肯定的,中立的,否定的)をアノテートするエンティティレベルの感情分類データセットである「textbf{FinEntity}」を紹介する。 論文にデータセット構築プロセスを文書化する。 さらに、エンティティレベルの感情分類において、事前訓練されたモデル(BERT、FinBERTなど)とChatGPTをベンチマークする。 そこで本研究では,暗号通貨市場監視におけるフィンエンティティの利用の実際的有用性を示す。 FinEntityのデータとコードは、 \url{https://github.com/yixuantt/FinEntity} で入手できる。

In the financial domain, conducting entity-level sentiment analysis is crucial for accurately assessing the sentiment directed toward a specific financial entity. To our knowledge, no publicly available dataset currently exists for this purpose. In this work, we introduce an entity-level sentiment classification dataset, called \textbf{FinEntity}, that annotates financial entity spans and their sentiment (positive, neutral, and negative) in financial news. We document the dataset construction process in the paper. Additionally, we benchmark several pre-trained models (BERT, FinBERT, etc.) and ChatGPT on entity-level sentiment classification. In a case study, we demonstrate the practical utility of using FinEntity in monitoring cryptocurrency markets. The data and code of FinEntity is available at \url{https://github.com/yixuantt/FinEntity}
翻訳日:2023-10-20 17:28:11 公開日:2023-10-19
# LoMAE:低線量CT用低レベル視覚マスク付きオートエンコーダ

LoMAE: Low-level Vision Masked Autoencoders for Low-dose CT Denoising ( http://arxiv.org/abs/2310.12405v1 )

ライセンス: Link先を確認
Dayang Wang, Yongshun Xu, Shuo Han, Zhan Wu, Li Zhou, Bahareh Morovati, Hengyong Yu(参考訳) 低線量CT(LDCT)は、X線被曝を低減させるが、ノイズやアーティファクトの増大を特徴とする画像品質を損なう。 近年,LDCT画像の品質向上のためのトランスフォーマーモデルが提案されている。 しかし、このようなモデルの成功は、多くのノイズとクリーンな画像に依存しており、臨床環境では不十分であることが多い。 コンピュータビジョンや自然言語処理の分野では、マスク付きオートエンコーダ(mae)は、その優れた特徴表現能力のため、トランスフォーマーのラベルフリーな自己学習方法として認識されている。 しかし、当初の事前学習と微調整の設計は、デノイジングのような低レベルのビジョンタスクでは機能しない。 この課題に対応して,従来のエンコーダ・デコーダ学習モデルを再設計し,LDCT復号化問題に対処するために,LoMAEと呼ばれるシンプルな低レベルビジョンMAEを実現する。 さらに,MAE/LoMAEの潜伏学習機構に光を当てるためのMAE-GradCAM法を提案する。 さらに,LoMAEの頑健性と生成性について,様々なノイズレベルにわたって検討する。 実験の結果,提案するlomaeは変圧器の消音性能を向上し,地上真理データへの依存を大幅に緩和できることがわかった。 また、ノイズレベルのスペクトルに対して顕著な堅牢性と一般化性を示す。

Low-dose computed tomography (LDCT) offers reduced X-ray radiation exposure but at the cost of compromised image quality, characterized by increased noise and artifacts. Recently, transformer models emerged as a promising avenue to enhance LDCT image quality. However, the success of such models relies on a large amount of paired noisy and clean images, which are often scarce in clinical settings. In the fields of computer vision and natural language processing, masked autoencoders (MAE) have been recognized as an effective label-free self-pretraining method for transformers, due to their exceptional feature representation ability. However, the original pretraining and fine-tuning design fails to work in low-level vision tasks like denoising. In response to this challenge, we redesign the classical encoder-decoder learning model and facilitate a simple yet effective low-level vision MAE, referred to as LoMAE, tailored to address the LDCT denoising problem. Moreover, we introduce an MAE-GradCAM method to shed light on the latent learning mechanisms of the MAE/LoMAE. Additionally, we explore the LoMAE's robustness and generability across a variety of noise levels. Experiments results show that the proposed LoMAE can enhance the transformer's denoising performance and greatly relieve the dependence on the ground truth clean data. It also demonstrates remarkable robustness and generalizability over a spectrum of noise levels.
翻訳日:2023-10-20 17:27:56 公開日:2023-10-19
# Loop Copilot: 音楽生成と反復編集のためのAIアンサンブルを実行する

Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing ( http://arxiv.org/abs/2310.12404v1 )

ライセンス: Link先を確認
Yixiao Zhang, Akira Maezawa, Gus Xia, Kazuhiko Yamamoto, Simon Dixon(参考訳) 音楽の作成は反復的であり、各段階で様々な方法を必要とする。 しかし、既存のAI音楽システムは、多様なニーズのために複数のサブシステムのオーケストレーションに不足している。 このギャップに対処するために,対話型マルチラウンド対話インタフェースにより,ユーザが楽曲を生成・反復的に洗練することができる新しいシステムであるloop copilotを提案する。 このシステムは大きな言語モデルを使用してユーザの意図を解釈し、タスク実行に適したaiモデルを選択する。 各バックエンドモデルは特定のタスクに特化しており、その出力はユーザの要求を満たすために集約される。 音楽コヒーレンスを確保するため、本質的な属性を集中テーブルに保持する。 半構造化インタビューやアンケートを通じて提案システムの有効性を評価し,音楽制作の促進だけでなく,幅広い応用の可能性も強調した。

Creating music is iterative, requiring varied methods at each stage. However, existing AI music systems fall short in orchestrating multiple subsystems for diverse needs. To address this gap, we introduce Loop Copilot, a novel system that enables users to generate and iteratively refine music through an interactive, multi-round dialogue interface. The system uses a large language model to interpret user intentions and select appropriate AI models for task execution. Each backend model is specialized for a specific task, and their outputs are aggregated to meet the user's requirements. To ensure musical coherence, essential attributes are maintained in a centralized table. We evaluate the effectiveness of the proposed system through semi-structured interviews and questionnaires, highlighting its utility not only in facilitating music creation but also its potential for broader applications.
翻訳日:2023-10-20 17:27:31 公開日:2023-10-19
# グラフニューラルネットワークにおける協調的ミニバッチング

Cooperative Minibatching in Graph Neural Networks ( http://arxiv.org/abs/2310.12403v1 )

ライセンス: Link先を確認
Muhammed Fatih Balin, Dominique LaSalle, \"Umit V. \c{C}ataly\"urek(参考訳) グラフニューラルネットワーク(gnn)を大規模にトレーニングするには、重要な計算リソースが必要であり、そのプロセスは高度にデータ集約的である。 リソース要求を減らす最も効果的な方法の1つは、グラフサンプリングと組み合わせたミニバッチトレーニングである。 gnnには、ミニバッチの項目が重複するデータを持つユニークな特性がある。 しかし、一般的に実装されているIndependent Minibatchingアプローチでは、各処理要素(PE)が独自のミニバッチをプロセスに割り当てる。 これは、スケーリングの主なボトルネックである近傍爆発現象(nep)を増幅する。 複数PE設定におけるNEPの効果を低減するため,協調最小化という新しい手法を提案する。 このアプローチでは,サンプリングされたサブグラフのサイズがバッチサイズの凹関数であるという事実を活かし,バッチサイズの増加に伴って種頂点当たりの作業量を大幅に削減する。 したがって、グローバルバッチサイズが同一であっても、より小さなミニバッチを別々に処理するのではなく、大きなミニバッチを単一のプロセッサとして動作させるための高速インターコネクトを備えたプロセッサが望ましい。 また, 連続したミニバッチを生成することで, 連続実行において同じ現象を利用する方法を示す。 実験により, モデル収束を損なうことなく, この依存性を増大させることにより, 頂点埋め込みの帯域幅を最大4倍に抑えることができた。 提案手法を組み合わせることで,単一ノードマルチGPUシステム上でのIndependent Minibatchよりも最大64%の高速化を実現した。

Significant computational resources are required to train Graph Neural Networks (GNNs) at a large scale, and the process is highly data-intensive. One of the most effective ways to reduce resource requirements is minibatch training coupled with graph sampling. GNNs have the unique property that items in a minibatch have overlapping data. However, the commonly implemented Independent Minibatching approach assigns each Processing Element (PE) its own minibatch to process, leading to duplicated computations and input data access across PEs. This amplifies the Neighborhood Explosion Phenomenon (NEP), which is the main bottleneck limiting scaling. To reduce the effects of NEP in the multi-PE setting, we propose a new approach called Cooperative Minibatching. Our approach capitalizes on the fact that the size of the sampled subgraph is a concave function of the batch size, leading to significant reductions in the amount of work per seed vertex as batch sizes increase. Hence, it is favorable for processors equipped with a fast interconnect to work on a large minibatch together as a single larger processor, instead of working on separate smaller minibatches, even though global batch size is identical. We also show how to take advantage of the same phenomenon in serial execution by generating dependent consecutive minibatches. Our experimental evaluations show up to 4x bandwidth savings for fetching vertex embeddings, by simply increasing this dependency without harming model convergence. Combining our proposed approaches, we achieve up to 64% speedup over Independent Minibatching on single-node multi-GPU systems.
翻訳日:2023-10-20 17:27:18 公開日:2023-10-19
# GPT-4は誤りを知らない: 推論問題に対する反復的プロンプトの解析

GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for Reasoning Problems ( http://arxiv.org/abs/2310.12397v1 )

ライセンス: Link先を確認
Kaya Stechly, Matthew Marquez, Subbarao Kambhampati(参考訳) 大規模言語モデル(llm)の推論能力については、多くの意見が分かれている。 推論がスケールとともに自動的に現れるという最初の楽観主義は、反例の多さによって誘惑されたが、その反復的自己批判能力に対する広く信じられている。 本稿では,命題充足可能性に関連する正準np完全推論問題であるグラフカラー化の文脈におけるllmの反復的プロンプトの有効性とスケジューリングやアロケーションといった実用的な問題について体系的に検討する。 本稿では,グラフ着色事例の解決や候補着色精度の検証において,GPT4の性能に関する実証的研究を行った。 反復モードでは,自答を批判するモデルと,提案する解を検証する外部正解法を実験する。 いずれの場合も、批判の内容がボトムラインのパフォーマンスに実際に影響を及ぼすかどうかを分析する。 その研究はそれを示唆しているようだ i) LLM はグラフカラー化の解決に不適である (二) 解の検証は良くなく、かつ、LCM生成解を基準とした反復モードでは有効ではない。 (iii) 批判の正しさと内容--llms や外部解法によって---は、反復的プロンプトの実行とほとんど無関係である。 本研究は,プロンプトの上位kの完備化(外部検証器による認識)において,正しい解が存在することによる有効性の増大が主な原因であることを示す。 この結果から,LLMの自己評価能力について疑問が持たれている。

There has been considerable divergence of opinion on the reasoning abilities of Large Language Models (LLMs). While the initial optimism that reasoning might emerge automatically with scale has been tempered thanks to a slew of counterexamples, a wide spread belief in their iterative self-critique capabilities persists. In this paper, we set out to systematically investigate the effectiveness of iterative prompting of LLMs in the context of Graph Coloring, a canonical NP-complete reasoning problem that is related to propositional satisfiability as well as practical problems like scheduling and allocation. We present a principled empirical study of the performance of GPT4 in solving graph coloring instances or verifying the correctness of candidate colorings. In iterative modes, we experiment with the model critiquing its own answers and an external correct reasoner verifying proposed solutions. In both cases, we analyze whether the content of the criticisms actually affects bottom line performance. The study seems to indicate that (i) LLMs are bad at solving graph coloring instances (ii) they are no better at verifying a solution--and thus are not effective in iterative modes with LLMs critiquing LLM-generated solutions (iii) the correctness and content of the criticisms--whether by LLMs or external solvers--seems largely irrelevant to the performance of iterative prompting. We show that the observed increase in effectiveness is largely due to the correct solution being fortuitously present in the top-k completions of the prompt (and being recognized as such by an external verifier). Our results thus call into question claims about the self-critiquing capabilities of state of the art LLMs.
翻訳日:2023-10-20 17:26:51 公開日:2023-10-19
# 量子カーネル法による相互情報の推定

Estimation of mutual information via quantum kernel method ( http://arxiv.org/abs/2310.12396v1 )

ライセンス: Link先を確認
Yota Maeda, Hideaki Kawaguchi, Hiroyuki Tezuka(参考訳) 近年,様々な分野において,価値ある洞察を効率的に収集することの重要性が高まっている。 相互情報(MI)の推定は,複数変数間の関係を非線形相関で調査する上で重要な役割を果たす。 特に、それらが独立かどうかを判断するタスクは独立テストと呼ばれ、そのコアサブルーチンは与えられたデータからmiを推定する。 統計学やデータ分析における基本的なツールであり、仮説テストや因果的発見など、幅広い応用に適用することができる。 本稿では,量子カーネルを用いた相互情報推定手法を提案する。 サンプルサイズや確率分布の形状など,様々な問題条件下での性能について検討した。 その結果, 量子カーネル法は, サンプル数が少ない場合, ばらつきが大きい場合, あるいは非線形関係が強い場合において, 従来のものよりも高い性能を示した。 我々は、この振る舞いを中心極限定理と対応する量子再現核ヒルベルト空間の構造の観点から論じる。

Recently, the importance of analysing data and collecting valuable insight efficiently has been increasing in various fields. Estimating mutual information (MI) plays a critical role to investigate the relationship among multiple random variables with a nonlinear correlation. Particularly, the task to determine whether they are independent or not is called the independence test, whose core subroutine is estimating MI from given data. It is a fundamental tool in statistics and data analysis that can be applied in a wide range of application such as hypothesis testing, causal discovery and more. In this paper, we propose a method for estimating mutual information using the quantum kernel. We investigate the performance under various problem settings, such as different sample size or the shape of the probability distribution. As a result, the quantum kernel method showed higher performance than the classical one under the situation that the number of samples is small, the variance is large or the variables posses highly non-linear relationships. We discuss this behavior in terms of the central limit theorem and the structure of the corresponding quantum reproducing kernel Hilbert space.
翻訳日:2023-10-20 17:26:22 公開日:2023-10-19
# 閉形式拡散モデル

Closed-Form Diffusion Models ( http://arxiv.org/abs/2310.12395v1 )

ライセンス: Link先を確認
Christopher Scarvelis, Haitz S\'aez de Oc\'ariz Borde, Justin Solomon(参考訳) 摂動目標のスコア関数を用いて雑音を反復変換して目標分布からスコアベース生成モデル(sgms)をサンプリングする。 任意の有限トレーニングセットに対して、このスコア関数はクローズドな形式で評価できるが、結果のSGMはそのトレーニングデータを記憶し、新しいサンプルを生成することはない。 実際には、スコアマッチングを通じてニューラルネットワークをトレーニングすることでスコアを近似する。 この近似の誤差は一般化を促進するが、神経sgmは訓練とサンプルに費用がかかり、この誤差が与える効果的な正規化は理論的には十分に理解されていない。 そこで本研究では, 学習せずに新しいサンプルを生成するSGMを得るために, クローズドフォームスコアを円滑に行う。 我々は,本モデルを分析し,そのスコア関数の最適近傍推定器を提案する。 この推定器を用いて,コンシューマグレードのCPU上で動作しながら,ニューラルSGMと競合するサンプリング時間を実現する。

Score-based generative models (SGMs) sample from a target distribution by iteratively transforming noise using the score function of the perturbed target. For any finite training set, this score function can be evaluated in closed form, but the resulting SGM memorizes its training data and does not generate novel samples. In practice, one approximates the score by training a neural network via score-matching. The error in this approximation promotes generalization, but neural SGMs are costly to train and sample, and the effective regularization this error provides is not well-understood theoretically. In this work, we instead explicitly smooth the closed-form score to obtain an SGM that generates novel samples without training. We analyze our model and propose an efficient nearest-neighbor-based estimator of its score function. Using this estimator, our method achieves sampling times competitive with neural SGMs while running on consumer-grade CPUs.
翻訳日:2023-10-20 17:26:05 公開日:2023-10-19
# ビデオインスタンスセグメンテーションのためのディープラーニング技術:調査

Deep Learning Techniques for Video Instance Segmentation: A Survey ( http://arxiv.org/abs/2310.12393v1 )

ライセンス: Link先を確認
Chenhao Xu, Chang-Tsun Li, Yongjian Hu, Chee Peng Lim, Douglas Creighton(参考訳) ビデオインスタンスセグメンテーション(video instance segmentation)は、マルチオブジェクトトラッキングおよびセグメンテーションとしても知られ、2019年に導入された新しいコンピュータビジョン研究分野である。 ビデオ内の視覚情報の効果的な分析と利用を通じて、ビデオインスタンスセグメンテーションタスクに取り組むことにより、コンピュータビジョン対応の幅広いアプリケーション(例えば、人間の行動認識、医療画像処理、自動運転車ナビゲーション、監視など)を実装することができる。 様々なコンピュータビジョン領域においてディープラーニング技術が重要な役割を担っているため、多くのディープラーニングベースのビデオインスタンスセグメンテーションスキームが提案されている。 この調査は、ビデオインスタンスセグメンテーションのためのディープラーニングスキームの多面的なビューを提供し、様々なアーキテクチャパラダイムをカバーし、機能パフォーマンス、モデルの複雑さ、計算オーバーヘッドの比較を提供する。 一般的なアーキテクチャ設計に加えて,ビデオインスタンスセグメンテーションのためのディープラーニングモデルの性能向上のための補助手法をコンパイルし,検討した。 最後に、この有望な研究分野を前進させるため、今後の研究の課題と方向性について論じる。

Video instance segmentation, also known as multi-object tracking and segmentation, is an emerging computer vision research area introduced in 2019, aiming at detecting, segmenting, and tracking instances in videos simultaneously. By tackling the video instance segmentation tasks through effective analysis and utilization of visual information in videos, a range of computer vision-enabled applications (e.g., human action recognition, medical image processing, autonomous vehicle navigation, surveillance, etc) can be implemented. As deep-learning techniques take a dominant role in various computer vision areas, a plethora of deep-learning-based video instance segmentation schemes have been proposed. This survey offers a multifaceted view of deep-learning schemes for video instance segmentation, covering various architectural paradigms, along with comparisons of functional performance, model complexity, and computational overheads. In addition to the common architectural designs, auxiliary techniques for improving the performance of deep-learning models for video instance segmentation are compiled and discussed. Finally, we discuss a range of major challenges and directions for further investigations to help advance this promising research field.
翻訳日:2023-10-20 17:25:50 公開日:2023-10-19
# PoisonPrompt: Promptベースの大規模言語モデルに対するバックドア攻撃

PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models ( http://arxiv.org/abs/2310.12439v1 )

ライセンス: Link先を確認
Hongwei Yao, Jian Lou and Zhan Qin(参考訳) プロンプトは、最近、様々な下流タスクにおける事前訓練されたLarge Language Models(LLM)のパフォーマンスを大幅に改善し、多様なLLMアプリケーションシナリオに欠かせないものとなっている。 しかし、被害者モデルの正常な予測を悪意的に変更できる重大なセキュリティ脅威であるバックドア脆弱性は、プロンプトベースのLSMでは十分に調査されていない。 本稿では,ハードとソフトのプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。 我々は,6つのデータセットと3つの広く使用されているLLMを用いて,一般的な3つのプロンプト手法の広範な実験を通じて,POISONPROMPTの有効性,忠実性,堅牢性を評価する。 本研究は,プロンプトベースのLSMに対するバックドア攻撃による潜在的なセキュリティ脅威を浮き彫りにし,さらなる研究の必要性を強調した。

Prompts have significantly improved the performance of pretrained Large Language Models (LLMs) on various downstream tasks recently, making them increasingly indispensable for a diverse range of LLM application scenarios. However, the backdoor vulnerability, a serious security threat that can maliciously alter the victim model's normal predictions, has not been sufficiently explored for prompt-based LLMs. In this paper, we present POISONPROMPT, a novel backdoor attack capable of successfully compromising both hard and soft prompt-based LLMs. We evaluate the effectiveness, fidelity, and robustness of POISONPROMPT through extensive experiments on three popular prompt methods, using six datasets and three widely used LLMs. Our findings highlight the potential security threats posed by backdoor attacks on prompt-based LLMs and emphasize the need for further research in this area.
翻訳日:2023-10-20 17:18:00 公開日:2023-10-19
# p$-norm線形回帰による経験的リスク最小化のための最適リスク境界

Optimal Excess Risk Bounds for Empirical Risk Minimization on $p$-norm Linear Regression ( http://arxiv.org/abs/2310.12437v1 )

ライセンス: Link先を確認
Ayoub El Hanchi, Murat A. Erdogdu(参考訳) 我々は、$p \in (1, \infty)$に対する$p$-norm線形回帰問題に対する経験的リスク最小化の性能について検討する。 実現可能な場合、モーメント仮定が全くなく、分布依存定数まで、$O(d)$サンプルはターゲットを正確に回収するのに十分であることを示す。 さもなければ、$p \in [2, \infty)$ とターゲットと共変量に対する弱モーメント仮定の下では、先行項が一致する経験的リスク最小化器に縛られる高い確率過剰リスクを、漸近的に正確なレートである$p$にのみ依存する定数まで証明する。 この結果は、リスクの最小化におけるヘッシアンの存在を保証する穏やかな仮定の下で、$p \in (1, 2)$というケースに拡張する。

We study the performance of empirical risk minimization on the $p$-norm linear regression problem for $p \in (1, \infty)$. We show that, in the realizable case, under no moment assumptions, and up to a distribution-dependent constant, $O(d)$ samples are enough to exactly recover the target. Otherwise, for $p \in [2, \infty)$, and under weak moment assumptions on the target and the covariates, we prove a high probability excess risk bound on the empirical risk minimizer whose leading term matches, up to a constant that depends only on $p$, the asymptotically exact rate. We extend this result to the case $p \in (1, 2)$ under mild assumptions that guarantee the existence of the Hessian of the risk at its minimizer.
翻訳日:2023-10-20 17:17:43 公開日:2023-10-19
# CAT: エンド・ツー・エンド運転のためのクローズドループ対応トレーニング

CAT: Closed-loop Adversarial Training for Safe End-to-End Driving ( http://arxiv.org/abs/2310.12432v1 )

ライセンス: Link先を確認
Linrui Zhang and Zhenghao Peng and Quanyi Li and Bolei Zhou(参考訳) 自動運転車にとって安全の運転が最優先事項だ。 ポリシレベルでのアルゴリズム設計による事故発生時のトラヒックイベントを扱う先行作業と直交し,安全運転のためのcat(closed-loop adversarial training)フレームワークについて,環境拡張のレンズを用いて検討する。 CATは、時間とともに動的に発生する安全クリティカルなシナリオでエージェントを訓練することで、運転エージェントの安全性を継続的に改善することを目的としている。 対向的なトラフィック生成を標準動作予測サブプロブレムの乗算としてモデル化する確率的因子化により、ログ再生現実の運転シナリオを安全クリティカルなシナリオに変換するための新しい再サンプリング手法を開発した。 その結果、catは既存の安全-クリティカルシナリオ生成手法よりも効率的な物理的攻撃を起動でき、反復学習パイプラインの計算コストが大幅に削減される。 CATをMetaDriveシミュレータに組み込んで、現実の運転データセットからインポートされた数百の運転シナリオに対するアプローチを検証する。 実験の結果、CATは訓練中のエージェントに対抗して敵シナリオを効果的に生成できることが示された。 トレーニング後、エージェントはホールドアウトテストセット上で、ログリプレイとセーフティクリティカルなトラフィックシナリオの両方において、優れた運転安全性を達成することができる。 コードとデータはhttps://metadriverse.github.io/catで入手できる。

Driving safety is a top priority for autonomous vehicles. Orthogonal to prior work handling accident-prone traffic events by algorithm designs at the policy level, we investigate a Closed-loop Adversarial Training (CAT) framework for safe end-to-end driving in this paper through the lens of environment augmentation. CAT aims to continuously improve the safety of driving agents by training the agent on safety-critical scenarios that are dynamically generated over time. A novel resampling technique is developed to turn log-replay real-world driving scenarios into safety-critical ones via probabilistic factorization, where the adversarial traffic generation is modeled as the multiplication of standard motion prediction sub-problems. Consequently, CAT can launch more efficient physical attacks compared to existing safety-critical scenario generation methods and yields a significantly less computational cost in the iterative learning pipeline. We incorporate CAT into the MetaDrive simulator and validate our approach on hundreds of driving scenarios imported from real-world driving datasets. Experimental results demonstrate that CAT can effectively generate adversarial scenarios countering the agent being trained. After training, the agent can achieve superior driving safety in both log-replay and safety-critical traffic scenarios on the held-out test set. Code and data are available at https://metadriverse.github.io/cat.
翻訳日:2023-10-20 17:17:25 公開日:2023-10-19
# Segment AnythingがUniversal Adversarial Perturbationを発表

Segment Anything Meets Universal Adversarial Perturbation ( http://arxiv.org/abs/2310.12431v1 )

ライセンス: Link先を確認
Dongshen Han and Sheng Zheng and Chaoning Zhang(参考訳) Segment Anything Model (SAM) はコンピュータビジョンにおいて一般的な基礎モデルとなり、その逆の堅牢性は無視できない懸念となっている。 本研究は,画像に依存しないユニバーサル・ディバイサル・摂動 (UAP) でSAMを攻撃できるかどうかを検討する。 言い換えれば、SAMを騙して、ほとんどの(すべてではないとしても)画像に対して不正なマスクを予測できる単一の摂動を求める。 画像中心攻撃は画像独立攻撃には有効であるが,普遍的攻撃には有効ではないことを示す。 そこで本研究では,UAP をアンカーサンプルに設定し,UAP から正のサンプルを付加する自己教師付きコントラスト学習 (CL) に基づく UAP 生成手法を提案する。 画像エンコーダから予め負のサンプルの表現を取得し、メモリバンクに保存する。 CLを用いたUAP生成手法の有効性を定量的および定性的に検証した。 提案手法の様々な成分を理解するためのアブレーション研究に加えて, 生成したUAPをSAM攻撃に有効にするために, 正および負のサンプルの役割について光を当てた。

As Segment Anything Model (SAM) becomes a popular foundation model in computer vision, its adversarial robustness has become a concern that cannot be ignored. This works investigates whether it is possible to attack SAM with image-agnostic Universal Adversarial Perturbation (UAP). In other words, we seek a single perturbation that can fool the SAM to predict invalid masks for most (if not all) images. We demonstrate convetional image-centric attack framework is effective for image-independent attacks but fails for universal adversarial attack. To this end, we propose a novel perturbation-centric framework that results in a UAP generation method based on self-supervised contrastive learning (CL), where the UAP is set to the anchor sample and the positive sample is augmented from the UAP. The representations of negative samples are obtained from the image encoder in advance and saved in a memory bank. The effectiveness of our proposed CL-based UAP generation method is validated by both quantitative and qualitative results. On top of the ablation study to understand various components in our proposed method, we shed light on the roles of positive and negative samples in making the generated UAP effective for attacking SAM.
翻訳日:2023-10-20 17:17:02 公開日:2023-10-19
# DocXChain: ドキュメント解析などのための強力なオープンソースツールチェーン

DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond ( http://arxiv.org/abs/2310.12430v1 )

ライセンス: Link先を確認
Cong Yao(参考訳) 本稿では,文書解析のための強力なオープンソースツールチェーンDocXChainを紹介し,テキストや表,チャートなどの構造化されていない文書に具現化されたリッチな情報を,機械で読みやすく操作可能な構造化表現に自動変換する。 具体的には、テキスト検出、テキスト認識、テーブル構造認識、レイアウト分析などの基本的な機能が提供される。 これらの基本的な機能により、文書解析のための完全なパイプライン、すなわち一般的なテキスト読み込み、テーブル解析、文書構造化のセットを構築し、実際のシナリオで文書に関連する様々なアプリケーションを駆動します。 さらにDocXChainは簡潔でモジュール化され、柔軟性があり、既存のツールやライブラリ、モデル(LangChainやChatGPTなど)と簡単に統合でき、より複雑で困難なタスクを達成できるより強力なシステムを構築することができる。 DocXChainのコードは:~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/Applications/DocXChain}で公開されている。

In this report, we introduce DocXChain, a powerful open-source toolchain for document parsing, which is designed and developed to automatically convert the rich information embodied in unstructured documents, such as text, tables and charts, into structured representations that are readable and manipulable by machines. Specifically, basic capabilities, including text detection, text recognition, table structure recognition and layout analysis, are provided. Upon these basic capabilities, we also build a set of fully functional pipelines for document parsing, i.e., general text reading, table parsing, and document structurization, to drive various applications related to documents in real-world scenarios. Moreover, DocXChain is concise, modularized and flexible, such that it can be readily integrated with existing tools, libraries or models (such as LangChain and ChatGPT), to construct more powerful systems that can accomplish more complicated and challenging tasks. The code of DocXChain is publicly available at:~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/Applications/DocXChain}
翻訳日:2023-10-20 17:16:38 公開日:2023-10-19
# ランダム林の局所的説明可能性の向上に向けて--近接的アプローチ

Towards Enhanced Local Explainability of Random Forests: a Proximity-Based Approach ( http://arxiv.org/abs/2310.12428v1 )

ライセンス: Link先を確認
Joshua Rosaler, Dhruv Desai, Bhaskarjit Sarmah, Dimitrios Vamvourellis, Deran Onay, Dhagash Mehta, Stefano Pasquali(参考訳) 我々は,任意のrfを適応重み付きk近傍モデルとして定式化できることを利用して,ランダムフォレスト(rf)モデルのアウトオブ・オブ・サンプル性能を説明する新しいアプローチを開始する。 具体的には、RFが学習した特徴空間内の点間の近接を利用して、ランダムな森林予測をトレーニングデータポイントの目標ラベルの重み付き平均として正確に書き直す。 この線形性は、トレーニングセットにおける観測におけるモデル予測の属性を生成するRF予測の局所的な説明可能性を促進し、代わりに特徴空間の次元にわたってモデル予測の属性を生成するSHAPのような確立された手法を補完する。 我々は、米国の社債取引を訓練した債券価格モデルの文脈でこのアプローチを実証し、このアプローチを説明可能性のモデル化のための様々な既存のアプローチと比較する。

We initiate a novel approach to explain the out of sample performance of random forest (RF) models by exploiting the fact that any RF can be formulated as an adaptive weighted K nearest-neighbors model. Specifically, we use the proximity between points in the feature space learned by the RF to re-write random forest predictions exactly as a weighted average of the target labels of training data points. This linearity facilitates a local notion of explainability of RF predictions that generates attributions for any model prediction across observations in the training set, and thereby complements established methods like SHAP, which instead generates attributions for a model prediction across dimensions of the feature space. We demonstrate this approach in the context of a bond pricing model trained on US corporate bond trades, and compare our approach to various existing approaches to model explainability.
翻訳日:2023-10-20 17:16:19 公開日:2023-10-19
# maf: 大規模言語モデルの推論を改善するためのマルチアスペクトフィードバック

MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language Models ( http://arxiv.org/abs/2310.12426v1 )

ライセンス: Link先を確認
Deepak Nathani, David Wang, Liangming Pan, William Yang Wang(参考訳) 言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。 しかし、自然言語推論に関しては、まだ幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。 近年の研究では,フィードバックによる自己改善によるlms向上に重点が置かれている。 それでも、単一の汎用的なフィードバックソースに依存する既存のアプローチでは、LM生成推論チェーンに見られる多様なエラータイプに対処できない。 本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。 実験により,本手法がLM生成推論チェーンにおけるいくつかの誤りに対処し,複数の推論タスクにおけるLMの全体的な性能を向上することを示す。 数学的推論における相対的な改善は最大20%、論理計算では最大18%である。

Language Models (LMs) have shown impressive performance in various natural language tasks. However, when it comes to natural language reasoning, LMs still face challenges such as hallucination, generating incorrect intermediate reasoning steps, and making mathematical errors. Recent research has focused on enhancing LMs through self-improvement using feedback. Nevertheless, existing approaches relying on a single generic feedback source fail to address the diverse error types found in LM-generated reasoning chains. In this work, we propose Multi-Aspect Feedback, an iterative refinement framework that integrates multiple feedback modules, including frozen LMs and external tools, each focusing on a specific error category. Our experimental results demonstrate the efficacy of our approach to addressing several errors in the LM-generated reasoning chain and thus improving the overall performance of an LM in several reasoning tasks. We see a relative improvement of up to 20% in Mathematical Reasoning and up to 18% in Logical Entailment.
翻訳日:2023-10-20 17:16:04 公開日:2023-10-19
# 大規模言語モデルの時代における宣言的ソフトウェア仕様の自動修復

Automated Repair of Declarative Software Specifications in the Era of Large Language Models ( http://arxiv.org/abs/2310.12425v1 )

ライセンス: Link先を確認
Md Rashedul Hasan, Jiawei Li, Iftekhar Ahmed, Hamid Bagheri(参考訳) 宣言型ソフトウェア仕様言語の採用が増加し、デバッグの難しさと相まって、そのような言語に適用可能な効果的な自動修復技術の必要性が強調されている。 研究者は最近、テンプレートベースの修復、フィードバック駆動の反復的修復、境界付き徹底的なアプローチなど、宣言的ソフトウェア仕様を自動的に修復する様々な方法を模索している。 大規模な言語モデルの最新開発は、宣言的仕様の自動修復の新たな機会を提供する。 本研究では,OpenAI の ChatGPT を利用したアロイ宣言言語によるソフトウェア仕様の修復の有効性を評価する。 命令型言語とは異なり、アロイの仕様は実行されず、論理式に変換され、バックエンド制約ソルバを使用して仕様インスタンスを識別し、アサーションに反例する。 本評価は, 自動修理による合金宣言仕様の正しさと完全性を向上させるChatGPTの能力に焦点をあてる。 chatgptによって得られた結果を分析し、それらを主要な自動合金修復法と比較する。 我々の研究によると、ChatGPTは既存の技術と比べて不足しているものの、他の手法では対応できないバグの修正に成功した。 また,chatgptが生成した修正の誤り,不適切なオペレータ使用,型エラー,高階論理誤用,リレーショナルアーリティミスマッチについても分析を行った。 また,ChatGPTによる補修の幻覚例と,その結果の矛盾も観察した。 我々の研究は、宣言的な仕様修正のためにChatGPTを検討するソフトウェア実践者、研究者、ツールビルダーに貴重な洞察を提供する。

The growing adoption of declarative software specification languages, coupled with their inherent difficulty in debugging, has underscored the need for effective and automated repair techniques applicable to such languages. Researchers have recently explored various methods to automatically repair declarative software specifications, such as template-based repair, feedback-driven iterative repair, and bounded exhaustive approaches. The latest developments in large language models provide new opportunities for the automatic repair of declarative specifications. In this study, we assess the effectiveness of utilizing OpenAI's ChatGPT to repair software specifications written in the Alloy declarative language. Unlike imperative languages, specifications in Alloy are not executed but rather translated into logical formulas and evaluated using backend constraint solvers to identify specification instances and counterexamples to assertions. Our evaluation focuses on ChatGPT's ability to improve the correctness and completeness of Alloy declarative specifications through automatic repairs. We analyze the results produced by ChatGPT and compare them with those of leading automatic Alloy repair methods. Our study revealed that while ChatGPT falls short in comparison to existing techniques, it was able to successfully repair bugs that no other technique could address. Our analysis also identified errors in ChatGPT's generated repairs, including improper operator usage, type errors, higher-order logic misuse, and relational arity mismatches. Additionally, we observed instances of hallucinations in ChatGPT-generated repairs and inconsistency in its results. Our study provides valuable insights for software practitioners, researchers, and tool builders considering ChatGPT for declarative specification repairs.
翻訳日:2023-10-20 17:15:50 公開日:2023-10-19
# 因果モデルを用いた二項分類におけるアルゴリズムバイアスの検出と緩和

Detecting and Mitigating Algorithmic Bias in Binary Classification using Causal Modeling ( http://arxiv.org/abs/2310.12421v1 )

ライセンス: Link先を確認
Wendy Hui, Wai Kwong Lau(参考訳) 本稿では,因果モデルを用いたアルゴリズムバイアスの検出と軽減について述べる。 本稿では,因果モデリングの概要とアプローチの概要について述べる。 次に、UCアーバイン機械学習リポジトリからダウンロード可能なアダルトデータセットを用いて、(1)ブラックボックスとして扱われる予測モデル、(2)バイアス軽減のための因果モデルを開発する。 本稿では、性別バイアスと二項分類の問題に焦点を当てる。 予測モデルの性別バイアスは0.05レベルで統計的に有意であることを示す。 本研究は,性別バイアス軽減のための因果モデルの有効性を示す。 さらに,全体の分類精度がわずかに向上したことを示す。 我々の新しいアプローチは直感的で使いやすく、Rの"lavaan"のような既存の統計ソフトウェアツールを使って実装することができる。

This paper proposes the use of causal modeling to detect and mitigate algorithmic bias. We provide a brief description of causal modeling and a general overview of our approach. We then use the Adult dataset, which is available for download from the UC Irvine Machine Learning Repository, to develop (1) a prediction model, which is treated as a black box, and (2) a causal model for bias mitigation. In this paper, we focus on gender bias and the problem of binary classification. We show that gender bias in the prediction model is statistically significant at the 0.05 level. We demonstrate the effectiveness of the causal model in mitigating gender bias by cross-validation. Furthermore, we show that the overall classification accuracy is improved slightly. Our novel approach is intuitive, easy-to-use, and can be implemented using existing statistical software tools such as "lavaan" in R. Hence, it enhances explainability and promotes trust.
翻訳日:2023-10-20 17:15:25 公開日:2023-10-19
# シフトと概観--ユーザ-GPTインタラクションのタスク指向調査

The Shifted and The Overlooked: A Task-oriented Investigation of User-GPT Interactions ( http://arxiv.org/abs/2310.12418v1 )

ライセンス: Link先を確認
Siru Ouyang, Shuohang Wang, Yang Liu, Ming Zhong, Yizhu Jiao, Dan Iter, Reid Pryzant, Chenguang Zhu, Heng Ji, Jiawei Han(参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々なNLPタスクで顕著な性能を示すモデルを生み出している。 しかし、既存のNLP研究の焦点が人間の真の要求を正確に捉えているかどうかは不明である。 本稿では,ユーザ-GPT対話の大規模収集を通じて,現在のNLP研究と実世界のNLPアプリケーションのニーズの相違を包括的に分析する。 実際のユーザクエリの大規模なコレクションをGPTに解析する。 我々は,これらのクエリを既存のNLPベンチマークタスクと比較し,LLMから頻繁に要求されるタスクと,学術研究でよく研究されるタスクとの間に大きなギャップを見出した。 例えば、 ``design'' や ``planning'' のようなタスクはユーザインタラクションでよく使われるが、従来の NLP ベンチマークとは大きく異なる。 これらの見過ごされたタスクを調査し、それらがもたらす実践的な課題を識別し、LCMをユーザニーズに合うようにするためのロードマップへの洞察を提供する。

Recent progress in Large Language Models (LLMs) has produced models that exhibit remarkable performance across a variety of NLP tasks. However, it remains unclear whether the existing focus of NLP research accurately captures the genuine requirements of human users. This paper provides a comprehensive analysis of the divergence between current NLP research and the needs of real-world NLP applications via a large-scale collection of user-GPT conversations. We analyze a large-scale collection of real user queries to GPT. We compare these queries against existing NLP benchmark tasks and identify a significant gap between the tasks that users frequently request from LLMs and the tasks that are commonly studied in academic research. For example, we find that tasks such as ``design'' and ``planning'' are prevalent in user interactions but are largely neglected or different from traditional NLP benchmarks. We investigate these overlooked tasks, dissect the practical challenges they pose, and provide insights toward a roadmap to make LLMs better aligned with user needs.
翻訳日:2023-10-20 17:15:13 公開日:2023-10-19
# 他人から学ぶだけでなく、自分自身で考える:リモートセンシングにおけるFew-Shotセグメンテーションの新しい視点

Not Just Learning from Others but Relying on Yourself: A New Perspective on Few-Shot Segmentation in Remote Sensing ( http://arxiv.org/abs/2310.12452v1 )

ライセンス: Link先を確認
Hanbo Bi, Yingchao Feng, Zhiyuan Yan, Yongqiang Mao, Wenhui Diao, Hongqi Wang, and Xian Sun(参考訳) Few-shot segmentation (FSS) は、いくつかの注釈付きサンプルで未知のクラスターゲットをセグメンテーションするために提案されている。 現在のfssメソッドのほとんどは、クエリ画像のセグメンテーションをガイドするためにサポートイメージからセマンティクスをマイニングするパラダイムに従っている。 しかし、このような「他者からの学習」のパターンは、極端にクラス内変動を扱うのに苦労し、FSSがリモートセンシングシーンに直接一般化されるのを防ぐ。 クラス内分散のギャップを埋めるため,クロスイメージマイニングとセルフマイニングのためのDMNetと呼ばれるデュアルマイニングネットワークを開発した。 具体的には,サポートクエリとイメージペア間の共通意味をキャプチャすることで,関係のない特徴汚染を効果的に抑制する,クラスパブリック領域マイニング(CPRM)モジュールを提案する。 その後、クラス固有の領域マイニング(CSRM)モジュールが提案され、クエリイメージ自体のクラス固有のセマンティクスを 'filtering' と 'purifying' の方法で継続的にマイニングする。 さらに,fss一般化の崩壊を悪化させるリモートセンシングシーンにおける複数クラスの共存を防止するため,試料中の既知のクラスオブジェクトの活性化を抑制する新たな既知のクラスメタサプレッサー(kms)モジュールを提案する。 iSAIDおよびLoveDAリモートセンシングデータセットの大規模な実験により,本手法が最先端のモデルパラメータを最小限に設定できることが実証された。 重要なことは、Resnet-50のバックボーンを持つ我々のモデルは、iSAIDの1ショットと5ショット設定で49.58%と51.34%のmIoUを達成し、それぞれ1.8%と1.12%を上回ります。 コードはhttps://github.com/HanboBizl/DMNetで公開されている。

Few-shot segmentation (FSS) is proposed to segment unknown class targets with just a few annotated samples. Most current FSS methods follow the paradigm of mining the semantics from the support images to guide the query image segmentation. However, such a pattern of `learning from others' struggles to handle the extreme intra-class variation, preventing FSS from being directly generalized to remote sensing scenes. To bridge the gap of intra-class variance, we develop a Dual-Mining network named DMNet for cross-image mining and self-mining, meaning that it no longer focuses solely on support images but pays more attention to the query image itself. Specifically, we propose a Class-public Region Mining (CPRM) module to effectively suppress irrelevant feature pollution by capturing the common semantics between the support-query image pair. The Class-specific Region Mining (CSRM) module is then proposed to continuously mine the class-specific semantics of the query image itself in a `filtering' and `purifying' manner. In addition, to prevent the co-existence of multiple classes in remote sensing scenes from exacerbating the collapse of FSS generalization, we also propose a new Known-class Meta Suppressor (KMS) module to suppress the activation of known-class objects in the sample. Extensive experiments on the iSAID and LoveDA remote sensing datasets have demonstrated that our method sets the state-of-the-art with a minimum number of model parameters. Significantly, our model with the backbone of Resnet-50 achieves the mIoU of 49.58% and 51.34% on iSAID under 1-shot and 5-shot settings, outperforming the state-of-the-art method by 1.8% and 1.12%, respectively. The code is publicly available at https://github.com/HanboBizl/DMNet.
翻訳日:2023-10-20 17:09:32 公開日:2023-10-19
# MTS-LOF: Occlusion-invariant Featuresによる医用時系列表現学習

MTS-LOF: Medical Time-Series Representation Learning via Occlusion-Invariant Features ( http://arxiv.org/abs/2310.12451v1 )

ライセンス: Link先を確認
Huayu Li, Ana S. Carreon-Rascon, Xiwen Chen, Geng Yuan, and Ao Li(参考訳) 医療時系列データは医療において不可欠であり、疾患診断、治療計画、患者の管理に重要な洞察を提供する。 高度なセンサー技術によって駆動されるデータ複雑性の指数的な増加は、データラベリングに関する課題を提示している。 自己教師付き学習(SSL)は、これらの課題に対処するための変革的なアプローチとして現れ、広範な人間のアノテーションの必要性を排除している。 本研究では,MTS-LOFとして知られる医療時系列表現学習のための新しいフレームワークを提案する。 MTS-LOFは、対照的な学習の強みとMasked Autoencoder(MAE)手法を活用し、医療時系列データの表現学習にユニークなアプローチを提供する。 これらの技術を組み合わせることで、MTS-LOFはより洗練されたコンテキストリッチな表現を提供することで、医療応用の可能性を高める。 さらに、MTS-LOFはオクルージョン不変の特徴学習を容易にするためにマルチマスキング戦略を採用している。 このアプローチでは、モデルがデータの一部をマスクすることで、データの複数のビューを作成できる。 これらのマスクされたパッチと完全に見えるパッチとの差を最小限にすることで、MTS-LOFは医療時系列データセット内のリッチなコンテキスト情報をキャプチャすることを学ぶ。 各種医療時系列データセットを用いた実験の結果,他の手法よりもmts-lofが優れていることが示された。 これらの知見は、表現学習の改善による医療応用の大幅な向上を約束する。 さらに,我々の研究は,ssl と mae 技術を統合して,医療データにおける時間依存と構造依存の複雑な相互作用を浮き彫りにした。 この理解は、医療データ分析の複雑さを把握できるため、非常に重要です。

Medical time series data are indispensable in healthcare, providing critical insights for disease diagnosis, treatment planning, and patient management. The exponential growth in data complexity, driven by advanced sensor technologies, has presented challenges related to data labeling. Self-supervised learning (SSL) has emerged as a transformative approach to address these challenges, eliminating the need for extensive human annotation. In this study, we introduce a novel framework for Medical Time Series Representation Learning, known as MTS-LOF. MTS-LOF leverages the strengths of contrastive learning and Masked Autoencoder (MAE) methods, offering a unique approach to representation learning for medical time series data. By combining these techniques, MTS-LOF enhances the potential of healthcare applications by providing more sophisticated, context-rich representations. Additionally, MTS-LOF employs a multi-masking strategy to facilitate occlusion-invariant feature learning. This approach allows the model to create multiple views of the data by masking portions of it. By minimizing the discrepancy between the representations of these masked patches and the fully visible patches, MTS-LOF learns to capture rich contextual information within medical time series datasets. The results of experiments conducted on diverse medical time series datasets demonstrate the superiority of MTS-LOF over other methods. These findings hold promise for significantly enhancing healthcare applications by improving representation learning. Furthermore, our work delves into the integration of joint-embedding SSL and MAE techniques, shedding light on the intricate interplay between temporal and structural dependencies in healthcare data. This understanding is crucial, as it allows us to grasp the complexities of healthcare data analysis.
翻訳日:2023-10-20 17:08:55 公開日:2023-10-19
# ゼロショットエンティティリンクのための読み取り・選択フレームワーク

A Read-and-Select Framework for Zero-shot Entity Linking ( http://arxiv.org/abs/2310.12450v1 )

ライセンス: Link先を確認
Zhenran Xu, Yulin Chen, Baotian Hu, Min Zhang(参考訳) zero-shot entity link (el) は、エンティティ参照を未認識のエンティティに整合させることを目標とし、一般化能力に挑戦する。 従来の手法では, 候補検索段階に着目し, 実体間の曖昧さを解消し, 最終リンク予測を行う必須候補ランキング段階を無視する。 本稿では,エンティティの曖昧さを主成分,すなわち参照・エンティティマッチングとクロスエンティティ比較をモデル化し,res(read-and-select)フレームワークを提案する。 まず、各候補に対して、readingモジュールは mention-awareエンティティ表現を出力するために mentionコンテキストを利用し、 mention-entityマッチングを可能にする。 次に、選択モジュールにおいて、候補の選択をシーケンスラベリング問題としてフレーム化し、全ての候補表現を融合してクロスエンティティ比較を行う。 本手法は,確立されたゼロショット型elデータセットであるzeshelにおける最先端性能を2.55\%のマイクロ平均精度で達成し,従来の作業の多くで使用される多相事前学習を必要とせず,その効果を示す。

Zero-shot entity linking (EL) aims at aligning entity mentions to unseen entities to challenge the generalization ability. Previous methods largely focus on the candidate retrieval stage and ignore the essential candidate ranking stage, which disambiguates among entities and makes the final linking prediction. In this paper, we propose a read-and-select (ReS) framework by modeling the main components of entity disambiguation, i.e., mention-entity matching and cross-entity comparison. First, for each candidate, the reading module leverages mention context to output mention-aware entity representations, enabling mention-entity matching. Then, in the selecting module, we frame the choice of candidates as a sequence labeling problem, and all candidate representations are fused together to enable cross-entity comparison. Our method achieves the state-of-the-art performance on the established zero-shot EL dataset ZESHEL with a 2.55\% micro-average accuracy gain, with no need for laborious multi-phase pre-training used in most of the previous work, showing the effectiveness of both mention-entity and cross-entity interaction.
翻訳日:2023-10-20 17:08:29 公開日:2023-10-19
# 量子エラー補正シンドローム測定による量子コンピュータの誤差構造の調査

Quantum computer error structure probed by quantum error correction syndrome measurements ( http://arxiv.org/abs/2310.12448v1 )

ライセンス: Link先を確認
Spiro Gicev, Lloyd C.L. Hollenberg, Muhammad Usman(参考訳) 量子デバイスは、フォールトトレランスに必要な品質やスケールに急速に近づいているため、量子エラー補正の研究を支える簡易なエラーモデルの妥当性を実験的に評価する必要がある。 本研究では,23量子ビットの回路サイズを増大させる重六角形符号症候群測定を行う超電導デバイスの性能を,符号しきい値計算の前提となる誤差仮定に対して直接評価した。 16回のシンドローム測定サイクルのデータは、一様脱分極ノイズモデルと矛盾しており、代わりにバイアスと不均質なノイズモデルが好まれていた。 z$スタビライザ測定による空間-時間相関は検出事象において有意な時間相関を示した。 これらの結果は、量子誤り訂正回路のノイズに存在する非自明な構造を強調し、適応するためのノイズ調整符号とデコーダの開発を支援する。

With quantum devices rapidly approaching qualities and scales needed for fault tolerance, the validity of simplified error models underpinning the study of quantum error correction needs to be experimentally evaluated. In this work, we have directly assessed the performance of superconducting devices implementing heavy-hexagon code syndrome measurements with increasing circuit sizes up to 23 qubits, against the error assumptions underpinning code threshold calculations. Data from 16 repeated syndrome measurement cycles was found to be inconsistent with a uniform depolarizing noise model, favouring instead biased and inhomogeneous noise models. Spatial-temporal correlations investigated via $Z$ stabilizer measurements revealed significant temporal correlation in detection events. These results highlight the non-trivial structure which may be present in the noise of quantum error correction circuits and support the development of noise-tailored codes and decoders to adapt.
翻訳日:2023-10-20 17:08:07 公開日:2023-10-19
# 分布の制約付き再重み付け:最適輸送アプローチ

Constrained Reweighting of Distributions: an Optimal Transport Approach ( http://arxiv.org/abs/2310.12447v1 )

ライセンス: Link先を確認
Abhisek Chakraborty, Anirban Bhattacharya, Debdeep Pati(参考訳) 我々は,観測データの経験的分布の最適重み調整バージョンを同定する問題に遭遇し,重みに関する事前の制約に固執する。 このような制約はしばしば、重み調整された経験的分布のモーメント、テールの振る舞い、形状、モードの数などの制限として現れる。 本稿では,重みに対する非パラメトリックな分布制約を導入し,最適移動から最大エントロピー原理とツールを活用する汎用フレームワークを開発することにより,その柔軟性を大幅に向上させる。 重要なアイデアは、観測データの最大エントロピー重み調整された経験的分布が、微妙な離脱を許容しながら、最適な輸送計量の観点で予め定められた確率分布に近いことを保証することである。 このフレームワークの汎用性は、統計タスクの中心にある最適化問題であるポートフォリオ割り当て、複雑な調査のためのセミパラメトリック推論、機械学習アルゴリズムのアルゴリズム的公平性を保証するために、データの重み付けがサイド制約を満たす3つの異なるアプリケーションで実証される。

We commonly encounter the problem of identifying an optimally weight adjusted version of the empirical distribution of observed data, adhering to predefined constraints on the weights. Such constraints often manifest as restrictions on the moments, tail behaviour, shapes, number of modes, etc., of the resulting weight adjusted empirical distribution. In this article, we substantially enhance the flexibility of such methodology by introducing a nonparametrically imbued distributional constraints on the weights, and developing a general framework leveraging the maximum entropy principle and tools from optimal transport. The key idea is to ensure that the maximum entropy weight adjusted empirical distribution of the observed data is close to a pre-specified probability distribution in terms of the optimal transport metric while allowing for subtle departures. The versatility of the framework is demonstrated in the context of three disparate applications where data re-weighting is warranted to satisfy side constraints on the optimization problem at the heart of the statistical task: namely, portfolio allocation, semi-parametric inference for complex surveys, and ensuring algorithmic fairness in machine learning algorithms.
翻訳日:2023-10-20 17:07:52 公開日:2023-10-19
# 破壊反対称結合による量子貯水池の超感度センシング

Supersensitive sensing of quantum reservoirs via breaking antisymmetric coupling ( http://arxiv.org/abs/2310.12445v1 )

ライセンス: Link先を確認
Ji-Bing Yuan, Zhi-Min Tang, Ya-Ju Song, Shi-Qing Tang, Zhao-Hui Peng, Xin-Wen Wang, Le-Man Kuang(参考訳) 本研究では,量子貯水池の非対称結合が破壊される量子貯水池を検知するための1つの一般化された減数量子ビットの利用について検討する。 崩壊因子の符号化チャネルに加えて、非対称カップリング破壊は別の相因子の符号化チャネルを引き起こすことが判明した。 本稿では,量子信号対雑音比(qsnr)によって定量化された理論的究極の精度を実用的測定精度に到達できる一般化デファスメント量子ビットの最適測定法を提案する。 例えば、一般化されたデファスメント量子ビットは原子ボース・アインシュタイン凝縮体の$s$-wave散乱長を推定するために用いられる。 反対称結合破壊による位相誘起QSNRはミリ秒の時間スケールでの減衰誘起QSNRよりも少なくとも2桁高く、最適相対誤差は、長期符号化における符号化時間である$t$のスケーリング$\propto 1/t$を達成することができる。 我々の研究は、量子貯水池の超感度検知方法を開く。

We investigate the utilization of a single generalized dephasing qubit for sensing a quantum reservoir, where the antisymmetric coupling between the qubit and its reservoir is broken. It is found that in addition to the decay factor encoding channel, the antisymmetric coupling breaking gives rise to another phase factor encoding channel. We introduce an optimal measurement for the generalized dephasing qubit which enables the practical measurement precision to reach the theoretical ultimate precision quantified by the quantum signal-to-noise ratio (QSNR). As an example, the generalized dephasing qubit is employed to estimate the $s$-wave scattering length of an atomic Bose-Einstein condensate. It is found that the phase-induced QSNR caused by the antisymmetric coupling breaking is at least two orders of magnitude higher than the decay-induced QSNR at the millisecond timescale and the optimal relative error can achieve a scaling $\propto 1/t$ with $t$ being the encoding time in long-term encoding. Our work opens a way for supersensitive sensing of quantum reservoirs.
翻訳日:2023-10-20 17:07:34 公開日:2023-10-19
# Few-shot Entity Linkingのためのスパース検索の再検討

Revisiting Sparse Retrieval for Few-shot Entity Linking ( http://arxiv.org/abs/2310.12444v1 )

ライセンス: Link先を確認
Yulin Chen, Zhenran Xu, Baotian Hu, Min Zhang(参考訳) エンティティリンクは、知識ベースで対応するエンティティに曖昧な言及をリンクすることを目的としています。 重要な課題の1つは、特定のドメインに対するラベル付きデータの不足にある。 ディープ・レトリバーはいくつかのベンチマークで優れた性能を達成しているが、その性能はドメイン内のラベル付きデータに限られている場合に著しく低下する。 このようなわずかな設定でスパース検索法を再検討し、ELECTRAベースのキーワード抽出器を提案し、参照コンテキストを識別し、より良いクエリ表現を構築する。 抽出器を訓練するために,参照コンテキストとエンティティ記述の重なり合うトークンに基づいて,学習データを自動的に生成する遠隔監視手法を提案する。 ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示し,キーワード付きスパース検索の有効性を示した。

Entity linking aims to link ambiguous mentions to their corresponding entities in a knowledge base. One of the key challenges comes from insufficient labeled data for specific domains. Although dense retrievers have achieved excellent performance on several benchmarks, their performance decreases significantly when only a limited amount of in-domain labeled data is available. In such few-shot setting, we revisit the sparse retrieval method, and propose an ELECTRA-based keyword extractor to denoise the mention context and construct a better query expression. For training the extractor, we propose a distant supervision method to automatically generate training data based on overlapping tokens between mention contexts and entity descriptions. Experimental results on the ZESHEL dataset demonstrate that the proposed method outperforms state-of-the-art models by a significant margin across all test domains, showing the effectiveness of keyword-enhanced sparse retrieval.
翻訳日:2023-10-20 17:07:11 公開日:2023-10-19
# LLMを意味があり、責任があり、信頼できる検索エンジンにする

Know Where to Go: Make LLM a Relevant, Responsible, and Trustworthy Searcher ( http://arxiv.org/abs/2310.12443v1 )

ライセンス: Link先を確認
Xiang Shi, Jiawei Liu, Yinpeng Liu, Qikai Cheng, Wei Lu(参考訳) 大規模言語モデル(llms)の出現は、関連性を改善し、web検索に直接的な回答を提供する可能性を示している。 しかし、従来の情報検索アルゴリズムの限界とLLM幻覚問題により、生成結果の信頼性とコントリビューションソースの信頼性の検証に課題が生じる。 LLM時代の「PageRank」を創り出すため、私たちはLLMを関連性があり、責任があり、信頼できる検索者へと変えようとしている。 本稿では,LLMの知識を活用してクエリとオンラインソースの直接リンクを促進する新しい生成検索フレームワークを提案する。 このフレームワークは3つのコアモジュールで構成されている。Generator、Validator、Optimizerはそれぞれ信頼できるオンラインソースの生成、ソース信頼性の検証、信頼できないソースの精査に重点を置いている。 大規模な実験と評価は,SOTA法に対する我々の方法の優れた妥当性,責任,信頼性を明らかにするものである。

The advent of Large Language Models (LLMs) has shown the potential to improve relevance and provide direct answers in web searches. However, challenges arise in validating the reliability of generated results and the credibility of contributing sources, due to the limitations of traditional information retrieval algorithms and the LLM hallucination problem. Aiming to create a "PageRank" for the LLM era, we strive to transform LLM into a relevant, responsible, and trustworthy searcher. We propose a novel generative retrieval framework leveraging the knowledge of LLMs to foster a direct link between queries and online sources. This framework consists of three core modules: Generator, Validator, and Optimizer, each focusing on generating trustworthy online sources, verifying source reliability, and refining unreliable sources, respectively. Extensive experiments and evaluations highlight our method's superior relevance, responsibility, and trustfulness against various SOTA methods.
翻訳日:2023-10-20 17:06:56 公開日:2023-10-19
# 長方形変換器の効率性:もっと注意する必要があるが、すべての層で必要ではない

Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer ( http://arxiv.org/abs/2310.12442v1 )

ライセンス: Link先を確認
Qingru Zhang, Dhananjay Ram, Cole Hawkins, Sheng Zha, Tuo Zhao(参考訳) 事前訓練されたトランスモデルは、様々な自然言語処理タスクにおいて顕著な性能を示した。 これらのモデルはアテンション機構を利用して、シーケンス内の長距離および短距離の依存関係をキャプチャする。 しかし、(完全な)アテンション機構はシーケンス長の計算コストを発生させるが、長いシーケンスを持つタスク、例えば8kトークンの入力では手頃ではない。 sparse attentionは計算効率の向上に利用できるが、既存の研究で示唆されているように、モデリング能力は限られており、長いシーケンスで複雑な依存関係を捉えられないことが多い。 そこで本稿では,この課題に取り組むため,実装が容易な変圧器であるmasformerを提案する。 具体的には、MASFormerは長距離依存関係をキャプチャするが、少数のレイヤに限られる。 残りのレイヤでは、masformerは短い範囲の依存関係を捉えるのにあまり注意を払わない。 自然言語モデリングおよび生成タスクに関する実験により,1.3BパラメータのデコーダのみのMASFormerモデルにより,バニラ変圧器との競合性能を十分に向上し,計算コスト(最大75%)を大幅に削減できることを示した。 さらに,長いシーケンスデータを用いた連続学習の有効性と,独立した関心を持つ下流世代のパフォーマンスにシーケンス長が与える影響について検討した。

Pretrained transformer models have demonstrated remarkable performance across various natural language processing tasks. These models leverage the attention mechanism to capture long- and short-range dependencies in the sequence. However, the (full) attention mechanism incurs high computational cost - quadratic in the sequence length, which is not affordable in tasks with long sequences, e.g., inputs with 8k tokens. Although sparse attention can be used to improve computational efficiency, as suggested in existing work, it has limited modeling capacity and often fails to capture complicated dependencies in long sequences. To tackle this challenge, we propose MASFormer, an easy-to-implement transformer variant with Mixed Attention Spans. Specifically, MASFormer is equipped with full attention to capture long-range dependencies, but only at a small number of layers. For the remaining layers, MASformer only employs sparse attention to capture short-range dependencies. Our experiments on natural language modeling and generation tasks show that a decoder-only MASFormer model of 1.3B parameters can achieve competitive performance to vanilla transformers with full attention while significantly reducing computational cost (up to 75%). Additionally, we investigate the effectiveness of continual training with long sequence data and how sequence length impacts downstream generation performance, which may be of independent interest.
翻訳日:2023-10-20 17:06:38 公開日:2023-10-19
# アナログ集積回路設計最適化のための進化的アルゴリズムの性能評価

Performance Evaluation of Evolutionary Algorithms for Analog Integrated Circuit Design Optimisation ( http://arxiv.org/abs/2310.12440v1 )

ライセンス: Link先を確認
Ria Rashid, Gopavaram Raghunath, Vasant Badugu, Nandakumar Nambath(参考訳) 本稿では,進化的アルゴリズムを用いたアナログ回路の自動サイズ化手法を提案する。 探索空間を対象とする探索は粒子生成関数と修正限界関数を用いて実装され、最適な解への収束が速くなった。 アルゴリズムは調整および修正され、標準バージョンに比べて複数の実行に対する標準偏差が少なく、より良い最適解に収束する。 人工蜂コロニー最適化アルゴリズム、遺伝的アルゴリズム、グレイウルフ最適化アルゴリズム、粒子群最適化アルゴリズムの修正版をテストし、2つの演算増幅器トポロジの最適サイズと比較した。 改良アルゴリズムの広範な性能評価により, 改良されたアルゴリズムは, 全アルゴリズムの収束性の向上とともに一貫した性能を示した。 並列計算をアルゴリズムに実装することで、実行時間が短縮される。 検討されたアルゴリズムのうち、修正された人工蜂コロニー最適化アルゴリズムは、複数のランに一貫した結果をもたらす最も最適な解を与えた。

An automated sizing approach for analog circuits using evolutionary algorithms is presented in this paper. A targeted search of the search space has been implemented using a particle generation function and a repair-bounds function that has resulted in faster convergence to the optimal solution. The algorithms are tuned and modified to converge to a better optimal solution with less standard deviation for multiple runs compared to standard versions. Modified versions of the artificial bee colony optimisation algorithm, genetic algorithm, grey wolf optimisation algorithm, and particle swarm optimisation algorithm are tested and compared for the optimal sizing of two operational amplifier topologies. An extensive performance evaluation of all the modified algorithms showed that the modifications have resulted in consistent performance with improved convergence for all the algorithms. The implementation of parallel computation in the algorithms has reduced run time. Among the considered algorithms, the modified artificial bee colony optimisation algorithm gave the most optimal solution with consistent results across multiple runs.
翻訳日:2023-10-20 17:06:11 公開日:2023-10-19
# 超伝導ナノワイヤ単光子検出器は光子数をどの程度解決できるか?

How well can superconducting nanowire single-photon detectors resolve photon number? ( http://arxiv.org/abs/2310.12471v1 )

ライセンス: Link先を確認
Timon Schapeler, Niklas Lamberty, Thomas Hummel, Fabian Schlue, Benjamin Brecht, Christine Silberhorn, and Tim J. Bartley(参考訳) 市販の超伝導ナノワイヤ単光子検出器(SNSPD)からの一連の出力信号に主成分分析(PCA)を適用し,光子数分解能について検討する。 電気信号の振幅とともに上昇するエッジは光子数に最も依存していることが判明した。 パルス振幅の電圧を同時に測定しながら立ち上がりエッジを正確に測定し、SNSPDの光子数分解能を最大化する。 原理成分の最適基底を用いて、1-および2-光子事象と最大5光子部分分解能の曖昧な識別を示す。 これにより、特に検出器多重化アーキテクチャと組み合わせた場合、SNSPDの使用例を光子計数実験に拡大する。

We apply principal component analysis (PCA) to a set of electrical output signals from a commercially available superconducting nanowire single-photon detector (SNSPD) to investigate their photon-number-resolving capability. We find that the rising edge as well as the amplitude of the electrical signal have the most dependence on photon number. Accurately measuring the rising edge while simultaneously measuring the voltage of the pulse amplitude maximizes the photon-number resolution of SNSPDs. Using an optimal basis of principle components, we show unambiguous discrimination between one- and two-photon events, as well as partial resolution up to five photons. This expands the use-case of SNSPDs to photon-counting experiments, particularly when combined with detector multiplexing architectures.
翻訳日:2023-10-20 16:58:31 公開日:2023-10-19
# RecolorCloud: 再色、セグメンテーション、変換のためのポイントクラウドツール

RecolorCloud: A Point Cloud Tool for Recoloring, Segmentation, and Conversion ( http://arxiv.org/abs/2310.12470v1 )

ライセンス: Link先を確認
Esteban Segarra Martinez and Ryan P. McMahan(参考訳) ポイントクラウドは、高精度レーザースキャナで記録された環境の3次元空間表現である。 これらのスキャナは、表面シェーディング、テクスチャリング、反射などの環境干渉に悩まされることがある。 このため、点雲は偽色または誤った色で汚染されることがある。 現在のオープンソースまたはプロプライエタリなツールは、これらの視覚的エラーを自動的に修正するための制限またはアクセスを提供する。 RecolorCloudは、これらのカラーコンフリクトを解決するために開発されたツールである。 色に効くために境界ボックス領域を指定するだけで、アウトレーヤポイントを自動削除または再色する機能を提供する。 その結果,大点雲の写実的品質は大幅に向上した。 さらに、ユーザーはセマンティックセグメンテーションカラーでポイントクラウドをすばやく変更することができる。

Point clouds are a 3D space representation of an environment that was recorded with a high precision laser scanner. These scanners can suffer from environmental interference such as surface shading, texturing, and reflections. Because of this, point clouds may be contaminated with fake or incorrect colors. Current open source or proprietary tools offer limited or no access to correcting these visual errors automatically. RecolorCloud is a tool developed to resolve these color conflicts by utilizing automated color recoloring. We offer the ability to deleting or recoloring outlier points automatically with users only needing to specify bounding box regions to effect colors. Results show a vast improvement of the photo-realistic quality of large point clouds. Additionally, users can quickly recolor a point cloud with set semantic segmentation colors.
翻訳日:2023-10-20 16:58:18 公開日:2023-10-19
# 対話における推論のためのコントラスト学習

Contrastive Learning for Inference in Dialogue ( http://arxiv.org/abs/2310.12467v1 )

ライセンス: Link先を確認
Etsuko Ishii, Yan Xu, Bryan Wilie, Ziwei Ji, Holy Lovenia, Willy Chung, Pascale Fung(参考訳) 推論,特に帰納的プロセスから派生したものは,話者が暗黙的にあるいは明示的に伝達する情報を補完する上で,会話において重要な要素である。 近年の大規模言語モデルは推論タスクの顕著な進歩を示しているが、帰納的推論におけるそれらの性能は、すべての情報が文脈に存在するわけではない。 本稿では,帰納的推論と帰納的推論を区別する意味情報ギャップによって定義される課題難易度に基づいて,モデルの振る舞いを分析する(Johnson-Laird,1988,1993)。 分析の結果,対話コンテキストと所望の推論の相違が帰納的推論プロセスに重大な課題をもたらすことが明らかとなった。 この情報ギャップを軽減するために, 負のサンプルを給餌することで, 対照的な学習手法を検討する。 我々の実験は、モデルが何が間違っているのかを理解し、推論世代を改善するのに役立つことを示唆している。

Inference, especially those derived from inductive processes, is a crucial component in our conversation to complement the information implicitly or explicitly conveyed by a speaker. While recent large language models show remarkable advances in inference tasks, their performance in inductive reasoning, where not all information is present in the context, is far behind deductive reasoning. In this paper, we analyze the behavior of the models based on the task difficulty defined by the semantic information gap -- which distinguishes inductive and deductive reasoning (Johnson-Laird, 1988, 1993). Our analysis reveals that the disparity in information between dialogue contexts and desired inferences poses a significant challenge to the inductive inference process. To mitigate this information gap, we investigate a contrastive learning approach by feeding negative samples. Our experiments suggest negative samples help models understand what is wrong and improve their inference generations.
翻訳日:2023-10-20 16:58:08 公開日:2023-10-19
# WeedCLR: 長期データセットにおけるクラス最適化損失を用いた視覚表現による雑草コントラスト学習

WeedCLR: Weed Contrastive Learning through Visual Representations with Class-Optimized Loss in Long-Tailed Datasets ( http://arxiv.org/abs/2310.12465v1 )

ライセンス: Link先を確認
Alzayat Saleh, Alex Olsen, Jake Wood, Bronson Philippa and Mostafa Rahimi Azghadi(参考訳) 画像分類は、現代の雑草管理と作物の介入技術において重要な課題である。 しかし、既存の雑草データセットのサイズ、多様性、バランスの制限は、一般化可能な雑草識別のためのディープラーニングモデルの開発を妨げる。 さらに、主流の完全監督型雑草分類器の高価なラベリング要求により、新しい雑草種、およびサイト固有の雑草管理において、広く展開するのに費用と時間的制約がかかる。 本稿では,長期データセットの雑草分類において,深層表現のフォン・ノイマンエントロピーを用いたクラス最適化型損失を用いた,視覚表現(weedclr)による雑草コントラスト学習の新しい手法を提案する。 weedclrは自己教師付き学習を利用して、ラベルなしでリッチで堅牢な視覚特徴を学習し、ロングテールデータセットにおけるクラス不均衡問題に対処するためにクラス最適化の損失関数を適用する。 WeedCLRは15種の雑草を含むCottonWeedID15と8種の雑草を含むDeepWeedsの2つの公開雑草データセットで評価されている。 WeedCLRは、CottonWeedID15で4.3\%、DeepWeedsで5.6\%の平均精度改善を実現している。 また、コストと時間を要する人間のアノテーションを必要とせずに、既存の方法よりも、異なる環境条件に対する一般化能力と堅牢性を示す。 これらの大幅な改善により、WeedCLRは、長い尾のデータセットにおける雑草分類の効果的なツールとなり、サイト固有の雑草管理と作物の介入技術のより迅速かつ広範な展開を可能にした。

Image classification is a crucial task in modern weed management and crop intervention technologies. However, the limited size, diversity, and balance of existing weed datasets hinder the development of deep learning models for generalizable weed identification. In addition, the expensive labelling requirements of mainstream fully-supervised weed classifiers make them cost- and time-prohibitive to deploy widely, for new weed species, and in site-specific weed management. This paper proposes a novel method for Weed Contrastive Learning through visual Representations (WeedCLR), that uses class-optimized loss with Von Neumann Entropy of deep representation for weed classification in long-tailed datasets. WeedCLR leverages self-supervised learning to learn rich and robust visual features without any labels and applies a class-optimized loss function to address the class imbalance problem in long-tailed datasets. WeedCLR is evaluated on two public weed datasets: CottonWeedID15, containing 15 weed species, and DeepWeeds, containing 8 weed species. WeedCLR achieves an average accuracy improvement of 4.3\% on CottonWeedID15 and 5.6\% on DeepWeeds over previous methods. It also demonstrates better generalization ability and robustness to different environmental conditions than existing methods without the need for expensive and time-consuming human annotations. These significant improvements make WeedCLR an effective tool for weed classification in long-tailed datasets and allows for more rapid and widespread deployment of site-specific weed management and crop intervention technologies.
翻訳日:2023-10-20 16:57:50 公開日:2023-10-19
# lidarのパンオプティカルセグメンテーションとベルやホイッスルのないトラッキング

Lidar Panoptic Segmentation and Tracking without Bells and Whistles ( http://arxiv.org/abs/2310.12464v1 )

ライセンス: Link先を確認
Abhinav Agarwalla, Xuhua Huang, Jason Ziglar, Francesco Ferroni, Laura Leal-Taix\'e, James Hays, Aljo\v{s}a O\v{s}ep, Deva Ramanan(参考訳) State-of-the-art lidar panoptic segmentation (LPS)法はボトムアップセグメンテーション中心の手法に従っており、クラスタリングを利用してオブジェクトインスタンスを得る。 本稿では,この手法を再考し,LPSとトラッキングの両方のための驚くほどシンプルで効果的な検出中心ネットワークを提案する。 私たちのネットワークは設計上モジュラーであり、panopticのセグメンテーションとトラッキングタスクの両方に最適化されています。 セグメンテーション中心のデータセットで利用可能なポイントレベル(モダル)アノテーションを使ってトレーニングします。 アモーダル(立方体)アノテーションが欠如している場合には、オクルージョンやライダーデータのスパースな性質により単一のスキャンから推測できない物体サイズに関する情報を提供する軌跡レベルの監視を用いて、モダルセントロイドと対象範囲を回帰する。 我々は,lidar点と検出されたセンタロイドを関連付ける学習により,細粒度のインスタンスセグメントを得る。 提案手法を複数の3D/4D LPSベンチマークで評価し,最近のクエリベースモデルよりも優れたオープンソースのモデルの間に新たな最先端性を確立することを確認する。

State-of-the-art lidar panoptic segmentation (LPS) methods follow bottom-up segmentation-centric fashion wherein they build upon semantic segmentation networks by utilizing clustering to obtain object instances. In this paper, we re-think this approach and propose a surprisingly simple yet effective detection-centric network for both LPS and tracking. Our network is modular by design and optimized for all aspects of both the panoptic segmentation and tracking task. One of the core components of our network is the object instance detection branch, which we train using point-level (modal) annotations, as available in segmentation-centric datasets. In the absence of amodal (cuboid) annotations, we regress modal centroids and object extent using trajectory-level supervision that provides information about object size, which cannot be inferred from single scans due to occlusions and the sparse nature of the lidar data. We obtain fine-grained instance segments by learning to associate lidar points with detected centroids. We evaluate our method on several 3D/4D LPS benchmarks and observe that our model establishes a new state-of-the-art among open-sourced models, outperforming recent query-based models.
翻訳日:2023-10-20 16:57:07 公開日:2023-10-19
# アンマスキング変換器:注意重みによるデータ回復に関する理論的アプローチ

Unmasking Transformers: A Theoretical Approach to Data Recovery via Attention Weights ( http://arxiv.org/abs/2310.12462v1 )

ライセンス: Link先を確認
Yichuan Deng, Zhao Song, Shenghao Xie, Chiwun Yang(参考訳) ディープラーニングの分野では、特に自然言語処理タスクにおいて、トランスフォーマーが支配的なアーキテクチャとして登場した。 しかし、その普及に伴い、これらのモデルによって処理されるデータのセキュリティとプライバシに関する懸念が生じた。 本稿では,トランスフォーマーに供給されるデータは,その注意重みと出力を使って復元できるのだろうか? この問題に取り組むための理論的枠組みを提案する。 具体的には、与えられた注意重みから入力データ$x \in \mathbb{r}^{d \times n}$を回復するアルゴリズムを示す。 $w = qk^\top \in \mathbb{r}^{d \times d}$ と出力$b \in \mathbb{r}^{n \times n}$ は損失関数$l(x)$ を最小化する。 この損失関数は、期待出力とトランスの実際の出力との間の不一致をキャプチャする。 この発見は,セキュリティとプライバシの観点からモデル設計の潜在的な脆弱性を示唆する,Localized Layer-wise Mechanism (LLM) に大きな影響を及ぼす。 この研究は、処理データの機密性を確保するためにトランスフォーマーの内部動作を理解し、保護することの重要性を強調している。

In the realm of deep learning, transformers have emerged as a dominant architecture, particularly in natural language processing tasks. However, with their widespread adoption, concerns regarding the security and privacy of the data processed by these models have arisen. In this paper, we address a pivotal question: Can the data fed into transformers be recovered using their attention weights and outputs? We introduce a theoretical framework to tackle this problem. Specifically, we present an algorithm that aims to recover the input data $X \in \mathbb{R}^{d \times n}$ from given attention weights $W = QK^\top \in \mathbb{R}^{d \times d}$ and output $B \in \mathbb{R}^{n \times n}$ by minimizing the loss function $L(X)$. This loss function captures the discrepancy between the expected output and the actual output of the transformer. Our findings have significant implications for the Localized Layer-wise Mechanism (LLM), suggesting potential vulnerabilities in the model's design from a security and privacy perspective. This work underscores the importance of understanding and safeguarding the internal workings of transformers to ensure the confidentiality of processed data.
翻訳日:2023-10-20 16:56:12 公開日:2023-10-19
# Balanced Group Convolution: 近似可能性推定に基づくグループ畳み込みの改善

Balanced Group Convolution: An Improved Group Convolution Based on Approximability Estimates ( http://arxiv.org/abs/2310.12461v1 )

ライセンス: Link先を確認
Youngkyu Lee, Jongho Park, Chang-Ock Lee(参考訳) 畳み込み層におけるチャネル数の増加により、ニューラルネットワークの性能は大幅に向上している。 しかし、この性能向上は高い計算コストを伴い、それを減らすことに焦点を当てた多くの研究に繋がった。 この問題に対処するための有望なアプローチはグループ畳み込みであり、チャネルをグループ化することで計算コストを効果的に削減する。 しかしながら、我々の知る限りでは、群畳み込みが標準畳み込みをいかにうまく近似するかに関する理論的分析は行われていない。 本稿では,群数に関する標準畳み込みに対する群畳み込みの近似を数学的に解析する。 さらに,より少ない計算コストで高い近似性を示す平衡群畳み込みという,群畳み込みの新たな変種を提案する。 理論的な結果を検証する実験結果を示し, 群畳み込みの他の変種に対して, 平衡群畳み込みの優れた性能を示す。

The performance of neural networks has been significantly improved by increasing the number of channels in convolutional layers. However, this increase in performance comes with a higher computational cost, resulting in numerous studies focused on reducing it. One promising approach to address this issue is group convolution, which effectively reduces the computational cost by grouping channels. However, to the best of our knowledge, there has been no theoretical analysis on how well the group convolution approximates the standard convolution. In this paper, we mathematically analyze the approximation of the group convolution to the standard convolution with respect to the number of groups. Furthermore, we propose a novel variant of the group convolution called balanced group convolution, which shows a higher approximation with a small additional computational cost. We provide experimental results that validate our theoretical findings and demonstrate the superior performance of the balanced group convolution over other variants of group convolution.
翻訳日:2023-10-20 16:55:43 公開日:2023-10-19
# 感情的会話エージェント:期待と個人的影響の理解

Affective Conversational Agents: Understanding Expectations and Personal Influences ( http://arxiv.org/abs/2310.12459v1 )

ライセンス: Link先を確認
Javier Hernandez, Jina Suh, Judith Amores, Kael Rowan, Gonzalo Ramos, and Mary Czerwinski(参考訳) aiの会話エージェントの台頭は、様々な領域にまたがる人間の能力を高める機会を広げた。 これらのエージェントが普及するにつれて、異なる感情能力がパフォーマンスやユーザ体験に与える影響を調べることが重要である。 本研究では,様々なアプリケーションにおける情緒的スキルに対する期待と好みを理解するために,回答者745名を対象に調査を行った。 具体的には、32のシナリオで感情を理解し、反応し、シミュレートできるAIエージェントに関する好みを評価した。 本研究は,人間とのインタラクション,感情支援,創造的タスクなど,感情の再評価や性格特性といった要因の影響を考慮したシナリオの好みを示す。 全体として、AIエージェントの望ましい感情的スキルは、主にアプリケーションのコンテキストと性質に依存し、感情的AI会話エージェントの設計における適応性とコンテキスト認識の必要性を強調している。

The rise of AI conversational agents has broadened opportunities to enhance human capabilities across various domains. As these agents become more prevalent, it is crucial to investigate the impact of different affective abilities on their performance and user experience. In this study, we surveyed 745 respondents to understand the expectations and preferences regarding affective skills in various applications. Specifically, we assessed preferences concerning AI agents that can perceive, respond to, and simulate emotions across 32 distinct scenarios. Our results indicate a preference for scenarios that involve human interaction, emotional support, and creative tasks, with influences from factors such as emotional reappraisal and personality traits. Overall, the desired affective skills in AI agents depend largely on the application's context and nature, emphasizing the need for adaptability and context-awareness in the design of affective AI conversational agents.
翻訳日:2023-10-20 16:55:19 公開日:2023-10-19
# MuseGNN: スケールで解釈可能で収束可能なグラフニューラルネットワーク層

MuseGNN: Interpretable and Convergent Graph Neural Network Layers at Scale ( http://arxiv.org/abs/2310.12457v1 )

ライセンス: Link先を確認
Haitian Jiang, Renjie Liu, Xiao Yan, Zhenkun Cai, Minjie Wang, David Wipf(参考訳) グラフニューラルネットワーク(gnn)アーキテクチャの多くの変種の中で、重要なサブクラスは、フォワードパスがグラフ正規化エネルギー関数を反復的に減少させるように設計された層を含む。 このように、出力層で生成されたノード埋め込みは、ダウンストリームタスク(ノード分類など)を解決するための予測機能と、望ましい帰納バイアスと解釈可能性を引き継ぐエネルギー関数最小化機能の両方を兼ね備えている。 しかし、この方法で構築されたGNNアーキテクチャのスケーリングは、フォワードパスの収束がかなりの深さのモデルを含む可能性があるため、依然として困難である。 この制限に対処するために,特定の設定における収束保証によって導かれる,サンプリングベースエネルギー関数と拡張性のあるGNN層を提案する。 また、これらの設計に基づいて完全なGNNアーキテクチャをインスタンス化し、1TBを超える最大公用ノード分類ベンチマークに適用した場合の競合精度とスケーラビリティを実現する。

Among the many variants of graph neural network (GNN) architectures capable of modeling data with cross-instance relations, an important subclass involves layers designed such that the forward pass iteratively reduces a graph-regularized energy function of interest. In this way, node embeddings produced at the output layer dually serve as both predictive features for solving downstream tasks (e.g., node classification) and energy function minimizers that inherit desirable inductive biases and interpretability. However, scaling GNN architectures constructed in this way remains challenging, in part because the convergence of the forward pass may involve models with considerable depth. To tackle this limitation, we propose a sampling-based energy function and scalable GNN layers that iteratively reduce it, guided by convergence guarantees in certain settings. We also instantiate a full GNN architecture based on these designs, and the model achieves competitive accuracy and scalability when applied to the largest publicly-available node classification benchmark exceeding 1TB in size.
翻訳日:2023-10-20 16:55:03 公開日:2023-10-19
# 事前学習言語モデルのメカニズム理解のための効果的なメトリクス構築の再考

Rethinking the Construction of Effective Metrics for Understanding the Mechanisms of Pretrained Language Models ( http://arxiv.org/abs/2310.12454v1 )

ライセンス: Link先を確認
You Li, Jinhui Yin and Yuming Lin(参考訳) 事前学習された言語モデルは、テキスト内の固有の関係を維持しながら、入力テキストをベクタの集合に効果的にマッピングすることが期待される。 その結果、これらのベクトルに特定の内部関係が存在することを反映したメトリクスを計算するためのホワイトボックスモデルの設計が、事前訓練された言語モデルのポストホック解釈可能性分析の一般的なアプローチとなった。 しかしながら、ホワイトボックスモデルにおける解釈可能性の実現と計量計算の厳密さの確保は、ソースモデルに固有の解釈可能性がない場合に困難となる。 そこで本稿では,このトレードオフのバランスを打つことについて議論し,事前学習された言語モデルのメカニズムを理解するための指標を構築するための新しいラインを提案する。 筆者らは,この調査線に沿った指標群を特に設計し,これらの指標を計算するために使用されるモデルを木トポロジカルプローブと呼ぶ。 これらの測定値を用いてBERT-largeの測定を行った。 実験結果に基づき, bert型事前学習言語モデルの動作機構に関する推測と, トポロジカルプローブを利用して特定のサブモジュールを改善することにより, 微調整性能を向上させる戦略を提案する。

Pretrained language models are expected to effectively map input text to a set of vectors while preserving the inherent relationships within the text. Consequently, designing a white-box model to compute metrics that reflect the presence of specific internal relations in these vectors has become a common approach for post-hoc interpretability analysis of pretrained language models. However, achieving interpretability in white-box models and ensuring the rigor of metric computation becomes challenging when the source model lacks inherent interpretability. Therefore, in this paper, we discuss striking a balance in this trade-off and propose a novel line to constructing metrics for understanding the mechanisms of pretrained language models. We have specifically designed a family of metrics along this line of investigation, and the model used to compute these metrics is referred to as the tree topological probe. We conducted measurements on BERT-large by using these metrics. Based on the experimental results, we propose a speculation regarding the working mechanism of BERT-like pretrained language models, as well as a strategy for enhancing fine-tuning performance by leveraging the topological probe to improve specific submodules.
翻訳日:2023-10-20 16:54:45 公開日:2023-10-19
# SDGym:システムダイナミクスモデルを用いた低コード強化学習環境

SDGym: Low-Code Reinforcement Learning Environments using System Dynamics Models ( http://arxiv.org/abs/2310.12494v1 )

ライセンス: Link先を確認
Emmanuel Klu, Sameer Sethi, DJ Passey and Donald Martin Jr(参考訳) 社会に対するアルゴリズム介入の長期的な影響を理解することは、責任あるAIを達成するために不可欠である。 伝統的な評価戦略は、しばしば社会の複雑で適応的でダイナミックな性質のために不足する。 強化学習(RL)は動的設定における決定を最適化するための強力なアプローチであるが、現実的な環境設計の難しさは、実用的な設定でうまく機能する堅牢なエージェントを構築するための障壁である。 この問題に対処するために,システムダイナミクス(sd)の分野を,協調シミュレーションモデル仕様プラクティスを組み込んだ補完的手法として活用する。 SDシミュレーションモデルに基づくカスタムRL環境の生成を可能にする,OpenAI Gymフレームワーク上に構築されたローコードライブラリであるSDGymを紹介する。 実現可能性調査を通じて、既存のSDモデルと数行の構成コードから、明確に定義されたリッチなRL環境を生成できることを検証する。 本稿では,電気自動車導入問題のSDモデルを用いて,SDGym環境の機能を示す。 我々は,PySDとBPTK-Pyの2つのSDシミュレータを比較し,Acmeフレームワークを用いてD4PGエージェントを訓練し,学習と環境相互作用を示す。 予備的な知見は,RL環境設計を改善するためのSDの2つの可能性と,SDモデル内の動的ポリシー発見を改善するRLの2つの可能性を強調した。 SDGymをオープンソースにすることで、さらなる研究を活性化し、SDおよびRLコミュニティにおける採用を促進することを目的としている。

Understanding the long-term impact of algorithmic interventions on society is vital to achieving responsible AI. Traditional evaluation strategies often fall short due to the complex, adaptive and dynamic nature of society. While reinforcement learning (RL) can be a powerful approach for optimizing decisions in dynamic settings, the difficulty of realistic environment design remains a barrier to building robust agents that perform well in practical settings. To address this issue we tap into the field of system dynamics (SD) as a complementary method that incorporates collaborative simulation model specification practices. We introduce SDGym, a low-code library built on the OpenAI Gym framework which enables the generation of custom RL environments based on SD simulation models. Through a feasibility study we validate that well specified, rich RL environments can be generated from preexisting SD models and a few lines of configuration code. We demonstrate the capabilities of the SDGym environment using an SD model of the electric vehicle adoption problem. We compare two SD simulators, PySD and BPTK-Py for parity, and train a D4PG agent using the Acme framework to showcase learning and environment interaction. Our preliminary findings underscore the dual potential of SD to improve RL environment design and for RL to improve dynamic policy discovery within SD models. By open-sourcing SDGym, the intent is to galvanize further research and promote adoption across the SD and RL communities, thereby catalyzing collaboration in this emerging interdisciplinary space.
翻訳日:2023-10-20 16:48:41 公開日:2023-10-19
# co$^2$pt:反事実的コントラスト的プロンプトチューニングによる事前学習言語モデルのバイアス軽減

Co$^2$PT: Mitigating Bias in Pre-trained Language Models through Counterfactual Contrastive Prompt Tuning ( http://arxiv.org/abs/2310.12490v1 )

ライセンス: Link先を確認
Xiangjue Dong, Ziwei Zhu, Zhuoer Wang, Maria Teleki, James Caverlee(参考訳) 事前訓練された言語モデルは、多くの重要な現実世界のアプリケーションで広く使われている。 しかし、最近の研究では、これらのモデルが大規模な事前学習コーパスからの社会的バイアスを符号化し、下流アプリケーションにおけるバイアスを増幅することができることが示されている。 この課題に対処するために、下流タスクにおける反実的コントラッシブ・プロンプトによるバイアス軽減のための効率的かつ効果的なデバイアス時プロンプトチューニング法であるCo$^2$PTを提案する。 実験は3つの外部バイアス・ベンチマークで行われ、Co$^2$PTがインシデントチューニング過程におけるバイアス軽減効果と既存の上流デバイアス言語モデルへの適応性を示した。 これらの結果は,Co$^2$PTの強度を示し,下流タスクにおけるバイアス軽減のさらなる促進に期待できる道を提供する。

Pre-trained Language Models are widely used in many important real-world applications. However, recent studies show that these models can encode social biases from large pre-training corpora and even amplify biases in downstream applications. To address this challenge, we propose Co$^2$PT, an efficient and effective debias-while-prompt tuning method for mitigating biases via counterfactual contrastive prompt tuning on downstream tasks. Our experiments conducted on three extrinsic bias benchmarks demonstrate the effectiveness of Co$^2$PT on bias mitigation during the prompt tuning process and its adaptability to existing upstream debiased language models. These findings indicate the strength of Co$^2$PT and provide promising avenues for further enhancement in bias mitigation on downstream tasks.
翻訳日:2023-10-20 16:48:14 公開日:2023-10-19
# MedAI Dialog Corpus (MEDIC):医療相談における医師とAI反応のゼロショット分類

MedAI Dialog Corpus (MEDIC): Zero-Shot Classification of Doctor and AI Responses in Health Consultations ( http://arxiv.org/abs/2310.12489v1 )

ライセンス: Link先を確認
Olumide E. Ojo, Olaronke O. Adebanji, Alexander Gelbukh, Hiram Calvo, Anna Feldman(参考訳) ゼロショット分類は、訓練中に見られなかったクラスにテキストの分類を可能にする。 本稿では,ゼロショット学習による健康相談における医師とaiの反応を正確に分類する事前学習言語モデルの有効性について検討する。 本研究の目的は、テキストが特定のコーパストレーニングなしで人間またはAIモデルに由来するかどうかを効果的に検出できるかどうかを判断することである。 実験では、医師から患者の健康に関する質問に対する回答を収集し、AIモデルに同じ質問/回答を提出した。 以上の結果から,事前学習した言語モデルでは言語に対する理解が強かったが,医療相談における医師やAI生成テキストの正確な分類を実現するためには,特定のコーパストレーニングなどの技術が必要である可能性が示唆された。 本研究は, 医用分類タスクにおいて, ゼロショット分類のみに依存する限界を示す。 本研究は、医学テキスト分類分野のさらなる研究の基盤を築き、医療相談における医師およびAI生成テキストを正確に分類するための、より効果的なアプローチの開発を促す。

Zero-shot classification has enabled the classification of text into classes that were not seen during training. In this paper, we investigate the effectiveness of pre-trained language models to accurately classify responses from Doctors and AI in health consultations through zero-shot learning. Our study aims to determine whether these models can effectively detect if a text originates from human or AI models without specific corpus training. For our experiments, we collected responses from doctors to patient inquiries about their health and posed the same question/response to AI models. Our findings revealed that while pre-trained language models demonstrate a strong understanding of language generally, they may require specific corpus training or other techniques to achieve accurate classification of doctor- and AI-generated text in healthcare consultations. As a baseline approach, this study shows the limitations of relying solely on zero-shot classification in medical classification tasks. This research lays the groundwork for further research into the field of medical text classification, informing the development of more effective approaches to accurately classify doctor- and AI-generated text in health consultations.
翻訳日:2023-10-20 16:47:58 公開日:2023-10-19
# 直交注意によるオペレータ学習の改善

Improved Operator Learning by Orthogonal Attention ( http://arxiv.org/abs/2310.12487v1 )

ライセンス: Link先を確認
Zipeng Xiao, Zhongkai Hao, Bokai Lin, Zhijie Deng, Hang Su(参考訳) ニューラルネットワークは、PDEの解を学習するための効率的な代理モデルとして、科学機械学習の分野で広く注目を集めている。 その中でも、注意に基づく神経オペレータは、関連する研究の主流となっている。 しかしながら、既存のアプローチでは注意機構のパラメータがかなり多いため、限られたトレーニングデータに過剰に適合している。 これに対処するために、カーネル積分演算子の固有分解と固有関数のニューラルネットワーク近似に基づく直交注意度を開発する。 直交化は自然に結果として生じる神経演算子に適切な正則化効果をもたらし、オーバーフィッティングや一般化の促進に寄与する。 正規測地と不規則測地の両方からなる6つの標準ニューラル演算子ベンチマークデータセットの実験により、本手法は、競合するベースラインを十分なマージンで上回ることを示す。

Neural operators, as an efficient surrogate model for learning the solutions of PDEs, have received extensive attention in the field of scientific machine learning. Among them, attention-based neural operators have become one of the mainstreams in related research. However, existing approaches overfit the limited training data due to the considerable number of parameters in the attention mechanism. To address this, we develop an orthogonal attention based on the eigendecomposition of the kernel integral operator and the neural approximation of eigenfunctions. The orthogonalization naturally poses a proper regularization effect on the resulting neural operator, which aids in resisting overfitting and boosting generalization. Experiments on six standard neural operator benchmark datasets comprising both regular and irregular geometries show that our method can outperform competing baselines with decent margins.
翻訳日:2023-10-20 16:47:38 公開日:2023-10-19
# 誘電体膜による反動注入によるダイヤモンド中の色中心の創製

Creation of color centers in diamond by recoil implantation through dielectric films ( http://arxiv.org/abs/2310.12484v1 )

ライセンス: Link先を確認
Yuyang Han, Christian Pederson, Bethany E. Matthews, Nicholas S. Yama, Maxwell F. Parsons, Kai-Mei C. Fu(参考訳) 量子技術のためのダイヤモンドの地表に近い色中心の必要性は、結晶格子に特定の外部不純物のドーピングを制御する動機となる。 近年の研究では、これはイオン照射による表面前駆体からの運動量移動によって実現可能であることが示されている。 ここでは、この技術を拡張し、窒素空孔(NV)とシリコン空孔(SiV)をダイヤモンドに形成するための誘電体前駆体を組み込む。 具体的には, ダイヤモンド表面の窒化ケイ素や二酸化ケイ素の薄い層へのガリウム集電ビーム露光により, 外部不純物と炭素空孔の両方が導入された。 これらの欠陥はその後、アニール後に好ましい光学特性を持つ表面近傍のNVとSiV中心を引き起こす。

The need of near-surface color centers in diamond for quantum technologies motivates the controlled doping of specific extrinsic impurities into the crystal lattice. Recent experiments have shown that this can be achieved by momentum transfer from a surface precursor via ion irradiation, an approach known as ``recoil implantation.'' Here, we extend this technique to incorporate dielectric precursors for creating nitrogen-vacancy (NV) and silicon-vacancy (SiV) centers in diamond. Specifically, we demonstrate that gallium focused-ion-beam exposure to a thin layer of silicon nitride or silicon dioxide on the diamond surface results in the introduction of both extrinsic impurities and carbon vacancies. These defects subsequently give rise to near-surface NV and SiV centers with desirable optical properties after annealing.
翻訳日:2023-10-20 16:47:24 公開日:2023-10-19
# すべての国が感謝祭を祝うわけではない:大規模言語モデルにおける文化的支配について

Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models ( http://arxiv.org/abs/2310.12481v1 )

ライセンス: Link先を確認
Wenxuan Wang, Wenxiang Jiao, Jingyuan Huang, Ruyi Dai, Jen-tse Huang, Zhaopeng Tu, Michael R. Lyu(参考訳) 本稿では,大規模言語モデル(llm)において,モデル学習における英語データの利用が主であり,文化的な支配的な問題を明らかにする。 LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。 文化的優越問題を体系的に評価するために,具体的(祝日や歌など)と抽象的(価値観や意見など)の文化的対象からなるベンチマークを構築した。 その結果, GPT-4が最も影響を受けやすいのに対して, テキストダヴィンチ003は最も影響を受けにくい文化支配問題に代表される GPT モデルが悩まされていることがわかった。 本研究は,文化支配の批判的考察と,その発達と展開における倫理的考察の必要性を強調する。 モデル開発における2つの簡単な方法(例えば、より多様なデータへの事前学習)と配置(例えば文化認識プロンプト)は、llmの文化的支配問題を著しく軽減する。

In this paper, we identify a cultural dominance issue within large language models (LLMs) due to the predominant use of English data in model training (e.g. ChatGPT). LLMs often provide inappropriate English-culture-related answers that are not relevant to the expected culture when users ask in non-English languages. To systematically evaluate the cultural dominance issue, we build a benchmark that consists of both concrete (e.g. holidays and songs) and abstract (e.g. values and opinions) cultural objects. Empirical results show that the representative GPT models suffer from the culture dominance problem, where GPT-4 is the most affected while text-davinci-003 suffers the least from this problem. Our study emphasizes the need for critical examination of cultural dominance and ethical consideration in their development and deployment. We show two straightforward methods in model development (i.e. pretraining on more diverse data) and deployment (e.g. culture-aware prompting) can significantly mitigate the cultural dominance issue in LLMs.
翻訳日:2023-10-20 16:47:09 公開日:2023-10-19
# grape-s: 複数サービス集団のリアルタイム連立形成

GRAPE-S: Near Real-Time Coalition Formation for Multiple Service Collectives ( http://arxiv.org/abs/2310.12480v1 )

ライセンス: Link先を確認
Grace Diehl and Julie A. Adams(参考訳) 軍事・災害対応アプリケーションのためのロボット集合体は、ロボットを適切なタスクチームに分割する連立アルゴリズムを必要とする。 集団の任務は、しばしば複数の高度なロボットの行動やサービスを必要とするタスクを組み込む。 高度に動的で非構造化されたアプリケーションドメインはまた、連立形成アルゴリズムが、非常に大きな集団(すなわち数百のロボット)を持つほぼリアルタイム(すなわち5分)に、ほぼ最適な解(95%ユーティリティ)を生成する必要がある。 以前の連立形成アルゴリズムはこれらの要件を満たすものではない。 最初の評価では、従来のオークションベースのアルゴリズムのランタイムが長すぎることが判明した。 ヘドニックゲームベースのGRAPEアルゴリズムは、ほぼリアルタイムでソリューションを生成できるが、複数のサービス集合に適用することはできない。 GRAPEとサービスモデルを統合し、GRAPE-SとPair-GRAPE-Sを生成する。 これらのアルゴリズムと2つのオークションベースラインを、最大1000台のロボットによる集中型シミュレータを用いて評価し、最大500台のロボットによる評価をシミュレートした。 評価の結果、オークションは分散集団にはあまり移行せず、過度なランタイムと低いユーティリティソリューションを生み出している。 GRAPE-Sは、ターゲット領域の連立要求を満たし、ほぼリアルタイムでほぼ最適解を生成し、Pair-GRAPE-Sはドメイン要求を満足し、ほぼリアルタイムで最適な解を生成する。 GRAPE-SとPair-GRAPE-Sは、複数のサービスを持つ非常に大規模な分散集団に対して、リアルタイムに近い連立形成をサポートする最初のアルゴリズムである。

Robotic collectives for military and disaster response applications require coalition formation algorithms to partition robots into appropriate task teams. Collectives' missions will often incorporate tasks that require multiple high-level robot behaviors or services, which coalition formation must accommodate. The highly dynamic and unstructured application domains also necessitate that coalition formation algorithms produce near optimal solutions (i.e., >95% utility) in near real-time (i.e., <5 minutes) with very large collectives (i.e., hundreds of robots). No previous coalition formation algorithm satisfies these requirements. An initial evaluation found that traditional auction-based algorithms' runtimes are too long, even though the centralized simulator incorporated ideal conditions unlikely to occur in real-world deployments (i.e., synchronization across robots and perfect, instantaneous communication). The hedonic game-based GRAPE algorithm can produce solutions in near real-time, but cannot be applied to multiple service collectives. This manuscript integrates GRAPE and a services model, producing GRAPE-S and Pair-GRAPE-S. These algorithms and two auction baselines were evaluated using a centralized simulator with up to 1000 robots, and via the largest distributed coalition formation simulated evaluation to date, with up to 500 robots. The evaluations demonstrate that auctions transfer poorly to distributed collectives, resulting in excessive runtimes and low utility solutions. GRAPE-S satisfies the target domains' coalition formation requirements, producing near optimal solutions in near real-time, and Pair-GRAPE-S more than satisfies the domain requirements, producing optimal solutions in near real-time. GRAPE-S and Pair-GRAPE-S are the first algorithms demonstrated to support near real-time coalition formation for very large, distributed collectives with multiple services.
翻訳日:2023-10-20 16:46:52 公開日:2023-10-19
# 音声言語モデルのための文脈内学習の検討

An Exploration of In-Context Learning for Speech Language Model ( http://arxiv.org/abs/2310.12477v1 )

ライセンス: Link先を確認
Ming-Hao Hsu, Kai-Wei Chang, Shang-Wen Li, Hung-yi Lee(参考訳) 自然言語処理(NLP)分野におけるGPT-3の開発以来、インコンテキスト学習(ICL)は大規模言語モデル(LLM)の利用において重要な役割を果たしてきた。 入力にLM発声ラベルのデモンストレーションを提示することにより、LMは勾配降下やパラメータの明示的な修正を必要とせずに、数発の学習を達成できる。 これにより、LMはブラックボックス方式で学習し、適応することができる。 NLP における ICL の成功にもかかわらず,音声処理における ICL の可能性を探る研究はほとんどない。 本研究は,テキストの監督を伴わない音声によるICLの最初の探索を提案する。 まず,現在の音声 LM には ICL 機能がないことを示す。 提案したウォームアップトレーニングにより、LMは見えないタスクに対してICLを実行することができる。 本研究では,音声分類タスクにおける音声lmに対するiclの有効性を検証する。

Ever since the development of GPT-3 in the natural language processing (NLP) field, in-context learning (ICL) has played an important role in utilizing large language models (LLMs). By presenting the LM utterance-label demonstrations at the input, the LM can accomplish few-shot learning without relying on gradient descent or requiring explicit modification of its parameters. This enables the LM to learn and adapt in a black-box manner. Despite the success of ICL in NLP, little work is exploring the possibility of ICL in speech processing. This study proposes the first exploration of ICL with a speech LM without text supervision. We first show that the current speech LM does not have the ICL capability. With the proposed warmup training, the speech LM can, therefore, perform ICL on unseen tasks. In this work, we verify the feasibility of ICL for speech LM on speech classification tasks.
翻訳日:2023-10-20 16:46:19 公開日:2023-10-19
# 画素ワイドグレーディエントクリッピングによる高分解能3次元生成の促進

Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping ( http://arxiv.org/abs/2310.12474v1 )

ライセンス: Link先を確認
Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang(参考訳) 高解像度の3Dオブジェクト生成は、主に包括的な注釈付きトレーニングデータの可用性が限られているため、依然として難しい課題である。 最近の進歩は、Score Distillation Sampling (SDS)のような知識伝達技術を用いて、広範囲のキュレートされたWebデータセットで事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。 高分解能レンダリングの要求に効率的に対処するためには、しばしば潜伏拡散モデル(ldm)のような潜伏表現ベースのモデルを採用する必要がある。 このフレームワークでは、個々の画像画素の勾配を計算するには、LCMで使用されるVAEエンコーダのような画像モデルの凍ったコンポーネントを通して、指定された潜在空間から勾配をバックプロパゲートする必要がある。 しかし、この勾配伝播経路は最適化されておらず、訓練中は制御されていない。 画像生成モデルからテクスチャ関連情報を取得する際に,非規制勾配が3次元モデルの能力に悪影響を及ぼすことが判明した。 そこで本研究では,既存の3次元生成モデルへのシームレスな統合を実現するため,画素方向勾配クリッピング (pgc) と呼ばれる革新的な操作を提案する。 具体的には,ピクセル毎の勾配を効率的にクリップし,テクスチャ関連勾配方向を維持しながら,確率的勾配の大きさを制御する。 このシンプルさと最小限の余剰コストにもかかわらず、高解像度オブジェクトレンダリングのための既存の3次元生成モデルの性能向上にPGCの有効性を実証する広範な実験を行った。

High-resolution 3D object generation remains a challenging task primarily due to the limited availability of comprehensive annotated training data. Recent advancements have aimed to overcome this constraint by harnessing image generative models, pretrained on extensive curated web datasets, using knowledge transfer techniques like Score Distillation Sampling (SDS). Efficiently addressing the requirements of high-resolution rendering often necessitates the adoption of latent representation-based models, such as the Latent Diffusion Model (LDM). In this framework, a significant challenge arises: To compute gradients for individual image pixels, it is necessary to backpropagate gradients from the designated latent space through the frozen components of the image model, such as the VAE encoder used within LDM. However, this gradient propagation pathway has never been optimized, remaining uncontrolled during training. We find that the unregulated gradients adversely affect the 3D model's capacity in acquiring texture-related information from the image generative model, leading to poor quality appearance synthesis. To address this overarching challenge, we propose an innovative operation termed Pixel-wise Gradient Clipping (PGC) designed for seamless integration into existing 3D generative models, thereby enhancing their synthesis quality. Specifically, we control the magnitude of stochastic gradients by clipping the pixel-wise gradients efficiently, while preserving crucial texture-related gradient directions. Despite this simplicity and minimal extra cost, extensive experiments demonstrate the efficacy of our PGC in enhancing the performance of existing 3D generative models for high-resolution object rendering.
翻訳日:2023-10-20 16:46:07 公開日:2023-10-19
# 単一低ジッタ超伝導ナノワイヤ検出器の超高分解能タイミングによる光子数解法

Resolving Photon Numbers Using Ultra-High-Resolution Timing of a Single Low-Jitter Superconducting Nanowire Detector ( http://arxiv.org/abs/2310.12472v1 )

ライセンス: Link先を確認
Gregor Sauer, Mirco Kolarczik, Rodrigo Gomez, Johanna Conrad, and Fabian Steinlechner(参考訳) 光子数分解(PNR)検出器は光量子情報処理において重要な技術である。 本稿では, 従来の超伝導ナノワイヤ単光子検出器のPNR容量を, 検出器発生パルスの超高分解能時間タギングにより実証する。 この方法は、高い検出効率と高い操作繰り返し率でPNRに実行可能なアプローチを提供する。 本稿では,通信用CバンドにおけるPNR検出器の実装とその特性について,波長調整可能なコヒーレント光の光子数統計値を用いて検討する。 さらに,非古典状態の光子数相関を測定することで,検出手法の能力を示す。

Photon-number-resolving (PNR) detectors are a key enabling technology in photonic quantum information processing. Here, we demonstrate the PNR capacity of conventional superconducting nanowire single-photon detectors by performing ultra-high-resolution time-tagging of the detector-generated electrical pulses. This method provides a viable approach for PNR with high detection efficiency and a high operational repetition rate. We present the implementation of such a PNR detector in the telecom C-band and its characterization by measuring the photon-number statistics of coherent light with tunable intensity. Additionally, we demonstrate the capabilities of the detection method by measuring photon-number correlations of non-classical states.
翻訳日:2023-10-20 16:45:40 公開日:2023-10-19
# ツイート中の植物の健康リスクモニタリングのための名前付きエンティティ認識:ChouBERTアプローチ

Named Entity Recognition for Monitoring Plant Health Threats in Tweets: a ChouBERT Approach ( http://arxiv.org/abs/2310.12522v1 )

ライセンス: Link先を確認
Shufan Jiang (CRESTIC, ISEP), Rafael Angarita (ISEP), St\'ephane Cormier (CRESTIC), Francis Rousseaux (CRESTIC)(参考訳) 精密農業の重要な応用シナリオは、センサとデータ分析技術を使って作物の健康の脅威を検出し測定することである。 しかしながら、ラベル付きデータやきめ細かなセマンティックリソースがないため、既存のソリューションの中ではまだテキストデータは未検討のままである。 最近の研究では、農家のコネクティビティの増大とオンライン農業コミュニティの出現により、twitterのようなソーシャルメディアは、非構造化テキストデータから本質的な情報を抽出できれば、不慣れな植物健康事象を検出するための参加プラットフォームになっていることが示唆されている。 ChouBERTはフランスの事前訓練型言語モデルで、植物健康問題に対する観察に関するつぶやきを特定できる。 本稿では,小さなラベル付き集合上でのトークンレベルのアノテーションタスクに関するChouBERTのノウハウをさらに研究することによって,ラベル付きデータの欠如に対処する。

An important application scenario of precision agriculture is detecting and measuring crop health threats using sensors and data analysis techniques. However, the textual data are still under-explored among the existing solutions due to the lack of labelled data and fine-grained semantic resources. Recent research suggests that the increasing connectivity of farmers and the emergence of online farming communities make social media like Twitter a participatory platform for detecting unfamiliar plant health events if we can extract essential information from unstructured textual data. ChouBERT is a French pre-trained language model that can identify Tweets concerning observations of plant health issues with generalizability on unseen natural hazards. This paper tackles the lack of labelled data by further studying ChouBERT's know-how on token-level annotation tasks over small labeled sets.
翻訳日:2023-10-20 16:37:28 公開日:2023-10-19
# Lost in Translation: GPT-4V(ision)はテキストで視線を見ることができない。 VLLMのビジョン・ランゲージ・コンシステンシー解析

Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond ( http://arxiv.org/abs/2310.12520v1 )

ライセンス: Link先を確認
Xiang Zhang, Senyu Li, Zijun Wu, Ning Shi(参考訳) マルチモーダル技術の最近の進歩は、テキスト、オーディオ、画像処理を含む様々なタスクに優れたモデルにエキサイティングな可能性を開く。 GPT-4V、コンピュータビジョンと言語モデリングを融合したモデルでは、複雑なテキストや画像タスクが優れている。 多くの先行研究が、オブジェクト検出、画像キャプションなどのタスクでこれらの視覚大言語モデル(VLLM)の性能を精力的に調査している。 しかしながら、これらの分析は、しばしばそれぞれのモダリティのパフォーマンスを独立して評価することに焦点を当て、その相互モダリティ相互作用に対する洞察を欠いている。 具体的には、これらの視覚言語モデルが連続的あるいは独立的に視覚と言語タスクを実行するかどうかに関する疑問は未解決のままである。 本研究では,近年の多言語主義研究からインスピレーションを得て,モデル間の相互作用を包括的に分析する。 マルチモーダル設定における異なるモーダル間の能力格差を定量化し,これらの評価のために設計されたデータセットセットを提供する。 その結果, GPT-4V のようなモデルでは, タスクが比較的単純である場合, 一定のモダリティが得られやすいことがわかった。 しかしながら、ビジョンモダリティに由来する結果の信頼性は、タスクがより困難になるにつれて低下する。 そこで本研究では,視覚関連課題におけるパフォーマンスを効果的に向上させる「視覚記述プロンプト」を提案する。

Recent advancements in multimodal techniques open exciting possibilities for models excelling in diverse tasks involving text, audio, and image processing. Models like GPT-4V, blending computer vision and language modeling, excel in complex text and image tasks. Numerous prior research endeavors have diligently examined the performance of these Vision Large Language Models (VLLMs) across tasks like object detection, image captioning and others. However, these analyses often focus on evaluating the performance of each modality in isolation, lacking insights into their cross-modal interactions. Specifically, questions concerning whether these vision-language models execute vision and language tasks consistently or independently have remained unanswered. In this study, we draw inspiration from recent investigations into multilingualism and conduct a comprehensive analysis of model's cross-modal interactions. We introduce a systematic framework that quantifies the capability disparities between different modalities in the multi-modal setting and provide a set of datasets designed for these evaluations. Our findings reveal that models like GPT-4V tend to perform consistently modalities when the tasks are relatively simple. However, the trustworthiness of results derived from the vision modality diminishes as the tasks become more challenging. Expanding on our findings, we introduce "Vision Description Prompting," a method that effectively improves performance in challenging vision-related tasks.
翻訳日:2023-10-20 16:37:08 公開日:2023-10-19
# トランスファーブル・アタックによる大規模言語モデルの自動幻覚評価

Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks ( http://arxiv.org/abs/2310.12516v1 )

ライセンス: Link先を確認
Xiaodong Yu, Hao Cheng, Xiaodong Liu, Dan Roth, Jianfeng Gao(参考訳) 大規模な言語モデル(LLM)の幻覚を命令調律と検索拡張を用いて防止することは目覚ましいが、多くのタスクやドメインで利用できない、データ漏洩に悩まされるような人為的な評価データを用いて、LLMの信頼性を測定することは依然として困難である。 本稿では,LLMが忠実に振る舞う既存のデータを適切に修正して評価データを自動的に生成する手法を開発することを目的とする。 具体的には,プロンプトチェーンを使用して,質問応答例の形で転送可能な敵攻撃を生成する,llmベースのフレームワークであるautodebugを提案する。 これらの例がLLMの幻覚行動を引き起こす程度について理解を深める。 我々はChatGPTを用いてAutoDebugを実装し、様々なプロンプト設定の下でオープンソースおよびプロプライエタリなLCMのコレクション上で、人気のあるオープンドメイン質問応答データセットであるNatural Questions (NQ) の2つの変種を評価する。 我々の生成した評価データは、人間が読めるものであり、私たちが示すように、人間がこれらの修正された質問に答えることができる。 しかし, GPT-4を含む複数のLDMの精度低下は顕著である。 実験結果から, LLMは, 1)プロンプトに与えられた知識とパラメトリックな知識との間に矛盾がある,(2)プロンプトに表される知識が複雑である,という2つのカテゴリに幻覚する可能性が示唆された。 最後に,本手法で生成した逆例は,LLMのすべてに対して転送可能であることを示す。 小さなモデルによって生成された例は、はるかに大きなモデルをデバッグするために使用することができ、我々のアプローチはコスト効率が良い。

Although remarkable progress has been achieved in preventing large language model (LLM) hallucinations using instruction tuning and retrieval augmentation, it remains challenging to measure the reliability of LLMs using human-crafted evaluation data which is not available for many tasks and domains and could suffer from data leakage. Inspired by adversarial machine learning, this paper aims to develop a method of automatically generating evaluation data by appropriately modifying existing data on which LLMs behave faithfully. Specifically, this paper presents AutoDebug, an LLM-based framework to use prompting chaining to generate transferable adversarial attacks in the form of question-answering examples. We seek to understand the extent to which these examples trigger the hallucination behaviors of LLMs. We implement AutoDebug using ChatGPT and evaluate the resulting two variants of a popular open-domain question-answering dataset, Natural Questions (NQ), on a collection of open-source and proprietary LLMs under various prompting settings. Our generated evaluation data is human-readable and, as we show, humans can answer these modified questions well. Nevertheless, we observe pronounced accuracy drops across multiple LLMs including GPT-4. Our experimental results show that LLMs are likely to hallucinate in two categories of question-answering scenarios where (1) there are conflicts between knowledge given in the prompt and their parametric knowledge, or (2) the knowledge expressed in the prompt is complex. Finally, we find that the adversarial examples generated by our method are transferable across all considered LLMs. The examples generated by a small model can be used to debug a much larger model, making our approach cost-effective.
翻訳日:2023-10-20 16:36:46 公開日:2023-10-19
# WeaveNetによる双方向マッチング問題の近似

WeaveNet for Approximating Two-sided Matching Problems ( http://arxiv.org/abs/2310.12515v1 )

ライセンス: Link先を確認
Shusaku Sone, Jiaxin Ma, Atsushi Hashimoto, Naoya Chiba, Yoshitaka Ushiku(参考訳) 制約の下で限られた資源を最適に割り当てるタスクであるマッチングは、社会の基本的な技術である。 このタスクには様々な目的、条件、制約がある可能性があるが、マッチングのための効率的なニューラルネットワークアーキテクチャは過小評価されている。 本稿では,2部グラフ用に設計された新しいグラフニューラルネットワークである \textit{weavenet}を提案する。 双部グラフは一般に密度が高いため、GNNアーキテクチャは深く積み重ねられた場合、過剰なスムーシングによってノードワイズ情報を失う。 このような現象は一致する問題を解くには望ましくない。 WeaveNetは、エッジワイズ情報を保存し、メッセージを密に渡してよりよいソリューションに到達することで、それを回避する。 このモデルを評価するために, NP-hard} 問題の1つ, \textit{fair stable matching} を近似した。 その本質的な困難さとネットワークの汎用設計にもかかわらず、我々のモデルは少数のエージェントの安定したマッチングのために特別に設計された最先端アルゴリズムと比較性能に到達した。

Matching, a task to optimally assign limited resources under constraints, is a fundamental technology for society. The task potentially has various objectives, conditions, and constraints; however, the efficient neural network architecture for matching is underexplored. This paper proposes a novel graph neural network (GNN), \textit{WeaveNet}, designed for bipartite graphs. Since a bipartite graph is generally dense, general GNN architectures lose node-wise information by over-smoothing when deeply stacked. Such a phenomenon is undesirable for solving matching problems. WeaveNet avoids it by preserving edge-wise information while passing messages densely to reach a better solution. To evaluate the model, we approximated one of the \textit{strongly NP-hard} problems, \textit{fair stable matching}. Despite its inherent difficulties and the network's general purpose design, our model reached a comparative performance with state-of-the-art algorithms specially designed for stable matching for small numbers of agents.
翻訳日:2023-10-20 16:36:17 公開日:2023-10-19
# 1+1次元における$O(3)$モデルの連続変数量子計算

Continuous variable quantum computation of the $O(3)$ model in 1+1 dimensions ( http://arxiv.org/abs/2310.12512v1 )

ライセンス: Link先を確認
Raghav G. Jha, Felix Ringer, George Siopsis, Shane Thompson(参考訳) 単位球面に制限された3成分スカラー場の理論の極限として、1+1次元で $o(3)$ 非線形シグマモデルを定式化する。 これにより、量子コンピューティングに対する連続変数(CV)アプローチの観点からモデルを記述することができる。 我々は,結合クラスター ansatz を用いて基底状態と励起状態を構築し,少数の格子点に対する正確な対角化結果に優れた一致を求める。 次に,CVゲートを用いたモデルの時間発展のためのシミュレーションプロトコルを提案し,フォトニック量子シミュレータを用いて数値計算結果を得る。 この研究で開発された手法は、シグマモデルやゲージ理論の幅広いクラスに対する興味深いダイナミクスの探索や、今後数十年間で量子ハードウェア上での散乱イベントのシミュレーションに有用であると期待されている。

We formulate the $O(3)$ non-linear sigma model in 1+1 dimensions as a limit of a three-component scalar field theory restricted to the unit sphere in the large squeezing limit. This allows us to describe the model in terms of the continuous variable (CV) approach to quantum computing. We construct the ground state and excited states using the coupled-cluster Ansatz and find excellent agreement with the exact diagonalization results for a small number of lattice sites. We then present the simulation protocol for the time evolution of the model using CV gates and obtain numerical results using a photonic quantum simulator. We expect that the methods developed in this work will be useful for exploring interesting dynamics for a wide class of sigma models and gauge theories, as well as for simulating scattering events on quantum hardware in the coming decades.
翻訳日:2023-10-20 16:35:58 公開日:2023-10-19
# 葉病分類のための機械学習 : データ, 技術, 応用

Machine Learning for Leaf Disease Classification: Data, Techniques and Applications ( http://arxiv.org/abs/2310.12509v1 )

ライセンス: Link先を確認
Jianping Yao and Son N. Tran and Samantha Sawyer and Saurabh Garg(参考訳) 持続可能な開発に対する需要が高まり、農業生産を支援する一連の情報技術がもたらされる。 特に、人工知能の分野である機械学習応用の出現は、植物病理学のアプローチを強化し、革新する複数のブレークスルーを示している。 近年、機械学習は学術研究と産業応用の両方において葉病分類に採用されている。 したがって、研究者、エンジニア、マネージャ、起業家にとって、最近の機械学習技術の発展とリーフ病検出への応用に関する包括的な見解を持つことは、非常に有益である。 この研究は、データ、技術、アプリケーションを含むトピックのさまざまな側面に関する調査を提供する。 論文は、公開データセットから始まる。 その後、従来の(浅層)学習、ディープラーニング、強化学習など、一般的な機械学習テクニックを要約する。 最後に,関連アプリケーションについて考察する。 本稿では,スマート農業における機械学習の今後の研究や応用,特に葉病の分類に有用な資源を提供する。

The growing demand for sustainable development brings a series of information technologies to help agriculture production. Especially, the emergence of machine learning applications, a branch of artificial intelligence, has shown multiple breakthroughs which can enhance and revolutionize plant pathology approaches. In recent years, machine learning has been adopted for leaf disease classification in both academic research and industrial applications. Therefore, it is enormously beneficial for researchers, engineers, managers, and entrepreneurs to have a comprehensive view about the recent development of machine learning technologies and applications for leaf disease detection. This study will provide a survey in different aspects of the topic including data, techniques, and applications. The paper will start with publicly available datasets. After that, we summarize common machine learning techniques, including traditional (shallow) learning, deep learning, and augmented learning. Finally, we discuss related applications. This paper would provide useful resources for future study and application of machine learning for smart agriculture in general and leaf disease classification in particular.
翻訳日:2023-10-20 16:35:46 公開日:2023-10-19
# SalUn: 画像分類と生成の両方において、グラディエントベースのウェイトサリエンシによる機械学習の強化

SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation ( http://arxiv.org/abs/2310.12508v1 )

ライセンス: Link先を確認
Chongyu Fan, Jiancheng Liu, Yihua Zhang, Dennis Wei, Eric Wong, Sijia Liu(参考訳) データレギュレーションの進化に伴い、マシンアンラーニング(MU)は、今日のAIモデルの信頼性と安全性を促進する重要なツールとなっている。 しかし、データおよび/またはウェイトパースペクティブに焦点を当てた既存のMUメソッドは、未学習の精度、安定性、ドメイン間の適用性の制限に悩まされることが多い。 これらの課題に対処するために、モデル説明における入力塩分と並行して、muにおける「重量塩分」の概念を導入する。 この革新はMUの注意をモデル全体よりも特定のモデルウェイトに向け、効率と効率を改善します。 saliency unlearning (salun)と呼ぶ結果、パフォーマンスのギャップを"exact"アンラーニング(忘れたデータセットを取り除いた後にゼロからリトレーニングする)で狭めます。 私たちの知る限り、SalUnは、画像分類と生成の両方において、データ、クラス、概念を忘れることの影響を効果的に消すのに十分な適応性を持つ最初の原則である。 例えば、SalUnは、CIFAR-10データセットの正確なアンラーニングに比べて0.2%の差で、高分散乱数データの忘れにおいて安定性の優位性をもたらす。 さらに、条件付き拡散モデルが有害な画像を生成するのを防ぐために、SalUnは100%近い未学習の精度を達成し、時代遅れの安定拡散やForget-Me-Notのような最先端のベースラインを上回っている。

With evolving data regulations, machine unlearning (MU) has become an important tool for fostering trust and safety in today's AI models. However, existing MU methods focusing on data and/or weight perspectives often grapple with limitations in unlearning accuracy, stability, and cross-domain applicability. To address these challenges, we introduce the concept of 'weight saliency' in MU, drawing parallels with input saliency in model explanation. This innovation directs MU's attention toward specific model weights rather than the entire model, improving effectiveness and efficiency. The resultant method that we call saliency unlearning (SalUn) narrows the performance gap with 'exact' unlearning (model retraining from scratch after removing the forgetting dataset). To the best of our knowledge, SalUn is the first principled MU approach adaptable enough to effectively erase the influence of forgetting data, classes, or concepts in both image classification and generation. For example, SalUn yields a stability advantage in high-variance random data forgetting, e.g., with a 0.2% gap compared to exact unlearning on the CIFAR-10 dataset. Moreover, in preventing conditional diffusion models from generating harmful images, SalUn achieves nearly 100% unlearning accuracy, outperforming current state-of-the-art baselines like Erased Stable Diffusion and Forget-Me-Not.
翻訳日:2023-10-20 16:35:30 公開日:2023-10-19
# Red Teaming と Defending Large Language Models のためのアタックプロンプト生成

Attack Prompt Generation for Red Teaming and Defending Large Language Models ( http://arxiv.org/abs/2310.12505v1 )

ライセンス: Link先を確認
Boyi Deng, Wenjie Wang, Fuli Feng, Yang Deng, Qifan Wang, Xiangnan He(参考訳) 大規模言語モデル(LLM)は、有害なコンテンツを生成するためにLSMを誘導するレッド・チームによる攻撃を受けやすい。 従来の研究では、手動または自動的な方法による攻撃プロンプトがあり、建設コストと品質に独自の制限がある。 これらの課題に対処するために,手動と自動の手法を組み合わせて高品質な攻撃プロンプトを経済的に生成する統合アプローチを提案する。 具体的には,新たに出現したllmの印象的な能力を考慮して,文脈内学習による人間生成プロンプトの模倣をllmに指示する攻撃フレームワークを提案する。 さらに,攻撃フレームワークとの反復的な相互作用を通じて被害者のLLMを微調整し,レッドチーム攻撃に対する安全性を高める防衛フレームワークを提案する。 異なるLLMに対する広範囲な実験により,提案した攻撃および防御フレームワークの有効性が検証された。 さらに,SAPと命名された一連の攻撃プロンプトデータセットをさまざまなサイズでリリースし,安全性の評価とさらなるLLMの強化を容易にする。 私たちのコードとデータセットはhttps://github.com/aatrox103/sapで利用可能です。

Large language models (LLMs) are susceptible to red teaming attacks, which can induce LLMs to generate harmful content. Previous research constructs attack prompts via manual or automatic methods, which have their own limitations on construction cost and quality. To address these issues, we propose an integrated approach that combines manual and automatic methods to economically generate high-quality attack prompts. Specifically, considering the impressive capabilities of newly emerged LLMs, we propose an attack framework to instruct LLMs to mimic human-generated prompts through in-context learning. Furthermore, we propose a defense framework that fine-tunes victim LLMs through iterative interactions with the attack framework to enhance their safety against red teaming attacks. Extensive experiments on different LLMs validate the effectiveness of our proposed attack and defense frameworks. Additionally, we release a series of attack prompts datasets named SAP with varying sizes, facilitating the safety evaluation and enhancement of more LLMs. Our code and dataset is available on https://github.com/Aatrox103/SAP .
翻訳日:2023-10-20 16:34:59 公開日:2023-10-19
# 自己注意gruとshapley値解釈を用いたアメリカのオプション価格設定

American Option Pricing using Self-Attention GRU and Shapley Value Interpretation ( http://arxiv.org/abs/2310.12500v1 )

ライセンス: Link先を確認
Yanhui Shen(参考訳) オプションは重要な金融手段であり、投資家が証券市場における投資リスクを管理し緩和するために使われる。 オプションの現在の価格を正確に予測することで、投資家は情報と効率的な意思決定ができる。 本稿では,ゲートリカレントユニット(GRU)と自己保持機構に基づいて,SPY(ETF)オプションの価格を予測するための機械学習手法を提案する。 まず、成熟度基準に従って、生データセットを15のサブセットに分けました。 各サブセットについて、対応する米国国債レートとインプリッド・ボラティリティ指数とを一致させた。 このセグメンテーションによって、リスクフリー率とオプション価格に対するボラティリティの影響について、より洞察深い調査が可能になる。 次に、従来の二項モデルと比較して、多層パーセプトロン(MLP)、長期記憶(LSTM)、自己アテンションLSTM、自己アテンションGRUの4つの異なる機械学習モデルを構築した。 その結果,歴史データに埋め込まれた文脈情報を活用することで,時間依存の複雑な情報を取り込む能力が他のモデルよりも優れていることがわかった。 最後に,人工知能の「ブラックボックス」を明らかにするために,shapley additive explanations (shap) 法を用いて,自己拘束型grモデルの予測結果を歴史的データで解釈・分析した。 これは、アメリカンスタイルオプションの価格設定における異なる入力特徴の重要性とコントリビューションに関する洞察を提供する。

Options, serving as a crucial financial instrument, are used by investors to manage and mitigate their investment risks within the securities market. Precisely predicting the present price of an option enables investors to make informed and efficient decisions. In this paper, we propose a machine learning method for forecasting the prices of SPY (ETF) option based on gated recurrent unit (GRU) and self-attention mechanism. We first partitioned the raw dataset into 15 subsets according to moneyness and days to maturity criteria. For each subset, we matched the corresponding U.S. government bond rates and Implied Volatility Indices. This segmentation allows for a more insightful exploration of the impacts of risk-free rates and underlying volatility on option pricing. Next, we built four different machine learning models, including multilayer perceptron (MLP), long short-term memory (LSTM), self-attention LSTM, and self-attention GRU in comparison to the traditional binomial model. The empirical result shows that self-attention GRU with historical data outperforms other models due to its ability to capture complex temporal dependencies and leverage the contextual information embedded in the historical data. Finally, in order to unveil the "black box" of artificial intelligence, we employed the SHapley Additive exPlanations (SHAP) method to interpret and analyze the prediction results of the self-attention GRU model with historical data. This provides insights into the significance and contributions of different input features on the pricing of American-style options.
翻訳日:2023-10-20 16:34:39 公開日:2023-10-19
# 準マンハッタンワッサースタイン距離

Quasi Manhattan Wasserstein Distance ( http://arxiv.org/abs/2310.12498v1 )

ライセンス: Link先を確認
Evan Unit Lim(参考訳) クエージ・マンハッタン・ワッサースタイン距離(Quasi Manhattan Wasserstein Distance, QMWD)は、ワッサースタイン距離の要素を特定の変換と組み合わせることで、2つの行列間の相似性を定量化する計量である。 精度を維持しつつ、マンハッタン・ワッサースタイン距離(mwd)よりも時間と空間の複雑さが向上した。 QMWDは計算資源が限られている大規模なデータセットや状況に対して特に有利である。 本稿では、QMWD、計算、複雑性分析、WDおよびMWDとの比較について詳述する。

The Quasi Manhattan Wasserstein Distance (QMWD) is a metric designed to quantify the dissimilarity between two matrices by combining elements of the Wasserstein Distance with specific transformations. It offers improved time and space complexity compared to the Manhattan Wasserstein Distance (MWD) while maintaining accuracy. QMWD is particularly advantageous for large datasets or situations with limited computational resources. This article provides a detailed explanation of QMWD, its computation, complexity analysis, and comparisons with WD and MWD.
翻訳日:2023-10-20 16:34:13 公開日:2023-10-19
# 局所クエンチ接合時の擬似エントロピー

Pseudo entropy under joining local quenches ( http://arxiv.org/abs/2310.12542v1 )

ライセンス: Link先を確認
Kotaro Shinmyo, Tadashi Takayanagi, Kenya Tasuki(参考訳) 2次元ホログラフィーおよび自由ディラックフェルミオン CFT における擬似エントロピーを局所クエンチの接合下での励起状態に対して計算する。 解析の結果,従来のエンタングルメントエントロピーに欠けている2つの特性が明らかになった。 一つは、時間発展において、擬似エントロピーは、励起が接合点からサブシステムの境界まで伝播するにつれて、ディップ挙動を示す。 もう一つは、絡み合いエントロピー上の擬エントロピーの過剰はホログラフィック CFT では正となるが、自由ディラック フェルミオン CFT では必ずしも非正である。 我々はエントロピーの過剰は多成分の絡み合いの尺度として機能すると主張する。 その正則性は、ホログラフィック CFT の真空状態が自由ディラックフェルミオン CFT とは対照的に多粒子絡みを持つことを意味する。

We compute the pseudo entropy in two-dimensional holographic and free Dirac fermion CFTs for excited states under joining local quenches. Our analysis reveals two of its characteristic properties that are missing in the conventional entanglement entropy. One is that, under time evolution, the pseudo entropy exhibits a dip behavior as the excitations propagate from the joined point to the boundaries of the subsystem. The other is that the excess of pseudo entropy over entanglement entropy can be positive in holographic CFTs, whereas it is always non-positive in free Dirac fermion CFTs. We argue that the entropy excess can serve as a measure of multi-partite entanglement. Its positivity implies that the vacuum state in holographic CFTs possesses multi-partite entanglement, in contrast to free Dirac fermion CFTs.
翻訳日:2023-10-20 16:28:21 公開日:2023-10-19
# 多目的進化最適化のための大規模言語モデル

Large Language Model for Multi-objective Evolutionary Optimization ( http://arxiv.org/abs/2310.12541v1 )

ライセンス: Link先を確認
Fei Liu, Xi Lin, Zhenkun Wang, Shunyu Yao, Xialiang Tong, Mingxuan Yuan, Qingfu Zhang(参考訳) 多目的進化アルゴリズム(MOEA)は、多目的最適化問題の解法である。 過去数十年間、多くのMOEAが提案され、オペレーターは慎重に手作りのドメイン知識を必要とする。 近年、moeaの手動で設計されたオペレーターを学習ベースのオペレーター(ニューラルネットワークモデルなど)に置き換える試みがなされている。 しかし、そのようなモデルの設計と訓練には依然として多くの努力が必要であり、学習したオペレータは新しい問題を解決するためにうまく一般化できないかもしれない。 上記の課題に対処するため,MOEA演算子の設計に強力な大規模言語モデル(LLM)を活用する新しいアプローチについて検討する。 適切なプロンプトエンジニアリングにより,分解型moea (moea/d) のブラックボックス探索演算子として一般の llm をゼロショット方式で機能させることに成功した。 さらに, LLMの挙動から学習することで, ランダムな明示的なホワイトボックス演算子を設計し, MOEA/D-LOと呼ばれる分解型MOEAの新バージョンを提案する。 実験結果から,提案手法は広く用いられているMOEAと競合する性能が得られることが示された。 また、いくつかのインスタンスからのみ学習したオペレータが、非常に異なるパターンや設定を持つ未発見の問題に対して堅牢な一般化性能を持つことも期待できる。 その結果,MOEAの設計において,事前学習したLLMを使用することの潜在的なメリットが明らかになった。

Multiobjective evolutionary algorithms (MOEAs) are major methods for solving multiobjective optimization problems (MOPs). Many MOEAs have been proposed in the past decades, of which the operators need carefully handcrafted design with domain knowledge. Recently, some attempts have been made to replace the manually designed operators in MOEAs with learning-based operators (e.g., neural network models). However, much effort is still required for designing and training such models, and the learned operators might not generalize well to solve new problems. To tackle the above challenges, this work investigates a novel approach that leverages the powerful large language model (LLM) to design MOEA operators. With proper prompt engineering, we successfully let a general LLM serve as a black-box search operator for decomposition-based MOEA (MOEA/D) in a zero-shot manner. In addition, by learning from the LLM behavior, we further design an explicit white-box operator with randomness and propose a new version of decomposition-based MOEA, termed MOEA/D-LO. Experimental studies on different test benchmarks show that our proposed method can achieve competitive performance with widely used MOEAs. It is also promising to see the operator only learned from a few instances can have robust generalization performance on unseen problems with quite different patterns and settings. The results reveal the potential benefits of using pre-trained LLMs in the design of MOEAs.
翻訳日:2023-10-20 16:28:06 公開日:2023-10-19
# ancilla-based dissipative state engineeringにおける詳細なバランスの解消

Fixing detailed balance in ancilla-based dissipative state engineering ( http://arxiv.org/abs/2310.12539v1 )

ライセンス: Link先を確認
Neill Lambert, Mauro Cirio, Jhen-dong Lin, Paul Menczel, Pengfei Liang, Franco Nori(参考訳) 散逸状態工学(dissipative state engineering)は、工学的散逸や工学的環境を用いて複雑な多体ハミルトンの基底状態を作成するプロトコルの総称である。 近年,多体系の低エネルギー遷移と共振するように調整された1つ以上の散逸性クビットアンシラからなるこのプロトコルのバージョンが,結合系を合理的な基底状態への近似へと進化させることが示されている。 これにより、従来制限されていた非フラストレーションシステムを超えて、この方法の適用範囲を広げる可能性がある。 ここでは,このアプローチには本質的な限界があると主張する。なぜなら,弱い結合限界において系が有効な浴槽と見なすアンシラスは,真のゼロ温度環境に期待される詳細なバランスを与えないからである。 この議論はボソニックアンシラとの線形結合を用いた同様のアプローチの研究に基づいている。 疑似モードと呼ばれるオープン量子系から最近開発された手法を用いて,この制限を克服する。 1次元量子イジングチェーンの簡単な例モデルを用いて、より詳細なバランスを固定でき、さらに2つの非物理的散逸モードとそれらのモードを物理システムで実装する外挿誤差を犠牲にして得られる基底状態をより正確に推定できることを示した。

Dissipative state engineering is a general term for a protocol which prepares the ground state of a complex many-body Hamiltonian using engineered dissipation or engineered environments. Recently, it was shown that a version of this protocol, where the engineered environment consists of one or more dissipative qubit ancillas tuned to be resonant with the low-energy transitions of a many-body system, resulted in the combined system evolving to reasonable approximation to the ground state. This potentially broadens the applicability of the method beyond non-frustrated systems, to which it was previously restricted. Here we argue that this approach has an intrinsic limitation because the ancillas, seen as an effective bath by the system in the weak-coupling limit, do not give the detailed balance expected for a true zero-temperature environment. Our argument is based on the study of a similar approach employing linear coupling to bosonic ancillas. We explore overcoming this limitation using a recently developed technique from open-quantum-systems called pseudomodes. With a simple example model of a 1D quantum Ising chain, we show that detailed balance can be fixed, and a more accurate estimation of the ground state obtained, at the cost of two additional unphysical dissipative modes and the extrapolation error of implementing those modes in physical systems.
翻訳日:2023-10-20 16:27:44 公開日:2023-10-19
# メタ学習による動的環境における重大最適化問題の解法

Solving Expensive Optimization Problems in Dynamic Environments with Meta-learning ( http://arxiv.org/abs/2310.12538v1 )

ライセンス: Link先を確認
Huan Zhang, Jinliang Ding, Liang Feng, Kay Chen Tan, Ke Li(参考訳) 動的環境は、時間とともに目的関数が変化し、最適な解を追跡するために顕著な計算資源を必要とするため、高価な最適化問題にとって大きな課題となる。 データ駆動の進化的最適化とベイズ最適化(BO)アプローチは、静的環境において高価な最適化問題を解くことを約束しているが、動的環境においてそのようなアプローチを開発する試みは、ほとんど探索されていない。 本稿では,高コストな動的最適化問題を解決するための,メタラーニングに基づくシンプルな最適化フレームワークを提案する。 このフレームワークはフレキシブルで、データ駆動の進化最適化やBOアプローチのいずれでもプラグイン方式で、市販のサロゲートモデルを継続的に差別化することができる。 特に、フレームワークは2つのユニークなコンポーネントで構成されている。 1) グラデーションに基づくメタラーニングアプローチを採用するメタラーニングコンポーネントは、最適化プロセスに沿って異なるダイナミクスにまたがる経験(効果的なモデルパラメータ)を学習する。 2) 学習経験(モデルパラメータ)を動的環境の高速適応のための初期パラメータとして用いる適応成分について, 少ないショットサンプルに基づいて検討した。 これにより、最適化プロセスは、厳格に制限された計算予算内で、新しい環境における探索を迅速に開始することができる。 提案手法の有効性を実験により実証し, 動的特性の異なる共通ベンチマークテスト問題に対する最新アルゴリズムとの比較を行った。

Dynamic environments pose great challenges for expensive optimization problems, as the objective functions of these problems change over time and thus require remarkable computational resources to track the optimal solutions. Although data-driven evolutionary optimization and Bayesian optimization (BO) approaches have shown promise in solving expensive optimization problems in static environments, the attempts to develop such approaches in dynamic environments remain rarely unexplored. In this paper, we propose a simple yet effective meta-learning-based optimization framework for solving expensive dynamic optimization problems. This framework is flexible, allowing any off-the-shelf continuously differentiable surrogate model to be used in a plug-in manner, either in data-driven evolutionary optimization or BO approaches. In particular, the framework consists of two unique components: 1) the meta-learning component, in which a gradient-based meta-learning approach is adopted to learn experience (effective model parameters) across different dynamics along the optimization process. 2) the adaptation component, where the learned experience (model parameters) is used as the initial parameters for fast adaptation in the dynamic environment based on few shot samples. By doing so, the optimization process is able to quickly initiate the search in a new environment within a strictly restricted computational budget. Experiments demonstrate the effectiveness of the proposed algorithm framework compared to several state-of-the-art algorithms on common benchmark test problems under different dynamic characteristics.
翻訳日:2023-10-20 16:27:20 公開日:2023-10-19
# 大規模言語モデルを用いた製品属性値抽出

Product Attribute Value Extraction using Large Language Models ( http://arxiv.org/abs/2310.12537v1 )

ライセンス: Link先を確認
Alexander Brinkmann, Roee Shraga, Christian Bizer(参考訳) ファセット商品検索や製品比較のようなeコマースアプリケーションは、属性/バリューペアのような構造化された製品記述に基づいている。 eコマースプラットフォームのベンダーは、構造化された製品説明を提供するのではなく、タイトルや説明を使って提供します。 このような提供を処理するためには、テキスト製品属性から属性/値ペアを抽出する必要がある。 最先端属性/値抽出技術は、BERTのような事前訓練された言語モデル(PLM)に依存している。 属性/値抽出のためのこれらのモデルの2つの大きな欠点は 一 相当量のタスク特化訓練データを必要とするモデル (2)微調整モデルでは,トレーニングデータに含まれない属性値の一般化が課題となる。 本稿では,PLMに基づく属性/値抽出法に代わる,データ効率のトレーニングとして,大規模言語モデル(LLM)の可能性について検討する。 GPT-3.5 や GPT-4 などの LLM や Llama2 をベースとしたオープンソース LLM も検討している。 我々は、ゼロショットシナリオとタスク固有のトレーニングデータが利用可能なシナリオでモデルを評価する。 ゼロショットシナリオでは,抽出対象属性に関する情報を表現するための様々なプロンプト設計を比較する。 トレーニングデータを用いたシナリオで、我々は調査する (i)例属性値の提供。 (ii)文脈内デモの選択、及び 三 GPT-3.5の微調整 実験の結果、GPT-4は2つの評価データセットの平均F1スコアを85%達成し、最高のPLMベースの手法は、同じ量のトレーニングデータを用いて平均5%悪化することがわかった。 GPT-4は、最高のオープンソースLLMよりも10%高いF1スコアを達成する。 微調整のGPT-3.5モデルはGPT-4と同等の性能を保ちながら、コスト効率は大幅に向上した。

E-commerce applications such as faceted product search or product comparison are based on structured product descriptions like attribute/value pairs. The vendors on e-commerce platforms do not provide structured product descriptions but describe offers using titles or descriptions. To process such offers, it is necessary to extract attribute/value pairs from textual product attributes. State-of-the-art attribute/value extraction techniques rely on pre-trained language models (PLMs), such as BERT. Two major drawbacks of these models for attribute/value extraction are that (i) the models require significant amounts of task-specific training data and (ii) the fine-tuned models face challenges in generalizing to attribute values not included in the training data. This paper explores the potential of large language models (LLMs) as a training data-efficient and robust alternative to PLM-based attribute/value extraction methods. We consider hosted LLMs, such as GPT-3.5 and GPT-4, as well as open-source LLMs based on Llama2. We evaluate the models in a zero-shot scenario and in a scenario where task-specific training data is available. In the zero-shot scenario, we compare various prompt designs for representing information about the target attributes of the extraction. In the scenario with training data, we investigate (i) the provision of example attribute values, (ii) the selection of in-context demonstrations, and (iii) the fine-tuning of GPT-3.5. Our experiments show that GPT-4 achieves an average F1-score of 85% on the two evaluation datasets while the best PLM-based techniques perform on average 5% worse using the same amount of training data. GPT-4 achieves a 10% higher F1-score than the best open-source LLM. The fine-tuned GPT-3.5 model reaches a similar performance as GPT-4 while being significantly more cost-efficient.
翻訳日:2023-10-20 16:26:58 公開日:2023-10-19
# 量子プライベート関数の評価

Quantum Private Function Evaluation ( http://arxiv.org/abs/2310.12533v1 )

ライセンス: Link先を確認
Zhu Cao(参考訳) プライベート関数評価は、関数を秘密にしながら関数の出力を取得することを目的としたタスクである。 これまでのところ、量子アナログはまだ合成されていない。 本研究では,古典的プライベート関数評価の量子アナログである量子プライベート関数評価の研究を開始する。 量子プライベート関数の評価を形式的に定義し、セキュリティ証明とともに2つのスキームを示す。 次に、このスキームの実験的な実演を行う。 最後に、量子コピー保護に量子プライベート関数評価を適用し、その使用法を説明する。

Private function evaluation is a task that aims to obtain the output of a function while keeping the function secret. So far its quantum analogue has not yet been articulated. In this study, we initiate the study of quantum private function evaluation, the quantum analogue of classical private function evaluation. We give a formal definition of quantum private function evaluation and present two schemes together with their security proofs. We then give an experimental demonstration of the scheme. Finally we apply quantum private function evaluation to quantum copy protection to illustrate its usage.
翻訳日:2023-10-20 16:26:33 公開日:2023-10-19
# ICU:タスクをイメージキャプションと言語理解に分割した視覚・言語モデリングにおける言語バリアの検索

ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding ( http://arxiv.org/abs/2310.12531v1 )

ライセンス: Link先を確認
Guojun Wu(参考訳) 多くの多言語視覚言語研究(v&l)は、1つのモデルで多言語および多言語機能を達成することを目的としている。 しかし、画像の多言語キャプションの不足が開発を妨げている。 この障害を克服するために、V&Lモデルが画像キャプションを英語で実行し、マルチリンガル言語モデル(mLM)がaltテキストとしてキャプションを取り、クロスリンガル言語理解を行う、V&Lタスクを2つのステージに分割するICU、画像キャプション理解(Image Caption Understanding)を提案する。 多言語処理の負担はV&Lモデルから引き上げられ、mLM上に置かれる。 多言語テキストデータが比較的豊富で品質が高いため、ICUはV&Lモデルの言語障壁の克服を容易にすることができる。 iglueベンチマークで9つの言語にまたがる2つのタスクに関する実験で、icuは5つの言語で最新の結果を達成でき、他の言語でも同様の結果が得られることを示した。

Most multilingual vision-and-language (V&L) research aims to accomplish multilingual and multimodal capabilities within one model. However, the scarcity of multilingual captions for images has hindered the development. To overcome this obstacle, we propose ICU, Image Caption Understanding, which divides a V&L task into two stages: a V&L model performs image captioning in English, and a multilingual language model (mLM), in turn, takes the caption as the alt text and performs crosslingual language understanding. The burden of multilingual processing is lifted off V&L model and placed on mLM. Since the multilingual text data is relatively of higher abundance and quality, ICU can facilitate the conquering of language barriers for V&L models. In experiments on two tasks across 9 languages in the IGLUE benchmark, we show that ICU can achieve new state-of-the-art results for five languages, and comparable results for the rest.
翻訳日:2023-10-20 16:26:26 公開日:2023-10-19
# 天文学のためのインパクトフル機械学習研究の構築:研究者とレビュアーのためのベストプラクティス

Constructing Impactful Machine Learning Research for Astronomy: Best Practices for Researchers and Reviewers ( http://arxiv.org/abs/2310.12528v1 )

ライセンス: Link先を確認
D. Huppenkothen, M. Ntampaka, M. Ho, M. Fouesneau, B. Nord, J. E. G. Peek, M. Walmsley, J. F. Wu, C. Avestruz, T. Buck, M. Brescia, D. P. Finkbeiner, A. D. Goulding, T. Kacprzak, P. Melchior, M. Pasquato, N. Ramachandra, Y.-S. Ting, G. van de Ven, S. Villar, V.A. Villar, E. Zinger(参考訳) 機械学習は天文学界にとって急速に好まれるツールになっている。 宇宙シミュレーションのトランジェントからニューラルネットワークエミュレータの分類に至るまで、幅広い波長や問題に適用されており、科学的結果の生成と報告に関するパラダイムをシフトしている。 同時に、この方法には独自のベストプラクティス、課題、欠点が伴い、現在では天体物理学の文献でしばしば不完全に報告されている。 本稿では、著者、レビュアー、編集者を含む天文学コミュニティに対して、機械学習モデルの実装方法と結果の正確性、発見の再現性、方法の有用性を保証する方法で結果を報告するためのプライマーを提供することを目的としている。

Machine learning has rapidly become a tool of choice for the astronomical community. It is being applied across a wide range of wavelengths and problems, from the classification of transients to neural network emulators of cosmological simulations, and is shifting paradigms about how we generate and report scientific results. At the same time, this class of method comes with its own set of best practices, challenges, and drawbacks, which, at present, are often reported on incompletely in the astrophysical literature. With this paper, we aim to provide a primer to the astronomical community, including authors, reviewers, and editors, on how to implement machine learning models and report their results in a way that ensures the accuracy of the results, reproducibility of the findings, and usefulness of the method.
翻訳日:2023-10-20 16:26:06 公開日:2023-10-19
# 二元分類問題に対するパフォーマンススコアの一貫性の検討

Testing the Consistency of Performance Scores Reported for Binary Classification Problems ( http://arxiv.org/abs/2310.12527v1 )

ライセンス: Link先を確認
Attila Fazekas and Gy\"orgy Kov\'acs(参考訳) バイナリ分類は機械学習の基本的なタスクであり、様々な科学領域にまたがる応用がある。 科学者が基礎的な研究を行うか、実用的応用を洗練しているかに関わらず、彼らは通常、正確性、感度、特異性などの性能指標に基づいて分類技術を評価しランク付けする。 しかし、報告されたパフォーマンススコアは必ずしも研究ランキングの信頼できる基礎となるとは限らない。 これは、クロスバリデーション、タイポグラフィーの誤り、その他の要因に関連する非開示または非伝統的慣行に起因する可能性がある。 特定の数のポジティブなテスト項目とネガティブなテスト項目がある所定の実験環境では、ほとんどのパフォーマンススコアは、特定の相互関連的な値を仮定できる。 本稿では,実測結果と実測値の整合性を評価する数値的手法を提案する。 重要な点として,提案手法は統計的推論に頼らず,不一致の特定に数値的手法を用いる。 医学に関する3つの異なる応用を通して,提案手法が不整合を効果的に検出し,研究分野の整合性を保護する方法を示す。 科学コミュニティに利益をもたらすため、オープンソースのPythonパッケージで一貫性テストを提供しました。

Binary classification is a fundamental task in machine learning, with applications spanning various scientific domains. Whether scientists are conducting fundamental research or refining practical applications, they typically assess and rank classification techniques based on performance metrics such as accuracy, sensitivity, and specificity. However, reported performance scores may not always serve as a reliable basis for research ranking. This can be attributed to undisclosed or unconventional practices related to cross-validation, typographical errors, and other factors. In a given experimental setup, with a specific number of positive and negative test items, most performance scores can assume specific, interrelated values. In this paper, we introduce numerical techniques to assess the consistency of reported performance scores and the assumed experimental setup. Importantly, the proposed approach does not rely on statistical inference but uses numerical methods to identify inconsistencies with certainty. Through three different applications related to medicine, we demonstrate how the proposed techniques can effectively detect inconsistencies, thereby safeguarding the integrity of research fields. To benefit the scientific community, we have made the consistency tests available in an open-source Python package.
翻訳日:2023-10-20 16:25:53 公開日:2023-10-19
# タイムセンシティブブラックボックス最適化のためのトンプソンサンプリングを用いた並列ベイズ最適化

Parallel Bayesian Optimization Using Satisficing Thompson Sampling for Time-Sensitive Black-Box Optimization ( http://arxiv.org/abs/2310.12526v1 )

ライセンス: Link先を確認
Xiaobin Song, Benben Jiang(参考訳) ベイズ最適化(BO)はブラックボックス最適化問題に広く使われ、様々な実世界のタスクでうまく機能することが示されている。 しかし,既存のBO法の多くは,パラメータ空間が極端に大きい場合や時間に敏感な場合,最適解を学習することを目的としている。 これらのコンテキストでは、少ない情報を必要とする満足度の高いソリューションに切り替えることで、パフォーマンスが向上する。 本研究では,時間に敏感なブラックボックス最適化問題に着目し,同期および非同期バージョンを含む並列ベイズ最適化(STS-PBO)アプローチを満足する。 目標を最適なソリューションから、学習しやすい満足のいくソリューションにシフトします。 速度歪み理論は、学習するべき情報量と準最適性とのバランスをとる損失関数を構築するために導入され、Blahut-Arimotoアルゴリズムは各ステップの歪み限界の下で最小情報率に達するターゲット解を計算するために採用される。 割引および未公表のベイズ累積後悔境界は、理論的に提案されたSTS-PBOアプローチに導かれる。 提案手法の有効性を,リチウムイオン電池の高速充電設計問題に実証した。 その結果, STS-PBO法は, 従来のトンプソンサンプリング法と並列BO法の両方において, 同期および非同期の双方で優れた性能を示した。

Bayesian optimization (BO) is widely used for black-box optimization problems, and have been shown to perform well in various real-world tasks. However, most of the existing BO methods aim to learn the optimal solution, which may become infeasible when the parameter space is extremely large or the problem is time-sensitive. In these contexts, switching to a satisficing solution that requires less information can result in better performance. In this work, we focus on time-sensitive black-box optimization problems and propose satisficing Thompson sampling-based parallel Bayesian optimization (STS-PBO) approaches, including synchronous and asynchronous versions. We shift the target from an optimal solution to a satisficing solution that is easier to learn. The rate-distortion theory is introduced to construct a loss function that balances the amount of information that needs to be learned with sub-optimality, and the Blahut-Arimoto algorithm is adopted to compute the target solution that reaches the minimum information rate under the distortion limit at each step. Both discounted and undiscounted Bayesian cumulative regret bounds are theoretically derived for the proposed STS-PBO approaches. The effectiveness of the proposed methods is demonstrated on a fast-charging design problem of Lithium-ion batteries. The results are accordant with theoretical analyses, and show that our STS-PBO methods outperform both sequential counterparts and parallel BO with traditional Thompson sampling in both synchronous and asynchronous settings.
翻訳日:2023-10-20 16:25:34 公開日:2023-10-19
# オープンワールドの生涯グラフ学習

Open-World Lifelong Graph Learning ( http://arxiv.org/abs/2310.12565v1 )

ライセンス: Link先を確認
Marcel Hoffmann, Lukas Galke, Ansgar Scherp(参考訳) 我々は、モデルが新しいタスクや潜在的に未知のクラスを扱う必要があるオープンワールドシナリオにおいて、生涯グラフ学習の問題を研究する。 本研究では,新しいクラスを識別し,既存の非グラフ OOD 検出手法をグラフデータに適用するために,out-of-Distribution (OOD) 検出手法を利用する。 重要なことは,OOD検出手法とグラフ近傍から収集した情報を組み合わせて新しいクラス検出を行うことを提案する。 ほとんどのOOD検出方法は、頂点がOODであるかどうかを決定するためのクリップしきい値を決定することを避ける。 この問題に対処するために、OOD検出における閾値に対する感度を低下させる弱制御型リラクタンスフィードバック(Open-WRF)手法を提案する。 私たちは6つのベンチマークデータセットでアプローチを評価します。 その結果,提案手法は下層グラフニューラルネットワークとは無関係に既存の手法よりも優れていることがわかった。 さらに,我々のOpen-WRF法はしきい値選択に頑健であり,OOD検出に対するグラフ近傍の影響を解析する。 このアグリゲーションとしきい値法は任意のグラフニューラルネットワークやOOD検出手法と互換性があり、我々のアプローチは汎用的で、多くの実世界のアプリケーションに適用できる。

We study the problem of lifelong graph learning in an open-world scenario, where a model needs to deal with new tasks and potentially unknown classes. We utilize Out-of-Distribution (OOD) detection methods to recognize new classes and adapt existing non-graph OOD detection methods to graph data. Crucially, we suggest performing new class detection by combining OOD detection methods with information aggregated from the graph neighborhood. Most OOD detection methods avoid determining a crisp threshold for deciding whether a vertex is OOD. To tackle this problem, we propose a Weakly-supervised Relevance Feedback (Open-WRF) method, which decreases the sensitivity to thresholds in OOD detection. We evaluate our approach on six benchmark datasets. Our results show that the proposed neighborhood aggregation method for OOD scores outperforms existing methods independent of the underlying graph neural network. Furthermore, we demonstrate that our Open-WRF method is more robust to threshold selection and analyze the influence of graph neighborhood on OOD detection. The aggregation and threshold methods are compatible with arbitrary graph neural networks and OOD detection methods, making our approach versatile and applicable to many real-world applications.
翻訳日:2023-10-20 16:17:12 公開日:2023-10-19
# バンディットゲームにおける近似情報最大化

Approximate information maximization for bandit games ( http://arxiv.org/abs/2310.12563v1 )

ライセンス: Link先を確認
Alex Barbier--Chebbah (IP, CNRS, UPCit\'e), Christian L. Vestergaard (IP, CNRS, UPCit\'e), Jean-Baptiste Masson (IP, CNRS, UPCit\'e), Etienne Boursier (CELESTE)(参考訳) エントロピー最大化と自由エネルギー最小化は、様々な物理系の力学をモデル化するための一般的な物理原理である。 例えば、自由エネルギー原理を用いた脳内意思決定のモデル化、情報ボトルネック原理による隠れ変数へのアクセス時の精度・複雑さトレードオフの最適化(Tishby et al., 2000)、情報最大化を用いたランダム環境におけるナビゲーション(Vergassola et al., 2007)などがある。 この原理に基づいて,システム内のキー変数の情報に対する近似を最大化する新しい帯域幅アルゴリズムを提案する。 この目的のために,エントロピーの近似解析物理学に基づく表現を開発し,各動作の情報ゲインを予測し,情報ゲインが最も大きいものを選択する。 この手法は古典的なバンディット設定において強力なパフォーマンスをもたらす。 経験的成功により,ガウス報酬を伴う二本腕バンディット問題に対する漸近的最適性を証明する。 システムの性質をグローバルな物理関数に包含する能力のため、このアプローチはより複雑な帯域幅設定に効率的に適応することができ、マルチアーム帯域幅問題に対する情報最大化アプローチのさらなる研究を求めることができる。

Entropy maximization and free energy minimization are general physical principles for modeling the dynamics of various physical systems. Notable examples include modeling decision-making within the brain using the free-energy principle, optimizing the accuracy-complexity trade-off when accessing hidden variables with the information bottleneck principle (Tishby et al., 2000), and navigation in random environments using information maximization (Vergassola et al., 2007). Built on this principle, we propose a new class of bandit algorithms that maximize an approximation to the information of a key variable within the system. To this end, we develop an approximated analytical physics-based representation of an entropy to forecast the information gain of each action and greedily choose the one with the largest information gain. This method yields strong performances in classical bandit settings. Motivated by its empirical success, we prove its asymptotic optimality for the two-armed bandit problem with Gaussian rewards. Owing to its ability to encompass the system's properties in a global physical functional, this approach can be efficiently adapted to more complex bandit settings, calling for further investigation of information maximization approaches for multi-armed bandit problems.
翻訳日:2023-10-20 16:16:51 公開日:2023-10-19
# マスクのクリック:赤外小ターゲット検出のためのレベルセット付き労働効率アノテーションフレームワーク

Click on Mask: A Labor-efficient Annotation Framework with Level Set for Infrared Small Target Detection ( http://arxiv.org/abs/2310.12562v1 )

ライセンス: Link先を確認
Haoqing Li, Jinfu Yang, Yifei Xu, Runshi Wang(参考訳) Infrared Small Target Detectionは、小さなターゲットを赤外線クラッタバックグラウンドから分離する難しいタスクである。 近年,ディープラーニングのパラダイムは有望な成果を上げている。 しかし、これらのデータ駆動手法には多くの手動アノテーションが必要である。 赤外線ターゲットが小さいため、手動アノテーションはより多くのリソースを消費し、この分野の開発を制限する。 この書簡は、レベル集合を持つ労働効率とカーソルのアノテーションフレームワークを提案し、カーソルクリック1回で高品質な擬似マスクを得る。 期待差エネルギー汎関数を持つ変分レベルセットの定式化を設計し、ゼロレベル輪郭はレベルセットの進化中に本質的に維持される。 ターゲットサイズが小さく、過度に正規化されているため、ゼロレベルの輪郭が消滅する。 NUAA-SIRSTとIRSTD-1kデータセットを用いた実験により,本手法が優れた性能を発揮することが示された。 コードはhttps://github.com/Li-Haoqing/COMで入手できる。

Infrared Small Target Detection is a challenging task to separate small targets from infrared clutter background. Recently, deep learning paradigms have achieved promising results. However, these data-driven methods need plenty of manual annotation. Due to the small size of infrared targets, manual annotation consumes more resources and restricts the development of this field. This letter proposed a labor-efficient and cursory annotation framework with level set, which obtains a high-quality pseudo mask with only one cursory click. A variational level set formulation with an expectation difference energy functional is designed, in which the zero level contour is intrinsically maintained during the level set evolution. It solves the issue that zero level contour disappearing due to small target size and excessive regularization. Experiments on the NUAA-SIRST and IRSTD-1k datasets reveal that our approach achieves superior performance. Code is available at https://github.com/Li-Haoqing/COM.
翻訳日:2023-10-20 16:16:28 公開日:2023-10-19
# 機械学習による高速モデルデバイアス

Fast Model Debias with Machine Unlearning ( http://arxiv.org/abs/2310.12560v1 )

ライセンス: Link先を確認
Ruizhe Chen, Jianfei Yang, Huimin Xiong, Jianhong Bai, Tianxiang Hu, Jin Hao, Yang Feng, Joey Tianyi Zhou, Jian Wu, Zuozhu Liu(参考訳) 最近の発見により、深層ニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする可能性があることが判明した。 例えば、大規模な顔認識データセットCelebAでトレーニングされたディープネットワークは、女性のブロンドの髪と男性の黒い髪を予測する傾向がある。 このようなバイアスはモデルの堅牢性を損なうだけでなく、不公平な経済や社会的不平等を悪化させる可能性があるため、特に医療や採用などの自動意思決定プロセスに関係している社会的偏見を永続的かつ増幅する。 既存のデバイアス法ではバイアスラベリングやモデル再トレーニングに高いコストがかかる一方、モデル内のバイアスの起源を解明する観点では不足している。 そこで本研究では,学習モデルに内在するバイアスを識別,評価,除去するための効率的なアプローチを提供する高速モデルデバイアスフレームワーク(fmd)を提案する。 FMDは明示的な反ファクトの概念を通じてバイアス属性を特定し、影響関数を持つデータサンプルの影響を定量化する。 さらに,訓練モデルのバイアスを小さな反事実データセットで効果的かつ効果的に除去するために,マシンアンラーニングに基づく戦略を設計する。 色付きMNIST, CelebA, およびアダルト所得データセットと, 大規模言語モデルを用いた実験により, 本手法は, バイアスを著しく低減し, 遅延コストをはるかに低減しつつ, 最先端の手法に比べて優れた, あるいは競合する精度を達成できることが実証された。 特筆すべきは、この方法は小さな外部データセットと最小限のモデルパラメータの更新しか必要とせず、実際には大きすぎる、あるいは使用できない可能性のあるトレーニングデータにアクセスする必要がなくなることである。

Recent discoveries have revealed that deep neural networks might behave in a biased manner in many real-world scenarios. For instance, deep networks trained on a large-scale face recognition dataset CelebA tend to predict blonde hair for females and black hair for males. Such biases not only jeopardize the robustness of models but also perpetuate and amplify social biases, which is especially concerning for automated decision-making processes in healthcare, recruitment, etc., as they could exacerbate unfair economic and social inequalities among different groups. Existing debiasing methods suffer from high costs in bias labeling or model re-training, while also exhibiting a deficiency in terms of elucidating the origins of biases within the model. To this respect, we propose a fast model debiasing framework (FMD) which offers an efficient approach to identify, evaluate and remove biases inherent in trained models. The FMD identifies biased attributes through an explicit counterfactual concept and quantifies the influence of data samples with influence functions. Moreover, we design a machine unlearning-based strategy to efficiently and effectively remove the bias in a trained model with a small counterfactual dataset. Experiments on the Colored MNIST, CelebA, and Adult Income datasets along with experiments with large language models demonstrate that our method achieves superior or competing accuracies compared with state-of-the-art methods while attaining significantly fewer biases and requiring much less debiasing cost. Notably, our method requires only a small external dataset and updating a minimal amount of model parameters, without the requirement of access to training data that may be too large or unavailable in practice.
翻訳日:2023-10-20 16:16:13 公開日:2023-10-19
# 量子ニューラルネットワークモデルの多変量回帰問題への応用

Application of quantum neural network model to a multivariate regression problem ( http://arxiv.org/abs/2310.12559v1 )

ライセンス: Link先を確認
Hirotoshi Hirai(参考訳) 量子ニューラルネットワークモデルの導入以来、強い表現力と過剰適合に対する堅牢性のために広く研究されてきた。 これまで,モデルは主に分類タスクで評価されてきたが,実用的多変量回帰問題における性能は十分に検討されていない。 本研究では,QNNモデルの構築と,トレーニングデータのサイズが一般化性能に及ぼす影響について検討するために,自動MPGデータセット(各車両の燃料効率について,欠落データを除く392個の有効データ点)を用いた。 その結果, 学習データのサイズが小さい場合, qnnは特に有効であり, 資料情報学などの小規模データ問題に特に適していることが示唆された。

Since the introduction of the quantum neural network model, it has been widely studied due to its strong expressive power and robustness to overfitting. To date, the model has been evaluated primarily in classification tasks, but its performance in practical multivariate regression problems has not been thoroughly examined. In this study, the Auto-MPG data set (392 valid data points, excluding missing data, on fuel efficiency for various vehicles) was used to construct QNN models and investigate the effect of the size of the training data on generalization performance. The results indicate that QNN is particularly effective when the size of training data is small, suggesting that it is especially suitable for small-data problems such as those encountered in Materials Informatics.
翻訳日:2023-10-20 16:15:41 公開日:2023-10-19
# 巨大な言語モデルは、人間が真理を確かめるのに役立つ -- 説得力のある間違いがある場合を除いて

Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong ( http://arxiv.org/abs/2310.12558v1 )

ライセンス: Link先を確認
Chenglei Si, Navita Goyal, Sherry Tongshuang Wu, Chen Zhao, Shi Feng, Hal Daum\'e III, Jordan Boyd-Graber(参考訳) 大規模言語モデル(LLM)は、Web上の情報へのアクセスにますます利用されている。 彼らの真実と事実は、非常に興味深い。 ユーザーが取得した情報について正しい判断を下すのを助けるため、LCMは提供だけでなく、情報の事実チェックにも役立ちます。 本稿では,80人のクラウドワーカーによる実験を行い,言語モデルと検索エンジン(情報検索システム)を比較し,ユーザによる事実確認を容易にする。 我々は LLM に対して,所定のクレームを検証し,それに対応する説明を行うよう促す。 LLMの説明を読むユーザーは、類似した精度の検索エンジンを使うよりもはるかに効率的である。 しかし、説明が間違っている場合、LSMを過度に評価する傾向がある。 LLMの信頼性を損なうため,LCMに対して,その主張が真で偽である理由とを対比した情報提供を依頼し,その双方をユーザに提示する。 この対照的な説明は、LLMに対するユーザの過度な信頼を緩和するが、検索エンジンを著しく上回ることはできない。 しかし、検索結果とLCMの説明の両方を示すことは、検索エンジン単独と比較して相補的な利点がない。 まとめると、LLMによる自然言語の説明は、検索されたパスを読むための信頼性の高い代替にはならないかもしれない。

Large Language Models (LLMs) are increasingly used for accessing information on the web. Their truthfulness and factuality are thus of great interest. To help users make the right decisions about the information they're getting, LLMs should not only provide but also help users fact-check information. In this paper, we conduct experiments with 80 crowdworkers in total to compare language models with search engines (information retrieval systems) at facilitating fact-checking by human users. We prompt LLMs to validate a given claim and provide corresponding explanations. Users reading LLM explanations are significantly more efficient than using search engines with similar accuracy. However, they tend to over-rely the LLMs when the explanation is wrong. To reduce over-reliance on LLMs, we ask LLMs to provide contrastive information - explain both why the claim is true and false, and then we present both sides of the explanation to users. This contrastive explanation mitigates users' over-reliance on LLMs, but cannot significantly outperform search engines. However, showing both search engine results and LLM explanations offers no complementary benefits as compared to search engines alone. Taken together, natural language explanations by LLMs may not be a reliable replacement for reading the retrieved passages yet, especially in high-stakes settings where over-relying on wrong AI explanations could lead to critical consequences.
翻訳日:2023-10-20 16:15:29 公開日:2023-10-19
# DepWiGNN:テキストにおけるマルチホップ空間推論のための深部グラフニューラルネットワーク

DepWiGNN: A Depth-wise Graph Neural Network for Multi-hop Spatial Reasoning in Text ( http://arxiv.org/abs/2310.12557v1 )

ライセンス: Link先を確認
Shuaiyi Li, Yang Deng, Wai Lam(参考訳) テキストの空間的推論は、現実世界の様々なアプリケーションにおいて重要な役割を果たす。 空間的推論のための既存のアプローチは、通常、自然言語と記号構造の間のギャップを見渡す純粋テキストから空間的関係を推測する。 グラフニューラルネットワーク(GNN)は、シンボル構造を誘導し集約するのに非常に優れた能力を示した。 しかし、古典的なGNNは、オーバースムースな問題である \textit{i.e.} により、マルチホップ空間推論を扱う際の課題に直面しており、グラフ層の増加に伴って性能が大幅に低下する。 これらの課題に対処するために、新しい \textbf{Dep}th-\textbf{Wi}se \textbf{G}raph \textbf{N}eural \textbf{N}etwork (\textbf{DepWiGNN})を提案する。 具体的には,新しいノードメモリ方式を設計し,複数のレイヤを積み重ねることなく長い依存関係を収集できるグラフの幅次元ではなく,深さ次元の情報を集約する。 2つの挑戦的なマルチホップ空間推論データセットの実験結果から,DepWiGNNが既存の空間推論手法より優れていることが示された。 他の3つのGNNとの比較は、グラフの長い依存を捉える上で、その優位性を示している。

Spatial reasoning in text plays a crucial role in various real-world applications. Existing approaches for spatial reasoning typically infer spatial relations from pure text, which overlook the gap between natural language and symbolic structures. Graph neural networks (GNNs) have showcased exceptional proficiency in inducing and aggregating symbolic structures. However, classical GNNs face challenges in handling multi-hop spatial reasoning due to the over-smoothing issue, \textit{i.e.}, the performance decreases substantially as the number of graph layers increases. To cope with these challenges, we propose a novel \textbf{Dep}th-\textbf{Wi}se \textbf{G}raph \textbf{N}eural \textbf{N}etwork (\textbf{DepWiGNN}). Specifically, we design a novel node memory scheme and aggregate the information over the depth dimension instead of the breadth dimension of the graph, which empowers the ability to collect long dependencies without stacking multiple layers. Experimental results on two challenging multi-hop spatial reasoning datasets show that DepWiGNN outperforms existing spatial reasoning methods. The comparisons with the other three GNNs further demonstrate its superiority in capturing long dependency in the graph.
翻訳日:2023-10-20 16:15:09 公開日:2023-10-19
# 微分可能挿入/削除メトリック認識正規化器を用いた説明ベーストレーニング

Explanation-Based Training with Differentiable Insertion/Deletion Metric-Aware Regularizers ( http://arxiv.org/abs/2310.12553v1 )

ライセンス: Link先を確認
uya Yoshikawa, Tomoharu Iwata(参考訳) 複雑な機械学習予測器の予測のための説明の質は、しばしば、説明の忠実性、すなわち、説明が予測者の振る舞いをいかに正確に反映するかを評価する挿入および削除のメトリクスを用いて測定される。 そこで本研究では, 予測精度を維持しつつ, 説明文の挿入・削除スコアを改善するために, 微分可能な予測器を最適化する挿入/削除量認識説明ベース最適化 (id-expo) を提案する。 元の挿入と削除のメトリクスは説明に無関心であり、勾配に基づく最適化では直接利用できないため、メトリクスを微分可能に拡張し、挿入と削除のメトリクスベースの正規化器を形式化する。 画像および表型データセットを用いた実験の結果,id-expoを用いて微調整されたディープニューラルネットワークに基づく予測器は,高い予測精度を維持しつつ,人気のあるポストホック解説者がより忠実で解釈しやすい説明を作成できることがわかった。

The quality of explanations for the predictions of complex machine learning predictors is often measured using insertion and deletion metrics, which assess the faithfulness of the explanations, i.e., how correctly the explanations reflect the predictor's behavior. To improve the faithfulness, we propose insertion/deletion metric-aware explanation-based optimization (ID-ExpO), which optimizes differentiable predictors to improve both insertion and deletion scores of the explanations while keeping their predictive accuracy. Since the original insertion and deletion metrics are indifferentiable with respect to the explanations and directly unavailable for gradient-based optimization, we extend the metrics to be differentiable and use them to formalize insertion and deletion metric-based regularizers. The experimental results on image and tabular datasets show that the deep neural networks-based predictors fine-tuned using ID-ExpO enable popular post-hoc explainers to produce more faithful and easy-to-interpret explanations while keeping high predictive accuracy.
翻訳日:2023-10-20 16:14:49 公開日:2023-10-19
# PGA: 単一ロボットインタラクションによるグラフピングエージェントのパーソナライズ

PGA: Personalizing Grasping Agents with Single Human-Robot Interaction ( http://arxiv.org/abs/2310.12547v1 )

ライセンス: Link先を確認
Junghyun Kim, Gi-Cheon Kang, Jaein Kim, Seoyun Yang, Minjoon Jung, Byoung-Tak Zhang(参考訳) 言語条件ロボット把持(lcrg)は、自然言語指示に基づいて物体を接地・把持するロボットを開発することを目的としている。 私の財布”のような個人オブジェクトを認識できるロボットは、専門家でないユーザとより自然に対話できるが、現在のLCRGシステムは主に、汎用表現のみを理解することをロボットに制限している。 そこで本研究では,人間とロボットの1つのインタラクションから学習することで,与えられた個人的指標を探索し把握することを目的とした,新しいデータセットを用いたタスクシナリオgrabmineを提案する。 そこで本研究では,ユーザ環境からの生画像の収集を想起して,ユーザ情報伝達により個人オブジェクトを学習するパーソナライズド把持エージェント(pga)を提案する。 具体的には、PGAは、個人オブジェクトに関連指標を提示するユーザによって個人オブジェクト情報を取得し、PGAはそれを回転させてオブジェクトを検査する。 得られた情報に基づいて,提案したラベル伝搬アルゴリズムにより,PGAの擬似ラベルオブジェクトを記憶する。 インタラクションから得られた情報と擬似ラベルされたオブジェクトを思い起こさせ、pgaはオブジェクトの接地モデルを適用して個人オブジェクトを把握します。 GraspMineの実験では、PGAはオフラインとオンラインの両方でベースラインメソッドよりも大幅に優れており、実世界のシナリオにおけるその有効性とパーソナライズの適用性を示している。 最後に、定性的分析は、各相における結果の詳細な調査を通して、PGAの有効性を示す。

Language-Conditioned Robotic Grasping (LCRG) aims to develop robots that ground and grasp objects based on natural language instructions. While robots capable of recognizing personal objects like "my wallet" can interact more naturally with non-expert users, current LCRG systems primarily limit robots to understanding only generic expressions. To this end, we introduce a task scenario GraspMine with a novel dataset that aims to locate and grasp personal objects given personal indicators via learning from a single human-robot interaction. To address GraspMine, we propose Personalized Grasping Agent (PGA), that learns personal objects by propagating user-given information through a Reminiscence-a collection of raw images from the user's environment. Specifically, PGA acquires personal object information by a user presenting a personal object with its associated indicator, followed by PGA inspecting the object by rotating it. Based on the acquired information, PGA pseudo-labels objects in the Reminiscence by our proposed label propagation algorithm. Harnessing the information acquired from the interactions and the pseudo-labeled objects in the Reminiscence, PGA adapts the object grounding model to grasp personal objects. Experiments on GraspMine show that PGA significantly outperforms baseline methods both in offline and online settings, signifying its effectiveness and personalization applicability on real-world scenarios. Finally, qualitative analysis shows the effectiveness of PGA through a detailed investigation of results in each phase.
翻訳日:2023-10-20 16:14:31 公開日:2023-10-19
# 整数値時系列データのニューラルネットワークによる近似

Neural Likelihood Approximation for Integer Valued Time Series Data ( http://arxiv.org/abs/2310.12544v1 )

ライセンス: Link先を確認
Luke O'Loughlin, John Maclean, Andrew Black(参考訳) 整数値状態空間上で定義される確率過程は、物理科学や生物科学で人気がある。 これらのモデルは、集団の個々の性質を無視できず、確率的効果が重要である小さなシステムのダイナミクスを捉えるために必要である。 これらのモデルのパラメータの推測は、時系列データから、可能性の難解性のため困難であり、基礎となるモデルのシミュレーションに基づく現在の手法は、非常に計算コストがかかるため、禁止される。 本稿では,因果的畳み込みを用いた整数値時系列データに対するニューラルチャンス近似を構築し,時系列全体の確率を並列に評価する。 本手法は,多くの生態学・疫学モデルを用いて推定を行い,現在の手法が困難である状況において,計算速度の向上を達成しつつ,真の後部を正確に近似できることを示す。

Stochastic processes defined on integer valued state spaces are popular within the physical and biological sciences. These models are necessary for capturing the dynamics of small systems where the individual nature of the populations cannot be ignored and stochastic effects are important. The inference of the parameters of such models, from time series data, is difficult due to intractability of the likelihood; current methods, based on simulations of the underlying model, can be so computationally expensive as to be prohibitive. In this paper we construct a neural likelihood approximation for integer valued time series data using causal convolutions, which allows us to evaluate the likelihood of the whole time series in parallel. We demonstrate our method by performing inference on a number of ecological and epidemiological models, showing that we can accurately approximate the true posterior while achieving significant computational speed ups in situations where current methods struggle.
翻訳日:2023-10-20 16:14:05 公開日:2023-10-19
# privacygan: 堅牢な生成的イメージプライバシ

PrivacyGAN: robust generative image privacy ( http://arxiv.org/abs/2310.12590v1 )

ライセンス: Link先を確認
Mariia Zameshina (LIGM), Marlene Careil (MM, IDS), Olivier Teytaud (LRI, TANC), Laurent Najman (LIGM)(参考訳) Classical techniques for protecting facial image privacy typically fall into two categories: data-poisoning methods, exemplified by Fawkes, which introduce subtle perturbations to images, or anonymization methods that generate images resembling the original only in several characteristics, such as gender, ethnicity, or facial expression.In this study, we introduce a novel approach, PrivacyGAN, that uses the power of image generation techniques, such as VQGAN and StyleGAN, to safeguard privacy while maintaining image usability, particularly for social media applications. fawkesからインスピレーションを得た本手法では,組込み空間内のオリジナル画像からデコイ画像へのシフトを伴い,従来の顔画像データセットと新しい顔画像データセットにおけるプライバシー指標を用いたアプローチを評価した。 さらに,未知の画像認識手法に対するプライバシー保護手法の堅牢性を評価するための新たな基準を提案し,未知の埋め込み転送シナリオにおいても有効であることを示す。 また,友人や家族によって同一人物のイメージとして認識され続けるため,修正画像が有用性を維持することをさらに証明する人間評価を提供する。

Classical techniques for protecting facial image privacy typically fall into two categories: data-poisoning methods, exemplified by Fawkes, which introduce subtle perturbations to images, or anonymization methods that generate images resembling the original only in several characteristics, such as gender, ethnicity, or facial expression.In this study, we introduce a novel approach, PrivacyGAN, that uses the power of image generation techniques, such as VQGAN and StyleGAN, to safeguard privacy while maintaining image usability, particularly for social media applications. Drawing inspiration from Fawkes, our method entails shifting the original image within the embedding space towards a decoy image.We evaluate our approach using privacy metrics on traditional and novel facial image datasets. Additionally, we propose new criteria for evaluating the robustness of privacy-protection methods against unknown image recognition techniques, and we demonstrate that our approach is effective even in unknown embedding transfer scenarios. We also provide a human evaluation that further proves that the modified image preserves its utility as it remains recognisable as an image of the same person by friends and family.
翻訳日:2023-10-20 16:08:51 公開日:2023-10-19
# 時間知覚質問応答のための時間認識表現学習

Time-Aware Representation Learning for Time-Sensitive Question Answering ( http://arxiv.org/abs/2310.12585v1 )

ライセンス: Link先を確認
Jungbin Son, Alice Oh(参考訳) リアルタイム質問応答(QA)問題において、時間は重要な要素の1つである。 しかし、既存のQAデータセットには十分な時間表現が含まれていないため、言語モデルは、'after'や'before'のような時間指定子と数字の関係を理解するのが困難である。 この問題に対処するために,時間文脈対応質問応答(TCQA)フレームワークを提案する。 我々は,時間-コンテキスト依存スパン抽出(tcse)タスクを提案し,モデルトレーニングのための時間-コンテキスト依存データ生成フレームワークを構築する。 さらに,TCSEを用いてQAモデルの時間的意識を評価する指標を提案する。 TCSEタスクは、時間と文脈に基づいて、正しいまたは間違って分類された質問と4つの文候補からなる。 モデルは、時間と文脈の両方で正しい文から回答の範囲を抽出するように訓練される。 TCQAでトレーニングされたモデルは、TimeQAデータセットのF1スコアの8.5までのベースラインモデルを上回っている。 私たちのデータセットとコードはhttps://github.com/sonjbin/tcqaで利用可能です。

Time is one of the crucial factors in real-world question answering (QA) problems. However, language models have difficulty understanding the relationships between time specifiers, such as 'after' and 'before', and numbers, since existing QA datasets do not include sufficient time expressions. To address this issue, we propose a Time-Context aware Question Answering (TCQA) framework. We suggest a Time-Context dependent Span Extraction (TCSE) task, and build a time-context dependent data generation framework for model training. Moreover, we present a metric to evaluate the time awareness of the QA model using TCSE. The TCSE task consists of a question and four sentence candidates classified as correct or incorrect based on time and context. The model is trained to extract the answer span from the sentence that is both correct in time and context. The model trained with TCQA outperforms baseline models up to 8.5 of the F1-score in the TimeQA dataset. Our dataset and code are available at https://github.com/sonjbin/TCQA
翻訳日:2023-10-20 16:08:36 公開日:2023-10-19
# 多様な拡散:テキスト対画像生成における画像多様性の強化

Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation ( http://arxiv.org/abs/2310.12583v1 )

ライセンス: Link先を確認
Mariia Zameshina (LIGM), Olivier Teytaud (TAU), Laurent Najman (LIGM)(参考訳) 潜在拡散モデルはテキストから高品質な画像を生成するのに優れている。 しかし、生成した画像の多様性の欠如が懸念されている。 そこで我々は,色多様性を含むより豊かな領域にまたがる,性別や民族を超えた画像の多様性を高める手法である多様性拡散(diversity diffusion)を導入する。 我々のアプローチは、互いに離れている安定拡散潜在空間のベクトルを見つけることに焦点を当てている。 We generate multiple vectors in the latent space until we find a set of vectors that meets the desired distance requirements and the required batch size.To evaluate the effectiveness of our diversity methods, we conduct experiments examining various characteristics, including color diversity, LPIPS metric, and ethnicity/gender representation in images featuring humans.The results of our experiments emphasize the significance of diversity in generating realistic and varied images, offering valuable insights for improving text-to-image models. 画像の多様性の向上を通じて、我々のアプローチはより包括的で代表的なAI生成アートの作成に寄与する。

Latent diffusion models excel at producing high-quality images from text. Yet, concerns appear about the lack of diversity in the generated imagery. To tackle this, we introduce Diverse Diffusion, a method for boosting image diversity beyond gender and ethnicity, spanning into richer realms, including color diversity.Diverse Diffusion is a general unsupervised technique that can be applied to existing text-to-image models. Our approach focuses on finding vectors in the Stable Diffusion latent space that are distant from each other. We generate multiple vectors in the latent space until we find a set of vectors that meets the desired distance requirements and the required batch size.To evaluate the effectiveness of our diversity methods, we conduct experiments examining various characteristics, including color diversity, LPIPS metric, and ethnicity/gender representation in images featuring humans.The results of our experiments emphasize the significance of diversity in generating realistic and varied images, offering valuable insights for improving text-to-image models. Through the enhancement of image diversity, our approach contributes to the creation of more inclusive and representative AI-generated art.
翻訳日:2023-10-20 16:08:21 公開日:2023-10-19
# テキスト属性不均質グラフを用いた事前学習言語モデル

Pretraining Language Models with Text-Attributed Heterogeneous Graphs ( http://arxiv.org/abs/2310.12580v1 )

ライセンス: Link先を確認
Tao Zou, Le Yu, Yifei Huang, Leilei Sun, Bowen Du(参考訳) 多くの現実のシナリオ(例えば、学術的ネットワーク、社会プラットフォーム)では、異なるタイプのエンティティはテキストに関連付けられているだけでなく、様々な関係によって関連付けられており、テキスト属性の異種グラフ(TAHG)として抽象化できる。 現在の言語モデルのための事前学習タスク(lms)は、主に各エンティティのテキスト情報を個別に学習することに集中し、tahg内のエンティティ間のトポロジー接続を捉える重要な側面を見落としている。 本稿では,TAHGのトポロジ的および異種情報を明確に考慮した,LMのための新しい事前学習フレームワークを提案する。 まず,特定の順序における対象ノードの近傍としてコンテキストグラフを定義し,LMと補助ヘテロジニアスグラフニューラルネットワークを併用することにより,コンテキストグラフに関連するノードを予測するトポロジ対応事前学習タスクを提案する。 第二に、一部のノードがテキストに富んでいるのに対し、他のノードはテキストに乏しいという観測に基づいて、不均衡を扱うために隣人のテキストでテキストのないノードを豊かにするためのテキスト拡張戦略を考案する。 各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。 実験により,既存手法に対するアプローチの優位性と各設計の合理性を示す。 私たちのコードはhttps://github.com/hope-rita/thlmで利用可能です。

In many real-world scenarios (e.g., academic networks, social platforms), different types of entities are not only associated with texts but also connected by various relationships, which can be abstracted as Text-Attributed Heterogeneous Graphs (TAHGs). Current pretraining tasks for Language Models (LMs) primarily focus on separately learning the textual information of each entity and overlook the crucial aspect of capturing topological connections among entities in TAHGs. In this paper, we present a new pretraining framework for LMs that explicitly considers the topological and heterogeneous information in TAHGs. Firstly, we define a context graph as neighborhoods of a target node within specific orders and propose a topology-aware pretraining task to predict nodes involved in the context graph by jointly optimizing an LM and an auxiliary heterogeneous graph neural network. Secondly, based on the observation that some nodes are text-rich while others have little text, we devise a text augmentation strategy to enrich textless nodes with their neighbors' texts for handling the imbalance issue. We conduct link prediction and node classification tasks on three datasets from various domains. Experimental results demonstrate the superiority of our approach over existing methods and the rationality of each design. Our code is available at https://github.com/Hope-Rita/THLM.
翻訳日:2023-10-20 16:08:07 公開日:2023-10-19
# 複数言語による政党位置推定:ラベルアグリゲーションからロングインプット・トランスフォーマーへ

Multilingual estimation of political-party positioning: From label aggregation to long-input Transformers ( http://arxiv.org/abs/2310.12575v1 )

ライセンス: Link先を確認
Dmitry Nikolaev and Tanise Ceron and Sebastian Pad\'o(参考訳) スケーリング分析(英語: Scaling analysis)とは、政治学者(政治家や政党など)が(典型的には)テキストの本体(議会演説や選挙宣言など)に基づいて事前に定義された尺度でスコアを割り当てる計算政治学の技法である。 例えば、政治学者は、異なる国の政治情勢を体系的に分析するために、しばしば左利きの尺度を用いてきた。 自動スケーリング解析のためのNLP法は, 適用範囲が広い。 (i)長文を扱うことができる。 (ii)ドメインや言語をまたいだ堅牢な作業。 本研究では,ラベルアグリゲーション,マニフェストからの個々のステートメントのアノテーションに依存したパイプライン戦略,原文から直接のスケーリング値を計算するロングインプット・トランスフォーマーモデルという,政党のマニフェストの自動スケーリング分析のための2つのアプローチを実装・比較する。 41か国27か国にまたがる比較マニフェストプロジェクトデータセットの分析を行い、その課題が最先端のモデルによって効率的に解決され、ラベルアグリゲーションが最良の結果を生み出すことを見出した。

Scaling analysis is a technique in computational political science that assigns a political actor (e.g. politician or party) a score on a predefined scale based on a (typically long) body of text (e.g. a parliamentary speech or an election manifesto). For example, political scientists have often used the left--right scale to systematically analyse political landscapes of different countries. NLP methods for automatic scaling analysis can find broad application provided they (i) are able to deal with long texts and (ii) work robustly across domains and languages. In this work, we implement and compare two approaches to automatic scaling analysis of political-party manifestos: label aggregation, a pipeline strategy relying on annotations of individual statements from the manifestos, and long-input-Transformer-based models, which compute scaling values directly from raw text. We carry out the analysis of the Comparative Manifestos Project dataset across 41 countries and 27 languages and find that the task can be efficiently solved by state-of-the-art models, with label aggregation producing the best results.
翻訳日:2023-10-20 16:07:43 公開日:2023-10-19
# アルツハイマー病分類のための二重注意モジュール(3D-DAM)を用いた再現性3D畳み込みニューラルネットワーク

A reproducible 3D convolutional neural network with dual attention module (3D-DAM) for Alzheimer's disease classification ( http://arxiv.org/abs/2310.12574v1 )

ライセンス: Link先を確認
Gia Minh Hoang, Youngjoo Lee and Jae Gwan Kim(参考訳) アルツハイマー病は最も一般的な神経変性疾患の1つであり、アミロイドβプラークとタウタングルの蓄積が特徴である。 近年,アルツハイマー病の診断において深層学習のアプローチが期待されている。 本研究では,アルツハイマー病分類のための2重注意モジュールを備えた3次元畳み込みニューラルネットワークを用いた再現性モデルを提案する。 このモデルをADNIデータベースでトレーニングし,2つの独立したデータセット(AIBLとOASIS1)で本手法の一般化性を検証した。 本手法は,mci進行分類の91.94%,adniデータセットのアルツハイマー病分類の96.30%の精度で最先端の分類性能を達成した。 さらに、モデルは優れた一般化可能性を示し、AIBLデータセットでは86.37%、OASIS1データセットでは83.42%の精度を達成した。 これらの結果から,本提案手法はこの分野における最近の研究と比較して,競争性能と一般化性を有することが示された。

Alzheimer's disease is one of the most common types of neurodegenerative disease, characterized by the accumulation of amyloid-beta plaque and tau tangles. Recently, deep learning approaches have shown promise in Alzheimer's disease diagnosis. In this study, we propose a reproducible model that utilizes a 3D convolutional neural network with a dual attention module for Alzheimer's disease classification. We trained the model in the ADNI database and verified the generalizability of our method in two independent datasets (AIBL and OASIS1). Our method achieved state-of-the-art classification performance, with an accuracy of 91.94% for MCI progression classification and 96.30% for Alzheimer's disease classification on the ADNI dataset. Furthermore, the model demonstrated good generalizability, achieving an accuracy of 86.37% on the AIBL dataset and 83.42% on the OASIS1 dataset. These results indicate that our proposed approach has competitive performance and generalizability when compared to recent studies in the field.
翻訳日:2023-10-20 16:07:23 公開日:2023-10-19
# 制御レンズによる量子コンピューティング:チュートリアル入門

Quantum computing through the lens of control: A tutorial introduction ( http://arxiv.org/abs/2310.12571v1 )

ライセンス: Link先を確認
Julian Berberich and Daniel Fink(参考訳) 量子コンピューティングは、これまで難解だった問題を効率的に解き、コンピューティングに革命をもたらすことを約束する、魅力的な学際的な研究分野である。 近年、量子コンピューティングデバイスの実験的実現と、量子アルゴリズムの開発と実装の両方において、大きな進歩が見られた。 しかし、量子コンピュータの計算能力の利点を実際に実現することは、多くの根本的な課題のために広く開かれた問題である。 興味深いことに、これらの課題の多くは、パフォーマンス、堅牢性、スケーラビリティ、最適化、フィードバックに関係しています。 本稿では制御理論の観点から量子コンピューティングのチュートリアルを紹介する。 本稿では,量子ビットや量子ゲートなどの基本要素から,変分量子アルゴリズムや量子エラーといったより高度な概念まで,量子アルゴリズムの数学的枠組みを紹介する。 チュートリアルは線形代数の基本的な知識のみを必要とし、特に量子物理学への事前の露出は不要である。 私たちの主な目標は、量子コンピューティングにおける(制御に関連した)問題の理解と解決に必要な数学的基礎を読者に与えることです。 特に、チュートリアルの紹介以外にも、量子コンピューティングの分野における研究課題のリストを提供し、それらの制御との関係について論じる。

Quantum computing is a fascinating interdisciplinary research field that promises to revolutionize computing by efficiently solving previously intractable problems. Recent years have seen tremendous progress on both the experimental realization of quantum computing devices as well as the development and implementation of quantum algorithms. Yet, realizing computational advantages of quantum computers in practice remains a widely open problem due to numerous fundamental challenges. Interestingly, many of these challenges are connected to performance, robustness, scalability, optimization, or feedback, all of which are central concepts in control theory. This paper provides a tutorial introduction to quantum computing from the perspective of control theory. We introduce the mathematical framework of quantum algorithms ranging from basic elements including quantum bits and quantum gates to more advanced concepts such as variational quantum algorithms and quantum errors. The tutorial only requires basic knowledge of linear algebra and, in particular, no prior exposure to quantum physics. Our main goal is to equip readers with the mathematical basics required to understand and possibly solve (control-related) problems in quantum computing. In particular, beyond the tutorial introduction, we provide a list of research challenges in the field of quantum computing and discuss their connections to control.
翻訳日:2023-10-20 16:07:05 公開日:2023-10-19
# DA-TransUNet:医療画像セグメンテーションのためのトランスフォーマーU-Netによる空間的・チャネル的デュアルアテンションの統合

DA-TransUNet: Integrating Spatial and Channel Dual Attention with Transformer U-Net for Medical Image Segmentation ( http://arxiv.org/abs/2310.12570v1 )

ライセンス: Link先を確認
Guanqun Sun, Yizhi Pan, Weikun Kong, Zichang Xu, Jianhua Ma, Teeradaj Racharak, Le-Minh Nguyen(参考訳) 強力な深層表現学習による医用画像の自動分割は大きな進歩を遂げている。 トランスフォーマーの影響は、その変種の研究につながり、従来のcnnモジュールを大規模に置き換えた。 しかし、このような傾向はしばしばトランスの本質的な特徴抽出能力と、モデルとトランスモジュールの両方に小さな調整を施した潜在的な改良を見落としている。 本研究は,従来のu字型アーキテクチャのエンコーダとデコーダにトランスフォーマとデュアルアテンションブロックを導入することを目的とした,新しい深層医用画像分割フレームワークda-transunetを提案する。 従来のトランスフォーマティブ・ソリューションとは異なり,da-transunetはトランスフォーマの注意機構とda-blockの多面的特徴抽出機構を利用して,グローバル,ローカル,マルチスケールの機能を効率的に組み合わせ,医用画像のセグメンテーションを向上させる。 また,u-net構造の特徴抽出を容易にするために,トランス層の前に2重注意ブロックを付加する実験を行った。 さらに、スキップ接続にデュアルアテンションブロックを組み込むことで、デコーダへの特徴転送が向上し、画像セグメンテーション性能が向上する。 様々な医療画像セグメンテーションのベンチマークによる実験結果から,DA-TransUNetは最先端の手法よりも優れていた。 私たちのモデルのコードとパラメータはhttps://github.com/sun-1024/da-transunetで公開されます。

Great progress has been made in automatic medical image segmentation due to powerful deep representation learning. The influence of transformer has led to research into its variants, and large-scale replacement of traditional CNN modules. However, such trend often overlooks the intrinsic feature extraction capabilities of the transformer and potential refinements to both the model and the transformer module through minor adjustments. This study proposes a novel deep medical image segmentation framework, called DA-TransUNet, aiming to introduce the Transformer and dual attention block into the encoder and decoder of the traditional U-shaped architecture. Unlike prior transformer-based solutions, our DA-TransUNet utilizes attention mechanism of transformer and multifaceted feature extraction of DA-Block, which can efficiently combine global, local, and multi-scale features to enhance medical image segmentation. Meanwhile, experimental results show that a dual attention block is added before the Transformer layer to facilitate feature extraction in the U-net structure. Furthermore, incorporating dual attention blocks in skip connections can enhance feature transfer to the decoder, thereby improving image segmentation performance. Experimental results across various benchmark of medical image segmentation reveal that DA-TransUNet significantly outperforms the state-of-the-art methods. The codes and parameters of our model will be publicly available at https://github.com/SUN-1024/DA-TransUnet.
翻訳日:2023-10-20 16:06:48 公開日:2023-10-19
# Julearn:MLモデルのリークフリー評価と検査のための使いやすいライブラリ

Julearn: an easy-to-use library for leakage-free evaluation and inspection of ML models ( http://arxiv.org/abs/2310.12568v1 )

ライセンス: Link先を確認
Sami Hamdan, Shammi More, Leonard Sasse, Vera Komeyer, Kaustubh R. Patil and Federico Raimondo (for the Alzheimer's Disease Neuroimaging Initiative)(参考訳) 機械学習(ML)手法の急速な発展と、その研究への採用の増加は、研究者がMLで広範なトレーニングを受けていないことの難しさを浮き彫りにしている。 例えば神経科学では、MLは脳と行動の関係を理解し、病気を診断し、磁気共鳴画像や脳波などの様々なデータソースを用いてバイオマーカーを開発する。 mlの主な目的は、見えないデータで正確な予測ができるモデルを構築することである。 研究者らは,クロスバリデーション(CV)などの手法を用いて,一般化性能を推定する手法を用いて,そのような一般化可能なモデルの存在を証明することを目指している。 CVスキームの選択とMLパイプラインの評価は困難であり、不適切に使用すれば過度に見積もられた結果や誤った解釈につながる可能性がある。 JulearnはオープンソースのPythonライブラリで、研究者が共通の落とし穴に遭遇することなく、複雑なMLパイプラインを設計、評価できる。 本論文では, ジュラルンの設計の背景, その中核となる特徴と, 本新ライブラリを用いて容易に実装可能な3つの研究プロジェクト例を紹介する。 Julearnは、最も一般的なMLの落とし穴に対して、ガードを組み込んだ使いやすい環境を提供することで、MLの世界への参入を簡単にすることを目指している。 その設計、ユニークな機能、シンプルなインターフェースにより、研究プロジェクトに役立つPythonベースのライブラリとして機能する。

The fast-paced development of machine learning (ML) methods coupled with its increasing adoption in research poses challenges for researchers without extensive training in ML. In neuroscience, for example, ML can help understand brain-behavior relationships, diagnose diseases, and develop biomarkers using various data sources like magnetic resonance imaging and electroencephalography. The primary objective of ML is to build models that can make accurate predictions on unseen data. Researchers aim to prove the existence of such generalizable models by evaluating performance using techniques such as cross-validation (CV), which uses systematic subsampling to estimate the generalization performance. Choosing a CV scheme and evaluating an ML pipeline can be challenging and, if used improperly, can lead to overestimated results and incorrect interpretations. We created julearn, an open-source Python library, that allow researchers to design and evaluate complex ML pipelines without encountering in common pitfalls. In this manuscript, we present the rationale behind julearn's design, its core features, and showcase three examples of previously-published research projects that can be easily implemented using this novel library. Julearn aims to simplify the entry into the ML world by providing an easy-to-use environment with built in guards against some of the most common ML pitfalls. With its design, unique features and simple interface, it poses as a useful Python-based library for research projects.
翻訳日:2023-10-20 16:06:06 公開日:2023-10-19
# safety-gymnasium - 統合型安全強化学習ベンチマーク

Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark ( http://arxiv.org/abs/2310.12567v1 )

ライセンス: Link先を確認
Jiaming Ji, Borong Zhang, Jiayi Zhou, Xuehai Pan, Weidong Huang, Ruiyang Sun, Yiran Geng, Yifan Zhong, Juntao Dai, Yaodong Yang(参考訳) 人工知能(AI)システムは、社会の進歩を促進する大きな可能性を秘めている。 しかし、その配置は重大な安全上の懸念からしばしば障害に直面している。 安全強化学習(SafeRL)は、複数の制約を同時に遵守しながらポリシーを最適化するソリューションとして登場し、安全クリティカルなシナリオにおける強化学習の統合という課題に対処する。 本稿では,ベクトルと視覚のみの入力を受け付け,単一のシナリオとマルチエージェントシナリオの両方において安全クリティカルなタスクを含む,セーフティ・ジムナシウムという環境スイートを提案する。 さらに, セーフポリシー最適化 (SafePO) と呼ばれるアルゴリズムのライブラリを提供し, 最先端のSafeRLアルゴリズムを16種類提供している。 この総合的なライブラリは、研究コミュニティのバリデーションツールとして機能する。 このベンチマークを導入することで、安全性能の評価と比較が容易になり、より安全で信頼性が高く、責任のある実世界のアプリケーションのための強化学習の開発が促進される。 プロジェクトのwebサイトはhttps://sites.google.com/view/safety-gymnasiumでアクセスできる。

Artificial intelligence (AI) systems possess significant potential to drive societal progress. However, their deployment often faces obstacles due to substantial safety concerns. Safe reinforcement learning (SafeRL) emerges as a solution to optimize policies while simultaneously adhering to multiple constraints, thereby addressing the challenge of integrating reinforcement learning in safety-critical scenarios. In this paper, we present an environment suite called Safety-Gymnasium, which encompasses safety-critical tasks in both single and multi-agent scenarios, accepting vector and vision-only input. Additionally, we offer a library of algorithms named Safe Policy Optimization (SafePO), comprising 16 state-of-the-art SafeRL algorithms. This comprehensive library can serve as a validation tool for the research community. By introducing this benchmark, we aim to facilitate the evaluation and comparison of safety performance, thus fostering the development of reinforcement learning for safer, more reliable, and responsible real-world applications. The website of this project can be accessed at https://sites.google.com/view/safety-gymnasium.
翻訳日:2023-10-20 16:05:16 公開日:2023-10-19
# 単一光子の連続変調変数におけるGottesman-Kitaev-Preskill符号化

Gottesman-Kitaev-Preskill encoding in continuous modal variables of single photons ( http://arxiv.org/abs/2310.12618v1 )

ライセンス: Link先を確認
\'Eloi Descamps, Arne Keller and P\'erola Milman(参考訳) Gottesman, Kitaev, Preskillによって導入されたGKP状態は連続変数論理量子ビットであり、位相空間の変位による誤差に対して補正することができる。 それらの実験的な実現は、特に電磁場の二次構造に量子情報が符号化される伝播場を用いて困難である。 しかし、進行光子は量子情報の長距離伝送を含むgkp符号の多くの応用において必須である。 本稿では,単一光子を用いた伝播場におけるGKP状態の符号化手法を提案する。 GKP状態は、時間と周波数の集合的連続モードによって記述される高相関状態として定義される。 誤差検出・補正プロトコルは、全光子数とスペクトル幅でどのようにスケールするかを分析する。 得られた符号は、二次位相空間における位相差や回転、光子損失に対応する時間周波数位相空間における変位を補正できることを示した。 最も重要なことは、2光子GKP状態の生成は比較的単純であり、これらの状態は現在、周波数と時間ビンの双光子絡み状態がエンジニアリング可能な複数のフォトニックプラットフォームで生成・操作されていることである。

GKP states, introduced by Gottesman, Kitaev, and Preskill, are continuous variable logical qubits that can be corrected for errors caused by phase space displacements. Their experimental realization is challenging, in particular using propagating fields, where quantum information is encoded in the quadratures of the electromagnetic field. However, travelling photons are essential in many applications of GKP codes involving the long-distance transmission of quantum information. We introduce a new method for encoding GKP states in propagating fields using single photons, each occupying a distinct auxiliary mode given by the propagation direction. The GKP states are defined as highly correlated states described by collective continuous modes, as time and frequency. We analyze how the error detection and correction protocol scales with the total photon number and the spectral width. We show that the obtained code can be corrected for displacements in time-frequency phase space - which correspond to dephasing, or rotations, in the quadrature phase space - and to photon losses. Most importantly, we show that generating two-photon GKP states is relatively simple, and that such states are currently produced and manipulated in several photonic platforms where frequency and time-bin biphoton entangled states can be engineered.
翻訳日:2023-10-20 15:57:03 公開日:2023-10-19
# サブミクロン4h-sic膜のv2中心のスペクトル安定性

Spectral stability of V2-centres in sub-micron 4H-SiC membranes ( http://arxiv.org/abs/2310.12617v1 )

ライセンス: Link先を確認
Jonah Heiler, Jonathan K\"orber, Erik Hesselmeier, Pierre Kuna, Rainer St\"ohr, Philipp Fuchs, Misagh Ghezellou, Jawad Ul-Hassan, Wolfgang Knolle, Christoph Becher, Florian Kaiser, J\"org Wrachtrup(参考訳) 炭化ケイ素のカラーセンターは、優れたスピン光学コヒーレンスを持つ有望な半導体量子技術プラットフォームとして出現する。 しかし、近年のナノフォトニック構造への集積による光効率の最大化への取り組みは、スペクトル安定性の低下により困難であることが判明した。 ここでは, 厚さが0.25\,\rm\mu m$までの炭化ケイ素薄膜中のシリコン空孔中心を大規模に解析する。 製膜工程は, 化学機械研磨, 反応性イオンエッチング, およびその後の熱処理を組み合わせた。 これにより、粗さ値が3-4\,\rm\r{A}$の高再現性膜と、無視可能な表面蛍光が生じる。 シリコン空白の中心は生涯限定の光線幅を示しており、スペクトルの兆候はほとんどなく、膜厚0.7 \,\rm\mu m$である。 より薄い膜にあるシリコン空白中心が0.25\,\rm\mu m$以下では、スペクトルの迷いを観測するが、光線幅は200\,\rm mhz$以下であり、スピン選択励起法と互換性がある。 本研究は, シリコン空孔中心をサブミクロンシリコン炭化物膜に統合し, ナノフォトニック構造に基づく光子抽出効率の向上に向けての道を開くことを明らかにした。

Colour centres in silicon carbide emerge as a promising semiconductor quantum technology platform with excellent spin-optical coherences. However, recent efforts towards maximising the photonic efficiency via integration into nanophotonic structures proved to be challenging due to reduced spectral stabilities. Here, we provide a large-scale systematic investigation on silicon vacancy centres in thin silicon carbide membranes with thicknesses down to $0.25\,\rm\mu m$. Our membrane fabrication process involves a combination of chemical mechanical polishing, reactive ion etching, and subsequent annealing. This leads to highly reproducible membranes with roughness values of $3-4\,\rm\r{A}$, as well as negligible surface fluorescence. We find that silicon vacancy centres show close-to lifetime limited optical linewidths with almost no signs of spectral wandering down to membrane thicknesses of $0.7 \,\rm\mu m$. For silicon vacancy centres in thinner membranes down to $0.25\,\rm\mu m$, we observe spectral wandering, however, optical linewidths remain below $200\,\rm MHz$, which is compatible with spin-selective excitation schemes. Our work clearly shows that silicon vacancy centres can be integrated into sub-micron silicon carbide membranes, which opens the avenue towards obtaining the necessary improvements in photon extraction efficiency based on nanophotonic structuring.
翻訳日:2023-10-20 15:56:41 公開日:2023-10-19
# 歴史的地図の意味セグメンテーションのための時空間トランスフォーマ

Cross-attention Spatio-temporal Context Transformer for Semantic Segmentation of Historical Maps ( http://arxiv.org/abs/2310.12616v1 )

ライセンス: Link先を確認
Sidi Wu, Yizi Chen, Konrad Schindler, Lorenz Hurni(参考訳) 歴史的地図は、現代の地球観測技術が登場する前に、地球表面の時空間情報を提供する。 地図から情報を抽出するために、近年広く普及したニューラルネットワークは、手作りの地図処理手法と退屈な手作業に取って代わった。 しかし、データ依存不確実性として知られるアレタリック不確実性は、元の地図シートの描画/スキャン/フェーディングの欠陥に固有のものであり、トレーニングプロセスの記憶限界を考慮して地図を小さなタイルに刈り込む際には、適切な予測を行うためにモデルに挑戦する。 より多くのトレーニングデータを収集しても,アレータリックな不確実性は低減できないため,相補的な時空間コンテキストが有用である,と論じる。 そこで本研究では,空間範囲の広い情報と,時間的画像のシーケンスを通じて,時空間の特徴を相互対応変換器(U-SpaTem)と融合するU-Netベースのネットワークを提案する。 我々のモデルは、時間的または空間的文脈を使用する他の状態または技術モデルよりも優れた性能を達成する。 純粋な視覚トランスフォーマーと比較して、私たちのモデルはより軽量で効果的です。 我々の知識を最大限に活用するために,空間的・時間的文脈の両面を利用したセグメンテーション作業は,これまでほとんど行われなかった。 本手法は歴史的地図のセグメント化に応用されているが,衛星画像の時間的順序などの類似の問題により,他の分野にも適用できると考えている。 私たちのコードはhttps://github.com/chenyizi086/wu.2023.sigspatial.gitで自由にアクセスできます。

Historical maps provide useful spatio-temporal information on the Earth's surface before modern earth observation techniques came into being. To extract information from maps, neural networks, which gain wide popularity in recent years, have replaced hand-crafted map processing methods and tedious manual labor. However, aleatoric uncertainty, known as data-dependent uncertainty, inherent in the drawing/scanning/fading defects of the original map sheets and inadequate contexts when cropping maps into small tiles considering the memory limits of the training process, challenges the model to make correct predictions. As aleatoric uncertainty cannot be reduced even with more training data collected, we argue that complementary spatio-temporal contexts can be helpful. To achieve this, we propose a U-Net-based network that fuses spatio-temporal features with cross-attention transformers (U-SpaTem), aggregating information at a larger spatial range as well as through a temporal sequence of images. Our model achieves a better performance than other state-or-art models that use either temporal or spatial contexts. Compared with pure vision transformers, our model is more lightweight and effective. To the best of our knowledge, leveraging both spatial and temporal contexts have been rarely explored before in the segmentation task. Even though our application is on segmenting historical maps, we believe that the method can be transferred into other fields with similar problems like temporal sequences of satellite images. Our code is freely accessible at https://github.com/chenyizi086/wu.2023.sigspatial.git.
翻訳日:2023-10-20 15:56:17 公開日:2023-10-19
# 学生が教師になる方法: スペクトル法を通して学び忘れていく

How a student becomes a teacher: learning and forgetting through Spectral methods ( http://arxiv.org/abs/2310.12612v1 )

ライセンス: Link先を確認
Lorenzo Giambagli, Lorenzo Buffoni, Lorenzo Chicchi, Duccio Fanelli(参考訳) 理論MLでは、教師-学生パラダイムは実生活の授業の効果的なメタファーとしてしばしば用いられる。 この方式は,教師ネットワークと比較して生徒ネットワークが過小評価されている場合,特に有意である。 これらの運用条件下では、与えられたタスクを扱う学生の能力が最終的にネットワーク全体のサブポートに格納される可能性があると推測する傾向にある。 後者は、学生候補ネットワークの異なるアーキテクチャ間でほぼ不変でありながら、適切な指標に従って、凍結した教師構造をある程度思い出させるべきである。 残念ながら、最先端の従来の学習技術は、検査された問題を特徴づける非凸性の固有の程度のために、そのような不変サブネットワークの存在を特定するのに役立たなかった。 本研究では,レイヤ間の情報の線形伝達のスペクトル表現を基盤とした,根本的に異なる最適化手法を提案する。 したがって、勾配は、通常の訓練アルゴリズムと比較して計算量や複雑性の負荷が無視できる固有値と固有ベクトルの両方で計算される。 この枠組みで作業することで、教師の真の複雑さを、計算ニューロン、経路分布、トポロジ的属性の観点から反映する安定した学生サブ構造を分離できる。 訓練生の重要でないノードを刈り取るとき、最適化された固有値を反映したランクに従えば、記録されたパフォーマンスの劣化は、効果的な教師サイズに対応する閾値以上では見られない。 観察された挙動は、普遍性特性を持つ真の二階相遷移として描かれる。

In theoretical ML, the teacher-student paradigm is often employed as an effective metaphor for real-life tuition. The above scheme proves particularly relevant when the student network is overparameterized as compared to the teacher network. Under these operating conditions, it is tempting to speculate that the student ability to handle the given task could be eventually stored in a sub-portion of the whole network. This latter should be to some extent reminiscent of the frozen teacher structure, according to suitable metrics, while being approximately invariant across different architectures of the student candidate network. Unfortunately, state-of-the-art conventional learning techniques could not help in identifying the existence of such an invariant subnetwork, due to the inherent degree of non-convexity that characterizes the examined problem. In this work, we take a leap forward by proposing a radically different optimization scheme which builds on a spectral representation of the linear transfer of information between layers. The gradient is hence calculated with respect to both eigenvalues and eigenvectors with negligible increase in terms of computational and complexity load, as compared to standard training algorithms. Working in this framework, we could isolate a stable student substructure, that mirrors the true complexity of the teacher in terms of computing neurons, path distribution and topological attributes. When pruning unimportant nodes of the trained student, as follows a ranking that reflects the optimized eigenvalues, no degradation in the recorded performance is seen above a threshold that corresponds to the effective teacher size. The observed behavior can be pictured as a genuine second-order phase transition that bears universality traits.
翻訳日:2023-10-20 15:55:49 公開日:2023-10-19
# 英語モデルにおけるジェンダーバイアスに応答するトランスフォーマー成分の同定と適応

Identifying and Adapting Transformer-Components Responsible for Gender Bias in an English Language Model ( http://arxiv.org/abs/2310.12611v1 )

ライセンス: Link先を確認
Abhijith Chintam, Rahel Beloch, Willem Zuidema, Michael Hanna and Oskar van der Wal(参考訳) 言語モデル(LM)は、性別バイアスを含むトレーニングデータから得られた多くの種類の望ましくないバイアスを示し、増幅する。 しかし、汎用言語モデリング性能を損なうことなく、この動作を効果的かつ効率的に変更するためのツールが欠如している。 本稿では,lm成分と特定の出力との因果関係を同定する3つの手法について検討する。因果的調停解析,自動回路探索,微分マスキングに基づくdiffmask+と呼ばれる新しい効率的な方法を提案する。 本手法をGPT-2の小型化と性別バイアスの問題に適用し,検出した成分群を用いてパラメータ効率の良い微調整を行った。 以上の結果から,完全モデルの微調整に比べて一般言語モデルへのダメージが少なく,性別偏りの軽減に成功し,識別されたコンポーネントの重なりが顕著であることが示された。 しかし,本研究は,バイアスの定義と測定の難しさ,およびデータセット選択に対する因果的発見手順の感度を強調する。 私たちの仕事がデータセット開発にもっと注意を向け、他のタイプのバイアスに対してより効果的な緩和戦略をもたらすことを願っています。

Language models (LMs) exhibit and amplify many types of undesirable biases learned from the training data, including gender bias. However, we lack tools for effectively and efficiently changing this behavior without hurting general language modeling performance. In this paper, we study three methods for identifying causal relations between LM components and particular output: causal mediation analysis, automated circuit discovery and our novel, efficient method called DiffMask+ based on differential masking. We apply the methods to GPT-2 small and the problem of gender bias, and use the discovered sets of components to perform parameter-efficient fine-tuning for bias mitigation. Our results show significant overlap in the identified components (despite huge differences in the computational requirements of the methods) as well as success in mitigating gender bias, with less damage to general language modeling compared to full model fine-tuning. However, our work also underscores the difficulty of defining and measuring bias, and the sensitivity of causal discovery procedures to dataset choice. We hope our work can contribute to more attention for dataset development, and lead to more effective mitigation strategies for other types of bias.
翻訳日:2023-10-20 15:55:24 公開日:2023-10-19
# 衝突自由運動計画のための絶縁体による伝熱拡散

Denoising Heat-inspired Diffusion with Insulators for Collision Free Motion Planning ( http://arxiv.org/abs/2310.12609v1 )

ライセンス: Link先を確認
Junwoo Chang, Hyunwoo Ryu, Jiwoo Kim, Soochul Yoo, Joohwan Seo, Nikhil Prakash, Jongeun Choi, Roberto Horowitz(参考訳) 拡散モデルは、柔軟性と多モード性のためにロボット工学の強力なツールとして台頭している。 これらの手法のいくつかは複雑な問題に効果的に対処するが、しばしば推論時の障害物検出に大きく依存し、追加の機器を必要とする。 これらの課題に対処し,推論時間中に,単一の視覚入力から,到達可能な目標と障害を回避する計画動作のみを同時に生成する手法を提案する。 我々のアプローチの中心は、衝突回避拡散カーネルをトレーニングに利用することである。 ビヘイビアクローニングモデルや古典拡散モデルに対する評価を通じて,その頑健性が証明された。 マルチモーダル環境では特に効果的で、目標に向かって移動し、障害物によってブロックされた到達不能なものを避けながら、衝突回避を確保する。

Diffusion models have risen as a powerful tool in robotics due to their flexibility and multi-modality. While some of these methods effectively address complex problems, they often depend heavily on inference-time obstacle detection and require additional equipment. Addressing these challenges, we present a method that, during inference time, simultaneously generates only reachable goals and plans motions that avoid obstacles, all from a single visual input. Central to our approach is the novel use of a collision-avoiding diffusion kernel for training. Through evaluations against behavior-cloning and classical diffusion models, our framework has proven its robustness. It is particularly effective in multi-modal environments, navigating toward goals and avoiding unreachable ones blocked by obstacles, while ensuring collision avoidance.
翻訳日:2023-10-20 15:55:03 公開日:2023-10-19
# 28Si/SiGeの多電子スピン状態に結合した磁場勾配駆動一重項量子ビットのコヒーレンス

Coherence of a field-gradient-driven singlet-triplet qubit coupled to many-electron spin states in 28Si/SiGe ( http://arxiv.org/abs/2310.12603v1 )

ライセンス: Link先を確認
Younguk Song, Jonginn Yun, Jehyun Kim, Wonjin Jang, Hyeongyu Jang, Jaemin Park, Min-Kyun Cho, Hanseo Sohn, Noritaka Usami, Satoru Miyamoto, Kohei M. Itoh, Dohun Kim(参考訳) 工学的なスピン電結合により、半導体ナノ構造のスピン量子ビットを効率よく、個別に操作することができる。 マイクロマグネットを用いた合成スピン軌道結合はシリコンの単一スピンに基づく量子ビットの駆動に広く使われているが、エンコードされたスピン量子ビットの対応するデモンストレーションは自然シリコンに限られている。 ここでは,符号化されたスピン量子ビットの発振品質係数が580を超えるオンチップマイクロマグネットを用いて,ゲート定義二重量子ドット($^{28}$Si/SiGe)における高速シングルトリップ量子ビット発振(〜100MHz)を実演する。 コヒーレンス時間$\textit{t}_{2}$*はポテンシャルデチューニングと外部磁場の関数として解析される。 弱い磁場では、コヒーレンスはデータ取得時間に比べて速いノイズによって制限され、エルゴード極限において$\textit{T}_{2}$* < 1 ${\mu}$s に制限される。 我々は、量子ドットのスピン状態と量子ビットの最大かつコヒーレントな結合の証拠を示し、適切なスピン-電荷結合により電荷ベースの2量子ビットゲートを (1,1) 電荷配置で実現できることを示す。

Engineered spin-electric coupling enables spin qubits in semiconductor nanostructures to be manipulated efficiently and addressed individually. While synthetic spin-orbit coupling using a micromagnet is widely used for driving qubits based on single spins in silicon, corresponding demonstration for encoded spin qubits is so far limited to natural silicon. Here, we demonstrate fast singlet-triplet qubit oscillation (~100 MHz) in a gate-defined double quantum dot in $^{28}$Si/SiGe with an on-chip micromagnet with which we show the oscillation quality factor of an encoded spin qubit exceeding 580. The coherence time $\textit{T}_{2}$* is analyzed as a function of potential detuning and an external magnetic field. In weak magnetic fields, the coherence is limited by fast noise compared to the data acquisition time, which limits $\textit{T}_{2}$* < 1 ${\mu}$s in the ergodic limit. We present evidence of sizable and coherent coupling of the qubit with the spin states of a nearby quantum dot, demonstrating that appropriate spin-electric coupling may enable a charge-based two-qubit gate in a (1,1) charge configuration.
翻訳日:2023-10-20 15:54:49 公開日:2023-10-19
# ホログラフィー再正規化グループに対する統計力学的アプローチ:格子イジングモデルとp-adic AdS/CFT

Statistical Mechanics Approach to the Holographic Renormalization Group: Bethe Lattice Ising Model and p-adic AdS/CFT ( http://arxiv.org/abs/2310.12601v1 )

ライセンス: Link先を確認
Kouichi Okunishi and Tadashi Takayanagi(参考訳) 位相遷移の統計力学の古典的モデルであるベーテ格子イジングモデルは、テンソルネットワークとアンチ・ド・シッター(AdS)/コンフォーマル場理論(CFT)対応の間の原型的関係を新しく直感的に理解する。 ベテ格子モデルに対するホログラフィック再正規化群を解析的に定式化した後、格子ネットワークと有効ポアンカレ計量の関係を単位円板上に導入することにより、境界スピン相関のパワーロッド崩壊のメカニズムと正確なスケーリング次元を示す。 高温領域のBethe格子モデルとAdS$2$のスカラー場を比較し、p進AdS/CFTとのより直接的な接続について議論する。 さらに、内部における相転移は、対応する相関経路の深さに依存して、境界スピン相関の交差挙動を引き起こすことが判明した。

The Bethe lattice Ising model -- a classical model of statistical mechanics for the phase transition -- provides a novel and intuitive understanding of the prototypical relationship between tensor networks and Anti-de Sitter (AdS)/conformal field theory (CFT) correspondence. After analytically formulating a holographic renormalization group for the Bethe lattice model, we demonstrate the underlying mechanism and the exact scaling dimensions for the power-law decay of boundary spin correlations by introducing the relation between the lattice network and an effective Poincare metric on a unit disk. We compare the Bethe lattice model in the high-temperature region with a scalar field in AdS$_2$, and then discuss its more direct connection to the p-adic AdS/CFT. In addition, we find that the phase transition in the interior induces a crossover behavior of boundary spin correlations, depending on the depth of the corresponding correlation path.
翻訳日:2023-10-20 15:54:23 公開日:2023-10-19
# FUSC:深層自己教師型学習を用いた第2トリメスタースカンの胎児超音波シーマンティッククラスタリング

FUSC: Fetal Ultrasound Semantic Clustering of Second Trimester Scans Using Deep Self-supervised Learning ( http://arxiv.org/abs/2310.12600v1 )

ライセンス: Link先を確認
Hussain Alasmawi, Leanne Bricker, Mohammad Yaqub(参考訳) 超音波は妊娠中の臨床実践における主要な画像モダリティである。 年間140万以上の胎児が産まれ、多くのスキャンが行われる。 大量の胎児超音波スキャンが利用可能であることは、堅牢な機械学習モデルをトレーニングする機会を与える。 しかし、監視されたメソッドには各画像の手動ラベリングが必要であるため、スキャンの豊富さも課題となっている。 ラベル付けは通常、労働集約的で、画像に正確に注釈をつける専門知識を必要とする。 そこで本研究では,超音波画像の自動クラスタリングによる胎児の観察を行い,手動ラベリングの必要性を低減・排除する手法を提案する。 フータル超音波セマンティッククラスタリング (FUSC) 法は88,063枚の画像の大規模なデータセットを用いて開発され、さらに8,187枚の画像が92%以上のクラスタリング純度を達成した。 以上の結果から,胎児超音波画像の領域に大きな影響を与える可能性があり,より高度な自動ラベリングソリューションの道を開いた。 最後に、フィールドを前進させるために、コードと実験的なセットアップを公開します。

Ultrasound is the primary imaging modality in clinical practice during pregnancy. More than 140M fetuses are born yearly, resulting in numerous scans. The availability of a large volume of fetal ultrasound scans presents the opportunity to train robust machine learning models. However, the abundance of scans also has its challenges, as manual labeling of each image is needed for supervised methods. Labeling is typically labor-intensive and requires expertise to annotate the images accurately. This study presents an unsupervised approach for automatically clustering ultrasound images into a large range of fetal views, reducing or eliminating the need for manual labeling. Our Fetal Ultrasound Semantic Clustering (FUSC) method is developed using a large dataset of 88,063 images and further evaluated on an additional unseen dataset of 8,187 images achieving over 92% clustering purity. The result of our investigation hold the potential to significantly impact the field of fetal ultrasound imaging and pave the way for more advanced automated labeling solutions. Finally, we make the code and the experimental setup publicly available to help advance the field.
翻訳日:2023-10-20 15:54:04 公開日:2023-10-19
# 因果類似性に基づく階層ベイズモデル

Causal Similarity-Based Hierarchical Bayesian Models ( http://arxiv.org/abs/2310.12595v1 )

ライセンス: Link先を確認
Sophie Wharrie, Samuel Kaski(参考訳) 機械学習の基礎となる重要な課題は、新しいデータへの一般化である。 本研究は、因果メカニズムが異なる可能性のある関連するタスクからなるデータセットの一般化について研究する。 例えば、複雑な疾患の観察医療データは、患者間の疾患の因果メカニズムの不均一性に悩まされ、トレーニングデータセット以外の新しい患者に一般化する必要がある機械学習アルゴリズムの課題を生み出している。 不均一なデータセットで教師付きモデルを学習するための一般的なアプローチとしては、データセット全体に対するグローバルモデル学習、各タスクのデータに対するローカルモデル学習、階層的、メタラーニング、マルチタスクラーニングアプローチを利用した複数のタスクにまたがるデータから一般化する方法の学習などがある。 本稿では、因果類似性に基づく階層型ベイズモデルを提案し、類似因果機構を持つトレーニングタスクからデータをプールする方法を学ぶことにより、新しいタスクへの一般化を改善する。 この一般的なモデリング原理をベイズニューラルネットワークに適用し、因果的タスク類似性(未知因果モデルと未知因果モデルの両方)を推定するための様々な手法を比較する。 シミュレーションおよび実データに関する様々な実験を通じて,本手法の利点と実世界の問題への適用性を実証する。

The key challenge underlying machine learning is generalisation to new data. This work studies generalisation for datasets consisting of related tasks that may differ in causal mechanisms. For example, observational medical data for complex diseases suffers from heterogeneity in causal mechanisms of disease across patients, creating challenges for machine learning algorithms that need to generalise to new patients outside of the training dataset. Common approaches for learning supervised models with heterogeneous datasets include learning a global model for the entire dataset, learning local models for each tasks' data, or utilising hierarchical, meta-learning and multi-task learning approaches to learn how to generalise from data pooled across multiple tasks. In this paper we propose causal similarity-based hierarchical Bayesian models to improve generalisation to new tasks by learning how to pool data from training tasks with similar causal mechanisms. We apply this general modelling principle to Bayesian neural networks and compare a variety of methods for estimating causal task similarity (for both known and unknown causal models). We demonstrate the benefits of our approach and applicability to real world problems through a range of experiments on simulated and real data.
翻訳日:2023-10-20 15:53:45 公開日:2023-10-19
# TRUSTED : 腎分離・登録研究のための3次元経腹部超音波とCT人物データ

TRUSTED: The Paired 3D Transabdominal Ultrasound and CT Human Data for Kidney Segmentation and Registration Research ( http://arxiv.org/abs/2310.12646v1 )

ライセンス: Link先を確認
William Ndzimbong, Cyril Fourniol, Loic Themyr, Nicolas Thome, Yvonne Keeza, Beniot Sauer, Pierre-Thierry Piechaud, Arnaud Mejean, Jacques Marescaux, Daniel George, Didier Mutter, Alexandre Hostettler, and Toby Collins(参考訳) imir(inter-modal image registration)と腹部超音波(us)データによる画像分割は、画像誘導手術、自動臓器計測、ロボットナビゲーションなど、多くの重要な臨床応用がある。 しかし、研究は公開データセットの欠如によって厳しく制限されている。 そこで本研究では,48例のヒト(96腎)の経腹部3DUSとCT腎像を組み合わせたTRUSTED(Tridimensional Renal Ultra Sound TomodEnsitometrie Dataset)と,2例の経験的ラジオグラフィーによる解剖学的ランドマークアノテーションを提案する。 レータ間セグメンテーション契約は94以上(Dice score)で、STAPLEアルゴリズムを用いて金標準セグメンテーションを生成する。 7つの解剖学的ランドマークがアノテートされ、IMIRシステムの開発と評価に重要である。 データセットの有用性を検証するために、自動腎臓分割のための5つの競合するディープラーニングモデルがベンチマークされ、平均diceスコアは83.2%から89.1%、61.9%から79.4%となった。 3つのIMIR法がベンチマークされ、Coherent Point Driftは平均目標登録誤差4.53mmで最高の性能を示した。 TRUSTEDデータセットは、新しいセグメンテーションとIMIR法の開発と検証に自由に使用することができる。

Inter-modal image registration (IMIR) and image segmentation with abdominal Ultrasound (US) data has many important clinical applications, including image-guided surgery, automatic organ measurement and robotic navigation. However, research is severely limited by the lack of public datasets. We propose TRUSTED (the Tridimensional Renal Ultra Sound TomodEnsitometrie Dataset), comprising paired transabdominal 3DUS and CT kidney images from 48 human patients (96 kidneys), including segmentation, and anatomical landmark annotations by two experienced radiographers. Inter-rater segmentation agreement was over 94 (Dice score), and gold-standard segmentations were generated using the STAPLE algorithm. Seven anatomical landmarks were annotated, important for IMIR systems development and evaluation. To validate the dataset's utility, 5 competitive Deep Learning models for automatic kidney segmentation were benchmarked, yielding average DICE scores from 83.2% to 89.1% for CT, and 61.9% to 79.4% for US images. Three IMIR methods were benchmarked, and Coherent Point Drift performed best with an average Target Registration Error of 4.53mm. The TRUSTED dataset may be used freely researchers to develop and validate new segmentation and IMIR methods.
翻訳日:2023-10-20 15:47:23 公開日:2023-10-19
# 非自己回帰文順序付け

Non-Autoregressive Sentence Ordering ( http://arxiv.org/abs/2310.12640v1 )

ライセンス: Link先を確認
Yi Bin, Wenhao Shi, Bin Ji, Jipeng Zhang, Yujuan Ding, Yang Yang(参考訳) 既存の文順序付けアプローチでは、通常、各文をステップバイステップで繰り返し予測することでコヒーレンスを回復するために、ポインタネットを用いたエンコーダデコーダフレームワークを使用する。 このような自己回帰的手法は、デコード中の一方的な依存関係のみを活用するため、順序付けのための文間のセマンティック依存関係を完全に調べることができない。 このような制約を克服するため,本稿では,文間の相互依存を探索し,各位置の文を並列に予測する「textit{NAON}」という,非自己回帰順序付けネットワークを提案する。 我々は、非自己回帰的方法が単に適用可能であるだけでなく、そのタスクの2つの特徴から、文順序付けタスクに特に適していると主張している。 1)各世代目標が決定論的長さであり、 2) 文及び位置は,排他的に一致すべきである。 さらに,非自己回帰変換器の繰り返し問題に対処するために,位置と文間の排他性を制限する排他的損失を導入する。 提案手法の有効性を検証するため,本手法が自己回帰的アプローチを全て上回って,最先端のデータセットと比較して競争力の高い性能が得られることを示す実験結果を得た。 コードは \url{https://github.com/steven640pixel/nonautoregressive-sentence-ordering} で入手できる。

Existing sentence ordering approaches generally employ encoder-decoder frameworks with the pointer net to recover the coherence by recurrently predicting each sentence step-by-step. Such an autoregressive manner only leverages unilateral dependencies during decoding and cannot fully explore the semantic dependency between sentences for ordering. To overcome these limitations, in this paper, we propose a novel Non-Autoregressive Ordering Network, dubbed \textit{NAON}, which explores bilateral dependencies between sentences and predicts the sentence for each position in parallel. We claim that the non-autoregressive manner is not just applicable but also particularly suitable to the sentence ordering task because of two peculiar characteristics of the task: 1) each generation target is in deterministic length, and 2) the sentences and positions should match exclusively. Furthermore, to address the repetition issue of the naive non-autoregressive Transformer, we introduce an exclusive loss to constrain the exclusiveness between positions and sentences. To verify the effectiveness of the proposed model, we conduct extensive experiments on several common-used datasets and the experimental results show that our method outperforms all the autoregressive approaches and yields competitive performance compared with the state-of-the-arts. The codes are available at: \url{https://github.com/steven640pixel/nonautoregressive-sentence-ordering}.
翻訳日:2023-10-20 15:46:57 公開日:2023-10-19
# PSYCHIC:知識グラフ質問応答基盤のための神経シンボリックフレームワーク

PSYCHIC: A Neuro-Symbolic Framework for Knowledge Graph Question-Answering Grounding ( http://arxiv.org/abs/2310.12638v1 )

ライセンス: Link先を確認
Hanna Abi Akl(参考訳) The International Semantic Web Conference (ISWC) 2023のScholarly Question Answering over Linked Data (Scholarly QALD)では、知識グラフ(KG)に対する質問応答(QA)に取り組むための2つのサブタスクを提示している。 KGQA over DBLP (DBLP-QUAD) 課題に対して,KG質問に関するクエリとエンティティを識別可能な抽出QAモデルPSYCHICに基づくニューロシンボリック(NS)フレームワークを提案する。 質問応答ではF1スコアが00.18%に達し,エンティティリンク(EL)では71.00%で3位となった。

The Scholarly Question Answering over Linked Data (Scholarly QALD) at The International Semantic Web Conference (ISWC) 2023 challenge presents two sub-tasks to tackle question answering (QA) over knowledge graphs (KGs). We answer the KGQA over DBLP (DBLP-QUAD) task by proposing a neuro-symbolic (NS) framework based on PSYCHIC, an extractive QA model capable of identifying the query and entities related to a KG question. Our system achieved a F1 score of 00.18% on question answering and came in third place for entity linking (EL) with a score of 71.00%.
翻訳日:2023-10-20 15:46:36 公開日:2023-10-19
# 非エルミート位相の異常動的応答

Anomalous dynamical response of non-Hermitian topological phases ( http://arxiv.org/abs/2310.12633v1 )

ライセンス: Link先を確認
Ritu Nehra and Dibyendu Roy(参考訳) m${\mo}$bius のような興味深いトポロジーを持つ複合位相相は、あるパラメーター系における時間反転対称性の自発的破壊によって、亜格子対称非エルミート系に現れる。 これらの相は複数の結合する複素バンドの非断熱複素幾何相によって特徴づけられているが、これらの相の物理的性質はほとんど不明である。 パラメータの急激なクエンチの後,非エルミタンSSHハミルトンにより進化したエルミタンSu-Schrieffer-Heeger(SSH)モデルの初期状態からLoschmidtエコーを研究することにより,これらの相の動的応答を探索する。 位相変化クエンチは、自明な M${\"o}$bius および位相位相における非エルミート SSH ハミルトニアンに対するリターンレートの非解析的時間的挙動(ロシミトエコーの対数)を示す。 さらに、力学トポロジカル秩序パラメータは、M${\"o}$bius相の場合のブリルアンゾーンの片側にのみ現れ、非エルミートSSHモデルの自明かつ位相的位相によるクエンチのためのブリルアンゾーンの両側とは対照的である。 最後の特徴は、M${\"o}$bius相における複素バンドの実部と虚部における異なる対称性の制約の動的シグネチャである。

Composite topological phases with intriguing topology like M${\"o}$bius strips emerge in sublattice symmetric non-Hermitian systems due to spontaneous breaking of time-reversal symmetry at some parameter regime. While these phases have been characterized by nonadiabatic complex geometric phases of multiple participating complex bands, the physical properties of these phases largely remain unknown. We explore the dynamical response of these phases by studying Loschmidt echo from an initial state of the Hermitian Su-Schrieffer-Heeger (SSH) model, which is evolved by a non-Hermitian SSH Hamiltonian after a sudden quench in parameters. Topology-changing quenches display non-analytical temporal behavior of return rates (logarithm of the Loschmidt echo) for the non-Hermitian SSH Hamiltonian in the trivial, M${\"o}$bius and topological phase. Moreover, the dynamical topological order parameter appears only at one side of the Brillouin zone for the M${\"o}$bius phase case in contrast to both sides of the Brillouin zone for quench by the trivial and topological phase of the non-Hermitian SSH model. The last feature is a dynamical signature of different symmetry constraints on the real and imaginary parts of the complex bands in the M${\"o}$bius phase.
翻訳日:2023-10-20 15:46:20 公開日:2023-10-19
# 深層学習による溶接プロセスのオンライン品質予測システム

Towards a Deep Learning-based Online Quality Prediction System for Welding Processes ( http://arxiv.org/abs/2310.12632v1 )

ライセンス: Link先を確認
Yannik Hahn, Robert Maack, Guido Buchholz, Marion Purrio, Matthias Angerhausen, Hasan Tercan, Tobias Meisen(参考訳) 製造プロセスのデジタル化は、機械学習による品質保証に有望な応用を可能にする。 データ駆動ソリューションの恩恵を受ける広く使われている製造プロセスは、\ac{gmaw}である。 溶接プロセスは, 材料特性, プロセス条件, 溶接品質の複雑な原因-影響関係を特徴とする。 プロセスパラメータが頻繁に変化する非実験室環境では、破壊試験による溶接品質の正確な決定は経済的に不可能である。 ディープラーニングは、利用可能なプロセスデータ内の関係を特定し、プロセス観察から溶接品質を予測する能力を提供する。 本稿では,深層学習に基づく予測品質システムである \ac{gmaw} のコンセプトを提案する。 その中心となる概念は、マルチセンサーデータの収集と管理(電流と電圧など)、オートエンコーダによる時系列データのリアルタイム処理と機能エンジニアリング、品質予測のための適切な再帰的ディープラーニングモデルのトレーニングとデプロイ、継続的学習によるプロセス条件の変化に伴うモデル進化の4つの主要なフェーズで構成されるパイプラインである。 この概念は、生産を行うためのオンライン予測品質システムを実現するための将来の研究活動の基礎を提供する。

The digitization of manufacturing processes enables promising applications for machine learning-assisted quality assurance. A widely used manufacturing process that can strongly benefit from data-driven solutions is \ac{GMAW}. The welding process is characterized by complex cause-effect relationships between material properties, process conditions and weld quality. In non-laboratory environments with frequently changing process parameters, accurate determination of weld quality by destructive testing is economically unfeasible. Deep learning offers the potential to identify the relationships in available process data and predict the weld quality from process observations. In this paper, we present a concept for a deep learning based predictive quality system in \ac{GMAW}. At its core, the concept involves a pipeline consisting of four major phases: collection and management of multi-sensor data (e.g. current and voltage), real-time processing and feature engineering of the time series data by means of autoencoders, training and deployment of suitable recurrent deep learning models for quality predictions, and model evolutions under changing process conditions using continual learning. The concept provides the foundation for future research activities in which we will realize an online predictive quality system for running production.
翻訳日:2023-10-20 15:45:57 公開日:2023-10-19
# 障害系の逆再正規化群

Inverse Renormalization Group of Disordered Systems ( http://arxiv.org/abs/2310.12631v1 )

ライセンス: Link先を確認
Dimitrios Bachtis(参考訳) スピングラス研究において,まだスーパーコンピュータや大規模シミュレーションによってアクセスされていない格子体積の近似構成を構築するために,逆再正規化群変換を提案する。 具体的には、体積$V=8^{3}$の格子から始め、3次元のエドワーズ・アンダーソンモデルの場合、我々は機械学習アルゴリズムを用いて、最大$V'=128^{3}$までの再スケール格子を構築する。 最後に,不規則システムの逆再正規化群アプローチに数値的厳密性をどのように組み込むかについて議論し,専用スーパーコンピュータを使わずに格子体積を増やすための完全配置の持続的かつエネルギー効率の高い生成を探求する機会を開く。

We propose inverse renormalization group transformations to construct approximate configurations for lattice volumes that have not yet been accessed by supercomputers or large-scale simulations in the study of spin glasses. Specifically, starting from lattices of volume $V=8^{3}$ in the case of the three-dimensional Edwards-Anderson model we employ machine learning algorithms to construct rescaled lattices up to $V'=128^{3}$, which we utilize to extract two critical exponents. We conclude by discussing how to incorporate numerical exactness within inverse renormalization group approaches of disordered systems, thus opening up the opportunity to explore a sustainable and energy-efficient generation of exact configurations for increasing lattice volumes without the use of dedicated supercomputers.
翻訳日:2023-10-20 15:45:40 公開日:2023-10-19
# 心電図画像からの視覚トランスフォーマーモデルを用いた心疾患検出

Heart Disease Detection using Vision-Based Transformer Models from ECG Images ( http://arxiv.org/abs/2310.12630v1 )

ライセンス: Link先を確認
Zeynep Hilal Kilimci, Mustafa Yalcin, Ayhan Kucukmanisa and Amit Kumar Mishra(参考訳) 心臓病(英: heart disease)または心臓血管疾患(英: cardiovascular disease)は、冠動脈疾患、心不全、心筋梗塞などの様々な合併症を引き起こす心臓および血管の障害を特徴とする、広く、かつ重要な医療疾患である。 心臓病のタイムリーかつ正確な検出は、臨床における最重要事項である。 リスクのある個人を早期に特定することは、予防的介入、予防措置、パーソナライズされた治療戦略を可能にし、疾患の進行を緩和し、副作用を減少させる。 近年、心臓病検出の分野は、高度な技術と計算手法の統合により顕著な進歩を遂げている。 機械学習アルゴリズム、データマイニング技術、および診断精度とリスク階層化を改善するために大量の臨床および生理的データを活用する予測モデリングフレームワークが含まれる。 本研究では,最先端技術である視覚トランスフォーマーモデルを用いて心電図から心疾患を検出することを提案する。 これらのモデルはGoogle-Vit、Microsoft-Beit、Swin-Tinyだ。 我々の知る限りでは、これは画像ベースの心電図データ、すなわちトランスフォーマーモデルを用いて心疾患の検出に集中する最初の取り組みである。 提案手法の貢献を実証するため,視覚変換器モデルの性能を最先端の研究と比較した。 実験の結果,提案手法は見事な分類結果を示した。

Heart disease, also known as cardiovascular disease, is a prevalent and critical medical condition characterized by the impairment of the heart and blood vessels, leading to various complications such as coronary artery disease, heart failure, and myocardial infarction. The timely and accurate detection of heart disease is of paramount importance in clinical practice. Early identification of individuals at risk enables proactive interventions, preventive measures, and personalized treatment strategies to mitigate the progression of the disease and reduce adverse outcomes. In recent years, the field of heart disease detection has witnessed notable advancements due to the integration of sophisticated technologies and computational approaches. These include machine learning algorithms, data mining techniques, and predictive modeling frameworks that leverage vast amounts of clinical and physiological data to improve diagnostic accuracy and risk stratification. In this work, we propose to detect heart disease from ECG images using cutting-edge technologies, namely vision transformer models. These models are Google-Vit, Microsoft-Beit, and Swin-Tiny. To the best of our knowledge, this is the initial endeavor concentrating on the detection of heart diseases through image-based ECG data by employing cuttingedge technologies namely, transformer models. To demonstrate the contribution of the proposed framework, the performance of vision transformer models are compared with state-of-the-art studies. Experiment results show that the proposed framework exhibits remarkable classification results.
翻訳日:2023-10-20 15:45:25 公開日:2023-10-19
# frank-wolfeによるmetaroundingアルゴリズムの改良

An Improved Metarounding Algorithm via Frank-Wolfe ( http://arxiv.org/abs/2310.12629v1 )

ライセンス: Link先を確認
Ryotaro Mitsuboshi, Kohei Hatano, and Eiji Takimoto(参考訳) Metaroundingは、いくつかの組合せクラスに対する線形最適化のための近似アルゴリズムを、同じクラスのオンライン線形最適化アルゴリズムに変換するアプローチである。 本稿では, 組合せクラスに対して, 緩和に基づく近似アルゴリズムが存在するという自然な仮定のもとに, 新たな畳み込みアルゴリズムを提案する。 私たちのアルゴリズムは理論的にも実用的にもはるかに効率的です。

Metarounding is an approach to convert an approximation algorithm for linear optimization over some combinatorial classes to an online linear optimization algorithm for the same class. We propose a new metarounding algorithm under a natural assumption that a relax-based approximation algorithm exists for the combinatorial class. Our algorithm is much more efficient in both theoretical and practical aspects.
翻訳日:2023-10-20 15:44:58 公開日:2023-10-19
# 2バンドハバードモデルにおける空洞媒介相互作用の励起性増強

Excitonic enhancement of cavity-mediated interactions in a two-band Hubbard model ( http://arxiv.org/abs/2310.12626v1 )

ライセンス: Link先を確認
Xiao Wang, Dieter Jaksch, Frank Schlawin(参考訳) 本研究は, 2次元2バンドハバードモデルにおいて, 強いレーザーにより駆動されるとき, 光共振器に結合したキャビティを媒介とする相互作用について研究する。 Floquetによる駆動システムの記述から、高エネルギー自由度を投影し、平均場レベルでの内在的相互作用を処理することにより、有効な低エネルギーハミルトニアンを導出する。 次に, 電子バンド近傍で形成される電子バンドカップリングによる高エネルギーフレンケル励起子の出現が, 電子バンド構造のレーザ誘起フロッケ再正規化と相互作用に与える影響について検討した。 キャビティを介する相互作用は、光が励起遷移に結合するときに強く強化される。 さらに、相互作用とフロケ再正規化は相互空間において強く拡張され、これにより空洞媒介相互作用が駆動散逸定常状態に与える影響をさらに高めることができる。

We study cavity-mediated interactions that are generated in a two-dimensional two-band Hubbard model coupled to an optical cavity, when it is driven in-gap by a strong laser. Starting from a Floquet description of the driven system, we derive effective low-energy Hamiltonians by projecting out the high-energy degrees of freedom and treating intrinsic interactions on a mean field level. We then investigate how the emergence of high-energy Frenkel excitons from the electronic interband coupling, which form near the upper electronic band, affects the interactions as well as the laser-induced Floquet renormalization of the electronic band structure. Cavity-mediated interactions are enhanced strongly when the light couples to an excitonic transition. Additionally, the interaction as well as the Floquet renormalization are strongly broadened in reciprocal space, which could further boost the impact of cavity-mediated interactions on the driven-dissipative steady state.
翻訳日:2023-10-20 15:44:53 公開日:2023-10-19
# 過去から未来を予測するか? 金融感情分類における時間的データ分布変化について

Predict the Future from the Past? On the Temporal Data Distribution Shift in Financial Sentiment Classifications ( http://arxiv.org/abs/2310.12620v1 )

ライセンス: Link先を確認
Yue Guo, Chenxi Hu, Yi Yang(参考訳) 経時的データ分布シフトは金融文書で広く見られる。 時間的データ配信の変化に対して、正確に感情を推測し、堅牢な金融感情分析システムは、揮発性市場環境でどのようにトレーニングできるのか? 本稿では,3年間にわたる実世界の金融ソーシャルメディアデータセットを用いて,時間的データ配信シフトによる財務感情分析システムに関する実証的研究を行う。 微調整モデルでは時間分布シフトの存在下での一般的な性能劣化が生じる。 さらに,金融資料の独特な時間的性質に動機づけられ,時間的金融感情分析のための時系列モデルと分布外検出を組み合わせた新しい手法を提案する。 実験結果から, 不安定な金融市場において, 時間変動に適応するモデルの有効性が示唆された。

Temporal data distribution shift is prevalent in the financial text. How can a financial sentiment analysis system be trained in a volatile market environment that can accurately infer sentiment and be robust to temporal data distribution shifts? In this paper, we conduct an empirical study on the financial sentiment analysis system under temporal data distribution shifts using a real-world financial social media dataset that spans three years. We find that the fine-tuned models suffer from general performance degradation in the presence of temporal distribution shifts. Furthermore, motivated by the unique temporal nature of the financial text, we propose a novel method that combines out-of-distribution detection with time series modeling for temporal financial sentiment analysis. Experimental results show that the proposed method enhances the model's capability to adapt to evolving temporal shifts in a volatile financial market.
翻訳日:2023-10-20 15:44:37 公開日:2023-10-19
# 乳房X線写真における乳腺癌予知の弱視的学習

Weakly Supervised Learning for Breast Cancer Prediction on Mammograms in Realistic Settings ( http://arxiv.org/abs/2310.12677v1 )

ライセンス: Link先を確認
Shreyasi Pathak, J\"org Schl\"otterer, Jeroen Geerdink, Onno Dirk Vijlbrief, Maurice van Keulen, Christin Seifert(参考訳) マンモグラフィーにおける乳がんの早期発見法は死亡率を著しく低下させる可能性がある。 病院におけるこれらの方法の広範な普及は、方法の制約が多すぎるため、現在妨げられている。 彼らは、単一の画像または関心領域(roi)で利用可能なアノテーションと、患者1人あたりの一定数のイメージを想定している。 どちらの仮定も一般的な病院では成立しない。 これらの仮定を緩和すると、個々のイメージやROIではなく、各ケースでラベルが利用できるような、教師付きの弱い学習環境が生まれる。 患者のために撮影されたすべての画像は悪性領域を含んでおらず、悪性のROIは画像のごく一部しかカバーしていない。 本研究では,2つのパブリックデータセット(1.6kと5k)と21kの社内データセットのケースレベル乳癌予測のための2レベルマルチインスタンス学習(MIL)アプローチを検討する。 乳がんは通常片側にしか存在せず、両方の乳がんの画像は予防策として取られているのを観察し、ドメイン特異的milプール変種を提案する。 2段階のMILは,症例ラベルと患者1人当たりの画像数のみを使用可能な現実的な臨床環境に適用可能であることを示す。 現実的な設定のデータは、継続的な患者摂取でスケールするが、手作業によるアノテーションの取り組みは行わない。 したがって、すべての患者の乳癌予測を改善するために、特に教師なしroi抽出に焦点をあてるべきである。

Automatic methods for early detection of breast cancer on mammography can significantly decrease mortality. Broad uptake of those methods in hospitals is currently hindered because the methods have too many constraints. They assume annotations available for single images or even regions-of-interest (ROIs), and a fixed number of images per patient. Both assumptions do not hold in a general hospital setting. Relaxing those assumptions results in a weakly supervised learning setting, where labels are available per case, but not for individual images or ROIs. Not all images taken for a patient contain malignant regions and the malignant ROIs cover only a tiny part of an image, whereas most image regions represent benign tissue. In this work, we investigate a two-level multi-instance learning (MIL) approach for case-level breast cancer prediction on two public datasets (1.6k and 5k cases) and an in-house dataset of 21k cases. Observing that breast cancer is usually only present in one side, while images of both breasts are taken as a precaution, we propose a domain-specific MIL pooling variant. We show that two-level MIL can be applied in realistic clinical settings where only case labels, and a variable number of images per patient are available. Data in realistic settings scales with continuous patient intake, while manual annotation efforts do not. Hence, research should focus in particular on unsupervised ROI extraction, in order to improve breast cancer prediction for all patients.
翻訳日:2023-10-20 15:36:59 公開日:2023-10-19
# エントロピー生成による波動関数の自発的崩壊特性

Characterizing the spontaneous collapse of a wavefunction through entropy production ( http://arxiv.org/abs/2310.12675v1 )

ライセンス: Link先を確認
Simone Artini, Mauro Paternostro(参考訳) 非平衡熱力学の観点から連続自然局在化(CSL)モデルのエネルギーの非保存につながる現象論を考察し、モデル(dCSL)の散逸的定式化に伴う平衡過程を評価するためにそのような枠組みを用いる。 崩壊理論の研究を目的としたフロンティア実験で現在解決されているパラダイム的状況として、熱状態の1次元機械振動子を考える。 非可逆性を特徴づける非平衡量であるエントロピー生成速度を便利に解析できる発振器の位相空間で解析を行う。 CSLモデルは負のエントロピー生成速度を示すため、クラウシウス法則に反し、一方、dCSLモデルは一定の力学条件下では一貫して平衡に達し、パラメータ空間における値の特定を可能にし、後者のメカニズムは熱力学的に一貫した現象を記述するために忠実に使用できる。

We investigate the phenomenology leading to the non-conservation of energy of the continuous spontaneous localization (CSL) model from the viewpoint of non-equilibrium thermodynamics, and use such framework to assess the equilibration process entailed by the dissipative formulation of the model (dCSL). As a paradigmatic situation currently addressed in frontier experiments aimed at investigating possible collapse theories, we consider a one-dimensional mechanical oscillator in a thermal state. We perform our analysis in the phase space of the oscillator, where the entropy production rate, a non-equilibrium quantity used to characterize irreversibility, can be conveniently analyzed. We show that the CSL model violates Clausius law, as it exhibits a negative entropy production rate, while the dCSL model reaches equilibrium consistently only under certain dynamical conditions, thus allowing us to identify the values -- in the parameter space -- where the latter mechanism can be faithfully used to describe a thermodynamically consistent phenomenon.
翻訳日:2023-10-20 15:36:20 公開日:2023-10-19
# 頻度・重大度データを用いた保険価格決定のためのニューラルネットワーク:データ前処理から技術関税へのベンチマーク研究

Neural networks for insurance pricing with frequency and severity data: a benchmark study from data preprocessing to technical tariff ( http://arxiv.org/abs/2310.12671v1 )

ライセンス: Link先を確認
Freek Holvoet, Katrien Antonio and Roel Henckaerts(参考訳) 保険会社は通常、クレームの頻度と重大度データをモデル化するための一般化線形モデルに目を向ける。 他の分野での成功により、アクチュアルなツールボックス内で機械学習技術が人気を集めている。 本論文は,深層学習構造を用いた機械学習による周波数分割保険価格に関する文献に寄与する。 本稿では,複数種類の入力特徴が存在する場合に,頻度と重大度を目標とした4つの保険データセットに関するベンチマーク研究を行う。 本研究では,バイナリ入力データに対する一般化線形モデル,勾配ブースト木モデル,フィードフォワードニューラルネットワーク(ffnn)および複合型アクチュアルニューラルネットワーク(cann)の性能比較を行った。 我々のCANNは、それぞれGLMとGBMと確立されたベースライン予測とニューラルネットワークの補正を組み合わせる。 本稿では, 郵便番号, 数値, カテゴリー共変量などの表型保険データに典型的に存在する複数の入力特徴に着目して, データ前処理のステップを説明する。 オートエンコーダはニューラルネットワークにカテゴリ変数を埋め込むのに使われ、周波数重大設定でその潜在的な利点を探る。 最後に,ニューラルネットの頻度と重大度モデルのためのグローバルサーロゲートモデルを構築した。 これらのサロゲートは、FFNNやCANNが捉えた重要な洞察をGLMに翻訳することができる。 そのため、技術的関税表は、実際に容易に展開できるものである。

Insurers usually turn to generalized linear models for modelling claim frequency and severity data. Due to their success in other fields, machine learning techniques are gaining popularity within the actuarial toolbox. Our paper contributes to the literature on frequency-severity insurance pricing with machine learning via deep learning structures. We present a benchmark study on four insurance data sets with frequency and severity targets in the presence of multiple types of input features. We compare in detail the performance of: a generalized linear model on binned input data, a gradient-boosted tree model, a feed-forward neural network (FFNN), and the combined actuarial neural network (CANN). Our CANNs combine a baseline prediction established with a GLM and GBM, respectively, with a neural network correction. We explain the data preprocessing steps with specific focus on the multiple types of input features typically present in tabular insurance data sets, such as postal codes, numeric and categorical covariates. Autoencoders are used to embed the categorical variables into the neural network and we explore their potential advantages in a frequency-severity setting. Finally, we construct global surrogate models for the neural nets' frequency and severity models. These surrogates enable the translation of the essential insights captured by the FFNNs or CANNs to GLMs. As such, a technical tariff table results that can easily be deployed in practice.
翻訳日:2023-10-20 15:36:02 公開日:2023-10-19
# STANLEY:エネルギーモデル学習のための確率勾配異方性ランゲインダイナミクス

STANLEY: Stochastic Gradient Anisotropic Langevin Dynamics for Learning Energy-Based Models ( http://arxiv.org/abs/2310.12667v1 )

ライセンス: Link先を確認
Belhal Karimi, Jianwen Xie, Ping Li(参考訳) 本稿では,高次元データをサンプリングするための確率勾配異方性ランジュバンダイナミクスであるstanleyを提案する。 高次元データ観測の異なる性質の生成過程をモデル化するための非正規化確率モデル(non-normalized probabilistic modeling)としても知られるエネルギーベースモデリング(EBM)の有効性と可能性の増大により,得られたサンプルデータ点の品質向上を目的とした,エネルギーベースモデル(EBM)のエンドツーエンド学習アルゴリズムを提案する。 ebmsの未知の正規化定数はトレーニング手順を難解にするが、マルコフ連鎖モンテカルロ (mcmc) への依存は一般に有効な選択肢である。 そこで本論文では,mcmcがebmのトレーニングに必要なことを認識し,異方性ステップズと勾配変形共分散行列に基づく新しい高次元サンプリング法を提案する。 我々は,ESMの背骨の非線形性によるマルコフ連鎖の負のサンプルの異方性更新の必要性を,畳み込みニューラルネットワークで示している。 提案手法,すなわちSTANLEYは,新しいMCMC法を用いてエネルギーベースモデルを学習するための最適化アルゴリズムである。 我々は,サンプリングが幾何学的に一様にエルゴードマルコフ連鎖に繋がることを示すことにより,サンプリングスキームを理論的に理解する。 本手法の有効性を示すため,いくつかの画像生成実験を行った。

We propose in this paper, STANLEY, a STochastic gradient ANisotropic LangEvin dYnamics, for sampling high dimensional data. With the growing efficacy and potential of Energy-Based modeling, also known as non-normalized probabilistic modeling, for modeling a generative process of different natures of high dimensional data observations, we present an end-to-end learning algorithm for Energy-Based models (EBM) with the purpose of improving the quality of the resulting sampled data points. While the unknown normalizing constant of EBMs makes the training procedure intractable, resorting to Markov Chain Monte Carlo (MCMC) is in general a viable option. Realizing what MCMC entails for the EBM training, we propose in this paper, a novel high dimensional sampling method, based on an anisotropic stepsize and a gradient-informed covariance matrix, embedded into a discretized Langevin diffusion. We motivate the necessity for an anisotropic update of the negative samples in the Markov Chain by the nonlinearity of the backbone of the EBM, here a Convolutional Neural Network. Our resulting method, namely STANLEY, is an optimization algorithm for training Energy-Based models via our newly introduced MCMC method. We provide a theoretical understanding of our sampling scheme by proving that the sampler leads to a geometrically uniformly ergodic Markov Chain. Several image generation experiments are provided in our paper to show the effectiveness of our method.
翻訳日:2023-10-20 15:35:42 公開日:2023-10-19
# ChatGPTは金融専門家か? 金融自然言語処理における言語モデルの評価

Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing ( http://arxiv.org/abs/2310.12664v1 )

ライセンス: Link先を確認
Yue Guo, Zian Xu, Yi Yang(参考訳) ChatGPTのような大規模言語モデル(LLM)の出現は、一般的な自然言語前処理(NLP)タスクに革命をもたらした。 しかし、金融分野における彼らの専門知識は包括的評価を欠いている。 金融言語モデル評価のためのフレームワークであるFinLMEvalについて,言語モデルの性能評価を目的とした9つのデータセットを提示する。 本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。 以上の結果から,デコーダのみのLCMでは,ゼロショットプロンプトによる財務処理において,特にプロプライエタリなデータセットを扱う場合には,細調整されたエキスパートモデルに遅れが生じることが判明した。 本研究は、金融分野でより先進的なLCMの構築を継続するための基礎的な評価を期待する。

The emergence of Large Language Models (LLMs), such as ChatGPT, has revolutionized general natural language preprocessing (NLP) tasks. However, their expertise in the financial domain lacks a comprehensive evaluation. To assess the ability of LLMs to solve financial NLP tasks, we present FinLMEval, a framework for Financial Language Model Evaluation, comprising nine datasets designed to evaluate the performance of language models. This study compares the performance of encoder-only language models and the decoder-only language models. Our findings reveal that while some decoder-only LLMs demonstrate notable performance across most financial tasks via zero-shot prompting, they generally lag behind the fine-tuned expert models, especially when dealing with proprietary datasets. We hope this study provides foundation evaluations for continuing efforts to build more advanced LLMs in the financial domain.
翻訳日:2023-10-20 15:35:15 公開日:2023-10-19
# 情報深層学習における不確実性からの知識

Knowledge from Uncertainty in Evidential Deep Learning ( http://arxiv.org/abs/2310.12663v1 )

ライセンス: Link先を確認
Cai Davies, Marc Roig Vilamala, Alun D. Preece, Federico Cerutti, Lance M. Kaplan, Supriyo Chakraborty(参考訳) 本研究は,Evidential Deep Learning (EDL) における不確実性から生じる明らかな信号を明らかにする。 EDLは、現在のテストサンプルに対する信頼(または疫学的な不確実性)を提供するために設計された、不確実性を認識したディープラーニングアプローチのクラスの一例である。 特にコンピュータビジョンや双方向エンコーダの大規模言語モデルにおいて、EDLのディリクレ強度から生じる「証拠信号」は、大きな言語モデルを使用する場合に特に強いクラスを識別することができる。 我々は,KL正則化という用語がEDLを2つの動脈硬化性およびてんかん性不確実性を引き起こすと仮定する。 本稿では,誤分類と不確実性評価の相関を実証的に検討し,EDLの「証拠信号」が誤分類バイアスに起因することを示す。 我々は,EDL-GEN(Generative Evidential Neural Networks)とPresideed Networksという,他のディリクレに基づくアプローチを用いてEDLを評価し,これらの損失関数の違いを理論的かつ経験的に示す。 edlの不確かさのカップリングは、トレーニング中の分散サンプルの使用(または欠如)による違いから生じると結論づける。

This work reveals an evidential signal that emerges from the uncertainty value in Evidential Deep Learning (EDL). EDL is one example of a class of uncertainty-aware deep learning approaches designed to provide confidence (or epistemic uncertainty) about the current test sample. In particular for computer vision and bidirectional encoder large language models, the `evidential signal' arising from the Dirichlet strength in EDL can, in some cases, discriminate between classes, which is particularly strong when using large language models. We hypothesise that the KL regularisation term causes EDL to couple aleatoric and epistemic uncertainty. In this paper, we empirically investigate the correlations between misclassification and evaluated uncertainty, and show that EDL's `evidential signal' is due to misclassification bias. We critically evaluate EDL with other Dirichlet-based approaches, namely Generative Evidential Neural Networks (EDL-GEN) and Prior Networks, and show theoretically and empirically the differences between these loss functions. We conclude that EDL's coupling of uncertainty arises from these differences due to the use (or lack) of out-of-distribution samples during training.
翻訳日:2023-10-20 15:35:01 公開日:2023-10-19
# 自己テストのための数学的基礎:共通の仮定を持ち上げる

A mathematical foundation for self-testing: Lifting common assumptions ( http://arxiv.org/abs/2310.12662v1 )

ライセンス: Link先を確認
Pedro Baptista, Ranyiliu Chen, J\k{e}drzej Kaniewski, David Rasmussen Lolck, Laura Man\v{c}inska, Thor Gabelgaard Nielsen, Simon Schmidt(参考訳) 本研究は,この多種多様な概念を厳密な数学的基礎に当てはめることを目的として,第一原理から自己テスト現象を研究する。 自己検査により、古典的な検証者は、ブラックボックス方式で相互作用する信頼できない量子デバイスの量子力学的記述を推測することができる。 ブラックボックスのパラダイムとは反対に、既存の自己テストの結果は信頼できないデバイスの動作を制限する条件を前提にしている。 一般的な仮定は、これらのデバイスが純粋な量子状態の投影的測定を行うということである。 当然、事前の知識がなければ、浄化・拡張空間は環境や敵によって保持されるため、povm計測を用いて混合状態を測定するようにモデル化するのが適切である。 我々は,これらの仮定を取り除き,既存の自己テスト結果の多くを仮定なし変種に促進できる一般定理を証明した。 一方,一般化を損なうことなく仮定を持ち上げられない状況が特定できる。 キー(カウンタ)の例では、ある仮定がなされた場合にのみ自己テストである量子相関を同定する。 驚くべきことに、これは完全なシュミット階の2部状態の射影的測定を用いて実装できない相関の最初の例でもある。 最後に、既存の自己テスト定義を比較し、多くの等価性を確立し、微妙な違いを識別する。

In this work we study the phenomenon of self-testing from the first principles, aiming to place this versatile concept on a rigorous mathematical footing. Self-testing allows a classical verifier to infer a quantum mechanical description of untrusted quantum devices that she interacts with in a black-box manner. Somewhat contrary to the black-box paradigm, existing self-testing results tend to presuppose conditions that constrain the operation of the untrusted devices. A common assumption is that these devices perform a projective measurement of a pure quantum state. Naturally, in the absence of any prior knowledge it would be appropriate to model these devices as measuring a mixed state using POVM measurements, since the purifying/dilating spaces could be held by the environment or an adversary. We prove a general theorem allowing to remove these assumptions, thereby promoting most existing self-testing results to their assumption-free variants. On the other hand, we pin-point situations where assumptions cannot be lifted without loss of generality. As a key (counter)example we identify a quantum correlation which is a self-test only if certain assumptions are made. Remarkably, this is also the first example of a correlation that cannot be implemented using projective measurements on a bipartite state of full Schmidt rank. Finally, we compare existing self-testing definitions, establishing many equivalences as well as identifying subtle differences.
翻訳日:2023-10-20 15:34:37 公開日:2023-10-19
# 高周波関数とモジュラー算術を学習するグラディエントDescent Fails

Gradient Descent Fails to Learn High-frequency Functions and Modular Arithmetic ( http://arxiv.org/abs/2310.12660v1 )

ライセンス: Link先を確認
Rustem Takhanov, Maxat Tezekbayev, Artur Pak, Arman Bolatov, Zhenisbek Assylbekov(参考訳) 近似直交要素を多数含む対象関数のクラスは、統計的クエリーアルゴリズムによって学習することが難しいことが知られている。 この古典的な事実は、ニューラルネットワークの勾配に基づく最適化の理論に再燃した。 新規な枠組みでは、クラスの硬度は通常、対象関数のランダムな選択に対する勾配の分散によって定量化される。 a$が${\mathbb Z}_p$から取られる$x\to ax \bmod p$という形の関数の集合は、最近ディープラーニング理論家や暗号学者から注目を集めている。 このクラスは${\mathbb Z}$上の$p$-周期関数の部分集合として理解することができ、実数直線上の高周波周期関数のクラスと密接に結びついている。 本稿では,高頻度周期関数やモジュラ乗法を例から学習するために,勾配に基づく学習手法を用いた制限と課題の数学的解析を行う。 我々は、周波数または素基底$p$が大きい場合、両方の場合において勾配のばらつきが無視できるほど小さいことを強調する。 これにより、このような学習アルゴリズムが成功するのを防げる。

Classes of target functions containing a large number of approximately orthogonal elements are known to be hard to learn by the Statistical Query algorithms. Recently this classical fact re-emerged in a theory of gradient-based optimization of neural networks. In the novel framework, the hardness of a class is usually quantified by the variance of the gradient with respect to a random choice of a target function. A set of functions of the form $x\to ax \bmod p$, where $a$ is taken from ${\mathbb Z}_p$, has attracted some attention from deep learning theorists and cryptographers recently. This class can be understood as a subset of $p$-periodic functions on ${\mathbb Z}$ and is tightly connected with a class of high-frequency periodic functions on the real line. We present a mathematical analysis of limitations and challenges associated with using gradient-based learning techniques to train a high-frequency periodic function or modular multiplication from examples. We highlight that the variance of the gradient is negligibly small in both cases when either a frequency or the prime base $p$ is large. This in turn prevents such a learning algorithm from being successful.
翻訳日:2023-10-20 15:34:15 公開日:2023-10-19
# シリコンの核スピン量子ビットに及ぼす測定バックアクションの影響

Impact of measurement backaction on nuclear spin qubits in silicon ( http://arxiv.org/abs/2310.12656v1 )

ライセンス: Link先を確認
S. Monir, E. N. Osika, S. K. Gorman, I. Thorvaldson, Y.-L. Hsueh, P. Macha, L. Kranz, J. Reiner, M.Y. Simmons, and R. Rahman(参考訳) ケイ素中のリンドナー核スピンは環境に弱く結合し、高忠実度量子ビットの候補として期待できる。 ドナー核スピン量子ビットの状態は、ドナー電位に閉じ込められた電子との超微細な相互作用を用いて操作および読み出すことができる。 本稿では、この電子を媒介とする測定からのバックアクションが、シングルおよびマルチドナー量子ビットの寿命にどのように影響するかを調べるために、マスター方程式に基づくアプローチを用いる。 我々はこの過程を、電場と磁場の関数、超微細相互作用強度として解析する。 単一核スピンフリップとは別に、マルチドナー量子ビットに特有の核スピンフリップフロップという、測定関連機構も同定する。 このフリップフロップ機構は、クォービット寿命を減少させるが、超微細なスタークシフトによって効果的に抑制できることを示す。 原子の精密ドナー配置とスタークシフトを用いて、マルチドナー量子ビットにおける測定バックアクションを最小化し、単一のドナー量子ビットよりも大きな核スピン寿命を達成することを示す。

Phosphorus donor nuclear spins in silicon couple weakly to the environment making them promising candidates for high-fidelity qubits. The state of a donor nuclear spin qubit can be manipulated and read out using its hyperfine interaction with the electron confined by the donor potential. Here we use a master equation-based approach to investigate how the backaction from this electron-mediated measurement affects the lifetimes of single and multi-donor qubits. We analyze this process as a function of electric and magnetic fields, and hyperfine interaction strength. Apart from single nuclear spin flips, we identify an additional measurement-related mechanism, the nuclear spin flip-flop, which is specific to multi-donor qubits. Although this flip-flop mechanism reduces qubit lifetimes, we show that it can be effectively suppressed by the hyperfine Stark shift. We show that using atomic precision donor placement and engineered Stark shift, we can minimize the measurement backaction in multi-donor qubits, achieving larger nuclear spin lifetimes than single donor qubits.
翻訳日:2023-10-20 15:33:56 公開日:2023-10-19
# コードスイッチ音声のリアルタイムストリーミング音声翻訳に向けて

Towards Real-World Streaming Speech Translation for Code-Switched Speech ( http://arxiv.org/abs/2310.12648v1 )

ライセンス: Link先を確認
Belen Alastruey, Matthias Sperber, Christian Gollan, Dominic Telaar, Tim Ng, Aashish Agargwal(参考訳) コードスイッチング(cs、英: code-switching)とは、コミュニケーションにおいて一般的な現象であり、多くの自然言語処理(nlp)環境では困難である。 cs音声に関するこれまでの研究では、エンドツーエンドの音声翻訳(st)に有望な結果を示しているが、オフラインのシナリオとソースに存在する言語への翻訳に限定されている(\textit{monolingual transcription})。 本稿では,実世界のcs音声翻訳において必須かつ未検討の領域であるストリーミング設定と,第3言語(つまり,ソースに含まれない言語)への翻訳に注目する。 この目的のために、我々はフィッシャーとマイアミのテストと検証データセットを拡張し、スペイン語とドイツ語の新しいターゲットを含める。 このデータを用いて、オフラインおよびストリーミングSTのモデルをトレーニングし、前述した2つの設定のベースライン結果を確立する。

Code-switching (CS), i.e. mixing different languages in a single sentence, is a common phenomenon in communication and can be challenging in many Natural Language Processing (NLP) settings. Previous studies on CS speech have shown promising results for end-to-end speech translation (ST), but have been limited to offline scenarios and to translation to one of the languages present in the source (\textit{monolingual transcription}). In this paper, we focus on two essential yet unexplored areas for real-world CS speech translation: streaming settings, and translation to a third language (i.e., a language not included in the source). To this end, we extend the Fisher and Miami test and validation datasets to include new targets in Spanish and German. Using this data, we train a model for both offline and streaming ST and we establish baseline results for the two settings mentioned earlier.
翻訳日:2023-10-20 15:33:37 公開日:2023-10-19
# ソースフリー物体検出のための低信頼擬似ラベルの活用

Exploiting Low-confidence Pseudo-labels for Source-free Object Detection ( http://arxiv.org/abs/2310.12705v1 )

ライセンス: Link先を確認
Zhihong Chen, Zilei Wang, Yixin Zhang(参考訳) Source-free Object Detection (SFOD) は、ラベル付きソースデータにアクセスすることなく、未ラベルのターゲットドメインにソーストレーニングされた検出器を適応することを目的としている。 現在のSFOD法では、適応相におけるしきい値に基づく擬似ラベルのアプローチを用いており、これは一般的に高信頼な擬似ラベルに限られており、情報の損失をもたらす。 この問題に対処するために,我々は,高信頼度と低信頼度しきい値を導入することによって,擬似ラベルを最大限に活用するための新しいアプローチを提案する。 具体的には、高閾値以上の信頼度を有する擬似ラベルを従来使用し、低信頼擬似ラベル利用(lpu)モジュールを用いて低閾値と高閾値の間を悪用する。 LPUモジュールは、提案ソフトトレーニング(PST)とローカル空間コントラスト学習(LSCL)で構成されている。 PSTは、ラベルミスマッチ問題を軽減できるソフトトレーニングの提案のソフトラベルを生成する。 lsclは提案の局所的な空間的関係を利用して、モデルが隣接する提案を区別する能力を改善し、表現的特徴をさらに最適化する。 2つのコンポーネントを組み合わせることで、低信頼の擬似ラベルを使用する従来の手法が直面する課題を克服する。 5つのクロスドメインオブジェクト検出ベンチマークにおいて、提案手法が従来のSFOD法より優れ、最先端性能を実現していることを示す。

Source-free object detection (SFOD) aims to adapt a source-trained detector to an unlabeled target domain without access to the labeled source data. Current SFOD methods utilize a threshold-based pseudo-label approach in the adaptation phase, which is typically limited to high-confidence pseudo-labels and results in a loss of information. To address this issue, we propose a new approach to take full advantage of pseudo-labels by introducing high and low confidence thresholds. Specifically, the pseudo-labels with confidence scores above the high threshold are used conventionally, while those between the low and high thresholds are exploited using the Low-confidence Pseudo-labels Utilization (LPU) module. The LPU module consists of Proposal Soft Training (PST) and Local Spatial Contrastive Learning (LSCL). PST generates soft labels of proposals for soft training, which can mitigate the label mismatch problem. LSCL exploits the local spatial relationship of proposals to improve the model's ability to differentiate between spatially adjacent proposals, thereby optimizing representational features further. Combining the two components overcomes the challenges faced by traditional methods in utilizing low-confidence pseudo-labels. Extensive experiments on five cross-domain object detection benchmarks demonstrate that our proposed method outperforms the previous SFOD methods, achieving state-of-the-art performance.
翻訳日:2023-10-20 15:27:03 公開日:2023-10-19
# 高次元ユニタリ変換の最適推定

Optimal estimation of high-dimensional unitary transformations ( http://arxiv.org/abs/2310.12699v1 )

ライセンス: Link先を確認
J. Escand\'on-Monardes, D. Uzc\'ategui, M. Rivera-Tapia, S. P. Walborn, A. Delgado(参考訳) 本研究では,$d$次元ユニタリ変換に対する推定手順を提案する。 $d>2$の場合、アイデンティティに近いユニタリ変換は量子クラム・ラオ境界を飽和させると推定される。 $d=2$の場合、すべてのユニタリ変換の推定はいくつかの事前情報に最適である。 従来の情報がない場合でも、標準的な量子プロセストモグラフィーよりも高精度で2次元のユニタリ変換を推定できることを数値シミュレーションで示している。

We propose an estimation procedure for $d$-dimensional unitary transformations. For $d>2$, the unitary transformations close to the identity are estimated saturating the quantum Cram\'er-Rao bound. For $d=2$, the estimation of all unitary transformations is also optimal with some prior information. We show through numerical simulations that, even in the absence of prior information, two-dimensional unitary transformations can be estimated with greater precision than by means of standard quantum process tomography.
翻訳日:2023-10-20 15:26:39 公開日:2023-10-19
# 悪と善からの保護:ウィキペディア記事の品質に対するページ保護の差異効果

Protection from Evil and Good: The Differential Effects of Page Protection on Wikipedia Article Quality ( http://arxiv.org/abs/2310.12696v1 )

ライセンス: Link先を確認
Thorsten Ruprechter, Manoel Horta Ribeiro, Robert West, Denis Helic(参考訳) ウィキペディアはウェブ最大の百科事典であり、しばしばコンテンツ論争や悪意のあるユーザーがその完全性を覆そうとしている。 管理者は、特定の記事への投稿を制限する「ページ保護」を強制することで、そのような混乱を緩和し、コンテンツの劣化を防ぐことができる。 しかし、この慣習はウィキペディアの基本原則の1つである$-$が全ての寄稿者に対してオープンであることと矛盾し、百科事典のさらなる改善を妨げる可能性がある。 本稿では,ページ保護が記事の品質に与える影響について検討し,ページ保護がいつ保証されるのかをよく理解する。 英語ウィキペディアからのページ保護に関する10年間のデータを用いて、ウィキペディア編集者が管理者にページ保護を課すために提出した「ページ保護要求」を受け取ったページを準実験的に分析する。 実際にページ保護を受けたページと同じようなページをマッチングし、記事品質の確立された指標に対する介入の因果効果を定量化する。 以上の結果から,記事品質に対するページ保護の効果は,介入前のページの特性に依存することが示唆された。 その後の分析では、高品質の記事は保護されていないと劣化し、低品質の記事は改善した。 本研究により,Wikipediaのページ保護について概説し,記事の保護に関するベストプラクティスについて報告する。

Wikipedia, the Web's largest encyclopedia, frequently faces content disputes or malicious users seeking to subvert its integrity. Administrators can mitigate such disruptions by enforcing "page protection" that selectively limits contributions to specific articles to help prevent the degradation of content. However, this practice contradicts one of Wikipedia's fundamental principles$-$that it is open to all contributors$-$and may hinder further improvement of the encyclopedia. In this paper, we examine the effect of page protection on article quality to better understand whether and when page protections are warranted. Using decade-long data on page protections from the English Wikipedia, we conduct a quasi-experimental study analyzing pages that received "requests for page protection"$-$written appeals submitted by Wikipedia editors to administrators to impose page protections. We match pages that indeed received page protection with similar pages that did not and quantify the causal effect of the interventions on a well-established measure of article quality. Our findings indicate that the effect of page protection on article quality depends on the characteristics of the page prior to the intervention: high-quality articles are affected positively as opposed to low-quality articles that are impacted negatively. Subsequent analysis suggests that high-quality articles degrade when left unprotected, whereas low-quality articles improve. Overall, with our study, we outline page protections on Wikipedia and inform best practices on whether and when to protect an article.
翻訳日:2023-10-20 15:26:33 公開日:2023-10-19
# ランダム分割に対する一貫した視点割り当てによる表現学習

Representation Learning via Consistent Assignment of Views over Random Partitions ( http://arxiv.org/abs/2310.12692v1 )

ライセンス: Link先を確認
Thalles Silva and Ad\'in Ram\'irez Rivera(参考訳) 本稿では、視覚特徴の表現学習のための自己教師付きクラスタリング手法であるCARP(Consistent Assignment of Views over Random Partitions)を提案する。 CARPは、クラスタ割り当て問題を解決するために、追加の非微分可能モジュールなしで勾配降下を用いて、エンドツーエンドのオンライン方式でプロトタイプを学習する。 CARPは、モデルを正規化し、ビューの割り当て間の一貫性を強制するプロトタイプのランダムパーティションに基づいて、新しいプリテキストタスクを最適化する。 さらに,本手法はトレーニングの安定性を向上し,共同埋め込みトレーニングにおける解の崩壊を防止する。 広範な評価を通じて,carpの表現が下流タスクの学習に適していることを実証する。 線形評価,少数ショット分類,k-NN,k-means,画像検索,コピー検出など,多くの標準プロトコルにわたる17のデータセットでCARPの表現能力を評価する。 我々はCARPの性能を既存の11の自己管理手法と比較する。 提案するランダム分割プレテキストタスクは,複数のランダム分類タスクを考案することにより,学習した表現の質を向上させることを示す。 転送学習タスクでは、CARPは長い時間トレーニングされた多くのSSLメソッドに対して平均して最高のパフォーマンスを達成する。

We present Consistent Assignment of Views over Random Partitions (CARP), a self-supervised clustering method for representation learning of visual features. CARP learns prototypes in an end-to-end online fashion using gradient descent without additional non-differentiable modules to solve the cluster assignment problem. CARP optimizes a new pretext task based on random partitions of prototypes that regularizes the model and enforces consistency between views' assignments. Additionally, our method improves training stability and prevents collapsed solutions in joint-embedding training. Through an extensive evaluation, we demonstrate that CARP's representations are suitable for learning downstream tasks. We evaluate CARP's representations capabilities in 17 datasets across many standard protocols, including linear evaluation, few-shot classification, k-NN, k-means, image retrieval, and copy detection. We compare CARP performance to 11 existing self-supervised methods. We extensively ablate our method and demonstrate that our proposed random partition pretext task improves the quality of the learned representations by devising multiple random classification tasks. In transfer learning tasks, CARP achieves the best performance on average against many SSL methods trained for a longer time.
翻訳日:2023-10-20 15:26:08 公開日:2023-10-19
# 構成世界モデルのためのニューロシンボリックグラウンドディング

Neurosymbolic Grounding for Compositional World Models ( http://arxiv.org/abs/2310.12690v1 )

ライセンス: Link先を確認
Atharva Sehgal, Arya Grayeli, Jennifer J. Sun, Swarat Chaudhuri(参考訳) 本稿では,オブジェクト中心の世界モデリングのためのフレームワークであるcosmosについて紹介する。これは合成汎化(cg)のために設計されたもので,既知の視覚的"原子"の構成により得られた,目に見えない入力シーンにおける高いパフォーマンスを示す。 cosmosの背景にある中心的な洞察は、新しい形態のニューロシンボリック・グラウンドングの使用である。 具体的には、このフレームワークには2つの新しいツールがある。 (i)ニューラルエンコーダを用いて計算された実ベクトルを用いてシーン内の各エンティティを表すニューロシンボリックシーンエンコーディング、及びその実体の属性を記述する合成可能なシンボルのベクトル (ii)これらの実体を相互作用の学習規則に結びつける神経象徴的注意機構。 cosmosはエンドツーエンドの微分可能であり、また、表現を記号に手作業でマッピングする必要がある従来の神経シンボリック手法とは異なり、視覚言語の基礎モデルを用いてエンティティの象徴的属性を計算する。 確立されたブロック処理領域におけるCGの2つの異なる形態を考慮した評価を通じて,本フレームワークが世界モデリングにおけるCGの新たな最先端技術を確立することを示す。

We introduce Cosmos, a framework for object-centric world modeling that is designed for compositional generalization (CG), i.e., high performance on unseen input scenes obtained through the composition of known visual "atoms." The central insight behind Cosmos is the use of a novel form of neurosymbolic grounding. Specifically, the framework introduces two new tools: (i) neurosymbolic scene encodings, which represent each entity in a scene using a real vector computed using a neural encoder, as well as a vector of composable symbols describing attributes of the entity, and (ii) a neurosymbolic attention mechanism that binds these entities to learned rules of interaction. Cosmos is end-to-end differentiable; also, unlike traditional neurosymbolic methods that require representations to be manually mapped to symbols, it computes an entity's symbolic attributes using vision-language foundation models. Through an evaluation that considers two different forms of CG on an established blocks-pushing domain, we show that the framework establishes a new state-of-the-art for CG in world modeling.
翻訳日:2023-10-20 15:25:48 公開日:2023-10-19
# 行列分解を用いた繰り返しニューラルネットワークの圧縮

Compression of Recurrent Neural Networks using Matrix Factorization ( http://arxiv.org/abs/2310.12688v1 )

ライセンス: Link先を確認
Lucas Maison, H\'elion du Mas des Bourboux, Thomas Courtat(参考訳) ニューラルネットワークの圧縮は、リアルタイムまたは組み込みアプリケーションのモデルデプロイにおける重要なステップである。 低ランク近似を用いたモデルの行列の分解は圧縮を達成するための有望な方法である。 トレーニング前にランクを設定することは可能だが、このアプローチは柔軟でも最適でもない。 本研究では,各行列に対して異なる階数を選択するランクチューニングと呼ばれるポストトレーニングランク選択法を提案する。 本手法は,トレーニング適応と組み合わせて,性能劣化を伴わずに高い圧縮率を達成する。 信号処理タスクに関する数値実験により、リカレントニューラルネットワークを1.4%の相対的性能低下で14倍まで圧縮できることが示されている。

Compressing neural networks is a key step when deploying models for real-time or embedded applications. Factorizing the model's matrices using low-rank approximations is a promising method for achieving compression. While it is possible to set the rank before training, this approach is neither flexible nor optimal. In this work, we propose a post-training rank-selection method called Rank-Tuning that selects a different rank for each matrix. Used in combination with training adaptations, our method achieves high compression rates with no or little performance degradation. Our numerical experiments on signal processing tasks show that we can compress recurrent neural networks up to 14x with at most 1.4% relative performance reduction.
翻訳日:2023-10-20 15:25:28 公開日:2023-10-19
# 量子信号処理と非線形フーリエ解析

Quantum signal processing and nonlinear Fourier analysis ( http://arxiv.org/abs/2310.12683v1 )

ライセンス: Link先を確認
Michel Alexis, Gevorg Mnatsakanyan, Christoph Thiele(参考訳) 非線形フーリエ解析との接続を解明するため、量子信号処理においてよく知られたアルゴリズムを拡張し、二乗和数列で測定可能な信号を表現する。 シーケンスの各係数は、信号の関数としてリプシッツ連続である。

Elucidating a connection with nonlinear Fourier analysis, we extend a well known algorithm in quantum signal processing to represent measurable signals by square summable sequences. Each coefficient of the sequence is Lipschitz continuous as a function of the signal.
翻訳日:2023-10-20 15:25:18 公開日:2023-10-19
# 信念伝播による現象量子ノイズの補正

Correcting phenomenological quantum noise via belief propagation ( http://arxiv.org/abs/2310.12682v1 )

ライセンス: Link先を確認
Kao-Yueh Kuo and Ching-Yi Lai(参考訳) 量子スタビライザー符号は、しばしばエラー発生率の測定によるシンドロームエラーの課題に直面している。 この問題に対処するために、通常、複数の症候群抽出ラウンドが信頼性のあるエラー症候群を得るために使用される。 本稿では,2つのシンドロームの抽出間にデータキュービットエラーが発生し,各シンドロームの測定に障害が生じる現象論的復号問題を考える。 これらの多種多様なエラー源を扱うために、これらのエラーシンドロームを特徴付けるために、第4次および第2次混合アルファベット上の一般化チェック行列を定義する。 この一般化されたチェック行列は、第四次および二分変数ノードからなるタナーグラフの作成につながり、現象学的誤りに対処するための信念伝搬(BP)復号アルゴリズムの開発を容易にする。 重要なことに、BPデコーダは一般的なスパース量子符号に適用できる。 回転するトーリック符号で保護された量子メモリのシミュレーションにより、現象論的ノイズモデルにおいて3.3%の誤差閾値を示す。 さらに,シングルショット誤り訂正のための冗長安定化チェックを効果的に構築する手法を提案する。 シミュレーションにより、BP復号法は、シンドロームエラー率がデータエラー率を大きく上回っている場合でも、極めて良好に動作することが示された。

Quantum stabilizer codes often face the challenge of syndrome errors due to error-prone measurements. To address this issue, multiple rounds of syndrome extraction are typically employed to obtain reliable error syndromes. In this paper, we consider phenomenological decoding problems, where data qubit errors may occur between two syndrome extractions, and each syndrome measurement can be faulty. To handle these diverse error sources, we define a generalized check matrix over mixed quaternary and binary alphabets to characterize their error syndromes. This generalized check matrix leads to the creation of a Tanner graph comprising quaternary and binary variable nodes, which facilitates the development of belief propagation (BP) decoding algorithms to tackle phenomenological errors. Importantly, our BP decoders are applicable to general sparse quantum codes. Through simulations of quantum memory protected by rotated toric codes, we demonstrates an error threshold of 3.3% in the phenomenological noise model. Additionally, we propose a method to construct effective redundant stabilizer checks for single-shot error correction. Simulations show that BP decoding performs exceptionally well, even when the syndrome error rate greatly exceeds the data error rate.
翻訳日:2023-10-20 15:25:14 公開日:2023-10-19
# 多頭注意の最適化と一般化について

On the Optimization and Generalization of Multi-head Attention ( http://arxiv.org/abs/2310.12680v1 )

ライセンス: Link先を確認
Puneesh Deora, Rouzbeh Ghaderi, Hossein Taheri, Christos Thrampoulidis(参考訳) 変圧器のコア機構、すなわち注意機構の訓練と一般化のダイナミクスは未検討のままである。 さらに、既存の分析は主にシングルヘッドの注意に焦点を当てている。 完全接続ネットワークのトレーニングにおける過度パラメータ化の利点に着想を得て,複数の注意頭を用いた最適化と一般化の利点について検討した。 この目的に向けて,データに対する適切な実現可能性条件下で,単層多頭自己照査モデルの勾配-希薄トレーニングにおける収束と一般化の保証を求める。 次に、実現可能性を保証する初期化に関する原始条件を確立する。 最後に,これらの条件が単純なトークン化混合モデルに満足できることを実証する。 分析はさまざまなデータモデルやアーキテクチャのバリエーションに拡張できると考えています。

The training and generalization dynamics of the Transformer's core mechanism, namely the Attention mechanism, remain under-explored. Besides, existing analyses primarily focus on single-head attention. Inspired by the demonstrated benefits of overparameterization when training fully-connected networks, we investigate the potential optimization and generalization advantages of using multiple attention heads. Towards this goal, we derive convergence and generalization guarantees for gradient-descent training of a single-layer multi-head self-attention model, under a suitable realizability condition on the data. We then establish primitive conditions on the initialization that ensure realizability holds. Finally, we demonstrate that these conditions are satisfied for a simple tokenized-mixture model. We expect the analysis can be extended to various data-model and architecture variations.
翻訳日:2023-10-20 15:24:56 公開日:2023-10-19
# TapMo: 無骨格文字の形状認識運動生成

TapMo: Shape-aware Motion Generation of Skeleton-free Characters ( http://arxiv.org/abs/2310.12678v1 )

ライセンス: Link先を確認
Jiaxu Zhang, Shaoli Huang, Zhigang Tu, Xin Chen, Xiaohang Zhan, Gang Yu, Ying Shan(参考訳) 従来のモーション生成手法はプリリグド3dモデルに限定されており、様々な非リグドキャラクタのアニメーションへの応用を妨げている。 本稿では,スケルトンフリーな3dキャラクタの幅広いスペクトルにおける動きを合成するテキスト駆動アニメーションパイプラインであるtapmoを提案する。 tapmoの重要な革新は、拡散モデルを導く条件として形状変形認識機能を使用することで、様々な文字のメッシュ特有の動きを生成することができることである。 具体的には、TapMoはMesh Handle PredictorとShape-aware Diffusion Moduleの2つの主要コンポーネントで構成されている。 メッシュハンドラ予測器は、スキンの重みとクラスタのメッシュ頂点を変形制御のための適応ハンドルに予測する。 形状認識運動拡散はメッシュ固有の適応で動きを合成する。 このモジュールは、第1段階で抽出されたテキスト誘導モーションとメッシュ機能を使用し、キャラクターの形状と変形を考慮してアニメーションの幾何学的整合性を保つ。 弱い教師付きで訓練されたTapMoは、テキストの動きを伴わずとも、複数の人間以外のメッシュを扱える。 厳密な定性的および定量的実験によるTapMoの有効性と一般化性を示す。 以上の結果から,TapMoは既存の自動アニメーション手法を一貫して上回り,不均質な3Dキャラクタに高品質なアニメーションを提供することがわかった。

Previous motion generation methods are limited to the pre-rigged 3D human model, hindering their applications in the animation of various non-rigged characters. In this work, we present TapMo, a Text-driven Animation Pipeline for synthesizing Motion in a broad spectrum of skeleton-free 3D characters. The pivotal innovation in TapMo is its use of shape deformation-aware features as a condition to guide the diffusion model, thereby enabling the generation of mesh-specific motions for various characters. Specifically, TapMo comprises two main components - Mesh Handle Predictor and Shape-aware Diffusion Module. Mesh Handle Predictor predicts the skinning weights and clusters mesh vertices into adaptive handles for deformation control, which eliminates the need for traditional skeletal rigging. Shape-aware Motion Diffusion synthesizes motion with mesh-specific adaptations. This module employs text-guided motions and mesh features extracted during the first stage, preserving the geometric integrity of the animations by accounting for the character's shape and deformation. Trained in a weakly-supervised manner, TapMo can accommodate a multitude of non-human meshes, both with and without associated text motions. We demonstrate the effectiveness and generalizability of TapMo through rigorous qualitative and quantitative experiments. Our results reveal that TapMo consistently outperforms existing auto-animation methods, delivering superior-quality animations for both seen or unseen heterogeneous 3D characters.
翻訳日:2023-10-20 15:24:44 公開日:2023-10-19
# ExtSwap: 高品質な顔スワップ生成のための拡張潜在マッパーの活用

ExtSwap: Leveraging Extended Latent Mapper for Generating High Quality Face Swapping ( http://arxiv.org/abs/2310.12736v1 )

ライセンス: Link先を確認
Aravinda Reddy PN, K.Sreenivasa Rao, Raghavendra Ramachandra, Pabitra mitra(参考訳) 事前学習したStyleGANの段階的に成長する構造を用いた顔交換方式を提案する。 従来の手法では、異なるエンコーダデコーダ構造を使用し、統合ネットワークを埋め込んで高品質な結果を生成するが、その品質は絡み合った表現に悩まされる。 我々はアイデンティティと属性の特徴を別々に導き、意味論を解体する。 連結した特徴を拡張潜在空間にマッピングすることで、最先端の品質とリッチなセマンティック拡張潜在空間を活用する。 大規模な実験により,提案手法は識別と属性の特徴を乱し,定性的かつ定量的に多くの顔交換法より優れていたことが示唆された。

We present a novel face swapping method using the progressively growing structure of a pre-trained StyleGAN. Previous methods use different encoder decoder structures, embedding integration networks to produce high-quality results, but their quality suffers from entangled representation. We disentangle semantics by deriving identity and attribute features separately. By learning to map the concatenated features into the extended latent space, we leverage the state-of-the-art quality and its rich semantic extended latent space. Extensive experiments suggest that the proposed method successfully disentangles identity and attribute features and outperforms many state-of-the-art face swapping methods, both qualitatively and quantitatively.
翻訳日:2023-10-20 15:16:41 公開日:2023-10-19
# 学習ビデオ圧縮のためのマルチスケールモーションアウェアと時空間チャネルコンテキスト符号化ネットワーク

Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding Network for Learned Video Compression ( http://arxiv.org/abs/2310.12733v1 )

ライセンス: Link先を確認
Yiming Wang, Qian Huang, Bin Tang, Huashan Sun, and Xing Li(参考訳) 近年,学習ビデオ圧縮はエキサイティングなパフォーマンスを実現している。 従来のハイブリッド予測符号化フレームワークに従って、ほとんどの学習手法では、フレーム間の冗長性を除去するために動き推定運動補償(MEMC)法を採用している。 しかし、不正確な動きベクトル(mv)は通常、再構成されたフレームの歪みを引き起こす。 加えて、ほとんどのアプローチは空間的およびチャネル的冗長性を無視している。 そこで本研究では,フレーム内画素とフレーム間動作の特徴を抽出するために,遅延表現を学習し,可変オートエンコーダ(VAE)を用いる動き認識型時空間符号化型ビデオ圧縮ネットワーク(MASTC-VC)を提案する。 具体的には,マルチスケール動作予測情報を用いて空間-時間チャネル一貫した動きベクトルを推定するマルチスケールモーションアウェアモジュール(ms-mam)を設計する。 さらに,空間的,時間的,チャネル的なそれぞれの面からビット消費を減らすために,遅延表現の相関関係を探索する空間時空間文脈モジュール(STCCM)を提案する。 総合的な実験により,提案したMASTC-VCは,3つの公開ベンチマークデータセット上での先行技術(SOTA)手法よりも優れていることが示された。 具体的には、PSNRのH.265/HEVC(HM-16.20)に対して平均10.15\%のBDレートを、MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93\%のBDレートを節約する。

Recently, learned video compression has achieved exciting performance. Following the traditional hybrid prediction coding framework, most learned methods generally adopt the motion estimation motion compensation (MEMC) method to remove inter-frame redundancy. However, inaccurate motion vector (MV) usually lead to the distortion of reconstructed frame. In addition, most approaches ignore the spatial and channel redundancy. To solve above problems, we propose a motion-aware and spatial-temporal-channel contextual coding based video compression network (MASTC-VC), which learns the latent representation and uses variational autoencoders (VAEs) to capture the characteristics of intra-frame pixels and inter-frame motion. Specifically, we design a multiscale motion-aware module (MS-MAM) to estimate spatial-temporal-channel consistent motion vector by utilizing the multiscale motion prediction information in a coarse-to-fine way. On the top of it, we further propose a spatial-temporal-channel contextual module (STCCM), which explores the correlation of latent representation to reduce the bit consumption from spatial, temporal and channel aspects respectively. Comprehensive experiments show that our proposed MASTC-VC is surprior to previous state-of-the-art (SOTA) methods on three public benchmark datasets. More specifically, our method brings average 10.15\% BD-rate savings against H.265/HEVC (HM-16.20) in PSNR metric and average 23.93\% BD-rate savings against H.266/VVC (VTM-13.2) in MS-SSIM metric.
翻訳日:2023-10-20 15:16:27 公開日:2023-10-19
# 音韻再構成における不確かさの表現と計算

Representing and Computing Uncertainty in Phonological Reconstruction ( http://arxiv.org/abs/2310.12727v1 )

ライセンス: Link先を確認
Johann-Mattis List, Nathan W. Hill, Robert Forkel, Frederic Blum(参考訳) 歴史的言語学におけるリコンストラクションの本質的にファジィな性質にもかかわらず、ほとんどの学者は原形を提案する際にその不確かさを表現していない。 従来の比較手法の特定の側面を自動化するための最近提案されたアプローチの成功により、プロトフォームの形式的表現も改善された。 この形式化により、表現と不確実性の計算の両方に対処できる。 教師付き音韻再構築の最近の進歩を基礎として,前述したデータに依拠して単語の再構築法をアルゴリズムが学習し,コグネート集合からの単語自動予測法の改良に触発され,言語再構成における不確実性の表現を可能にするとともに,言語データからのファジィリコンストラクションの計算ワークフローを含む新しい枠組みを提案する。

Despite the inherently fuzzy nature of reconstructions in historical linguistics, most scholars do not represent their uncertainty when proposing proto-forms. With the increasing success of recently proposed approaches to automating certain aspects of the traditional comparative method, the formal representation of proto-forms has also improved. This formalization makes it possible to address both the representation and the computation of uncertainty. Building on recent advances in supervised phonological reconstruction, during which an algorithm learns how to reconstruct words in a given proto-language relying on previously annotated data, and inspired by improved methods for automated word prediction from cognate sets, we present a new framework that allows for the representation of uncertainty in linguistic reconstruction and also includes a workflow for the computation of fuzzy reconstructions from linguistic data.
翻訳日:2023-10-20 15:15:56 公開日:2023-10-19
# 雑音量子デバイス上の誤差緩和フェルミオン古典影

Error-mitigated fermionic classical shadows on noisy quantum devices ( http://arxiv.org/abs/2310.12726v1 )

ライセンス: Link先を確認
Bujiao Wu and Dax Enshan Koh(参考訳) n-モードフェルミオン状態のk$-粒子還元密度行列(k$-rdms)を含むフェルミオンハミルトニアンの期待値を効率的に推定することは、多体物理学、化学、材料といった分野から豊富な物理系の量子シミュレーションに不可欠である。 しかし、従来の量子状態トモグラフィーの手法は、リソース要件の観点からは費用がかかりすぎる。 量子データに基づく古典的影(CS)アルゴリズムは、必要な量子状態のコピー数を劇的に減らし、この問題に対処するための解決策として提案されている。 しかし、これらのアルゴリズムの実装は、短期量子デバイス固有のノイズのために重大な課題に直面し、ゲート操作の不正確さにつながる。 この課題に対処するために,フェルミオン系に対する誤差緩和古典影アルゴリズムを提案する。 n量子ビット量子システムでは、簡単な初期状態 $|0^n\rangle\! \langle 0^n|$ は無ノイズであると仮定し、o(kn^k\ln n)$量子状態のスケールドコピーとo(\sqrt{n}\ln^2 n)$スケールドキャリブレーション測定で、k$-rdmのすべての要素を効率的に推定する。 ゲートや、脱分極、振幅減衰、あるいは少なくとも一定の雑音強度を持つ$X$ローテーションノイズのような測定ノイズの存在下においてもそうである。 さらに, 量子状態のコピー数に関して, フェルミオン系の従来のcsアルゴリズムに匹敵するスケーリングを示すとともに, 雑音に対するレジリエンスも向上することを示した。 我々はこれらのノイズ源の存在下でのアルゴリズムの性能とガウス単位雑音下での性能を数値的に示す。 この結果は、短期量子デバイスにアルゴリズムを実装する潜在的有用性を強調している。

Efficiently estimating the expectation values of fermionic Hamiltonians, including $k$-particle reduced density matrices ($k$-RDMs) of an n-mode fermionic state, is crucial for quantum simulations of a wealth of physical systems from the fields of many-body physics, chemistry, and materials. Yet, conventional methods of quantum state tomography are too costly in terms of their resource requirements. Classical shadow (CS) algorithms based on quantum data have been proposed as a solution to address this task by substantially reducing the number of copies of quantum states required. However, the implementation of these algorithms faces a significant challenge due to the inherent noise in near-term quantum devices, leading to inaccuracies in gate operations. To address this challenge, we propose an error-mitigated classical shadow algorithm for fermionic systems. For n-qubit quantum systems, our algorithm, which employs the easily prepared initial state $|0^n\rangle\!\langle 0^n|$ assumed to be noiseless, provably efficiently estimates all elements of $k$-RDMs with $O(kn^k\ln n)$ scaled copies of quantum states and $O(\sqrt{n}\ln^2 n)$ scaled calibration measurements. It does so even in the presence of gate or measurement noise such as depolarizing, amplitude damping, or $X$-rotation noise with at most a constant noise strength. Furthermore, our algorithm exhibits scaling comparable to previous CS algorithms for fermionic systems with respect to the number of quantum state copies, while also demonstrating enhanced resilience to noise. We numerically demonstrate the performance of our algorithm in the presence of these noise sources, as well as its performance under Gaussian unitary noise. Our results underscore the potential utility of implementing our algorithm on near-term quantum devices.
翻訳日:2023-10-20 15:15:41 公開日:2023-10-19
# スペクトル分解フランソン干渉

Spectrally resolved Franson interference ( http://arxiv.org/abs/2310.12725v1 )

ライセンス: Link先を確認
Rui-Bo Jin, Zi-Qi Zeng, Dan Xu, Chen-Zhi Yuan, Bai-Hong Li, You Wang, Ryosuke Shimizu, Masahiro Takeoka, Mikio Fujiwara, Masahide Sasaki, Pei-Xiang Lu(参考訳) フランソン干渉はエネルギー時間絡み合いの非局所的な性質をテストするために用いられ、量子物理学の標準となっている。 しかし、以前のフランソン干渉実験のほとんどは時間領域で実証され、フランソン干渉のスペクトル特性は十分に解明されていない。 ここでは, 正相関, 負相関, 非相関を含む相関の異なる2光子を用いたスペクトル分解フランソン干渉を理論的, 実験的に実証する。 両光子の結合スペクトル強度は信号方向とアイドラー方向の両方に沿って変調することができ、これは高次元周波数絡みと時間周波数グリッド状態の生成に有効である。 この研究は、フランソン干渉計のスペクトル時間特性を理解するための新しい視点を与えるかもしれない。

Franson interference can be used to test the nonlocal features of energy-time entanglement and has become a standard in quantum physics. However, most of the previous Franson interference experiments were demonstrated in the time domain, and the spectral properties of Franson interference have not been fully explored. Here, we theoretically and experimentally demonstrate spectrally resolved Franson interference using biphotons with different correlations, including positive correlation, negative correlation, and non-correlation. It is found that the joint spectral intensities of the biphotons can be modulated along both the signal and idler directions, which has potential applications in generating high-dimensional frequency entanglement and time-frequency grid states. This work may provide a new perspective for understanding the spectral-temporal properties of the Franson interferometer.
翻訳日:2023-10-20 15:15:07 公開日:2023-10-19
# ディープビデオ理解のためのクエリアウェア・ロングビデオ定位と関係識別

Query-aware Long Video Localization and Relation Discrimination for Deep Video Understanding ( http://arxiv.org/abs/2310.12724v1 )

ライセンス: Link先を確認
Yuanxing Xu, Yuting Wei and Bin Wu(参考訳) ビデオやソーシャルメディアのコンテンツの急増は、マルチメディアデータのより深い理解の必要性を浮き彫りにしている。 既存の成熟したビデオ理解技術のほとんどは、浅い理解だけを必要とする短いフォーマットやコンテンツでうまく機能するが、深い理解と推論を必要とする長いフォーマットビデオではうまく機能しない。 Deep Video Understanding (DVU) Challengeは、多モーダル抽出、融合、分析の境界を推し進め、長いビデオの全体的分析と、さまざまなタイプのクエリの解決に有用な知識の抽出に対処することを目的としている。 本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係識別を行うクエリアウェア手法を提案する。 このモデルは、クエリに関連するフレームを明示的に選択し、映画レベルの知識グラフを完全に必要としない。 提案手法は,映画レベル問合せの2つのグループにおいて,第1位と第4位に到達した。 十分な実験と最終ランキングは、その有効性と堅牢性を示している。

The surge in video and social media content underscores the need for a deeper understanding of multimedia data. Most of the existing mature video understanding techniques perform well with short formats and content that requires only shallow understanding, but do not perform well with long format videos that require deep understanding and reasoning. Deep Video Understanding (DVU) Challenge aims to push the boundaries of multimodal extraction, fusion, and analytics to address the problem of holistically analyzing long videos and extract useful knowledge to solve different types of queries. This paper introduces a query-aware method for long video localization and relation discrimination, leveraging an imagelanguage pretrained model. This model adeptly selects frames pertinent to queries, obviating the need for a complete movie-level knowledge graph. Our approach achieved first and fourth positions for two groups of movie-level queries. Sufficient experiments and final rankings demonstrate its effectiveness and robustness.
翻訳日:2023-10-20 15:14:53 公開日:2023-10-19
# 最適状態判別に触発された文脈性証人

A contextuality witness inspired by optimal state discrimination ( http://arxiv.org/abs/2310.12716v1 )

ライセンス: Link先を確認
Carles Roch i Carceller and Jonatan Bohr Brask(参考訳) 量子情報科学における多くのプロトコルやタスクは、文脈性の基本的概念に依存して古典的概念よりも優位性を与え、文脈性は量子物理学と古典物理学の主な違いの1つである。 本研究は,最適二状態判別に触発された準備状況の証人を示す。 主なアイデアは、古典モデルと量子モデルの両方において、アクセス可能な平均的な成功とエラー確率を見つけることである。 すると、非文脈性不等式と関連する証人を構成でき、非決定的な事象の形で非分極化ノイズや損失に対して頑健であることが分かる。

Many protocols and tasks in quantum information science rely inherently on the fundamental notion of contextuality to provide advantages over their classical counterparts, and contextuality represents one of the main differences between quantum and classical physics. In this work we present a witness for preparation contextuality inspired by optimal two-state discrimination. The main idea is based on finding the accessible averaged success and error probabilities in both classical and quantum models. We can then construct a noncontextuality inequality and associated witness which we find to be robust against depolarising noise and loss in the form of inconclusive events.
翻訳日:2023-10-20 15:14:37 公開日:2023-10-19
# 過去から学ぶ - 堅牢性を高めるためのプロキシベースの敵防御フレームワーク

Learn from the Past: A Proxy based Adversarial Defense Framework to Boost Robustness ( http://arxiv.org/abs/2310.12713v1 )

ライセンス: Link先を確認
Yaohua Liu, Jiaxin Gao, Zhu Liu, Xianghao Jiao, Xin Fan, Risheng Liu(参考訳) 敵のサンプルに対するディープラーニングモデルの脆弱性やその後のセキュリティ問題を踏まえ、様々な敵の攻撃に対するモデルの堅牢性を高めることを目的とした、敵の訓練(AT)など、様々な手法が急速に発展してきた。 しかし、既存の手法は、パラメータ指向の敵攻撃を明示的あるいは暗黙的な計算負荷で防御する目標モデルの現在の状態を支援するものであり、最適化軌道の不整合による不安定な収束挙動にも悩まされている。 本報告では,従来の研究から切り離して,目標モデルの更新ルールとそれに対応する欠陥を,現状に基づいて再考する。 ターゲットモデルの歴史的状態をプロキシとして導入し、防衛のための事前情報を提供することによって、2段階の更新ルールを定式化し、「LAST ({\bf L}earn from the P{\bf ast})」と呼ばれる一般的な敵防衛フレームワークを作成した。 さらに,より大きな教師モデルを導入することなく,プロキシモデルの更新プロセスを制限するために,自己蒸留(sd)ベースの防衛目標を考案する。 実験では,CIFAR10およびCIFAR100データセット上でのロバスト精度(RA)を最大$\bf 9.2\%および$\bf 20.5\%で改善した一連のシングルステップATメソッドを,各種データセット,バックボーン,アタックモードで一貫したパフォーマンス向上を実現し,トレーニング安定性の向上と破滅的なオーバーフィッティング問題を緩和する能力の検証を行った。

In light of the vulnerability of deep learning models to adversarial samples and the ensuing security issues, a range of methods, including Adversarial Training (AT) as a prominent representative, aimed at enhancing model robustness against various adversarial attacks, have seen rapid development. However, existing methods essentially assist the current state of target model to defend against parameter-oriented adversarial attacks with explicit or implicit computation burdens, which also suffers from unstable convergence behavior due to inconsistency of optimization trajectories. Diverging from previous work, this paper reconsiders the update rule of target model and corresponding deficiency to defend based on its current state. By introducing the historical state of the target model as a proxy, which is endowed with much prior information for defense, we formulate a two-stage update rule, resulting in a general adversarial defense framework, which we refer to as `LAST' ({\bf L}earn from the P{\bf ast}). Besides, we devise a Self Distillation (SD) based defense objective to constrain the update process of the proxy model without the introduction of larger teacher models. Experimentally, we demonstrate consistent and significant performance enhancements by refining a series of single-step and multi-step AT methods (e.g., up to $\bf 9.2\%$ and $\bf 20.5\%$ improvement of Robust Accuracy (RA) on CIFAR10 and CIFAR100 datasets, respectively) across various datasets, backbones and attack modalities, and validate its ability to enhance training stability and ameliorate catastrophic overfitting issues meanwhile.
翻訳日:2023-10-20 15:14:25 公開日:2023-10-19
# オンラインソーシャルネットワーク(OSN)に対するロバスト対応事例の生成

Generating Robust Adversarial Examples against Online Social Networks (OSNs) ( http://arxiv.org/abs/2310.12708v1 )

ライセンス: Link先を確認
Jun Liu, Jiantao Zhou, Haiwei Wu, Weiwei Sun, Jinyu Tian(参考訳) オンラインソーシャルネットワーク(OSN)は、現代の画像の送信チャネルとして広く普及している。 ディープニューラルネットワーク(DNN)を誤解させるために意図的に設計された逆例(AE)は、OSNによる避けられない損失操作に対して脆弱である。 その結果、AEはOSN経由で送信された後、攻撃能力を失うことになった。 本研究の目的は、OSN伝送を継続できる堅牢なAEを生成するための新しいフレームワークを設計することであり、OSN伝送の前後に強力な攻撃能力を持つAEを設計することである。 そこで我々はまず,OSN の動作をシミュレートする SImulated OSN (SIO) と呼ばれるネットワークを提案する。 具体的には、SIOネットワークは2つのモジュールから構成される。 1)ユビキタスJPEG圧縮と近似のための微分可能JPEG層 2) 残りの操作を模倣するエンコーダ・デコーダサブネットワーク。 次に、SIOネットワークをベースとして、モデル出力をSIOを通らずに強制することで、堅牢なAEを生成するための最適化フレームワークを定式化する。 Facebook、WeChat、QQで実施された大規模な実験により、我々の攻撃方法は、特に小さな歪み制約の下で、既存のアプローチよりも堅牢なAEを生成することが示された。 さらに,facebook,wechat,qqで処理された1万組以上のaesを含む公開データセットを構築し,堅牢なaes生成における今後の研究を促進する。 データセットとコードはhttps://github.com/csjunjun/robustosnattack.gitで入手できる。

Online Social Networks (OSNs) have blossomed into prevailing transmission channels for images in the modern era. Adversarial examples (AEs) deliberately designed to mislead deep neural networks (DNNs) are found to be fragile against the inevitable lossy operations conducted by OSNs. As a result, the AEs would lose their attack capabilities after being transmitted over OSNs. In this work, we aim to design a new framework for generating robust AEs that can survive the OSN transmission; namely, the AEs before and after the OSN transmission both possess strong attack capabilities. To this end, we first propose a differentiable network termed SImulated OSN (SIO) to simulate the various operations conducted by an OSN. Specifically, the SIO network consists of two modules: 1) a differentiable JPEG layer for approximating the ubiquitous JPEG compression and 2) an encoder-decoder subnetwork for mimicking the remaining operations. Based upon the SIO network, we then formulate an optimization framework to generate robust AEs by enforcing model outputs with and without passing through the SIO to be both misled. Extensive experiments conducted over Facebook, WeChat and QQ demonstrate that our attack methods produce more robust AEs than existing approaches, especially under small distortion constraints; the performance gain in terms of Attack Success Rate (ASR) could be more than 60%. Furthermore, we build a public dataset containing more than 10,000 pairs of AEs processed by Facebook, WeChat or QQ, facilitating future research in the robust AEs generation. The dataset and code are available at https://github.com/csjunjun/RobustOSNAttack.git.
翻訳日:2023-10-20 15:13:49 公開日:2023-10-19
# ノイズライクな逆例によるプライバシー保護画像の分類

Recoverable Privacy-Preserving Image Classification through Noise-like Adversarial Examples ( http://arxiv.org/abs/2310.12707v1 )

ライセンス: Link先を確認
Jun Liu, Jiantao Zhou, Jinyu Tian, Weiwei Sun(参考訳) クラウドコンピューティングプラットフォームの普及に伴い、分類などのクラウドベースの画像関連サービスにおけるデータのプライバシ確保が重要になっている。 本研究では,平文領域で訓練された分類器を直接適用して,専用分類器を再訓練することなく,暗号化された画像の分類を可能にする,新たなプライバシー保護画像分類方式を提案する。 さらに、暗号化された画像は、秘密鍵を使用して高い忠実度(回復可能)で元の形式に復号することができる。 具体的には, 特徴抽出器とエンコーダを用いて, 新たに設計したノイズ様逆数例(NAE)を用いて, 平文画像のマスキングを行う。 このようなnaeは、暗号化画像にノイズのような外観を導入するだけでなく、ターゲット分類器に元の平文画像と同じラベルで暗号文を予測するよう強制する。 復号段階では、最小限の劣化で平文画像の復元を行うためのSymmetric Residual Learning (SRL) フレームワークを採用する。 大規模な実験は 1) 平文領域で訓練された分類器の分類精度は,暗号文領域と平文領域の両方で同じである。 2)暗号化された画像は,SVHNデータセットの平均PSNRが51以上のdB,VGGFace2データセットが48以上のdBで元の形式に復元することができる。 3)本システムでは,学習データと異なるデータセット間での暗号化,復号化,分類タスクに十分な一般化能力を示す。 4)3つの潜在的な脅威モデルに対して高いレベルのセキュリティを達成する。 コードはhttps://github.com/csjunjun/RIC.gitで入手できる。

With the increasing prevalence of cloud computing platforms, ensuring data privacy during the cloud-based image related services such as classification has become crucial. In this study, we propose a novel privacypreserving image classification scheme that enables the direct application of classifiers trained in the plaintext domain to classify encrypted images, without the need of retraining a dedicated classifier. Moreover, encrypted images can be decrypted back into their original form with high fidelity (recoverable) using a secret key. Specifically, our proposed scheme involves utilizing a feature extractor and an encoder to mask the plaintext image through a newly designed Noise-like Adversarial Example (NAE). Such an NAE not only introduces a noise-like visual appearance to the encrypted image but also compels the target classifier to predict the ciphertext as the same label as the original plaintext image. At the decoding phase, we adopt a Symmetric Residual Learning (SRL) framework for restoring the plaintext image with minimal degradation. Extensive experiments demonstrate that 1) the classification accuracy of the classifier trained in the plaintext domain remains the same in both the ciphertext and plaintext domains; 2) the encrypted images can be recovered into their original form with an average PSNR of up to 51+ dB for the SVHN dataset and 48+ dB for the VGGFace2 dataset; 3) our system exhibits satisfactory generalization capability on the encryption, decryption and classification tasks across datasets that are different from the training one; and 4) a high-level of security is achieved against three potential threat models. The code is available at https://github.com/csjunjun/RIC.git.
翻訳日:2023-10-20 15:13:25 公開日:2023-10-19
# 癌サブタイピングのためのロバストスライドレベル表現への組織学的プロトタイプの混合

Mixing Histopathology Prototypes into Robust Slide-Level Representations for Cancer Subtyping ( http://arxiv.org/abs/2310.12769v1 )

ライセンス: Link先を確認
Joshua Butke, Noriaki Hashimoto, Ichiro Takeuchi, Hiroaki Miyoshi, Koichi Ohshima, Jun Sakuma(参考訳) 計算病理学の手法による全スライディング画像解析は、しばしば、スライドレベルラベルのみが利用可能なテッセル化ギガピクセル画像の処理に依存する。 複数のインスタンス学習ベースのメソッドやトランスフォーマーモデルを適用すれば、各イメージに対して、すべてのインスタンスを同時に処理する必要があるため、計算コストがかかる。 mlp-mixerは、一般的なビジョントランスフォーマー、特に大規模データセットの代替モデルである。 自己アテンション機構が欠如しているため、入力パッチの数に対して線形計算の複雑さがあるが、自然な画像データセットで同等のパフォーマンスを実現する。 本稿では,機能埋め込みとクラスタリングを組み合わせることで,全スライディング画像をプロトタイプ表現にプリプロセスし,適切なMLP-Mixerアーキテクチャの入力として機能させる。 2つの公開ベンチマークと1つの内在性悪性リンパ腫データセットによる実験は、現在の最先端手法に匹敵する性能を示しながら、計算時間とメモリ負荷の面でのトレーニングコストの低減を実現している。 コードはhttps://github.com/butkej/protomixerで公開されている。

Whole-slide image analysis via the means of computational pathology often relies on processing tessellated gigapixel images with only slide-level labels available. Applying multiple instance learning-based methods or transformer models is computationally expensive as, for each image, all instances have to be processed simultaneously. The MLP-Mixer is an under-explored alternative model to common vision transformers, especially for large-scale datasets. Due to the lack of a self-attention mechanism, they have linear computational complexity to the number of input patches but achieve comparable performance on natural image datasets. We propose a combination of feature embedding and clustering to preprocess the full whole-slide image into a reduced prototype representation which can then serve as input to a suitable MLP-Mixer architecture. Our experiments on two public benchmarks and one inhouse malignant lymphoma dataset show comparable performance to current state-of-the-art methods, while achieving lower training costs in terms of computational time and memory load. Code is publicly available at https://github.com/butkej/ProtoMixer.
翻訳日:2023-10-20 15:07:31 公開日:2023-10-19
# SemantIC: 6G無線通信に向けたセマンティック干渉キャンセラ

SemantIC: Semantic Interference Cancellation Towards 6G Wireless Communications ( http://arxiv.org/abs/2310.12768v1 )

ライセンス: Link先を確認
Wensheng Lin, Yuna Yan, Lixin Li, Zhu Han, Tad Matsumoto(参考訳) 本論文は,第6世代 (6g) 無線ネットワークに対する情報品質向上を目的とした,新たな対干渉法であるセマンティック干渉キャンセル(semantic)を提案する。 SemantICは、チャンネルデコーダとセマンティックオートエンコーダを結合するためにのみレシーバを必要とする。 これは、信号領域と意味領域のノイズを反復的に交互に除去するターボループを構成する。 ネットワーク情報理論の観点から、セマンティックオートエンコーダのニューラルネットワークは、トレーニングによって側情報を格納し、ウィナー・ジブの定理の実装として反復復号における側情報を提供する。 シミュレーション結果は、余分なチャネルリソースコストなしでSemantICによる性能改善を検証する。

This letter proposes a novel anti-interference technique, semantic interference cancellation (SemantIC), for enhancing information quality towards the sixth-generation (6G) wireless networks. SemantIC only requires the receiver to concatenate the channel decoder with a semantic auto-encoder. This constructs a turbo loop which iteratively and alternately eliminates noise in the signal domain and the semantic domain. From the viewpoint of network information theory, the neural network of the semantic auto-encoder stores side information by training, and provides side information in iterative decoding, as an implementation of the Wyner-Ziv theorem. Simulation results verify the performance improvement by SemantIC without extra channel resource cost.
翻訳日:2023-10-20 15:07:11 公開日:2023-10-19
# トランスフォーマーに基づくエンティティ法定形式分類

Transformer-based Entity Legal Form Classification ( http://arxiv.org/abs/2310.12766v1 )

ライセンス: Link先を確認
Alexander Arimond and Mauro Molteni and Dominik Jany and Zornitsa Manolova and Damian Borth and Andreas G.F. Hoepner(参考訳) 本稿では,トランスフォーマーに基づく言語モデルを用いて,生の法人名からエンティティの法的形態を分類する手法を提案する。 具体的には,様々なBERTの変種を用いて,その性能を従来の複数のベースラインと比較する。 我々の評価は、30の異なる司法管轄区域から1100万以上の法的機関からなる、自由に利用可能な法定エンティティ識別(LEI)データのかなりのサブセットを含んでいる。 管轄区域ごとの分類のための根拠となる真理ラベルは、エンティティ法典(ELF)コード標準(ISO 20275)から取られる。 以上の結果から,事前学習したBERT変種は従来のテキスト分類法よりもF1スコアで優れており,マクロF1スコアでも高い性能を示した。 さらに, 提案の妥当性は, 選択された10の管轄区域で実施された第三者専門家レビューの結果に支えられている。 本研究は、データ標準化とデータ統合の進展におけるトランスフォーマーモデルの重要な可能性を強調している。 提示されたアプローチは、金融機関、企業、政府、その他の組織に対して、ビジネス関係の評価、リスク暴露の理解、効果的なガバナンスの促進において大きな利益をもたらす。

We propose the application of Transformer-based language models for classifying entity legal forms from raw legal entity names. Specifically, we employ various BERT variants and compare their performance against multiple traditional baselines. Our evaluation encompasses a substantial subset of freely available Legal Entity Identifier (LEI) data, comprising over 1.1 million legal entities from 30 different legal jurisdictions. The ground truth labels for classification per jurisdiction are taken from the Entity Legal Form (ELF) code standard (ISO 20275). Our findings demonstrate that pre-trained BERT variants outperform traditional text classification approaches in terms of F1 score, while also performing comparably well in the Macro F1 Score. Moreover, the validity of our proposal is supported by the outcome of third-party expert reviews conducted in ten selected jurisdictions. This study highlights the significant potential of Transformer-based models in advancing data standardization and data integration. The presented approaches can greatly benefit financial institutions, corporations, governments and other organizations in assessing business relationships, understanding risk exposure, and promoting effective governance.
翻訳日:2023-10-20 15:06:57 公開日:2023-10-19
# 音声合成のためのエネルギーモデル

Energy-Based Models For Speech Synthesis ( http://arxiv.org/abs/2310.12765v1 )

ライセンス: Link先を確認
Wanli Sun, Zehai Tu, Anton Ragni(参考訳) 近年,FastSpeech 2や拡散モデルなど,音声合成のための非自己回帰(非AR)モデルへの関心が高まっている。 ARモデルとは異なり、これらのモデルは推論を効率的にするアウトプット間に自己回帰依存を持たない。 本稿では,エネルギーベースモデル (EBMs) と呼ばれる,利用可能な非ARモデルの範囲を広げる。 本稿では, 正試料と負試料の比較に依拠するノイズコントラスト推定が, EBMの訓練にどのように用いられるかを説明する。 高性能なARモデルの使用を含む、効果的な負のサンプルを生成するための多くの戦略を提案する。 また、Langevin Markov Chain Monte-Carlo (MCMC) を用いて、EMMからのサンプリングを行う方法も説明している。 Langevin MCMCは、EMMと現在普及している拡散モデルの間の接続を描画することができる。 LJSpeechデータセットの実験は、提案されたアプローチがTacotron 2.0よりも改善されていることを示している。

Recently there has been a lot of interest in non-autoregressive (non-AR) models for speech synthesis, such as FastSpeech 2 and diffusion models. Unlike AR models, these models do not have autoregressive dependencies among outputs which makes inference efficient. This paper expands the range of available non-AR models with another member called energy-based models (EBMs). The paper describes how noise contrastive estimation, which relies on the comparison between positive and negative samples, can be used to train EBMs. It proposes a number of strategies for generating effective negative samples, including using high-performing AR models. It also describes how sampling from EBMs can be performed using Langevin Markov Chain Monte-Carlo (MCMC). The use of Langevin MCMC enables to draw connections between EBMs and currently popular diffusion models. Experiments on LJSpeech dataset show that the proposed approach offers improvements over Tacotron 2.
翻訳日:2023-10-20 15:06:40 公開日:2023-10-19
# 量子決定理論の基礎について

On the foundation of quantum decision theory ( http://arxiv.org/abs/2310.12762v1 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 量子決定理論はここで導入され、この理論の新しい基礎が提案されている。 これはまず、量子論におけるヒルベルト空間形式論の著者の一般的な議論に基づいており、次に、量子確率を計算する基礎となるボルン則の議論に基づいている。 量子論の基礎の背後にある基本的な概念は、理論変数はアクセス不能で到達不能な変数に分けられる。 これは決定変数に特化している。 各アクセス可能な変数は、特定のアクセス不能変数の関数と見なすことができると仮定される。 もう1つの仮定は、与えられた状況に最大アクセス可能な決定プロセスが2つ存在することである。 ボルンルールの背後にある2つの基本的な仮定 1) 帰属原理 2) 被疑者は, 仮説的に完全に合理的な存在によってモデル化できる動機を有する。 その理論は医学的な例によって示される。

Quantum decision theory is introduced here, and new basis for this theory is proposed. It is first based upon the author's general arguments for the Hilbert space formalism in quantum theory, next on arguments for the Born rule, that is the basis for calculating quantum probabilities. A basic notion behind the quantum theory foundation is that of theoretical variables, that are divided into accessible and inaccessible ones. This is here specialized to decision variables. It is assumed that each accessible variable can be seen as a function of a specific inaccessible variable. Another assumption is that there exist two maximal accessible decision processes in the given situation. Two basic assumptions behind the Born rule are 1) the likelihood principle, 2) the actor in question has motivations that can be modeled by a hypothetical perfectly rational higher being. The theory is illustrated by a medical example.
翻訳日:2023-10-20 15:06:25 公開日:2023-10-19
# プレーンビジョントランスフォーマーを用いたミニマリストおよび高性能セマンティクスセグメンテーション

Minimalist and High-Performance Semantic Segmentation with Plain Vision Transformers ( http://arxiv.org/abs/2310.12755v1 )

ライセンス: Link先を確認
Yuanduo Hong, Jue Wang, Weichao Sun, and Huihui Pan(参考訳) Masked Image Modeling (MIM)の後、多種多様な非階層型ビジョントランスフォーマー(ViT)モデルが広範なデータセットで事前訓練され、新しいパラダイムとセマンティックセグメンテーションの有意義な可能性を提供している。 現在の最先端システムには、多くの誘導バイアスが組み込まれ、面倒なデコーダが採用されている。 単純で汎用的な平易なViTの元々のモチベーションに基づいて、我々はこの目的に向けて高性能な「ミニマリスト」システムを探究する。 我々の主な目的は、平易なViTを用いた実用的なセマンティックセグメンテーションのためのシンプルで効率的なベースラインを提供することである。 具体的には、まず、最後の特徴マップを用いて、高性能なセマンティクスセグメンテーションを実現するための実現可能性と方法論を探求する。 その結果、トランスフォーマー層(エンコーダまたはデコーダ)に加えて、3つの3$\times$3の畳み込みのみからなるモデルであるplainsegを導入する。 このプロセスでは、基礎となる2つの原則について洞察を与えます。 (i)単純なアップサンプリング技術を採用しながら、ハイレゾな特徴はハイパフォーマンスに不可欠である (ii)スリムトランスデコーダはワイドトランスデコーダよりもはるかに大きな学習速度を必要とする。 そこで本研究では,階層的特徴の活用を可能にするplainseg-hierを提案する。 4つの人気のあるベンチマークに関する広範囲な実験が、我々の手法の高性能と効率を示している。 セマンティクスセグメンテーションにおけるベースモデルの転送能力を評価するための強力なツールとしても機能する。 コードは \url{https://github.com/ydhonghit/plainseg} で入手できる。

In the wake of Masked Image Modeling (MIM), a diverse range of plain, non-hierarchical Vision Transformer (ViT) models have been pre-trained with extensive datasets, offering new paradigms and significant potential for semantic segmentation. Current state-of-the-art systems incorporate numerous inductive biases and employ cumbersome decoders. Building upon the original motivations of plain ViTs, which are simplicity and generality, we explore high-performance `minimalist' systems to this end. Our primary purpose is to provide simple and efficient baselines for practical semantic segmentation with plain ViTs. Specifically, we first explore the feasibility and methodology for achieving high-performance semantic segmentation using the last feature map. As a result, we introduce the PlainSeg, a model comprising only three 3$\times$3 convolutions in addition to the transformer layers (either encoder or decoder). In this process, we offer insights into two underlying principles: (i) high-resolution features are crucial to high performance in spite of employing simple up-sampling techniques and (ii) the slim transformer decoder requires a much larger learning rate than the wide transformer decoder. On this basis, we further present the PlainSeg-Hier, which allows for the utilization of hierarchical features. Extensive experiments on four popular benchmarks demonstrate the high performance and efficiency of our methods. They can also serve as powerful tools for assessing the transfer ability of base models in semantic segmentation. Code is available at \url{https://github.com/ydhongHIT/PlainSeg}.
翻訳日:2023-10-20 15:06:11 公開日:2023-10-19
# 非ヒューリスティックアルゴリズムによるスペクトルクラスタリングの離散緩和解

Discretize Relaxed Solution of Spectral Clustering via a Non-Heuristic Algorithm ( http://arxiv.org/abs/2310.12752v1 )

ライセンス: Link先を確認
Hongyuan Zhang and Xuelong Li(参考訳) スペクトルクラスタリングとその拡張は通常、(1)グラフの構築と緩和された解の計算、(2)緩和された解の判別である。 前者は広範囲に研究されているが、離散化技術は主にヒューリスティックな方法、例えばk平均、スペクトル回転である。 残念なことに、既存のメソッドの目標は、元の目的を最小化する離散的なソリューションを見つけることではありません。 言い換えると、主な欠点は、離散解を計算する際に元の目的を無視することである。 第一次最適化アルゴリズムに着想を得て,従来の問題と離散化アルゴリズムを橋渡しする一階項を開発することを提案する。 非ヒューリスティックな手法は元のグラフカット問題を認識しているため、最終的な離散解はより信頼性が高く、好ましい損失値が得られる。 また、連続最適解は離散化アルゴリズムに有用であるが、最も近い離散解を見つけることは、信頼できない既存のヒューリスティックアルゴリズムであることを示す。 十分な実験が本手法の優越性を示している。

Spectral clustering and its extensions usually consist of two steps: (1) constructing a graph and computing the relaxed solution; (2) discretizing relaxed solutions. Although the former has been extensively investigated, the discretization techniques are mainly heuristic methods, e.g., k-means, spectral rotation. Unfortunately, the goal of the existing methods is not to find a discrete solution that minimizes the original objective. In other words, the primary drawback is the neglect of the original objective when computing the discrete solution. Inspired by the first-order optimization algorithms, we propose to develop a first-order term to bridge the original problem and discretization algorithm, which is the first non-heuristic to the best of our knowledge. Since the non-heuristic method is aware of the original graph cut problem, the final discrete solution is more reliable and achieves the preferable loss value. We also theoretically show that the continuous optimum is beneficial to discretization algorithms though simply finding its closest discrete solution is an existing heuristic algorithm which is also unreliable. Sufficient experiments significantly show the superiority of our method.
翻訳日:2023-10-20 15:05:45 公開日:2023-10-19
# 文字レベルの中国語バックパック言語モデル

Character-level Chinese Backpack Language Models ( http://arxiv.org/abs/2310.12751v1 )

ライセンス: Link先を確認
Hao Sun, John Hewitt(参考訳) バックパックは、予測をトークンセンス成分の重み付け和に分解することで、英語のモデリングにおける解釈性を改善するために示されるトランスフォーマーの代替品である。 しかし、Backpacksのトークン定義の意味への依存は、単語のトークン化が語彙項目に妥当な近似を与える言語である英語以外の言語に対する潜在的な可能性に疑問を投げかける。 本研究は,多くの文字から構成される文字認識中国語のBackpack言語モデルを訓練し,評価し,解釈し,制御する。 134Mパラメータ) 中国語の Backpack 言語モデルは (104Mパラメータ) トランスフォーマーと互換性があり, 単語の意味を対数的に合成するリッチな文字レベルの意味を学習する。 simlexスタイルの語彙意味評価では、バックパック文字の単純な平均はトランスフォーマーからの入力埋め込みよりも大きい。 複雑なマルチキャラクタの意味は、文脈をまたがって同じキャラクタ単位の重みを用いてしばしば形成される。 解釈可能性制御をめざして,バックパック内のジェンダーバイアスの源を特定の文字感覚にローカライズし,バイアスを減らすために介入できることを示した。

The Backpack is a Transformer alternative shown to improve interpretability in English language modeling by decomposing predictions into a weighted sum of token sense components. However, Backpacks' reliance on token-defined meaning raises questions as to their potential for languages other than English, a language for which subword tokenization provides a reasonable approximation for lexical items. In this work, we train, evaluate, interpret, and control Backpack language models in character-tokenized Chinese, in which words are often composed of many characters. We find that our (134M parameter) Chinese Backpack language model performs comparably to a (104M parameter) Transformer, and learns rich character-level meanings that log-additively compose to form word meanings. In SimLex-style lexical semantic evaluations, simple averages of Backpack character senses outperform input embeddings from a Transformer. We find that complex multi-character meanings are often formed by using the same per-character sense weights consistently across context. Exploring interpretability-through control, we show that we can localize a source of gender bias in our Backpacks to specific character senses and intervene to reduce the bias.
翻訳日:2023-10-20 15:05:27 公開日:2023-10-19
# TabuLa: 語彙データ合成のためのハーネス言語モデル

TabuLa: Harnessing Language Models for Tabular Data Synthesis ( http://arxiv.org/abs/2310.12746v1 )

ライセンス: Link先を確認
Zilong Zhao, Robert Birke and Lydia Chen(参考訳) 産業における表データのユビキタス利用とデータプライバシとセキュリティに対する懸念の高まりを考えると、表データの合成は重要な研究分野として現れている。 最近の最先端の手法では、大きな言語モデル(llm)を使って現実的な表データを生成することができる。 LLMは表データをフルテキストとして前処理するので、高次元データを符号化するワンホットに関連する次元の呪いを避ける利点がある。 しかし、その長いトレーニング時間と新しいタスクの再使用性に制限があるため、表生成モデルを廃止できない。 本稿では,言語モデル構造に基づく表型データ合成器であるTabulaを提案する。 本研究では,自然言語処理(NLP)のための事前学習言語モデルを用いた表層データ合成の文脈における制約について述べる。 本研究は,表型データ合成に特化した基礎モデルの開発を念頭に置いている。 さらに,合成データの品質を維持しつつ,トレーニング時間を著しく短縮するトークンシーケンス圧縮戦略を提案する。 6つのデータセットに関する広範な実験により、よく訓練されたモデルの重みをロードせずに言語モデル構造を使用することで、表データ合成のためのより良い出発モデルが得られることが示されている。 さらに、以前他の表データに基づいて訓練されたTabulaモデルは、新しい表データ合成タスクの優れた基礎モデルとして機能する。 さらに、トークンシーケンス圧縮方法は、モデルのトレーニング時間を実質的に削減する。 その結果、Tabula は現在の LLM ベースの最先端アルゴリズムと比較して、エポック毎のトレーニング時間を平均46.2% 削減し、より高い合成データユーティリティを一貫して達成していることがわかった。

Given the ubiquitous use of tabular data in industries and the growing concerns in data privacy and security, tabular data synthesis emerges as a critical research area. The recent state-of-the-art methods show that large language models (LLMs) can be adopted to generate realistic tabular data. As LLMs pre-process tabular data as full text, they have the advantage of avoiding the curse of dimensionality associated with one-hot encoding high-dimensional data. However, their long training time and limited re-usability on new tasks prevent them from replacing exiting tabular generative models. In this paper, we propose Tabula, a tabular data synthesizer based on the language model structure. Through Tabula, we demonstrate the inherent limitation of employing pre-trained language models designed for natural language processing (NLP) in the context of tabular data synthesis. Our investigation delves into the development of a dedicated foundational model tailored specifically for tabular data synthesis. Additionally, we propose a token sequence compression strategy to significantly reduce training time while preserving the quality of synthetic data. Extensive experiments on six datasets demonstrate that using a language model structure without loading the well-trained model weights yields a better starting model for tabular data synthesis. Moreover, the Tabula model, previously trained on other tabular data, serves as an excellent foundation model for new tabular data synthesis tasks. Additionally, the token sequence compression method substantially reduces the model's training time. Results show that Tabula averagely reduces 46.2% training time per epoch comparing to current LLMs-based state-of-the-art algorithm and consistently achieves even higher synthetic data utility.
翻訳日:2023-10-20 15:05:06 公開日:2023-10-19
# 多様体学習のための正準正規化フロー

Canonical normalizing flows for manifold learning ( http://arxiv.org/abs/2310.12743v1 )

ライセンス: Link先を確認
Kyriakos Flouris and Ender Konukoglu(参考訳) 多様体学習フローは、データの低次元多様体記述を仮定した生成的モデリング手法のクラスである。 データの高次元空間へのそのような多様体の埋め込みは、学習可能な可逆変換によって達成される。 したがって、この多様体が再構成損失によって適切に整列されると、確率密度は多様体上で移動可能となり、ネットワークパラメータを最適化できる。 当然、データの低次元表現は射影マッピングを必要とする。 近年のアプローチでは、高次元空間に埋め込むとき密度体積変化項を効率的に計算しながら、密度がモデル化された多様体と一致することを強制することができた。 しかし、インジェクティブ・マッピングが解析的に事前定義されない限り、学習多様体は必ずしもデータの効率的な表現ではない。 すなわち、そのようなモデルの潜在次元は、縮退した情報を各次元に格納した絡み合った本質基底をしばしば学習する。 あるいは、局所直交基底および/またはスパース基底が学習される場合、ここで、標準内在基底を造った場合、よりコンパクトな潜在空間表現を学ぶのに役立つ。 そこで本研究では, 新たな最適化対象として, 変換行列を定式かつ直交基底関数をほとんど持たないよう強制する, 正準多様体学習フロー法を提案する。 正準多様体フローは、遅延空間をより効率的に利用し、データを表現するために顕著で異なる次元を自動生成し、その結果、多くの実験で行った他の多様体フロー法よりも目標分布の近似が良くなり、その結果、FIDスコアが低下する。

Manifold learning flows are a class of generative modelling techniques that assume a low-dimensional manifold description of the data. The embedding of such manifold into the high-dimensional space of the data is achieved via learnable invertible transformations. Therefore, once the manifold is properly aligned via a reconstruction loss, the probability density is tractable on the manifold and maximum likelihood can be used optimize the network parameters. Naturally, the lower-dimensional representation of the data requires an injective-mapping. Recent approaches were able to enforce that density aligns with the modelled manifold, while efficiently calculating the density volume-change term when embedding to the higher-dimensional space. However, unless the injective-mapping is analytically predefined, the learned manifold is not necessarily an efficient representation of the data. Namely, the latent dimensions of such models frequently learn an entangled intrinsic basis with degenerate information being stored in each dimension. Alternatively, if a locally orthogonal and/or sparse basis is to be learned, here coined canonical intrinsic basis, it can serve in learning a more compact latent space representation. Towards this end, we propose a canonical manifold learning flow method, where a novel optimization objective enforces the transformation matrix to have few prominent and orthogonal basis functions. Canonical manifold flow yields a more efficient use of the latent space, automatically generating fewer prominent and distinct dimensions to represent data, and consequently a better approximation of target distributions than other manifold flow methods in most experiments we conducted, resulting in lower FID scores.
翻訳日:2023-10-20 15:04:34 公開日:2023-10-19
# 開集合監督型異常検出のための異常不均一学習

Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection ( http://arxiv.org/abs/2310.12790v1 )

ライセンス: Link先を確認
Jiawen Zhu, Choubo Ding, Yu Tian, Guansong Pang(参考訳) オープンセット監視された異常検出(OSAD)は、最近出現している異常検出領域であり、トレーニング中に見られるいくつかの異常クラスのサンプルを利用して、未確認の異常(すなわち、オープンセットの異常クラスからのサンプル)を検出し、その異常を効果的に識別することを目的としている。 従来の知識から見れば、現在のOSAD法は、しばしば偽陽性の誤りを大幅に減らすことができる。 しかし、これらの手法は、異常な例を均質分布から扱い、任意の分布から引き出すことができる未知の異常に一般化する効果が低い。 本稿では,本問題に対処する限られた異常例を用いて異種異常分布を学習することを提案する。 そこで本研究では,異種不均一性学習(AHL, Anomaly Heterogeneity Learning)という,異種異常分布の多様集合をシミュレートした新しい手法を提案する。 さらに、AHLは既存のOSADモデルをプラグインし、それらの異常モデリングを強化するための一般的なフレームワークである。 9つの実世界の異常検出データセットに関する広範囲な実験 1) 目視異常と目視異常の両方を検出し,大規模なデータセットで新たなsota性能を実現することで,osadモデルの精度を大幅に向上させる。 2)新規標的領域の異常を効果的に一般化する。

Open-set supervised anomaly detection (OSAD) - a recently emerging anomaly detection area - aims at utilizing a few samples of anomaly classes seen during training to detect unseen anomalies (i.e., samples from open-set anomaly classes), while effectively identifying the seen anomalies. Benefiting from the prior knowledge illustrated by the seen anomalies, current OSAD methods can often largely reduce false positive errors. However, these methods treat the anomaly examples as from a homogeneous distribution, rendering them less effective in generalizing to unseen anomalies that can be drawn from any distribution. In this paper, we propose to learn heterogeneous anomaly distributions using the limited anomaly examples to address this issue. To this end, we introduce a novel approach, namely Anomaly Heterogeneity Learning (AHL), that simulates a diverse set of heterogeneous (seen and unseen) anomaly distributions and then utilizes them to learn a unified heterogeneous abnormality model. Further, AHL is a generic framework that existing OSAD models can plug and play for enhancing their abnormality modeling. Extensive experiments on nine real-world anomaly detection datasets show that AHL can 1) substantially enhance different state-of-the-art (SOTA) OSAD models in detecting both seen and unseen anomalies, achieving new SOTA performance on a large set of datasets, and 2) effectively generalize to unseen anomalies in new target domains.
翻訳日:2023-10-20 14:56:43 公開日:2023-10-19
# DT/MARS-CycleGAN:MARS聴取ロボットの物体検出の改善

DT/MARS-CycleGAN: Improved Object Detection for MARS Phenotyping Robot ( http://arxiv.org/abs/2310.12787v1 )

ライセンス: Link先を確認
David Liu, Zhengkun Li, Zihao Wu, Changying Li(参考訳) ロボット作物の表現型化は、作物の形態的および生理的特性を大規模に評価するための重要な技術として登場した。 これらの表現型測定は、生産性を高め、気候変動のような環境問題に対処するために、新しい作物品種の開発に不可欠である。 しかし、作物表現型ロボットの開発と展開には、ロボットのオブジェクト検出を複雑にする複雑で可変な作物形状、ロボットの制御を束ねる動的で非構造的な環境、ロボットのハードウェアやソフトウェアに挑戦するビッグデータのリアルタイムコンピューティングと管理など、多くの課題がある。 本研究は、画像拡張のための新しいDigital-Twin(DT)MARS-CycleGANモデルを提案し、複雑で可変な背景から収穫物を検出するモジュール農業ロボットシステム(MARS)を改善することによる、最初の課題に特に取り組む。 我々は,CycleGANモデルにおけるサイクル整合性損失に加えて,深層学習モデルにおける新たなDT-MARS損失を設計・強制し,MARSが取得した実収穫画像とDT MARSが検出した合成画像との整合性を検証した。 そのため、生成した合成作物画像はリアリズムの観点から実像を忠実に模倣し、YOLOv8のような微細な物体検出器に使用される。 広範な実験により,新しいdt/mars-cycleganフレームワークは,火星の作物のオブジェクト・ロウ検出器の性能を著しく向上させ,ロボット作物の表現型化の分野に寄与した。

Robotic crop phenotyping has emerged as a key technology to assess crops' morphological and physiological traits at scale. These phenotypical measurements are essential for developing new crop varieties with the aim of increasing productivity and dealing with environmental challenges such as climate change. However, developing and deploying crop phenotyping robots face many challenges such as complex and variable crop shapes that complicate robotic object detection, dynamic and unstructured environments that baffle robotic control, and real-time computing and managing big data that challenge robotic hardware/software. This work specifically tackles the first challenge by proposing a novel Digital-Twin(DT)MARS-CycleGAN model for image augmentation to improve our Modular Agricultural Robotic System (MARS)'s crop object detection from complex and variable backgrounds. Our core idea is that in addition to the cycle consistency losses in the CycleGAN model, we designed and enforced a new DT-MARS loss in the deep learning model to penalize the inconsistency between real crop images captured by MARS and synthesized images sensed by DT MARS. Therefore, the generated synthesized crop images closely mimic real images in terms of realism, and they are employed to fine-tune object detectors such as YOLOv8. Extensive experiments demonstrated that our new DT/MARS-CycleGAN framework significantly boosts our MARS' crop object/row detector's performance, contributing to the field of robotic crop phenotyping.
翻訳日:2023-10-20 14:56:14 公開日:2023-10-19
# パレート・フロンティアの正確さ・公正さを特徴付ける理論的アプローチ

A Theoretical Approach to Characterize the Accuracy-Fairness Trade-off Pareto Frontier ( http://arxiv.org/abs/2310.12785v1 )

ライセンス: Link先を確認
Hua Tang, Lu Cheng, Ninghao Liu, Mengnan Du(参考訳) 公正な機械学習の文献では精度と公正性のトレードオフが頻繁に観測されているが、厳密な理論的分析は乏しい。 この長年の課題を解き明かすため、この研究は、他の分類器が支配できない最適パレート分類器の集合によって決定される精度-公正トレードオフパレートフロンティア(FairFrontier)の形状を特徴付けることによって理論的枠組みの開発を目指す。 具体的には,まず実世界のシナリオにおけるトレードオフの存在を実演し,その上で,精度・フェアネス・パレートフロンティアの重要な特性を特徴付ける4つの潜在的なカテゴリを提案する。 各カテゴリについて、対応するトレードオフにつながる必要な条件を特定します。 1) センシティブな属性が非センシティブな属性によって完全に解釈できる場合、fairfrontierはほとんど連続的である。 2) フェアネスが過度に低下すると, 精度が低下する可能性がある。 (3) 2段階の合理化アプローチによるトレードオフの排除。 提案した研究は、精度と公正性のトレードオフの深い理解を可能にし、現在の公正な機械学習研究を新たなフロンティアに押し上げる。

While the accuracy-fairness trade-off has been frequently observed in the literature of fair machine learning, rigorous theoretical analyses have been scarce. To demystify this long-standing challenge, this work seeks to develop a theoretical framework by characterizing the shape of the accuracy-fairness trade-off Pareto frontier (FairFrontier), determined by a set of all optimal Pareto classifiers that no other classifiers can dominate. Specifically, we first demonstrate the existence of the trade-off in real-world scenarios and then propose four potential categories to characterize the important properties of the accuracy-fairness Pareto frontier. For each category, we identify the necessary conditions that lead to corresponding trade-offs. Experimental results on synthetic data suggest insightful findings of the proposed framework: (1) When sensitive attributes can be fully interpreted by non-sensitive attributes, FairFrontier is mostly continuous. (2) Accuracy can suffer a \textit{sharp} decline when over-pursuing fairness. (3) Eliminate the trade-off via a two-step streamlined approach. The proposed research enables an in-depth understanding of the accuracy-fairness trade-off, pushing current fair machine-learning research to a new frontier.
翻訳日:2023-10-20 14:55:44 公開日:2023-10-19
# Floquet non-Abelian topological insulator and multifold bulk-edge correspondence」へのコメント

Comment on "Floquet non-Abelian topological insulator and multifold bulk-edge correspondence" ( http://arxiv.org/abs/2310.12782v1 )

ライセンス: Link先を確認
Robert-Jan Slager, Adrien Bouhon, F. Nur \"Unal(参考訳) 我々は最近の論文 "Floquet non-Abelian topological insulator and multifold bulk-edge correspondence" に Tianyu Li と Haiping Hu, Nat を引用する。 連絡しろ bf 14}, 6418 (2023) である。 著者がフロケット系において初めてマルチギャップトポロジーを研究することを不当に示唆しているという事実とは別に、既知のホモトピー関係のみが提示される。 このような洞察は興味深いフロケ現象や位相を示すのに使われ、これはそれ自体が魅力的な結果であるが、さらなる証明なしに動的文脈における全体のバルク特性を推定するためには使用できない。 実際、著者らは本質的にzak位相記述を再現している。 これらの結果は、特に arXiv:2208.12824 のような初期の結果と対比されるべきであり、静的互換のザック位相 {\it と動的ディラック弦は、2+1$次元系の非アベリア浮動小数点位相と類似している。 結果として、鋭く多重化されたバルクエッジ対応の主張は与えられた議論から結論づけることができない。

We comment on the recent paper ``Floquet non-Abelian topological insulator and multifold bulk-edge correspondence" by Tianyu Li and Haiping Hu, Nat. Comm. {\bf 14}, 6418 (2023). Apart from the fact that the authors unjustly imply to study multi-gap topology in Floquet systems for the first time, only known homotopic relations are presented. While such insights are used to present interesting Floquet phenomena and phases, which is an attractive result in itself, they cannot be used to deduce the total bulk characterization in the dynamical context without further proof. In fact, the authors essentially rephrase a Zak phase description. These results should in particular be contrasted to earlier results, arXiv:2208.12824, in which static-compatible Zak phases {\it and} dynamical Dirac strings were shown to be able to {\it distinguish} rather similar non-Abelian Floquet phases in $2+1$ dimensional systems. As a result, the claim of a sharp multifold bulk-edge correspondence cannot be concluded from the given arguments.
翻訳日:2023-10-20 14:55:21 公開日:2023-10-19
# プライバシー保護データからの条件密度推定

Conditional Density Estimations from Privacy-Protected Data ( http://arxiv.org/abs/2310.12781v1 )

ライセンス: Link先を確認
Xiaofei Xiong, Nianqiao P. Ju, Sanguo Zhang(参考訳) 現代の統計分析や機械学習アプリケーションの多くは、センシティブなユーザデータのトレーニングモデルを必要とする。 差分プライバシーは、個人レベルのユーザーの情報が漏洩しないという正式な保証を提供する。 このフレームワークでは、ランダム化されたアルゴリズムが機密データに校正されたノイズを注入し、プライバシー保護されたデータセットやクエリを生成する。 しかし、統計分析において、民営データのみへのアクセスを制限することは、機密データの背後にあるパラメータに対して有効な推論を行うことを計算的に困難にする。 本研究では,プライバシ保護データセットからのシミュレーションに基づく推論手法を提案する。 具体的には,神経条件密度推定器をフレキシブルな分布系として使用し,観察された個人的問合せ結果からモデルパラメータの後方分布を近似する。 本稿では,感染症モデルに基づく個別時系列データと通常の線形回帰モデルについて述べる。 プライバシ保護機構によって引き起こされるバイアスを正すための有効な統計的推論手順を設計する必要性と実現可能性を示す。

Many modern statistical analysis and machine learning applications require training models on sensitive user data. Differential privacy provides a formal guarantee that individual-level information about users does not leak. In this framework, randomized algorithms inject calibrated noise into the confidential data, resulting in privacy-protected datasets or queries. However, restricting access to only the privatized data during statistical analysis makes it computationally challenging to perform valid inferences on parameters underlying the confidential data. In this work, we propose simulation-based inference methods from privacy-protected datasets. Specifically, we use neural conditional density estimators as a flexible family of distributions to approximate the posterior distribution of model parameters given the observed private query results. We illustrate our methods on discrete time-series data under an infectious disease model and on ordinary linear regression models. Illustrating the privacy-utility trade-off, our experiments and analysis demonstrate the necessity and feasibility of designing valid statistical inference procedures to correct for biases introduced by the privacy-protection mechanisms.
翻訳日:2023-10-20 14:54:56 公開日:2023-10-19
# 統一量子プロトコルフレームワークに向けて:分類,実装,ユースケース

Towards a Unified Quantum Protocol Framework: Classification, Implementation, and Use Cases ( http://arxiv.org/abs/2310.12780v1 )

ライセンス: Link先を確認
Shraddha Singh, Mina Doosti, Natansh Mathur, Mahshid Delavar, Atul Mantri, Harold Ollivier, and Elham Kashefi(参考訳) 本稿では,量子ネットワークプロトコルの統一化と標準化のためのフレームワークを提案する。 私たちのフレームワークはオープンソースリポジトリであるQuantum Protocol Zooとして利用可能です。 現実のアプリケーションに接続する関数性(Functionity)と,2つないし複数のパーティ間の命令セットであるProtocol(Protocol)という,少なくとも1つには量子デバイスがある。 量子インターネットの異なる段階と、量子通信の商用化におけるユースケースに基づいて、量子暗号機能と、これらの機能を実装する様々なプロトコル設計を分類する。 この分類に向けて、量子プロトコルのリソース可視化という新しい概念を導入し、特定のプロトコルを実装するためのビルディングブロックを識別するインタフェースと、特定の物理リソースや機能性が利用できる場合にアクセス可能なプロトコルを識別するインターフェースを2つ導入する。 このような分類は、そのユースケースとリソース割り当てに基づく量子プロトコルの階層を提供する。 我々は、抽象暗号から量子ネットワークにおけるリソース階層の可視化まで、様々な技術を用いてその表現を改善するための様々な価値のあるツールを特定した。 我々は、動物園の構造とその主要な特徴を、量子情報科学者、物理学者、計算機科学理論家、エンドユーザの幅広いクラスに解明する。 2018年に導入されて以来、量子プロトコル動物園は、量子ネットワークコミュニティに、新たな量子インターネットネットワークのユースケースを確立する能力を提供する上での基盤となっている。 その精神では、さまざまな視点からフレームワークのアプリケーションも提供しています。

We present a framework for the unification and standardization of quantum network protocols, making their realization easier and expanding their use cases to a broader range of communities interested in quantum technologies. Our framework is available as an open-source repository, the Quantum Protocol Zoo. We follow a modular approach by identifying two key components: Functionality, which connects real-world applications; and Protocol, which is a set of instructions between two or many parties, at least one of which has a quantum device. Based on the different stages of the quantum internet and use-case in the commercialization of quantum communication, our framework classifies quantum cryptographic functionalities and the various protocol designs implementing these functionalities. Towards this classification, we introduce a novel concept of resource visualization for quantum protocols, which includes two interfaces: one to identify the building blocks for implementing a given protocol and another to identify accessible protocols when certain physical resources or functionalities are available. Such classification provides a hierarchy of quantum protocols based on their use-case and resource allocation. We have identified various valuable tools to improve its representation with a range of techniques, from abstract cryptography to graphical visualizations of the resource hierarchy in quantum networks. We elucidate the structure of the zoo and its primary features in this article to a broader class of quantum information scientists, physicists, computer science theorists and end-users. Since its introduction in 2018, the quantum protocol zoo has been a cornerstone in serving the quantum networks community in its ability to establish the use cases of emerging quantum internet networks. In that spirit we also provide some of the applications of our framework from different perspectives.
翻訳日:2023-10-20 14:54:40 公開日:2023-10-19
# 散逸性Tavis-Cummingsアレイにおける準エルゴディック定常状態の発生

Emergence of a quasi-ergodic steady state in a dissipative Tavis-Cummings array ( http://arxiv.org/abs/2310.12779v1 )

ライセンス: Link先を確認
Debabrata Mondal, K. Sengupta, and Subhasis Sinha(参考訳) タビス・カミングス・ハバード (TCH) モデルにより記述された原子-光子相互作用系において, 誘因的エルゴード的挙動を示す散逸環境における準定常状態の出現を実証する。 TCHモデルは、ギャップ付きヒッグスとギャップレスゴールドストーンモードをホストする通常から超ラジカル相への散逸遷移を行う。 しかし、位相図の広い領域において、ゴールドストーンモードの不安定性は安定な超ラジアント相の消失に繋がる。 この方法では、デコレータのダイナミクスは摂動と正のリアプノフ指数の光円錐の広がりを示し、増大した揺らぎを示す。 この状態において、サイト平均光子数や原子励起といった集合量のクラスは、対応する微視的変数の時間的変動が大きいにもかかわらず、安定した値に近づく。 この準定常状態は、大きな位相変動を持つ光子の非コヒーレント流体を記述する。 位相空間のダイナミクスは、散逸の存在下で魅力的なエルゴード的挙動を示し、動的変数を2つの異なるクラスに特徴づける。 第1類は、サイト平均光子数と原子励起を含み、エルゴードの振る舞いを示す初期条件にかかわらず定常分布を示す。 第2の種類の変数、特に位相のコントラストに関する変数は初期条件に関する情報を保持し、有限サイズの系に対するエルゴード性に違反する。 さらに、エルゴード類の動的変数は、その分布のピークが不安定な定常状態に惹かれ、単一の粒子量子的傷に類似しているため、魅力的な集団的傷跡を示す。 今回の実験で得られた知見の関連性について考察する。

In an atom-photon interacting system described by Tavis Cummings Hubbard (TCH) model, we demonstrate the emergence of a quasi-steady state in a dissipative environment that exhibits intriguing ergodic behavior. The TCH model undergoes a dissipative transition from normal to superradiant phase hosting a gapped Higgs and gapless Goldstone modes. However, in a large region of the phase diagram, the instability of the Goldstone mode leads to the disappearance of the stable superradiant phase. In this regime, the decorrelator dynamics reveals light cone spreading of the perturbations and positive Lyapunov exponent, indicating enhanced fluctuations. Remarkably, a quasi-steady state emerges under quench dynamics in this unstable regime; in this state, a class of collective quantities such as site averaged photon number and atomic excitations approach a steady value, in spite of large temporal fluctuations in corresponding microscopic variables. This quasi-steady state describes an incoherent fluid of photons with significant phase fluctuation. The phase space dynamics reveals a fascinating ergodic behavior in presence of dissipation, leading to the characterization of the dynamical variables into two distinct classes. The first class includes site-averaged photon numbers and atomic excitations; these exhibit a stationary distribution regardless of the initial condition indicating ergodic behavior. The second class of variables, particularly those related to phase in contrast, retain information about the initial conditions, resulting in a violation of ergodicity for finite size system. Additionally, the dynamical variables of the ergodic class exhibit fascinating collective scarring phenomenon as the peak of their distribution is attracted towards the unstable steady state, analogous to the single particle quantum scar. We discuss the relevance of our findings in the current experiments.
翻訳日:2023-10-20 14:54:14 公開日:2023-10-19
# 限定的テキスト分類のためのラベル認識自動動詞化

Label-Aware Automatic Verbalizer for Few-Shot Text Classification ( http://arxiv.org/abs/2310.12778v1 )

ライセンス: Link先を確認
Thanakorn Thaminkaew, Piyawat Lertvittayakumjorn, Peerapon Vateekul(参考訳) プロンプトに基づく学習は、数発のテキスト分類においてその効果を示した。 その成功の重要な要因の1つは、言語モデルからの出力を予測クラスに変換する動詞化である。 特に、最も単純で広く認められた動詞化子は、クラスを表現するために手動ラベルを使用している。 しかし、手動選択は、選択した言語モデルに条件付けされた場合、選択した単語の最適性を保証するものではない。 そこで本研究では,手動ラベルを効果的に強化し,より優れた数発の分類結果が得られるラベル認識自動バーバリザ(LAAV)を提案する。 具体的には、マニュアルラベルと結合した "and" を用いて、より効果的な単語を生成するモデルを誘導する。 5つの言語にまたがる5つのデータセットの実験結果から、LAAVが既存の動詞を著しく上回ることが示された。 さらに, LAAVは, 特に中~低リソース言語において, 類似した手法と比較して, より関連性の高い単語を提案する。

Prompt-based learning has shown its effectiveness in few-shot text classification. One important factor in its success is a verbalizer, which translates output from a language model into a predicted class. Notably, the simplest and widely acknowledged verbalizer employs manual labels to represent the classes. However, manual selection does not guarantee the optimality of the selected words when conditioned on the chosen language model. Therefore, we propose Label-Aware Automatic Verbalizer (LAAV), effectively augmenting the manual labels to achieve better few-shot classification results. Specifically, we use the manual labels along with the conjunction "and" to induce the model to generate more effective words for the verbalizer. The experimental results on five datasets across five languages demonstrate that LAAV significantly outperforms existing verbalizers. Furthermore, our analysis reveals that LAAV suggests more relevant words compared to similar approaches, especially in mid-to-low resource languages.
翻訳日:2023-10-20 14:53:44 公開日:2023-10-19
# 最も影響力のあるプロンプトの生存:クラスタリングとpruningによる効率的なブラックボックスプロンプト検索

Survival of the Most Influential Prompts: Efficient Black-Box Prompt Search via Clustering and Pruning ( http://arxiv.org/abs/2310.12774v1 )

ライセンス: Link先を確認
Han Zhou, Xingchen Wan, Ivan Vuli\'c, Anna Korhonen(参考訳) プロンプトベースの学習は、大規模な事前学習された言語モデル(llm)にとって効果的なパラダイムであり、少数またはゼロショットの学習を可能にする。 ブラックボックスのプロンプト検索は、特にモデル・アズ・ア・サービスの使用において有用で強力であることが証明された勾配のない最適化の特徴から、近年注目されている。 しかし、離散的性質と組合せ最適化の複雑さは、現代のブラックボックスアプローチの効率を阻害する。 検索アルゴリズムに関する広範な研究にもかかわらず、検索空間設計と最適化の重要な側面は見過ごされてきた。 本稿では,LSM予測に不均等な影響を及ぼすトークンはごく少数しかないことを明らかにするとともに,LSMの感度解析を行う。 この知見を生かしたクラスタリングとプルーニング(Clustering and Pruning for Efficient Black-box Prompt Search, ClaPS)を提案する。 プルーニングされた検索空間内でも単純な検索手法を採用することで、ClaPSは様々なタスクやLLMにわたる最先端のパフォーマンスを達成し、複雑なアプローチのパフォーマンスを上回り、検索コストを大幅に削減する。 本研究は,ブラックボックスプロンプトベース学習の有用性と効率を高める上で,検索空間設計と最適化が重要な役割を担っている。

Prompt-based learning has been an effective paradigm for large pretrained language models (LLM), enabling few-shot or even zero-shot learning. Black-box prompt search has received growing interest recently for its distinctive properties of gradient-free optimization, proven particularly useful and powerful for model-as-a-service usage. However, the discrete nature and the complexity of combinatorial optimization hinder the efficiency of modern black-box approaches. Despite extensive research on search algorithms, the crucial aspect of search space design and optimization has been largely overlooked. In this paper, we first conduct a sensitivity analysis by prompting LLM, revealing that only a small number of tokens exert a disproportionate amount of influence on LLM predictions. Leveraging this insight, we propose the Clustering and Pruning for Efficient Black-box Prompt Search (ClaPS), a simple black-box search method that first clusters and prunes the search space to focus exclusively on influential prompt tokens. By employing even simple search methods within the pruned search space, ClaPS achieves state-of-the-art performance across various tasks and LLMs, surpassing the performance of complex approaches while significantly reducing search costs. Our findings underscore the critical role of search space design and optimization in enhancing both the usefulness and the efficiency of black-box prompt-based learning.
翻訳日:2023-10-20 14:53:31 公開日:2023-10-19
# 安全なRLHF:人間のフィードバックから安全な強化学習

Safe RLHF: Safe Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2310.12773v1 )

ライセンス: Link先を確認
Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang(参考訳) 大規模言語モデル(LLM)の開発により、AIシステムのパフォーマンスと安全性のバランスを崩すことは、これまで以上に重要とされてきた。 しかし,無害化目標と無害化目標との本質的な緊張は,LLMトレーニングにおいて大きな課題となる。 この問題に対処するために,人間の価値アライメントのための新しいアルゴリズムであるセーフフィードバックからのセーフ強化学習(Safe RLHF)を提案する。 safe rlhfは、有益さと無害性に関する人間の好みを明確に分離し、緊張に関する群衆の混乱を効果的に回避し、別の報酬とコストモデルのトレーニングを可能にします。 我々は,LLMの安全性を,特定のコスト制約を満たしつつ報酬関数を最大化する最適化タスクとして定式化する。 この制約のある問題を解決するためにラグランジアン法を利用して、safe rlhfは微調整中の2つの目標間のバランスを動的に調整する。 Safe RLHFを用いた3ラウンドの微調整により、既存の値整合アルゴリズムと比較してモデル性能を高めつつ有害応答を緩和する優れた能力を示す。 実験では, Safe RLHFを用いてAlpaca-7Bを微調整し, 収集したヒトの嗜好に合わせることにより, 人体評価による有用性と無害性を著しく改善した。

With the development of large language models (LLMs), striking a balance between the performance and safety of AI systems has never been more critical. However, the inherent tension between the objectives of helpfulness and harmlessness presents a significant challenge during LLM training. To address this issue, we propose Safe Reinforcement Learning from Human Feedback (Safe RLHF), a novel algorithm for human value alignment. Safe RLHF explicitly decouples human preferences regarding helpfulness and harmlessness, effectively avoiding the crowdworkers' confusion about the tension and allowing us to train separate reward and cost models. We formalize the safety concern of LLMs as an optimization task of maximizing the reward function while satisfying specified cost constraints. Leveraging the Lagrangian method to solve this constrained problem, Safe RLHF dynamically adjusts the balance between the two objectives during fine-tuning. Through a three-round fine-tuning using Safe RLHF, we demonstrate a superior ability to mitigate harmful responses while enhancing model performance compared to existing value-aligned algorithms. Experimentally, we fine-tuned the Alpaca-7B using Safe RLHF and aligned it with collected human preferences, significantly improving its helpfulness and harmlessness according to human evaluations.
翻訳日:2023-10-20 14:53:05 公開日:2023-10-19
# DCSI -- 分離と接続性に基づくクラスタ分離性の改善尺度

DCSI -- An improved measure of cluster separability based on separation and connectedness ( http://arxiv.org/abs/2310.12806v1 )

ライセンス: Link先を確認
Jana Gauss, Fabian Scheipl, Moritz Herrmann(参考訳) あるデータセットのクラスラベルが意味のあるクラスタに対応するかどうかは、実世界のデータセットを用いたクラスタリングアルゴリズムの評価に不可欠である。 この性質は分離性の測定によって定量化することができる。 既存の文献のレビューでは、分類に基づく複雑性測定もクラスタ妥当性指標(CVI)も、密度に基づくクラスタリングにおける分離性の中心的な側面(クラス間分離とクラス内連結性)を適切に含まないことが示されている。 新たに開発された尺度 (density cluster separability index, DCSI) は、これらの2つの特性を定量化することを目的としており、CVIとしても使用できる。 合成データに対する大規模な実験の結果,DCSIは調整ランドインデックス(ARI)を用いて測定したDBSCANの性能と強く相関するが,密度ベースのハードクラスタリングに不適な重複クラスを持つマルチクラスデータセットでは堅牢性が欠如していることが示唆された。 頻繁に使用される実世界のデータセットに関する詳細な評価は、DCSIが意味のあるクラスタを形成していないタッチやオーバーラップするクラスを正しく識別できることを示している。

Whether class labels in a given data set correspond to meaningful clusters is crucial for the evaluation of clustering algorithms using real-world data sets. This property can be quantified by separability measures. A review of the existing literature shows that neither classification-based complexity measures nor cluster validity indices (CVIs) adequately incorporate the central aspects of separability for density-based clustering: between-class separation and within-class connectedness. A newly developed measure (density cluster separability index, DCSI) aims to quantify these two characteristics and can also be used as a CVI. Extensive experiments on synthetic data indicate that DCSI correlates strongly with the performance of DBSCAN measured via the adjusted rand index (ARI) but lacks robustness when it comes to multi-class data sets with overlapping classes that are ill-suited for density-based hard clustering. Detailed evaluation on frequently used real-world data sets shows that DCSI can correctly identify touching or overlapping classes that do not form meaningful clusters.
翻訳日:2023-10-20 14:48:25 公開日:2023-10-19
# 機械学習におけるバイアス誘発特徴の検出と評価

Detection and Evaluation of bias-inducing Features in Machine learning ( http://arxiv.org/abs/2310.12805v1 )

ライセンス: Link先を確認
Moses Openja, Gabriel Laberge, Foutse Khomh(参考訳) 原因から効果への分析は、望ましくないビジネス状況や個人に対する意図しない損害など、問題の起こりうるすべての原因を分解するのに役立ちます。 これにより、問題の継承方法を特定し、修正の優先順位付けを支援し、複雑な問題を単純化し、視覚化することができます。 機械学習(ML)の文脈では、システムの偏りのある振る舞いの理由を理解するために、原因から影響までの分析を用いることができる。 例えば、モデルのバイアスの原因となる可能性のある各機能をチェックすることで、バイアスの根本原因を調べることができる。 これにアプローチするために、ある機能やデータ内の2つの機能に小さな変更を適用し、いくつかのガイドラインに従い、それがモデルによる決定(すなわちモデル予測)に与える影響を観察することができる。 したがって,これらの特徴が元々不明である場合でも,要因から効果への分析を用いてバイアスを誘発する可能性のある特徴を同定することができる。 バイアスアセスメントにはセンシティブな特徴の事前識別が必要であり、他の関連するバイアス誘発特徴を見逃す可能性があるため、このような特徴の体系的な識別が必要である。 さらに、公平な結果を達成するためには、モデル決定において繊細な特徴を考慮する必要があることもしばしば起こる。 したがって、特定の特徴によって引き起こされるバイアスが許容されるか否かの判断の文脈に関する知識に基づいて決定するのは、ドメインの専門家次第である。 本研究では,モデルのバイアス誘発特性をすべて体系的に同定し,ドメインエキスパートの意思決定を支援する手法を提案する。 4つのよく知られたデータセットを使用して、当社のテクニックを評価し、公正で平等な機械学習システムの開発、テスト、保守、デプロイにおいて、私たちのコントリビューションが標準手順の先駆けとなることを示す。

The cause-to-effect analysis can help us decompose all the likely causes of a problem, such as an undesirable business situation or unintended harm to the individual(s). This implies that we can identify how the problems are inherited, rank the causes to help prioritize fixes, simplify a complex problem and visualize them. In the context of machine learning (ML), one can use cause-to-effect analysis to understand the reason for the biased behavior of the system. For example, we can examine the root causes of biases by checking each feature for a potential cause of bias in the model. To approach this, one can apply small changes to a given feature or a pair of features in the data, following some guidelines and observing how it impacts the decision made by the model (i.e., model prediction). Therefore, we can use cause-to-effect analysis to identify the potential bias-inducing features, even when these features are originally are unknown. This is important since most current methods require a pre-identification of sensitive features for bias assessment and can actually miss other relevant bias-inducing features, which is why systematic identification of such features is necessary. Moreover, it often occurs that to achieve an equitable outcome, one has to take into account sensitive features in the model decision. Therefore, it should be up to the domain experts to decide based on their knowledge of the context of a decision whether bias induced by specific features is acceptable or not. In this study, we propose an approach for systematically identifying all bias-inducing features of a model to help support the decision-making of domain experts. We evaluated our technique using four well-known datasets to showcase how our contribution can help spearhead the standard procedure when developing, testing, maintaining, and deploying fair/equitable machine learning systems.
翻訳日:2023-10-20 14:48:04 公開日:2023-10-19
# ジェットフレバータギング用微分可能な頂点フィッティング

Differentiable Vertex Fitting for Jet Flavour Tagging ( http://arxiv.org/abs/2310.12804v1 )

ライセンス: Link先を確認
Rachel E. C. Smith, In\^es Ochoa, R\'uben In\'acio, Jonathan Shoemaker, Michael Kagan(参考訳) 本稿では,二次頂点フィッティングに使用可能な微分可能な頂点フィッティングアルゴリズムを提案する。 頂点適合は最適化された解頂点の勾配が暗黙的な微分によって定義され、ネットワークトレーニングのために上流または下流のニューラルネットワークコンポーネントに渡される最適化問題として定式化される。 より広い意味で、これは高エネルギー物理学のニューラルネットワークモデルに物理知識を統合するための微分可能プログラミングの応用である。 本研究では, 微分可能な二次頂点フィッティングを大型変圧器モデルに統合し, フレバータグを付与し, ヘビーフレバージェットの分類を改善できることを実証する。

We propose a differentiable vertex fitting algorithm that can be used for secondary vertex fitting, and that can be seamlessly integrated into neural networks for jet flavour tagging. Vertex fitting is formulated as an optimization problem where gradients of the optimized solution vertex are defined through implicit differentiation and can be passed to upstream or downstream neural network components for network training. More broadly, this is an application of differentiable programming to integrate physics knowledge into neural network models in high energy physics. We demonstrate how differentiable secondary vertex fitting can be integrated into larger transformer-based models for flavour tagging and improve heavy flavour jet classification.
翻訳日:2023-10-20 14:47:09 公開日:2023-10-19
# テキストOOD一般化のための因果構造駆動拡張

Causal-structure Driven Augmentations for Text OOD Generalization ( http://arxiv.org/abs/2310.12803v1 )

ライセンス: Link先を確認
Amir Feder, Yoav Wald, Claudia Shi, Suchi Saria, David Blei(参考訳) スプリアス相関にテキスト分類器が依存すると、デプロイメントの一般化が不十分になり、医療などの安全クリティカルな領域での使用に対する懸念が高まる。 本研究では,データの因果構造に関する知識から導かれる偽データ拡張を用いて,スプリアス特徴に対する介入をシミュレートし,より頑健なテキスト分類法を学ぶことを提案する。 この戦略は,ラベルが属性と突発的に相関している予測問題に適していることを示す。 このような問題の仮定の下では,重要度の再重み付けと比較して,偽データ拡張の好適なサンプル複雑性について考察する。 現実的には、差分法に基づく補助データを用いて例をマッチングし、大言語モデル(LLM)を用いてテキストの条件付き確率を表す。 医療談話と半合成データから臨床診断を学習する介護不変予測器の広範な実験を通じて,介入シミュレーション手法は,ベースライン不変学習アルゴリズムと比較してアウト・オブ・ディストリビューション(OOD)の精度を向上させることを実証した。

The reliance of text classifiers on spurious correlations can lead to poor generalization at deployment, raising concerns about their use in safety-critical domains such as healthcare. In this work, we propose to use counterfactual data augmentation, guided by knowledge of the causal structure of the data, to simulate interventions on spurious features and to learn more robust text classifiers. We show that this strategy is appropriate in prediction problems where the label is spuriously correlated with an attribute. Under the assumptions of such problems, we discuss the favorable sample complexity of counterfactual data augmentation, compared to importance re-weighting. Pragmatically, we match examples using auxiliary data, based on diff-in-diff methodology, and use a large language model (LLM) to represent a conditional probability of text. Through extensive experimentation on learning caregiver-invariant predictors of clinical diagnoses from medical narratives and on semi-synthetic data, we demonstrate that our method for simulating interventions improves out-of-distribution (OOD) accuracy compared to baseline invariant learning algorithms.
翻訳日:2023-10-20 14:46:47 公開日:2023-10-19
# 集団深層学習の効果的な理論

An effective theory of collective deep learning ( http://arxiv.org/abs/2310.12802v1 )

ライセンス: Link先を確認
Llu\'is Arola-Fern\'andez and Lucas Lacasa(参考訳) 統合されたニューラルネットワークシステムにおける集団学習の出現は、物理学、機械学習、神経科学、社会に幅広い意味を持つ取り組みである。 本稿では、ニューラルネットワーク単位のパラメータにおける局所学習ダイナミクスと、アンサンブルのパラメータを均質化する単位間の拡散結合という2つの用語の競合を考慮して、最近の分散アルゴリズムを凝縮する最小モデルを提案する。 このモデルの粗い粒度の挙動を線形ネットワークの有効理論により導出し, 緩衝障害を持つギンツブルク・ランダウの変形モデルと類似性を示した。 この枠組みは、臨界点の深さ誘起遅延と顕微鏡学習経路の堅牢な形状とともに、集合学習フェーズの開始を明らかにするパラメータの解における(深さ依存の)障害秩序相転移を予測する。 プライバシー制約下でのMNISTデータセットでトレーニングした非線形ネットワークの現実的なアンサンブルにおいて,我々の理論を検証する。 興味深いことに、個々のネットワーク – プライベートデータのみでトレーニングされた – が、集合学習フェーズが出現すると、見つからないデータクラスに完全に一般化できることが、実験によって確認されている。 我々の研究は集団学習の物理を解明し,分散環境における深層学習の機械論的解釈に寄与する。

Unraveling the emergence of collective learning in systems of coupled artificial neural networks is an endeavor with broader implications for physics, machine learning, neuroscience and society. Here we introduce a minimal model that condenses several recent decentralized algorithms by considering a competition between two terms: the local learning dynamics in the parameters of each neural network unit, and a diffusive coupling among units that tends to homogenize the parameters of the ensemble. We derive the coarse-grained behavior of our model via an effective theory for linear networks that we show is analogous to a deformed Ginzburg-Landau model with quenched disorder. This framework predicts (depth-dependent) disorder-order-disorder phase transitions in the parameters' solutions that reveal the onset of a collective learning phase, along with a depth-induced delay of the critical point and a robust shape of the microscopic learning path. We validate our theory in realistic ensembles of coupled nonlinear networks trained in the MNIST dataset under privacy constraints. Interestingly, experiments confirm that individual networks -- trained only with private data -- can fully generalize to unseen data classes when the collective learning phase emerges. Our work elucidates the physics of collective learning and contributes to the mechanistic interpretability of deep learning in decentralized settings.
翻訳日:2023-10-20 14:45:59 公開日:2023-10-19
# インド法定判断予測のためのグラフニューラルネットワークの探索

Exploring Graph Neural Networks for Indian Legal Judgment Prediction ( http://arxiv.org/abs/2310.12800v1 )

ライセンス: Link先を確認
Mann Khatri, Mirza Yusuf, Yaman Kumar, Rajiv Ratn Shah and Ponnurangam Kumaraguru(参考訳) 裁判員と訴訟員の比率が司法システムに与える影響は、未解決事件の圧倒的な記録に現れ、新たな事件の流入が続いている。 この問題に対処し、司法手続きの迅速化を図るため、過去の事例から事実証拠や先例に基づいて事件結果を示唆できる自動化システムの提案が重要となる。 本研究は,法的判断予測(ljp)問題に対処するグラフニューラルネットワークモデルの開発,司法訴訟の固有グラフ構造を認識し,二元ノード分類問題とする。 モデルの特徴として様々な埋め込みを探索し、時間ノードや司法行為などのノードを追加し、モデルの性能を評価する。 この研究は、性別や名前のバイアスを考慮して、これらの予測における公平性の倫理的側面を考慮しながら行われる。 また、2つの特定ノード間の接続を予測したモデルの熟練度を評価するためのリンク予測タスクも行う。 本研究は, グラフニューラルネットワークの能力を活用し, 公正性分析を取り入れることにより, 偏見過程の合理化, 司法効率の向上, および, より公平な法的な景観の育成に資することを目的とした。 XLNetを事前学習した埋め込みを特徴とする最良の性能モデルは、マクロF1スコアをLJPタスクに75%与える。 リンク予測では、同じ機能のセットが80%以上のROCを与えるのに最適です。

The burdensome impact of a skewed judges-to-cases ratio on the judicial system manifests in an overwhelming backlog of pending cases alongside an ongoing influx of new ones. To tackle this issue and expedite the judicial process, the proposition of an automated system capable of suggesting case outcomes based on factual evidence and precedent from past cases gains significance. This research paper centres on developing a graph neural network-based model to address the Legal Judgment Prediction (LJP) problem, recognizing the intrinsic graph structure of judicial cases and making it a binary node classification problem. We explored various embeddings as model features, while nodes such as time nodes and judicial acts were added and pruned to evaluate the model's performance. The study is done while considering the ethical dimension of fairness in these predictions, considering gender and name biases. A link prediction task is also conducted to assess the model's proficiency in anticipating connections between two specified nodes. By harnessing the capabilities of graph neural networks and incorporating fairness analyses, this research aims to contribute insights towards streamlining the adjudication process, enhancing judicial efficiency, and fostering a more equitable legal landscape, ultimately alleviating the strain imposed by mounting case backlogs. Our best-performing model with XLNet pre-trained embeddings as its features gives the macro F1 score of 75% for the LJP task. For link prediction, the same set of features is the best performing giving ROC of more than 80%
翻訳日:2023-10-20 14:45:29 公開日:2023-10-19
# MolCA: クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter ( http://arxiv.org/abs/2310.12798v1 )

ライセンス: Link先を確認
Zhiyuan Liu, Sihang Li, Yanchen Luo, Hao Fei, Yixin Cao, Kenji Kawaguchi, Xiang Wang, Tat-Seng Chua(参考訳) 言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。 しかし、それらは本質的に2dグラフ知覚を欠いている - 分子のトポロジー構造を理解するための人間専門家の批判的な能力である。 このギャップを埋めるために,MolCA: クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリングを提案する。 MolCAは、LM(例えばGalactica)が、クロスモーダルプロジェクターを介してテキストおよびグラフベースの分子内容を理解することを可能にする。 具体的には、クロスモーダルプロジェクタをQ-Formerとして実装し、グラフエンコーダの表現空間とLMのテキスト空間を接続する。 さらに molca は lm の下流タスクへの効率的な適応のために uni-modal adapter (すなわち lora) を採用している。 クロスモーダルなコントラスト学習によってlmとグラフエンコーダを結合する以前の研究とは異なり、molcaはlmのオープンエンドテキスト生成能力を保ち、2dグラフ情報で拡張する。 提案手法の有効性を示すため,分子キャプション,IUPAC名予測,分子テキスト検索のタスクにおいてMomolCAを広範囲にベンチマークした。 私たちのコードとチェックポイントはhttps://github.com/acharkq/MolCA.orgで確認できます。

Language Models (LMs) have demonstrated impressive molecule understanding ability on various 1D text-related tasks. However, they inherently lack 2D graph perception - a critical ability of human professionals in comprehending molecules' topological structures. To bridge this gap, we propose MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter. MolCA enables an LM (e.g., Galactica) to understand both text- and graph-based molecular contents via the cross-modal projector. Specifically, the cross-modal projector is implemented as a Q-Former to connect a graph encoder's representation space and an LM's text space. Further, MolCA employs a uni-modal adapter (i.e., LoRA) for the LM's efficient adaptation to downstream tasks. Unlike previous studies that couple an LM with a graph encoder via cross-modal contrastive learning, MolCA retains the LM's ability of open-ended text generation and augments it with 2D graph information. To showcase its effectiveness, we extensively benchmark MolCA on tasks of molecule captioning, IUPAC name prediction, and molecule-text retrieval, on which MolCA significantly outperforms the baselines. Our codes and checkpoints can be found at https://github.com/acharkq/MolCA.
翻訳日:2023-10-20 14:45:02 公開日:2023-10-19
# 非エルゴード状態における絡み合いのエッジ:複雑性パラメータの定式化

Edge of entanglement in non-ergodic states: a complexity parameter formulation ( http://arxiv.org/abs/2310.12796v1 )

ライセンス: Link先を確認
Devanshu Shekhar and Pragya Shukla(参考訳) 複素行列の多重パラメトリックガウスアンサンブルで記述できる非エルゴード純粋状態の絡み合いエントロピーのサブシステムサイズスケーリングを分析する。 本解析は,与えられた大域的制約の組に対して,局所的複雑性の無限個の普遍性クラスの存在を,エントロピーがサブシステムサイズを持つ普遍的スケーリングを示す複雑性パラメータによって特徴づける。 複雑性パラメータの再スケーリングは、幅広い純粋な非エルゴード状態の絡み合いエントロピーのクリティカルレジームを特定するのに役立つ。

We analyze the subsystem size scaling of the entanglement entropy of a non-ergodic pure state that can be described by a multi-parametric Gaussian ensemble of complex matrices in a bipartite basis. Our analysis indicates, for a given set of global constraints, the existence of infinite number of universality classes of local complexity, characterized by the complexity parameter, for which the entanglement entropy reveals a universal scaling with subsystem size. A rescaling of the complexity parameter helps us to identify the critical regime for the entanglement entropy of a broad range of pure non-ergodic states.
翻訳日:2023-10-20 14:44:39 公開日:2023-10-19
# 構造概念はトランスフォーマー言語モデルに普遍的か? 解釈可能な言語間一般化に向けて

Are Structural Concepts Universal in Transformer Language Models? Towards Interpretable Cross-Lingual Generalization ( http://arxiv.org/abs/2310.12794v1 )

ライセンス: Link先を確認
Ningyu Xu, Qi Zhang, Jingting Ye, Menghan Zhang, Xuanjing Huang(参考訳) 大規模言語モデル(llm)は、言語間の知識を暗黙的に伝達する、言語横断的一般化能力を示している。 しかし、この転送はすべての言語、特に低リソース言語に対して等しく成功していないため、現在進行中の課題となっている。 暗黙の言語間一般化の限界に達したのか、明示的な知識伝達が可能かどうかは不明だ。 本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性を検討する。 言語構文的側面をテストベッドとして用いた43言語の解析により,エンコーダのみおよびデコーダのみのLLMに対して,言語内構造概念空間間で高い整合性を示す。 次に,メタラーニングに基づく概念空間の整合学習手法を提案し,概念分類におけるゼロショットおよび少数ショットの一般化を促進するとともに,言語間相互学習現象に関する洞察を提供する。 構文解析タスクの実験により,本手法は最先端の手法で競争的な結果を達成し,言語間の性能ギャップを狭め,特に資源の少ない者にとって有益であることが示された。

Large language models (LLMs) have exhibited considerable cross-lingual generalization abilities, whereby they implicitly transfer knowledge across languages. However, the transfer is not equally successful for all languages, especially for low-resource ones, which poses an ongoing challenge. It is unclear whether we have reached the limits of implicit cross-lingual generalization and if explicit knowledge transfer is viable. In this paper, we investigate the potential for explicitly aligning conceptual correspondence between languages to enhance cross-lingual generalization. Using the syntactic aspect of language as a testbed, our analyses of 43 languages reveal a high degree of alignability among the spaces of structural concepts within each language for both encoder-only and decoder-only LLMs. We then propose a meta-learning-based method to learn to align conceptual spaces of different languages, which facilitates zero-shot and few-shot generalization in concept classification and also offers insights into the cross-lingual in-context learning phenomenon. Experiments on syntactic analysis tasks show that our approach achieves competitive results with state-of-the-art methods and narrows the performance gap between languages, particularly benefiting those with limited resources.
翻訳日:2023-10-20 14:44:28 公開日:2023-10-19
# OODRobustBench:分布シフトによる対向ロバスト性の評価と解析

OODRobustBench: benchmarking and analyzing adversarial robustness under distribution shift ( http://arxiv.org/abs/2310.12793v1 )

ライセンス: Link先を確認
Lin Li, Yifei Wang, Chawin Sitawarin, Michael Spratling(参考訳) 既存の作業は、対向ロバスト性の改善において大きな進歩を遂げているが、一般的には、トレーニングデータと同じ分布、すなわち、内分布(id)テストからのみ、その方法をテストする。 その結果、そのようなロバスト性が、入力分布シフト(out-of-distribution(OOD)テスト)の下でどのように一般化されるかは明らかでない。 これは、メソッドが野生にデプロイされるとき、分散シフトが避けられないという問題である。 この問題に対処するために、OODRobustBenchというベンチマークを提案し、23のデータセットワイドシフト(すなわち、入力分布の自然主義シフト)と6つの脅威ワイドシフト(すなわち、予期せぬ敵脅威モデル)を用いてOOD対逆ロバスト性を評価する。 OODRobustBenchは60.7Kの敵評価を用いて706のロバストモデルを評価するために使用される。 この大規模分析は次のように示しています。 1) 敵対的堅牢性は,厳しいOOD一般化問題に悩まされる。 2)IDロバスト性はOODロバスト性に強く相関し,多くの分布シフトの下で正線形に相関する。 後者は、IDの堅牢性からOODの堅牢性を予測することができる。 これに基づいて、既存のロバストトレーニングスキームに対するOODロバストネスの上限を予測できる。 その結果,OODの堅牢性を達成するためには,従来の手法以上の新しい手法を設計する必要があることが示唆された。 最後に、余分なデータ、データ拡張、高度なモデルアーキテクチャ、そして特定の正規化アプローチがOODの堅牢性を改善することを発見した。 検出されたトレーニングスキームは、ベースラインと比較して、脅威シフトの下で大幅に高いロバスト性を示しながら、高いIDロバスト性を維持し、マルチアタックと予期せぬ攻撃の両方に対して新たなロバスト性を示す。

Existing works have made great progress in improving adversarial robustness, but typically test their method only on data from the same distribution as the training data, i.e. in-distribution (ID) testing. As a result, it is unclear how such robustness generalizes under input distribution shifts, i.e. out-of-distribution (OOD) testing. This is a concerning omission as such distribution shifts are unavoidable when methods are deployed in the wild. To address this issue we propose a benchmark named OODRobustBench to comprehensively assess OOD adversarial robustness using 23 dataset-wise shifts (i.e. naturalistic shifts in input distribution) and 6 threat-wise shifts (i.e., unforeseen adversarial threat models). OODRobustBench is used to assess 706 robust models using 60.7K adversarial evaluations. This large-scale analysis shows that: 1) adversarial robustness suffers from a severe OOD generalization issue; 2) ID robustness correlates strongly with OOD robustness, in a positive linear way, under many distribution shifts. The latter enables the prediction of OOD robustness from ID robustness. Based on this, we are able to predict the upper limit of OOD robustness for existing robust training schemes. The results suggest that achieving OOD robustness requires designing novel methods beyond the conventional ones. Last, we discover that extra data, data augmentation, advanced model architectures and particular regularization approaches can improve OOD robustness. Noticeably, the discovered training schemes, compared to the baseline, exhibit dramatically higher robustness under threat shift while keeping high ID robustness, demonstrating new promising solutions for robustness against both multi-attack and unforeseen attacks.
翻訳日:2023-10-20 14:44:04 公開日:2023-10-19
# 知識強化型言語モデル検証

Knowledge-Augmented Language Model Verification ( http://arxiv.org/abs/2310.12836v1 )

ライセンス: Link先を確認
Jinheon Baek, Soyeong Jeong, Minki Kang, Jong C. Park, Sung Ju Hwang(参考訳) 最近の言語モデル (lms) は、パラメータに内在した知識を持つテキストを生成する素晴らしい能力を示している。 しかし、LMは、その知識が不正確で不完全であり、時代遅れである可能性があるため、与えられたクエリに対する事実的に誤った応答を生成することが多い。 この問題に対処するため、従来の研究では、外部知識ソースから取得した知識を用いてLMを強化することを提案した。 しかし、このようなアプローチは2つの理由から、最適テキスト生成性能を示すことが多い。 1) モデルは,所定のクエリに関する知識の取得に失敗する可能性がある。 2) モデルは,生成されたテキストから得られた知識を忠実に反映するものではない。 そこで本研究では,これらの2種類の誤りを命令ファインタニングによって検出する訓練を施した,別個の検証器による知識付加型LMの出力と知識の検証を提案する。 そして、検証者がエラーを認識すると、新しい知識を検索するか、新しいテキストを生成することで修正できる。 さらに,検証プロセスの信頼性を高めるために,異なる命令からの出力を単一の検証器でアンサンブルする。 提案手法の有効性を複数の質問応答ベンチマークで検証し,提案手法の有効性を検証した結果,提案手法は検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。 私たちのコードはhttps://github.com/JinheonBaek/KALMV.comから入手可能です。

Recent Language Models (LMs) have shown impressive capabilities in generating texts with the knowledge internalized in parameters. Yet, LMs often generate the factually incorrect responses to the given queries, since their knowledge may be inaccurate, incomplete, and outdated. To address this problem, previous works propose to augment LMs with the knowledge retrieved from an external knowledge source. However, such approaches often show suboptimal text generation performance due to two reasons: 1) the model may fail to retrieve the knowledge relevant to the given query, or 2) the model may not faithfully reflect the retrieved knowledge in the generated text. To overcome these, we propose to verify the output and the knowledge of the knowledge-augmented LMs with a separate verifier, which is a small LM that is trained to detect those two types of errors through instruction-finetuning. Then, when the verifier recognizes an error, we can rectify it by either retrieving new knowledge or generating new text. Further, we use an ensemble of the outputs from different instructions with a single verifier to enhance the reliability of the verification processes. We validate the effectiveness of the proposed verification steps on multiple question answering benchmarks, whose results show that the proposed verifier effectively identifies retrieval and generation errors, allowing LMs to provide more factually correct outputs. Our code is available at https://github.com/JinheonBaek/KALMV.
翻訳日:2023-10-20 14:35:27 公開日:2023-10-19
# AgentTuning: LLMの汎用エージェント能力の実現

AgentTuning: Enabling Generalized Agent Abilities for LLMs ( http://arxiv.org/abs/2310.12823v1 )

ライセンス: Link先を確認
Aohan Zeng, Mingdao Liu, Rui Lu, Bowen Wang, Xiao Liu, Yuxiao Dong, Jie Tang(参考訳) 様々なタスクにおいて優れた性能を持つオープンな大規模言語モデル(LLM)は、LLMの開発を大幅に進歩させた。 しかし、ChatGPTやGPT-4のような商用モデルでは、現実世界の複雑なタスクに取り組むエージェントとして機能する。 これらのエージェントタスクは、計画、記憶、ツール利用に責任を持つ中心的なコントローラとしてLLMを使用し、良好な性能を達成するために、きめ細かいプロンプト法と堅牢なLLMの両方を必要とする。 特定のエージェントタスクを完了させるために多くのプロンプト法が提案されているが、LLM自体のエージェント能力を改善することに注力する研究は、その一般的な能力を損なうことなくなされている。 本研究では,LLMの汎用能力を維持しつつ,LLMのエージェント能力を向上させる簡易かつ汎用的な手法であるAgentTuningを提案する。 我々は,高品質な対話軌跡を含む軽量な命令チューニングデータセットであるAgentInstructを構築した。 agentinstructと一般ドメインからのオープンソースインストラクションを組み合わせることで,ハイブリッドなインストラクションチューニング戦略を採用している。 AgentTuningはLlama 2シリーズのインストラクション・チューニングに使われ、AgentLMとなった。 評価の結果,AgentTuningは汎用能力を損なうことなくLLMのエージェント機能を実現できることがわかった。 AgentLM-70B は GPT-3.5-turbo に匹敵し、汎用エージェント機能を示す。 agentinstruct と agentlm-7b,13b,70b モデルは https://github.com/thudm/agenttuning でオープンソースとして公開しています。

Open large language models (LLMs) with great performance in various tasks have significantly advanced the development of LLMs. However, they are far inferior to commercial models such as ChatGPT and GPT-4 when acting as agents to tackle complex tasks in the real world. These agent tasks employ LLMs as the central controller responsible for planning, memorization, and tool utilization, necessitating both fine-grained prompting methods and robust LLMs to achieve satisfactory performance. Though many prompting methods have been proposed to complete particular agent tasks, there is lack of research focusing on improving the agent capabilities of LLMs themselves without compromising their general abilities. In this work, we present AgentTuning, a simple and general method to enhance the agent abilities of LLMs while maintaining their general LLM capabilities. We construct AgentInstruct, a lightweight instruction-tuning dataset containing high-quality interaction trajectories. We employ a hybrid instruction-tuning strategy by combining AgentInstruct with open-source instructions from general domains. AgentTuning is used to instruction-tune the Llama 2 series, resulting in AgentLM. Our evaluations show that AgentTuning enables LLMs' agent capabilities without compromising general abilities. The AgentLM-70B is comparable to GPT-3.5-turbo on unseen agent tasks, demonstrating generalized agent capabilities. We open source the AgentInstruct and AgentLM-7B, 13B, and 70B models at https://github.com/THUDM/AgentTuning , serving open and powerful alternatives to commercial LLMs for agent tasks.
翻訳日:2023-10-20 14:35:05 公開日:2023-10-19
# 数理最適化によるスコアベース分類における集合的反事実説明の生成

Generating collective counterfactual explanations in score-based classification via mathematical optimization ( http://arxiv.org/abs/2310.12822v1 )

ライセンス: Link先を確認
Emilio Carrizosa, Jasone Ram\'irez-Ayerbe and Dolores Romero Morales(参考訳) 高利害関係の意思決定設定における機械学習モデルの利用の増加により、モデルがどのように決定に到達するかを理解するためのツールがますます重要になっている。 インスタンスの反事実的説明は、このインスタンスが、摂動したインスタンスが機械学習の分類モデルによって所望のクラスに分類されるように、このインスタンスがどのように最小限修正されるべきかを示す。 カウンターファクト・アナリティクスの文献の多くは、単一のインスタンスに対して分析を行い、1つの単一の説明を提供する、単一インスタンスの単一事実設定に焦点を当てている。 本稿では, 利害関係者の視点から, いわゆる集合的対実的説明を紹介する。 新規な数理最適化モデルを用いて,利害関係の群における各インスタンスの反事実的説明を行い,摂動の総コストをリンク制約下で最小化する。 個人に代えて対物集団を構築することにより、データセット全体にとって重要な特徴を検知し、個人を望ましいクラスに分類することが可能になる。 提案手法では,特定の事例を個別に処理し,利害関係のごく一部について集団的反事実分析を行うことができる。 これにより、外れ値が識別され、適切に処理される。 分類器と反事実を求める空間に関するいくつかの仮定の下で、集合的反事実を見つけることは、適度な大きさのデータセットに対して既存の解法を用いて最適に解くことができる凸二次線型制約付き混合整数最適化問題を解くために還元される。 本手法の性能は実世界のデータセットで示され,その有用性を示す。

Due to the increasing use of Machine Learning models in high stakes decision making settings, it has become increasingly important to have tools to understand how models arrive at decisions. Assuming a trained Supervised Classification model, explanations can be obtained via counterfactual analysis: a counterfactual explanation of an instance indicates how this instance should be minimally modified so that the perturbed instance is classified in the desired class by the Machine Learning classification model. Most of the Counterfactual Analysis literature focuses on the single-instance single-counterfactual setting, in which the analysis is done for one single instance to provide one single explanation. Taking a stakeholder's perspective, in this paper we introduce the so-called collective counterfactual explanations. By means of novel Mathematical Optimization models, we provide a counterfactual explanation for each instance in a group of interest, so that the total cost of the perturbations is minimized under some linking constraints. Making the process of constructing counterfactuals collective instead of individual enables us to detect the features that are critical to the entire dataset to have the individuals classified in the desired class. Our methodology allows for some instances to be treated individually, performing the collective counterfactual analysis for a fraction of records of the group of interest. This way, outliers are identified and handled appropriately. Under some assumptions on the classifier and the space in which counterfactuals are sought, finding collective counterfactuals is reduced to solving a convex quadratic linearly constrained mixed integer optimization problem, which, for datasets of moderate size, can be solved to optimality using existing solvers. The performance of our approach is illustrated on real-world datasets, demonstrating its usefulness.
翻訳日:2023-10-20 14:34:39 公開日:2023-10-19
# GestureGPT:大規模言語モデルエージェントによるゼロショット対話型ジェスチャー理解とグラウンド化

GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents ( http://arxiv.org/abs/2310.12821v1 )

ライセンス: Link先を確認
Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao, Yiqiang Chen(参考訳) 現在のジェスチャー認識システムは、主に事前に定義されたセット内のジェスチャーの識別に重点を置いており、これらのジェスチャーを対話的なGUI要素やシステム機能(例えば 'thumb-up' ジェスチャーを 'like' ボタンにリンクするなど)に接続する際のギャップを残している。 我々は,大規模言語モデル(llms)を活用したゼロショットジェスチャ理解と接地フレームワークであるgisgegptを紹介する。 ジェスチャ記述はジェスチャビデオのハンドランドマーク座標に基づいて定式化し,デュアルエージェント対話システムへ入力する。 ジェスチャーエージェントは、これらの記述を解読し、コンテキストエージェントが整理し提供するインタラクションコンテキスト(インターフェイス、履歴、視線データなど)に関する問い合わせを行う。 反復交換に続いて、ジェスチャーエージェントはユーザ意図を識別し、対話的な機能にグラウンドする。 ジェスチャー記述モジュールをパブリックなファーストビューとサードビューのジェスチャデータセットを使って検証し、システム全体をビデオストリーミングとスマートホームiotコントロールという2つの現実の設定でテストした。 最高のゼロショットトップ5は、ビデオストリーミングの80.11%、スマートホームタスクの90.78%であり、新しいジェスチャー理解パラダイムの可能性を示している。

Current gesture recognition systems primarily focus on identifying gestures within a predefined set, leaving a gap in connecting these gestures to interactive GUI elements or system functions (e.g., linking a 'thumb-up' gesture to a 'like' button). We introduce GestureGPT, a novel zero-shot gesture understanding and grounding framework leveraging large language models (LLMs). Gesture descriptions are formulated based on hand landmark coordinates from gesture videos and fed into our dual-agent dialogue system. A gesture agent deciphers these descriptions and queries about the interaction context (e.g., interface, history, gaze data), which a context agent organizes and provides. Following iterative exchanges, the gesture agent discerns user intent, grounding it to an interactive function. We validated the gesture description module using public first-view and third-view gesture datasets and tested the whole system in two real-world settings: video streaming and smart home IoT control. The highest zero-shot Top-5 grounding accuracies are 80.11% for video streaming and 90.78% for smart home tasks, showing potential of the new gesture understanding paradigm.
翻訳日:2023-10-20 14:34:13 公開日:2023-10-19
# 完全性保証による効率的な計画のハイブリッド探索

Hybrid Search for Efficient Planning with Completeness Guarantees ( http://arxiv.org/abs/2310.12819v1 )

ライセンス: Link先を確認
Kalle Kujanp\"a\"a, Joni Pajarinen, Alexander Ilin(参考訳) 複雑な計画問題の解決は、コンピュータ科学における長年の課題である。 学習に基づく下位探索手法は、これらの問題に取り組むことには期待が持たれているが、それらはしばしば完全性保証の欠如に苦しめられている。 本稿では,離散的な行動空間における完全性を実現するために,部分ゴール探索法を効果的に拡張する手法を提案する。 具体的には、マルチレベル(ハイブリッド)検索を実行するために、低レベル動作による高レベル検索を増強する。 このソリューションは、高レベル検索の実用的効率と低レベル検索の完全性という、両方の世界のベストを達成する。 提案手法を最近提案したサブゴール探索アルゴリズムに適用し,複雑な計画問題に対するオフラインデータに基づく学習アルゴリズムの評価を行った。 完全なサブゴア検索は完全性を保証するだけでなく、低レベルの拡張なしに高レベルが解決できるインスタンスの検索拡張の観点からもパフォーマンスを向上させることができることを実証する。 当社のアプローチでは,完全性が必須要件であるシステムに対して,サブゴールレベルの計画を適用することができる。

Solving complex planning problems has been a long-standing challenge in computer science. Learning-based subgoal search methods have shown promise in tackling these problems, but they often suffer from a lack of completeness guarantees, meaning that they may fail to find a solution even if one exists. In this paper, we propose an efficient approach to augment a subgoal search method to achieve completeness in discrete action spaces. Specifically, we augment the high-level search with low-level actions to execute a multi-level (hybrid) search, which we call complete subgoal search. This solution achieves the best of both worlds: the practical efficiency of high-level search and the completeness of low-level search. We apply the proposed search method to a recently proposed subgoal search algorithm and evaluate the algorithm trained on offline data on complex planning problems. We demonstrate that our complete subgoal search not only guarantees completeness but can even improve performance in terms of search expansions for instances that the high-level could solve without low-level augmentations. Our approach makes it possible to apply subgoal-level planning for systems where completeness is a critical requirement.
翻訳日:2023-10-20 14:33:50 公開日:2023-10-19
# 推論効率の向上:パラメータ共有事前学習言語モデルのパワーを解き放つ

Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models ( http://arxiv.org/abs/2310.12818v1 )

ライセンス: Link先を確認
Weize Chen, Xiaoyue Xu, Xu Han, Yankai Lin, Ruobing Xie, Zhiyuan Liu, Maosong Sun, Jie Zhou(参考訳) パラメータ共有事前学習言語モデル(PLM)は、資源制約のある環境で成功し、大幅な性能の妥協なしにモデルストレージとメモリコストを大幅に削減できる。 しかし,パラメータ共有は推論に伴う計算負担を軽減するものではなく,限られた待ち時間要件や計算資源によって特徴づけられる状況において,その実用性が阻害されることに注意する必要がある。 ニューラル常微分方程式(ODE)に基づいて,パラメータ共有PLMの推論効率を高めるための簡単な手法を導入する。 さらに、より大きな推論加速を達成することができる完全あるいは部分的に共有されたモデルに導く、簡単な事前学習手法を提案する。 実験により,提案手法が自己回帰的かつ自己エンコード的PLMに対して有効であることを示し,資源制約設定におけるパラメータ共有モデルのより効率的な利用に関する新たな知見を提供する。

Parameter-shared pre-trained language models (PLMs) have emerged as a successful approach in resource-constrained environments, enabling substantial reductions in model storage and memory costs without significant performance compromise. However, it is important to note that parameter sharing does not alleviate computational burdens associated with inference, thus impeding its practicality in situations characterized by limited stringent latency requirements or computational resources. Building upon neural ordinary differential equations (ODEs), we introduce a straightforward technique to enhance the inference efficiency of parameter-shared PLMs. Additionally, we propose a simple pre-training technique that leads to fully or partially shared models capable of achieving even greater inference acceleration. The experimental results demonstrate the effectiveness of our methods on both autoregressive and autoencoding PLMs, providing novel insights into more efficient utilization of parameter-shared models in resource-constrained settings.
翻訳日:2023-10-20 14:33:32 公開日:2023-10-19
# Scene-Level Supervision を用いた点雲分割用2D-3Dインターレーストランス

2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision ( http://arxiv.org/abs/2310.12817v1 )

ライセンス: Link先を確認
Cheng-Kun Yang, Min-Hung Chen, Yung-Yu Chuang, Yen-Yu Lin(参考訳) 弱制御点雲分割のための2次元データと3次元データを共同で検討するマルチモーダルインターレース変換器(MIT)を提案する。 研究によると、2Dと3Dの機能は点雲のセグメンテーションに相補的である。 しかし既存の手法では2D-3D情報融合を実現するために追加の2Dアノテーションが必要である。 点雲のアノテーションコストが高いことを考えると、弱い教師付き学習に基づく効果的な2次元および3次元特徴融合が要求される。 そこで本研究では,シーンレベルのクラスタグのみを用いた2つのエンコーダと1つのデコーダを用いたトランスフォーマモデルを提案する。 具体的には、2つのエンコーダはそれぞれ3dポイントクラウドと2dマルチビューイメージのセルフアタッチ特徴を計算する。 デコーダは、インターレースされた2D-3Dクロスアテンションを実装し、暗黙の2Dおよび3D特徴融合を実行する。 デコーダ層におけるクエリとキー-値ペアの役割を交互に切り替える。 2Dと3Dの機能は互いに反復的に豊かになっていることが判明した。 実験の結果、S3DISとScanNetのベンチマークにおいて、既存の弱制御ポイントクラウドセグメンテーション手法に対して、大きなマージンで好適に動作することが示された。 プロジェクトページはhttps://jimmy15923.github.io/mit_web/で入手できる。

We present a Multimodal Interlaced Transformer (MIT) that jointly considers 2D and 3D data for weakly supervised point cloud segmentation. Research studies have shown that 2D and 3D features are complementary for point cloud segmentation. However, existing methods require extra 2D annotations to achieve 2D-3D information fusion. Considering the high annotation cost of point clouds, effective 2D and 3D feature fusion based on weakly supervised learning is in great demand. To this end, we propose a transformer model with two encoders and one decoder for weakly supervised point cloud segmentation using only scene-level class tags. Specifically, the two encoders compute the self-attended features for 3D point clouds and 2D multi-view images, respectively. The decoder implements interlaced 2D-3D cross-attention and carries out implicit 2D and 3D feature fusion. We alternately switch the roles of queries and key-value pairs in the decoder layers. It turns out that the 2D and 3D features are iteratively enriched by each other. Experiments show that it performs favorably against existing weakly supervised point cloud segmentation methods by a large margin on the S3DIS and ScanNet benchmarks. The project page will be available at https://jimmy15923.github.io/mit_web/.
翻訳日:2023-10-20 14:33:16 公開日:2023-10-19
# LLM応用におけるプロンプトインジェクション攻撃と防御

Prompt Injection Attacks and Defenses in LLM-Integrated Applications ( http://arxiv.org/abs/2310.12815v1 )

ライセンス: Link先を確認
Yupei Liu, Yuqi Jia, Runpeng Geng, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) 大規模言語モデル(LLM)は、LLM-Integrated Applicationsと呼ばれる様々な現実世界のアプリケーションのバックエンドとして、ますます多くデプロイされている。 llmが組み込んだアプリケーションは、攻撃者がアプリケーション入力に悪意のある命令/データを注入し、攻撃者が欲しがる結果を生み出すという、プロンプトインジェクション攻撃に対して脆弱である。 ただし、現存する作品はケーススタディに限られている。 その結果、文献は即発注射攻撃とその防御についての体系的な理解を欠いている。 私たちはこの仕事のギャップを埋めることを目指している。 特に,プロンプトインジェクション攻撃を形式化する汎用フレームワークを提案する。 研究論文やブログ投稿で論じられている既存の攻撃は、我々のフレームワークで特別なケースである。 我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。 また,迅速なインジェクション攻撃に対する防御を体系化する枠組みも提案する。 当社のフレームワークを用いて,10のllmと7つのタスクを用いて,迅速なインジェクション攻撃とその防御に関する体系的な評価を行う。 私たちのフレームワークがこの分野で将来の研究を刺激できることを期待しています。 私たちのコードはhttps://github.com/liu00222/open-prompt-injectionで利用可能です。

Large Language Models (LLMs) are increasingly deployed as the backend for a variety of real-world applications called LLM-Integrated Applications. Multiple recent works showed that LLM-Integrated Applications are vulnerable to prompt injection attacks, in which an attacker injects malicious instruction/data into the input of those applications such that they produce results as the attacker desires. However, existing works are limited to case studies. As a result, the literature lacks a systematic understanding of prompt injection attacks and their defenses. We aim to bridge the gap in this work. In particular, we propose a general framework to formalize prompt injection attacks. Existing attacks, which are discussed in research papers and blog posts, are special cases in our framework. Our framework enables us to design a new attack by combining existing attacks. Moreover, we also propose a framework to systematize defenses against prompt injection attacks. Using our frameworks, we conduct a systematic evaluation on prompt injection attacks and their defenses with 10 LLMs and 7 tasks. We hope our frameworks can inspire future research in this field. Our code is available at https://github.com/liu00222/Open-Prompt-Injection.
翻訳日:2023-10-20 14:32:56 公開日:2023-10-19
# 大規模階層予測

Hierarchical Forecasting at Scale ( http://arxiv.org/abs/2310.12809v1 )

ライセンス: Link先を確認
Olivier Sprangers, Wander Wadman, Sebastian Schelter, Maarten de Rijke(参考訳) 既存の階層予測技術は、時系列の数が増加するとスケールが低下する。 階層的製品および/または時間的構造を直接最適化するスパース損失関数を用いて,単一のボトムレベル予測モデルを用いて,数百万の時系列のコヒーレント予測を学習する。 スパース階層的損失関数の利点は、実践者が選択した横断的階層や時間的階層に一貫性のあるボトムレベル予測を生成する方法を提供することである。 さらに,従来の階層予測技術で必要とされる処理後ステップの不要化により,予測パイプラインの予測フェーズの計算コストが低減される。 一般のM5データセットでは,我々のスパース階層的損失関数は,ベースライン損失関数よりも10%(RMSE)高い性能を示した。 欧州の大規模なeコマースプラットフォームであるbolでは,既存の予測モデルに疎い階層的損失関数を実装することで,製品レベルでの予測性能が2%向上しました。 最後に, 断面階層間の予測性能を評価する際に, 予測性能が約5~10%向上することを発見した。 これらの結果は,大手電子商取引プラットフォームにおける生産予測システムに適用したスパース階層的損失の有用性を示すものである。

Existing hierarchical forecasting techniques scale poorly when the number of time series increases. We propose to learn a coherent forecast for millions of time series with a single bottom-level forecast model by using a sparse loss function that directly optimizes the hierarchical product and/or temporal structure. The benefit of our sparse hierarchical loss function is that it provides practitioners a method of producing bottom-level forecasts that are coherent to any chosen cross-sectional or temporal hierarchy. In addition, removing the need for a post-processing step as required in traditional hierarchical forecasting techniques reduces the computational cost of the prediction phase in the forecasting pipeline. On the public M5 dataset, our sparse hierarchical loss function performs up to 10% (RMSE) better compared to the baseline loss function. We implement our sparse hierarchical loss function within an existing forecasting model at bol, a large European e-commerce platform, resulting in an improved forecasting performance of 2% at the product level. Finally, we found an increase in forecasting performance of about 5-10% when evaluating the forecasting performance across the cross-sectional hierarchies that we defined. These results demonstrate the usefulness of our sparse hierarchical loss applied to a production forecasting system at a major e-commerce platform.
翻訳日:2023-10-20 14:32:39 公開日:2023-10-19
# 不確実性に基づく勾配マッチングによるモデルマージ

Model Merging by Uncertainty-Based Gradient Matching ( http://arxiv.org/abs/2310.12808v1 )

ライセンス: Link先を確認
Nico Daheim, Thomas M\"ollenhoff, Edoardo Maria Ponti, Iryna Gurevych, Mohammad Emtiyaz Khan(参考訳) 異なるデータセットでトレーニングされたモデルは、パラメータの重み付け平均によってマージされるが、なぜそれが機能し、いつ失敗するのか? 本稿では,重み付き平均値の不正確さと勾配の不一致を結びつけ,不確かさを低減して性能を向上させるための新しい不確実性に基づく手法を提案する。 この接続はまた、平均化、タスク演算、フィッシャー重み付け平均化といった他のスキームにおける暗黙の仮定も示している。 我々の新しい手法は、ハイパーパラメータの性能と堅牢性の両方の観点から、大きな言語モデルと視覚変換器に一貫した改善をもたらす。

Models trained on different datasets can be merged by a weighted-averaging of their parameters, but why does it work and when can it fail? Here, we connect the inaccuracy of weighted-averaging to mismatches in the gradients and propose a new uncertainty-based scheme to improve the performance by reducing the mismatch. The connection also reveals implicit assumptions in other schemes such as averaging, task arithmetic, and Fisher-weighted averaging. Our new method gives consistent improvements for large language models and vision transformers, both in terms of performance and robustness to hyperparameters.
翻訳日:2023-10-20 14:32:22 公開日:2023-10-19
# ロボットタスクの推論手法としての微調整生成モデル

Fine-Tuning Generative Models as an Inference Method for Robotic Tasks ( http://arxiv.org/abs/2310.12862v1 )

ライセンス: Link先を確認
Orr Krupnik, Elisei Shafer, Tom Jurgenson, Aviv Tamar(参考訳) 適応可能なモデルは、現実世界で活動するロボットエージェントに多大な利益をもたらし、新しい様々な状況に対処することができる。 ベイズ推論のようなアプローチは、モデルを証拠に適応させるためのよく研究されたフレームワークであるが、ロボット工学の多くの分野に大きな影響を与えている深層生成モデルにおける最近の進歩に基づいている。 最新のGPUアクセラレーションを生かして、ロボットタスクにおける観察にニューラルネットワークモデルのサンプル生成を迅速に適応する方法を検討する。 本稿では,様々な深層生成モデルやロボット環境に適用可能な簡便で汎用的な手法を提案する。 鍵となるアイデアは、クロスエントロピー法を用いて、観測された証拠に合致するサンプルにそれを適合させることで、モデルを素早く微調整することである。 本手法は自己回帰モデルと変分オートエンコーダの両方に適用可能であり,把持,逆キネマティックス計算,ポイントクラウド補完による物体形状推定における有用性を示す。

Adaptable models could greatly benefit robotic agents operating in the real world, allowing them to deal with novel and varying conditions. While approaches such as Bayesian inference are well-studied frameworks for adapting models to evidence, we build on recent advances in deep generative models which have greatly affected many areas of robotics. Harnessing modern GPU acceleration, we investigate how to quickly adapt the sample generation of neural network models to observations in robotic tasks. We propose a simple and general method that is applicable to various deep generative models and robotic environments. The key idea is to quickly fine-tune the model by fitting it to generated samples matching the observed evidence, using the cross-entropy method. We show that our method can be applied to both autoregressive models and variational autoencoders, and demonstrate its usability in object shape inference from grasping, inverse kinematics calculation, and point cloud completion.
翻訳日:2023-10-20 14:25:59 公開日:2023-10-19
# ヘイトスピーチ検出のためのllmの探索:強みと脆弱性

Probing LLMs for hate speech detection: strengths and vulnerabilities ( http://arxiv.org/abs/2310.12860v1 )

ライセンス: Link先を確認
Sarthak Roy, Ashish Harshavardhan, Animesh Mukherjee and Punyajoy Saha(参考訳) 近年,ソーシャルメディアや研究者が,大規模な言語モデルを用いて憎悪や有害な言語を検出する取り組みを行っている。 しかし、これらの研究は、検出プロセスで説明、追加の文脈、被害者のコミュニティ情報を使うことを意図していない。 我々は、異なるプロンプト変動、入力情報を活用し、大きな言語モデルをゼロショット設定で評価する(文脈内サンプルを追加せずに)。 我々は3つの大きな言語モデル(GPT-3.5、text-davinci、Flan-T5)と3つのデータセットHateXplain、暗黙の憎しみ、ToxicSpansを選択します。 パイプラインのターゲット情報を含む平均すると、データセット全体のベースライン上でのモデルパフォーマンスが大幅に向上する(約20~30%)。 また、データセットをまたいだベースライン上でパイプライン(約10~20%)に合理性/説明を加えるという、かなりの効果があります。 さらに,このような大規模言語モデルに失敗するエラー事例の類型化についても述べる。 (i)分類・分類 (ii)決定の理由を説明する。 このような脆弱な点は、これらのモデルの'jailbreak'プロンプトを自動で構成し、そのようなプロンプトに対してモデルを堅牢にするためには、業界規模のセーフガード技術を開発する必要がある。

Recently efforts have been made by social media platforms as well as researchers to detect hateful or toxic language using large language models. However, none of these works aim to use explanation, additional context and victim community information in the detection process. We utilise different prompt variation, input information and evaluate large language models in zero shot setting (without adding any in-context examples). We select three large language models (GPT-3.5, text-davinci and Flan-T5) and three datasets - HateXplain, implicit hate and ToxicSpans. We find that on average including the target information in the pipeline improves the model performance substantially (~20-30%) over the baseline across the datasets. There is also a considerable effect of adding the rationales/explanations into the pipeline (~10-20%) over the baseline across the datasets. In addition, we further provide a typology of the error cases where these large language models fail to (i) classify and (ii) explain the reason for the decisions they take. Such vulnerable points automatically constitute 'jailbreak' prompts for these models and industry scale safeguard techniques need to be developed to make the models robust against such prompts.
翻訳日:2023-10-20 14:25:41 公開日:2023-10-19
# 非リジッドテキストプロンプトによる音声編集

Audio Editing with Non-Rigid Text Prompts ( http://arxiv.org/abs/2310.12858v1 )

ライセンス: Link先を確認
Francesco Paissan, Zhepei Wang, Mirco Ravanelli, Paris Smaragdis, Cem Subakan(参考訳) 本稿では,非リジッドテキスト編集による音声編集について検討する。 提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。 追加,スタイル転送,インペインティングを行うテキストプロンプトについて検討する。 最近リリースされた音声生成モデルであるAudio-LDMより優れた結果が得られることを定量的に定性的に示す。 結果の質的検証により,本手法による編集は,音声イベントの開始とオフセットを維持する点において,入力音声に対してより忠実であることが示唆された。

In this paper, we explore audio-editing with non-rigid text edits. We show that the proposed editing pipeline is able to create audio edits that remain faithful to the input audio. We explore text prompts that perform addition, style transfer, and in-painting. We quantitatively and qualitatively show that the edits are able to obtain results which outperform Audio-LDM, a recently released text-prompted audio generation model. Qualitative inspection of the results points out that the edits given by our approach remain more faithful to the input audio in terms of keeping the original onsets and offsets of the audio events.
翻訳日:2023-10-20 14:25:21 公開日:2023-10-19
# 冗長文字列対称性に基づく誤差補正:量子デバイス実験

Redundant String Symmetry-Based Error Correction: Experiments on Quantum Devices ( http://arxiv.org/abs/2310.12854v1 )

ライセンス: Link先を確認
Zhangjie Qin, Daniel Azses, Eran Sela, Robert Raussendorf, V. W. Scarola(参考訳) 測定ベース量子コンピューティング(MBQC)における計算力は、絡み合った資源状態の対称性保護トポロジカル(SPT)秩序に由来する。 しかし、資源状態は準備エラーを起こしやすい。 資源状態の冗長な非局所対称性を用いた量子エラー補正(QEC)手法を提案する。 1次元クラスタ状態の$\mathbb{Z}_2 \times \mathbb{Z}_2$対称性を他のグラフ状態に拡張したテレポーテーションプロトコル内でこれを実証する。 量子デバイスで顕著なQubit ZZ-crosstalkエラーは、通常のクラスタ状態のテレポーテーション忠実度を低下させる。 しかし、実験で示すように、冗長な対称性を持つグラフ状態が成長すると、完全テレポーテーション忠実度が回復する。 本研究は,アンタングルメントスペクトルにおける誤り保護デジネシスとして,下位の冗長SPT順序を同定する。

Computational power in measurement-based quantum computing (MBQC) stems from symmetry protected topological (SPT) order of the entangled resource state. But resource states are prone to preparation errors. We introduce a quantum error correction (QEC) approach using redundant non-local symmetry of the resource state. We demonstrate it within a teleportation protocol based on extending the $\mathbb{Z}_2 \times \mathbb{Z}_2$ symmetry of one-dimensional cluster states to other graph states. Qubit ZZ-crosstalk errors, which are prominent in quantum devices, degrade the teleportation fidelity of the usual cluster state. However, as we demonstrate experimentally, once we grow graph states with redundant symmetry, perfect teleportation fidelity is restored. We identify the underlying redundant-SPT order as error-protected degeneracies in the entanglement spectrum.
翻訳日:2023-10-20 14:25:12 公開日:2023-10-19
# D-Waveシステムにおける最接近弦問題に対する量子アニーリング解

Quantum Annealing Solutions for the Closest String Problem with D-Wave Systems ( http://arxiv.org/abs/2310.12852v1 )

ライセンス: Link先を確認
Chandeepa Dissanayake(参考訳) 最も近い文字列問題はnp完全問題であり、バイオインフォマティクスやコーディング理論でより一般的に見られる。 意外なことに、古典的なアプローチは遺伝的アルゴリズムとシミュレートアニーリングという2つの顕著なアルゴリズムによって追求されている。 DWaveシステムのような最適化タスクを専門化する量子コンピューティングデバイスの最新改良は、そのようなシステムで受け入れられるモデルに問題を埋め込もうとする試みには価値があることを示唆している。 この研究では、2つのqubo定式化が提案されており、一方は他方に対してわずかに修正されている。 その後, いずれの定式化においても, 簡易な試験事例に基づく評価が実施されている。 この点において、D-Waveアニーラーは、特定のプラットフォーム固有の懸念に対して最適なガイドラインを提供しながら使われてきた。 評価のために、Occurrence Ratio (OR) と呼ばれる計量が定義された。 最小のハイパーパラメータチューニングでは、すべてのテストケースで期待される解が得られ、最適性が保証された。 実用および実装上の問題に対処するため、制限量子ビット数に対応するために、サブストリングを持つ可能性に基づく固有の分解戦略が解明された。 結論として、ハイパーパラメータのチューニングに関するさらなる調査の必要性が強調される。

The Closest String Problem is an NP-complete problem which appears more commonly in bioinformatics and coding theory. Less surprisingly, classical approaches have been pursued with two prominent algorithms being the genetic algorithm and simulated annealing. Latest improvements to quantum computing devices with a specialization in optimization tasks such as DWave systems, suggest that an attempt to embed the problem in a model accepted by such systems is worthwhile. In this work, two QUBO formulations have been proposed, with one being a slight modification over the other. Subsequently, an evaluation based on a few simple test cases had been carried out on both formulations. In this regard, the D-Wave annealers have been used, while providing guidelines for optimality on certain platform-specific concerns. For evaluation purposes, a metric termed Occurrence Ratio (OR) has been defined. With minimal hyperparameter tuning, the expected solutions were obtained for every test case and the optimality was guaranteed. To address practical and implementation issues, an inherent decomposition strategy based on the possibility of having substrings has been elucidated to accommodate the restricted qubit count. Conclusively, the need for further investigation on tuning the hyperparameters is emphasized.
翻訳日:2023-10-20 14:24:58 公開日:2023-10-19
# EmoDiarize:畳み込みニューラルネットワークを用いた音声信号からの話者ダイアリゼーションと感情同定

EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks ( http://arxiv.org/abs/2310.12851v1 )

ライセンス: Link先を確認
Hanan Hamza, Fiza Gafoor, Fathima Sithara, Gayathri Anil, V. S. Anoop(参考訳) 高度な人工知能と人間とコンピュータの相互作用の時代には、音声言語における感情の識別が最重要である。 本研究は,話者ダイアリゼーションと感情識別に関わる課題に対する包括的解決策として,ディープラーニング手法の音声感情認識への統合について検討する。 既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせて、より高い精度を実現するフレームワークを導入する。 提案モデルは5つの音声感情データセット(raves, crema-d, savee, tess, movie clips)から得られたデータに基づいて学習され,本研究用に特別に作成された音声感情データセットである。 それぞれのサンプルから抽出された特徴としては、Mel Frequency Cepstral Coefficients (MFCC)、Zero Crossing Rate (ZCR)、Root Mean Square (RMS)、ピッチ、ノイズ、ストレッチ、シフトといったさまざまなデータ拡張アルゴリズムがある。 この特徴抽出手法は計算複雑性を低減しつつ予測精度を向上させることを目的としている。 提案モデルは63%の重み付け精度を示し,音声信号中の感情状態を正確に識別する上で有意な効率を示した。

In the era of advanced artificial intelligence and human-computer interaction, identifying emotions in spoken language is paramount. This research explores the integration of deep learning techniques in speech emotion recognition, offering a comprehensive solution to the challenges associated with speaker diarization and emotion identification. It introduces a framework that combines a pre-existing speaker diarization pipeline and an emotion identification model built on a Convolutional Neural Network (CNN) to achieve higher precision. The proposed model was trained on data from five speech emotion datasets, namely, RAVDESS, CREMA-D, SAVEE, TESS, and Movie Clips, out of which the latter is a speech emotion dataset created specifically for this research. The features extracted from each sample include Mel Frequency Cepstral Coefficients (MFCC), Zero Crossing Rate (ZCR), Root Mean Square (RMS), and various data augmentation algorithms like pitch, noise, stretch, and shift. This feature extraction approach aims to enhance prediction accuracy while reducing computational complexity. The proposed model yields an unweighted accuracy of 63%, demonstrating remarkable efficiency in accurately identifying emotional states within speech signals.
翻訳日:2023-10-20 14:24:41 公開日:2023-10-19
# all-in-one画像復元のための神経劣化表現学習

Neural Degradation Representation Learning for All-In-One Image Restoration ( http://arxiv.org/abs/2310.12848v1 )

ライセンス: Link先を確認
Mingde Yao, Ruikang Xu, Yuanshen Guan, Jie Huang, Zhiwei Xiong(参考訳) 既存手法は, 単一劣化型に対して有効性能を示した。 しかし、実際のアプリケーションでは、劣化はしばしば不明であり、モデルと劣化のミスマッチは深刻なパフォーマンス低下をもたらす。 本稿では,複数の劣化に対処するオールインワン画像復元ネットワークを提案する。 異なる種類の劣化の異種性のため、単一のネットワークで複数の劣化を処理することは困難である。 そこで本研究では, 様々な劣化の基盤となる特徴を捉えるニューラル劣化表現(NDR)を学習することを提案する。 学習されたNDRは、基本的な分解成分を表すニューラルネットワークと同様、異なるタイプの分解を適応的に分解する。 その後,NDRに基づく特定の劣化を効果的に認識し,活用するための劣化クエリモジュールと劣化インジェクションモジュールを開発し,複数の劣化に対してオールインワン復元機能を実現する。 さらに, 劣化・修復過程を交互に最適化することにより, ndrを効果的に劣化表現を学習させる双方向最適化戦略を提案する。 騒音, ヘイズ, 雨, ダウンサンプリングなどの代表的な劣化特性に関する総合的な実験は, 本手法の有効性と一般化能力を示している。

Existing methods have demonstrated effective performance on a single degradation type. In practical applications, however, the degradation is often unknown, and the mismatch between the model and the degradation will result in a severe performance drop. In this paper, we propose an all-in-one image restoration network that tackles multiple degradations. Due to the heterogeneous nature of different types of degradations, it is difficult to process multiple degradations in a single network. To this end, we propose to learn a neural degradation representation (NDR) that captures the underlying characteristics of various degradations. The learned NDR decomposes different types of degradations adaptively, similar to a neural dictionary that represents basic degradation components. Subsequently, we develop a degradation query module and a degradation injection module to effectively recognize and utilize the specific degradation based on NDR, enabling the all-in-one restoration ability for multiple degradations. Moreover, we propose a bidirectional optimization strategy to effectively drive NDR to learn the degradation representation by optimizing the degradation and restoration processes alternately. Comprehensive experiments on representative types of degradations (including noise, haze, rain, and downsampling) demonstrate the effectiveness and generalization capability of our method.
翻訳日:2023-10-20 14:24:17 公開日:2023-10-19
# ラダウ法に基づく高指数微分代数方程式系の物理情報ニューラルネットワーク

Physical Information Neural Networks for Solving High-index Differential-algebraic Equation Systems Based on Radau Methods ( http://arxiv.org/abs/2310.12846v1 )

ライセンス: Link先を確認
Jiasheng Chen and Juan Tang and Ming Yan and Shuai Lai and Kun Liang and Jianguang Lu and Wenqiang Yang(参考訳) 良く知られたように、動的変化や基礎となる制約を記述できる微分代数方程式(DAE)は、流体力学、多体力学、機械システム、制御理論などの工学分野に広く応用されている。 これらの領域内の実際の物理モデリングでは、システムはしばしば高指数DAEを生成する。 古典的暗黙的数値解法は通常、高指数方程式の解法における数値精度の順序が変化する。 近年,物理インフォームドニューラルネットワーク (PINN) がDAEシステムの解決に注目を集めている。 しかし、高インデックスシステムを直接解決できないこと、予測精度の低下、一般化能力の低下といった課題に直面している。 本稿では,高インデックスのdaesを直接解くために,注意機構を介して,ラダウiia数値解法とニューラルネットワーク構造を組み合わせたpinn計算フレームワークを提案する。 さらに, 解の精度を高めるために, 領域分解戦略を用いる。 従来の2つの高指数系を例示として数値実験を行い,rada iia法がニューラルネットワークの解の精度に与える影響について検討した。 実験結果から, 5階ラダウIIA法に基づくPINNは, システム精度が最も高いことを示す。 具体的には、すべての微分変数の絶対誤差は 10^{-6}$ であり、代数変数の絶対誤差は 10^{-5}$ で維持され、既存の文献で得られた結果を超える。 そこで本手法は,高い指数を持つ大規模daesの高精度解法や,高次元偏微分方程式系への挑戦に対して,高い計算精度と強い一般化能力を示す。

As is well known, differential algebraic equations (DAEs), which are able to describe dynamic changes and underlying constraints, have been widely applied in engineering fields such as fluid dynamics, multi-body dynamics, mechanical systems and control theory. In practical physical modeling within these domains, the systems often generate high-index DAEs. Classical implicit numerical methods typically result in varying order reduction of numerical accuracy when solving high-index systems.~Recently, the physics-informed neural network (PINN) has gained attention for solving DAE systems. However, it faces challenges like the inability to directly solve high-index systems, lower predictive accuracy, and weaker generalization capabilities. In this paper, we propose a PINN computational framework, combined Radau IIA numerical method with a neural network structure via the attention mechanisms, to directly solve high-index DAEs. Furthermore, we employ a domain decomposition strategy to enhance solution accuracy. We conduct numerical experiments with two classical high-index systems as illustrative examples, investigating how different orders of the Radau IIA method affect the accuracy of neural network solutions. The experimental results demonstrate that the PINN based on a 5th-order Radau IIA method achieves the highest level of system accuracy. Specifically, the absolute errors for all differential variables remains as low as $10^{-6}$, and the absolute errors for algebraic variables is maintained at $10^{-5}$, surpassing the results found in existing literature. Therefore, our method exhibits excellent computational accuracy and strong generalization capabilities, providing a feasible approach for the high-precision solution of larger-scale DAEs with higher indices or challenging high-dimensional partial differential algebraic equation systems.
翻訳日:2023-10-20 14:23:59 公開日:2023-10-19
# 予測不確実性に対するモデル依存変数の重要性--エントロピーに基づくアプローチ

Model-agnostic variable importance for predictive uncertainty: an entropy-based approach ( http://arxiv.org/abs/2310.12842v1 )

ライセンス: Link先を確認
Danny Wood and Theodore Papamarkou and Matt Benatan and Richard Allmendinger(参考訳) 機械学習アルゴリズムの予測を信頼するには,これらの予測に寄与する要因を理解する必要がある。 確率的・不確実性を考慮したモデルの場合、予測自体の理由だけでなく、予測に対するモデルの信頼度も理解する必要がある。 本稿では,既存手法を不確実性認識モデルに拡張し,その拡張をモデル予測分布における不確実性源の理解に利用する方法について述べる。 特に、置換特徴量の重要性、部分依存プロット、個別条件予測プロットを適応させることにより、モデル行動に対する新たな洞察が得られ、これらの手法が、その分布の下での予測分布のエントロピーと基底真理ラベルの対数類似度の両方に対する特徴の影響を測定することができることを示す。 合成データと実世界のデータの両方を用いて実験を行い、不確実性の原因とモデル性能への影響の両方を理解する上で、これらのアプローチの有用性を実証する。

In order to trust the predictions of a machine learning algorithm, it is necessary to understand the factors that contribute to those predictions. In the case of probabilistic and uncertainty-aware models, it is necessary to understand not only the reasons for the predictions themselves, but also the model's level of confidence in those predictions. In this paper, we show how existing methods in explainability can be extended to uncertainty-aware models and how such extensions can be used to understand the sources of uncertainty in a model's predictive distribution. In particular, by adapting permutation feature importance, partial dependence plots, and individual conditional expectation plots, we demonstrate that novel insights into model behaviour may be obtained and that these methods can be used to measure the impact of features on both the entropy of the predictive distribution and the log-likelihood of the ground truth labels under that distribution. With experiments using both synthetic and real-world data, we demonstrate the utility of these approaches in understanding both the sources of uncertainty and their impact on model performance.
翻訳日:2023-10-20 14:23:33 公開日:2023-10-19
# 敵対的自己テストの不可能性と安全なサンプリング

Impossibility of adversarial self-testing and secure sampling ( http://arxiv.org/abs/2310.12838v1 )

ライセンス: Link先を確認
Akshay Bansal, Atul Singh Arora, Thomas Van Himbeeck and Jamie Sikora(参考訳) 自己検査とは、空間的に分離されたアリスとボブが古典的な方法で相互作用することで、信頼できない量子デバイスの内部動作を推論するタスクである。 我々は,Alice と Bob が相互に信頼していない課題について検討する。 これは、信頼できないアリスとボブが、正直な当事者の限界が偏っていないことを保証して、共同確率分布からサンプルを採取したいというタスクである。 二次元量子暗号における可視性の拡張により、これらのタスクがいずれも簡単な設定では不可能であることを示す。

Self-testing is the task where spatially separated Alice and Bob cooperate to deduce the inner workings of untrusted quantum devices by interacting with them in a classical manner. We examine the task above where Alice and Bob do not trust each other which we call adversarial self-testing. We show that adversarial self-testing implies secure sampling -- a task that we introduce where mistrustful Alice and Bob wish to sample from a joint probability distribution with the guarantee that an honest party's marginal is not biased. By extending impossibility results in two-party quantum cryptography, we give a simple proof that both of these tasks are impossible in all but trivial settings.
翻訳日:2023-10-20 14:23:13 公開日:2023-10-19
# 逐次ギブス後方法と主成分分析への応用

Sequential Gibbs Posteriors with Applications to Principal Component Analysis ( http://arxiv.org/abs/2310.12882v1 )

ライセンス: Link先を確認
Steven Winter, Omar Melikechi, David B. Dunson(参考訳) ギブズ後部は、指数化損失関数によって乗算された先行分布に比例し、前部に対する損失の重み付け情報と後部不確実性の制御を提供するキーチューニングパラメータを有する。 ギブス後部は確率自由ベイズ推論の原理的な枠組みを提供するが、単一のチューニングパラメータを含む多くの状況において、必然的に不確実な定量化につながる。 特に、パラメータの値に関係なく、信頼できる領域は、大きなサンプルであっても、名目上の頻繁なカバレッジとは程遠い。 この問題に対処するためにgibbs後方への逐次拡張を提案する。 提案した逐次後続表現の濃度と、ユークリッド空間および多様体上の条件の検証が容易なベルンシュタイン・ヴォン・ミーゼスの定理を証明した。 副産物として、多様体上の伝統的な帰納法に基づくベイズ後方に対する最初のベルンシュタイン・フォン・ミセスの定理を得る。 すべてのメソッドは、主成分分析へのアプリケーションで示されます。

Gibbs posteriors are proportional to a prior distribution multiplied by an exponentiated loss function, with a key tuning parameter weighting information in the loss relative to the prior and providing a control of posterior uncertainty. Gibbs posteriors provide a principled framework for likelihood-free Bayesian inference, but in many situations, including a single tuning parameter inevitably leads to poor uncertainty quantification. In particular, regardless of the value of the parameter, credible regions have far from the nominal frequentist coverage even in large samples. We propose a sequential extension to Gibbs posteriors to address this problem. We prove the proposed sequential posterior exhibits concentration and a Bernstein-von Mises theorem, which holds under easy to verify conditions in Euclidean space and on manifolds. As a byproduct, we obtain the first Bernstein-von Mises theorem for traditional likelihood-based Bayesian posteriors on manifolds. All methods are illustrated with an application to principal component analysis.
翻訳日:2023-10-20 14:16:37 公開日:2023-10-19
# ファンデルワールス系におけるキャビティ誘起量子干渉と集団相互作用

Cavity-Induced Quantum Interference and Collective Interactions in van der Waals Systems ( http://arxiv.org/abs/2310.12881v1 )

ライセンス: Link先を確認
Jianshu Cao and Eli Pollak(参考訳) この手紙の中心的な話題は、光-物質ハイブリッド化が新しい動的応答を引き起こすだけでなく、分子間相互作用を改変し、新しい構造秩序を誘導できることを示すことである。 光共振器におけるvan der waals (vdw) 系を例として, キャビティ誘起多体分散相互作用における干渉および集束効果を予測した。 具体的には、空洞誘起量子ゆらぎによる先行順序補正は、3体と4体のvdW相互作用をもたらすが、これは分子間ベクトルを整列させることができ、一対の添加物ではない。 さらに、空洞誘起双極子により、個々の分子を整列させる単一分子エネルギーシフトと、標準の$R^{-6}=距離スケーリングの代わりに$R^{-3}$にスケールするペアワイズ相互作用が導かれる。 これらのキャビティ誘起補正の係数はキャビティ周波数に依存し、有効ラビ周波数によって再正規化される。 最後に,空洞内のvdW系と外部物体との相互作用について検討し,距離スケーリング法則の修正による相互作用範囲の大幅な向上について検討した。 これらの理論的予測は、キャビティ誘起ネマティックまたはスメクティック秩序の可能性を示し、強修飾基底状態反応性、イオン輸送、溶媒極性などの光学キャビティで観察される興味深い現象を理解するための重要な手がかりとなるかもしれない。

The central topic of this letter is to show that light-matter hybridization not only gives rise to novel dynamic responses but can also modify intermolecular interactions and induce new structural order. Using the van der Waals (vdW) system in an optical cavity as an example, we predict the effects of interference and collectivity in cavity-induced many-body dispersion interactions. Specifically, the leading order correction due to cavity-induced quantum fluctuations leads to 3-body and 4-body vdW interactions, which can align intermolecular vectors and are not pairwise additive. In addition, the cavity-induced dipole leads to a single-molecule energy shift that aligns individual molecules, and a pair-wise interaction that scales as $R^{-3}$ instead of the standard $R^{-6}$ distance scaling. The coefficients of all these cavity-induced corrections depend on the cavity frequency and are renormalized by the effective Rabi frequency, which in turn depends on the particle density. Finally, we study the interaction of the vdW system in a cavity with an external object and find a significant enhancement in the interaction range due to modified distance scaling laws. These theoretical predictions suggest the possibility of cavity-induced nematic or smectic order and may provide an essential clue to understanding intriguing phenomena observed in optical cavities, such as strongly-modified ground-state reactivity, ion transport and solvent polarity.
翻訳日:2023-10-20 14:16:19 公開日:2023-10-19
# TwinPot:サイバーセーフなスマートシーポートのためのデジタルツインアシストハニーポット

TwinPot: Digital Twin-assisted Honeypot for Cyber-Secure Smart Seaports ( http://arxiv.org/abs/2310.12880v1 )

ライセンス: Link先を確認
Yagmur Yigit, Omer Kemal Kinaci, Trung Q. Duong, and Berk Canberk(参考訳) 次世代港のアイデアは、効率性への需要の高まりや商品の増産に伴う課題に対応して、ここ10年で明らかになってきた。 インテリジェントなインフラと施設の新たな時代において、サイバーセキュリティが最近、海港や海洋当局から最も大きな注目を集めていることは明らかであり、ほとんどの港の議題に対する主要な関心事である。 従来のセキュリティソリューションは、有害なエンティティからIoTとCPS(Cyber-Physical Systems)を保護するために適用することができる。 それでもセキュリティ研究者は、これらのソリューションがより透過的に動作する場合、攻撃者の行動についてのみ観察、調査、学習することができる。 ハニーポットは攻撃者に関する貴重な情報を提供するため、潜在的な解決策である。 仮想でも物理的でも構わない。 バーチャルなハニーポットは攻撃者を誘惑するよりリアルでなければならない。 この目的のために、Digital Twin(DT)技術は、ハニーポットの複雑さとシミュレーション精度を高めるために用いられる。 シーポートは、既存のデバイスと外部デバイスの両方から同時に攻撃することができる。 既存のメカニズムは外部攻撃を検出するには不十分であるため、現在のシステムは望ましいレベルで攻撃を処理できない。 DTとハニーポットの技術はそれらに取り組むために併用することができる。 その結果,スマート海港における外部攻撃に対するDT支援型ハニーポットであるTwinPotを提案する。 さらに,内部攻撃にdtを用いて異なる攻撃タイプを扱うインテリジェントアタック検出機構を提案する。 最後に、MANSIMツールと既存の2つのデータセットを使用して、内部および外部攻撃のための広範なスマート海港データセットを構築し、システムの性能をテストする。 システムに対する内部攻撃と外部攻撃を同時に行うことで,内部攻撃と外部攻撃の同時検出に成功した。

The idea of next-generation ports has become more apparent in the last ten years in response to the challenge posed by the rising demand for efficiency and the ever-increasing volume of goods. In this new era of intelligent infrastructure and facilities, it is evident that cyber-security has recently received the most significant attention from the seaport and maritime authorities, and it is a primary concern on the agenda of most ports. Traditional security solutions can be applied to safeguard IoT and Cyber-Physical Systems (CPS) from harmful entities. Nevertheless, security researchers can only watch, examine, and learn about the behaviors of attackers if these solutions operate more transparently. Herein, honeypots are potential solutions since they offer valuable information about the attackers. It can be virtual or physical. Virtual honeypots must be more realistic to entice attackers, necessitating better high-fidelity. To this end, Digital Twin (DT) technology can be employed to increase the complexity and simulation fidelity of the honeypots. Seaports can be attacked from both their existing devices and external devices at the same time. Existing mechanisms are insufficient to detect external attacks; therefore, the current systems cannot handle attacks at the desired level. DT and honeypot technologies can be used together to tackle them. Consequently, we suggest a DT-assisted honeypot, called TwinPot, for external attacks in smart seaports. Moreover, we propose an intelligent attack detection mechanism to handle different attack types using DT for internal attacks. Finally, we build an extensive smart seaport dataset for internal and external attacks using the MANSIM tool and two existing datasets to test the performance of our system. We show that under simultaneous internal and external attacks on the system, our solution successfully detects internal and external attacks.
翻訳日:2023-10-20 14:15:52 公開日:2023-10-19
# 量子重力補正のための情報理論的アプローチ

Information Theoretical Approach to Detecting Quantum Gravitational Corrections ( http://arxiv.org/abs/2310.12878v1 )

ライセンス: Link先を確認
Behnam Pourhassan, Xiaoping Shi, Salman Sajad Wani, Saif Al Khawari, Farideh Kazemian, Izzet Sakall Sakalli, Naveed Ahmad Shah, Faizal Mir(参考訳) 量子重力補正をテストする1つの方法はブラックホール物理学である。 本稿では、ブラックホール内で量子重力補正が検出できるスケールについて情報理論を用いて検討する。 これは、Parikh-Wilczek形式から得られる確率分布に対して、Kullback-Leibler分散を計算することによってなされる。 量子重力補正は、ブラックホールの質量が減少するにつれてクルバック・リーブラーの偏差を増大させ、大きなブラックホールに対しては量子重力補正を無視できると予想される。 しかし、ある臨界値の後、ブラックホールの質量が減少するにつれて量子重力補正が再び減少する傾向が観察される。 この挙動の背後にある理由を理解するために、そのような量子重力補正に関するフィッシャー情報を取得し、質量が減少するにつれてそれも増加するが、臨界値の後に減少する。 このような規模では、量子揺らぎがシステムを支配し、システムに関する情報を失うからです。 これらの結果は高次元ブラックホールに対して得られ、ブラックホールの寸法に応じてクルバック・リーブラーの発散とフィッシャー情報の観測を行う。 これらの結果は、量子重力補正の検出の難しさのスケール依存と次元依存を定量化することができる。

One way to test quantum gravitational corrections is through black hole physics. In this paper, We investigate the scales at which quantum gravitational corrections can be detected in a black hole using information theory. This is done by calculating the Kullback-Leibler divergence for the probability distributions obtained from the Parikh-Wilczek formalism. We observe that the quantum gravitational corrections increase the Kullback-Leibler divergence as the mass of the black hole decreases, which is expected as quantum gravitational corrections can be neglected for larger black holes. However, we further observe that after a certain critical value, quantum gravitational corrections tend to decrease again as the mass of the black hole decreases. To understand the reason behind this behavior, we explicitly obtain Fisher information about such quantum gravitational corrections and find that it also increases as the mass decreases, but again, after a critical value, it decreases. This is because at such a scale, quantum fluctuations dominate the system and we lose information about the system. We obtain these results for higher-dimensional black holes and observe this behavior for Kullback-Leibler divergence and Fisher information depending on the dimensions of the black hole. These results can quantify the scale dependence and dimension dependence of the difficulty in detecting quantum gravitational corrections.
翻訳日:2023-10-20 14:15:26 公開日:2023-10-19
# 高ダイナミックレンジ画像レンダリングの知覚評価と最適化

Perceptual Assessment and Optimization of High Dynamic Range Image Rendering ( http://arxiv.org/abs/2310.12877v1 )

ライセンス: Link先を確認
Peibei Cao, Rafal K. Mantiuk and Kede Ma(参考訳) 高ダイナミックレンジ(HDR)イメージングは、自然界の輝度レベルを忠実に再現する能力で人気が高まっている。 したがって、HDR画像品質評価(IQA)は重要であるが、表面処理されている。 既存のIQAモデルのほとんどは低ダイナミックレンジ(LDR)画像に対して開発・校正されており、HDR画像の品質に対する人間の認識と相関が低いことが示されている。 本稿では,近年のLDR IQAの進歩を伝達することによって,HDR IQAモデルのファミリを提案する。 提案手法の重要なステップは,既存のLDR品質モデルによって評価される,HDR画像を異なる露光で一組のLDR画像に分解する単純な逆表示モデルを指定することである。 そして、各露光の局所的な品質スコアを、各露光のグローバルな品質スコアに簡易によく露光度測定の助けを借りて集約し、露光全体でさらに重み付けして全体的な品質スコアを得る。 LDR画像を評価する場合、提案したHDR品質モデルは、同じ性能のオリジナルのLDR画像に対して優雅に低下する。 HDR-VDPファミリーを含む既存のIQA手法よりもHDRの品質モデルの方が一貫して優れていることを示す。 さらに,HDR新規ビュー合成の知覚的最適化における強みを示す。

High dynamic range (HDR) imaging has gained increasing popularity for its ability to faithfully reproduce the luminance levels in natural scenes. Accordingly, HDR image quality assessment (IQA) is crucial but has been superficially treated. The majority of existing IQA models are developed for and calibrated against low dynamic range (LDR) images, which have been shown to be poorly correlated with human perception of HDR image quality. In this work, we propose a family of HDR IQA models by transferring the recent advances in LDR IQA. The key step in our approach is to specify a simple inverse display model that decomposes an HDR image to a set of LDR images with different exposures, which will be assessed by existing LDR quality models. The local quality scores of each exposure are then aggregated with the help of a simple well-exposedness measure into a global quality score for each exposure, which will be further weighted across exposures to obtain the overall quality score. When assessing LDR images, the proposed HDR quality models reduce gracefully to the original LDR ones with the same performance. Experiments on four human-rated HDR image datasets demonstrate that our HDR quality models are consistently better than existing IQA methods, including the HDR-VDP family. Moreover, we demonstrate their strengths in perceptual optimization of HDR novel view synthesis.
翻訳日:2023-10-20 14:15:06 公開日:2023-10-19
# storyanalogy: 大規模な言語モデルからストーリーレベルのアナロジーを導出してアナロジー理解を解き放つ

StoryAnalogy: Deriving Story-level Analogies from Large Language Models to Unlock Analogical Understanding ( http://arxiv.org/abs/2310.12874v1 )

ライセンス: Link先を確認
Cheng Jiayang, Lin Qiu, Tsz Ho Chan, Tianqing Fang, Weiqi Wang, Chunkit Chan, Dongyu Ru, Qipeng Guo, Hongming Zhang, Yangqiu Song, Yue Zhang, Zheng Zhang(参考訳) 物語間の類似性は自然言語理解において最も重要な能力の1つである。 本稿では,多種多様なドメインからの24Kストーリーペアと,拡張された構造・マッピング理論の2つの類似性に基づく人間のアノテーションを組み込んだ大規模ストーリレベルのアナロジーコーパスであるStoryAnalogyを構築することにより,類似を識別・生成する能力を評価する。 我々はストーリーアナロジーに関する一連のテストを設計し、ストーリーレベルのアナロジー識別と生成の最初の評価を提示する。 興味深いことに、同義語識別タスクは、文埋め込みモデルだけでなく、ChatGPTやLLaMaのような最近の大規模言語モデル(LLM)においても極めて困難である。 最後に、ストーリーアナロジーのデータはllmsのアナロジー生成の品質を向上し、flant5-xxlモデルはゼロショットチャットgptに匹敵するパフォーマンスをもたらす。

Analogy-making between narratives is one of the most critical abilities in natural language understanding. In this paper, we evaluate the ability to identify and generate analogy by building a first-of-its-kind large-scale story-level analogy corpus, StoryAnalogy, which contains 24K story pairs from diverse domains with human annotations on two similarities from the extended Structure-Mapping Theory. We design a set of tests on StoryAnalogy, presenting the first evaluation of story-level analogy identification and generation. Interestingly, we find that the analogy identification tasks are extremely challenging not only for the sentence embedding models but also for the recent large language models (LLMs) such as ChatGPT and LLaMa, where ChatGPT only achieved around 30% accuracy in multiple-choice questions (> 85% accuracy for humans). Finally, we find that data in StoryAnalogy can improve LLMs analogy generation quality, where a fine-tuned FlanT5-xxl model yields comparable performance to zero-shot ChatGPT.
翻訳日:2023-10-20 14:14:44 公開日:2023-10-19
# 生命軌道予測における予測不可能性の起源

The origins of unpredictability in life trajectory prediction tasks ( http://arxiv.org/abs/2310.12871v1 )

ライセンス: Link先を確認
Ian Lundberg, Rachel Brown-Weinstock, Susan Clampet-Lundquist, Sarah Pachman, Timothy J. Nelson, Vicki Yang, Kathryn Edin, Matthew J. Salganik(参考訳) なぜ生命軌道は予測が難しいのか? マルチデカド縦断調査から得られた40家族を対象に, 詳細な質的面接を行った。 本研究の参加者を対象に, 何百人もの研究者による早期の取り組みから, サンプリングと面接のプロセスが示唆された。 これらのインタビューで明らかになった定性的な証拠と予測誤差のよく知られた数学的分解が組み合わさって、予測不能の原因の特定に役立ち、新しい概念的枠組みを創出する。 我々の具体的な証拠とより一般的な枠組みは、複雑なアルゴリズムや大規模データセットが存在する場合でも、多くのライフトラック予測タスクで予測不可能が期待できることを示唆している。 我々の研究は、将来の人間の生活における予測不可能性に関する経験的および理論的研究の基礎を提供する。

Why are life trajectories difficult to predict? We investigated this question through in-depth qualitative interviews with 40 families sampled from a multi-decade longitudinal study. Our sampling and interviewing process were informed by the earlier efforts of hundreds of researchers to predict life outcomes for participants in this study. The qualitative evidence we uncovered in these interviews combined with a well-known mathematical decomposition of prediction error helps us identify some origins of unpredictability and create a new conceptual framework. Our specific evidence and our more general framework suggest that unpredictability should be expected in many life trajectory prediction tasks, even in the presence of complex algorithms and large datasets. Our work also provides a foundation for future empirical and theoretical work on unpredictability in human lives.
翻訳日:2023-10-20 14:13:53 公開日:2023-10-19
# EMIT-Diff:テキストガイド拡散モデルによる医用画像分割の強化

EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model ( http://arxiv.org/abs/2310.12868v1 )

ライセンス: Link先を確認
Zheyuan Zhang, Lanhong Yao, Bin Wang, Debesh Jha, Elif Keles, Alpay Medetalibeyoglu, and Ulas Bagci(参考訳) 大規模で大きな変動があり、高品質なデータは、医療アプリケーションのための堅牢で成功したディープラーニングモデルの開発に不可欠である。 しかし、高品質なラベル付きデータの不足は常に大きな課題をもたらしている。 本稿では,医療画像合成のための制御可能な拡散モデルであるEMM-Diffを提案する。 我々は,最近の拡散確率モデルを利用して,合成過程を導くためにオブジェクトのエッジ情報を組み込んで,元の医用画像の本質的特徴を保存する,現実的で多様な合成医用画像データを生成する。 提案手法では, 合成試料が医療上の制約に従属し, 画像データの基盤構造を維持できる。 拡散モデルによるランダムサンプリングプロセスにより、様々な外観を持つ任意の数の合成画像を生成することができる。 提案法の有効性を検証するために,超音波乳房(+13.87%),ct脾臓(+0.38%),mri前立腺(+7.78%)を含む複数のデータセットで医用画像分割実験を行い,ベースラインセグメンテーション法よりも大幅に改善した。 医用画像セグメンテーションタスクにおけるemission-diffの有効性を初めて実証し,一般医用画像セグメンテーションタスクにテキスト誘導拡散モデルを導入する可能性を示す。 慎重に設計されたアブレーション実験により、様々なデータ増大率、ハイパーパラメータ設定、ランダムなマージマスク設定を生成するパッチサイズ、および異なるネットワークアーキテクチャによる影響について検討する。

Large-scale, big-variant, and high-quality data are crucial for developing robust and successful deep-learning models for medical applications since they potentially enable better generalization performance and avoid overfitting. However, the scarcity of high-quality labeled data always presents significant challenges. This paper proposes a novel approach to address this challenge by developing controllable diffusion models for medical image synthesis, called EMIT-Diff. We leverage recent diffusion probabilistic models to generate realistic and diverse synthetic medical image data that preserve the essential characteristics of the original medical images by incorporating edge information of objects to guide the synthesis process. In our approach, we ensure that the synthesized samples adhere to medically relevant constraints and preserve the underlying structure of imaging data. Due to the random sampling process by the diffusion model, we can generate an arbitrary number of synthetic images with diverse appearances. To validate the effectiveness of our proposed method, we conduct an extensive set of medical image segmentation experiments on multiple datasets, including Ultrasound breast (+13.87%), CT spleen (+0.38%), and MRI prostate (+7.78%), achieving significant improvements over the baseline segmentation methods. For the first time, to our best knowledge, the promising results demonstrate the effectiveness of our EMIT-Diff for medical image segmentation tasks and show the feasibility of introducing a first-ever text-guided diffusion model for general medical image segmentation tasks. With carefully designed ablation experiments, we investigate the influence of various data augmentation ratios, hyper-parameter settings, patch size for generating random merging mask settings, and combined influence with different network architectures.
翻訳日:2023-10-20 14:13:41 公開日:2023-10-19
# 階層型視覚変換器と複数症例学習を用いた病理組織における卵巣癌治療反応の予測

Predicting Ovarian Cancer Treatment Response in Histopathology using Hierarchical Vision Transformers and Multiple Instance Learning ( http://arxiv.org/abs/2310.12866v1 )

ライセンス: Link先を確認
Jack Breen, Katie Allen, Kieran Zucker, Geoff Hall, Nishant Ravikumar, Nicolas M. Orsi(参考訳) 多くの患者にとって、現在の卵巣がん治療は限定的な臨床効果をもたらす。 一部の治療では、患者の反応を予測することはできず、治療上の利益なしに治療の副作用に曝される可能性がある。 病理組織学的画像(ATEC23)を用いた卵巣癌に対する治療効果の自動予測の一環として,78例の卵巣癌患者282例を対象に,抗血管新生薬ベヴァジズマブを含む治療コースが,少なくとも6カ月間,再発あるいは疾患進行の予防に寄与するか否かを,ディープラーニングの有効性を評価した。 提案手法では,階層型画像ピラミッド変換器 (HIPT) を用いて地域レベルの特徴を抽出し,特徴を集約し,スライド全体を分類するアテンションベースマルチインスタンス学習 (ABMIL) モデルを提案する。 最適HIPT-ABMILモデルは60.2%+-2.9%、AUCは0.646+-0.033である。 病理組織特異的モデルの事前訓練は分類性能に有益であることがわかったが、階層的トランスフォーマーは存在せず、resnet特徴抽出器も同様の性能を達成した。 データセットが小さく不均一であるため、パフォーマンスは5倍のクロスバリデーションフォールドで変化し、検証とテストセットのパフォーマンスには、フォールド内の極端な違いがあった。 このモデルは組織マイクロアレイにうまく一般化できず、ランダムな確率よりも精度が悪かった。 卵巣癌wsisが、治療反応を正確に予測するために使用できる情報を含んでいるかどうか、さらに大きな高品質なデータセットを使用して検証するかどうかはまだ不明である。

For many patients, current ovarian cancer treatments offer limited clinical benefit. For some therapies, it is not possible to predict patients' responses, potentially exposing them to the adverse effects of treatment without any therapeutic benefit. As part of the automated prediction of treatment effectiveness in ovarian cancer using histopathological images (ATEC23) challenge, we evaluated the effectiveness of deep learning to predict whether a course of treatment including the antiangiogenic drug bevacizumab could contribute to remission or prevent disease progression for at least 6 months in a set of 282 histopathology whole slide images (WSIs) from 78 ovarian cancer patients. Our approach used a pretrained Hierarchical Image Pyramid Transformer (HIPT) to extract region-level features and an attention-based multiple instance learning (ABMIL) model to aggregate features and classify whole slides. The optimal HIPT-ABMIL model had an internal balanced accuracy of 60.2% +- 2.9% and an AUC of 0.646 +- 0.033. Histopathology-specific model pretraining was found to be beneficial to classification performance, though hierarchical transformers were not, with a ResNet feature extractor achieving similar performance. Due to the dataset being small and highly heterogeneous, performance was variable across 5-fold cross-validation folds, and there were some extreme differences between validation and test set performance within folds. The model did not generalise well to tissue microarrays, with accuracy worse than random chance. It is not yet clear whether ovarian cancer WSIs contain information that can be used to accurately predict treatment response, with further validation using larger, higher-quality datasets required.
翻訳日:2023-10-20 14:13:09 公開日:2023-10-19
# 位置エンコーディングの局所性と対称性

The Locality and Symmetry of Positional Encodings ( http://arxiv.org/abs/2310.12864v1 )

ライセンス: Link先を確認
Lihu Chen, Ga\"el Varoquaux, Fabian M. Suchanek(参考訳) 位置エンコーディング(PE)は、語順情報をトランスフォーマーベースの言語モデルに注入するために用いられる。 文章表現の質は著しく向上するが、言語モデルへの特異的な貢献は完全には理解されていない。 In this work, we conduct a systematic study of positional encodings in \textbf{Bidirectional Masked Language Models} (BERT-style) , which complements existing work in three aspects: (1) We uncover the core function of PEs by identifying two common properties, Locality and Symmetry; (2) We show that the two properties are closely correlated with the performances of downstream tasks; (3) We quantify the weakness of current PEs by introducing two new probing tasks, on which current PEs perform poorly. これらの結果は、トランスフォーマーベース言語モデルのためのより良いPE開発の基礎となると信じている。 コードは \fagithub~ \url{https://github.com/tigerchen52/locality\_symmetry} で利用可能である。

Positional Encodings (PEs) are used to inject word-order information into transformer-based language models. While they can significantly enhance the quality of sentence representations, their specific contribution to language models is not fully understood, especially given recent findings that various positional encodings are insensitive to word order. In this work, we conduct a systematic study of positional encodings in \textbf{Bidirectional Masked Language Models} (BERT-style) , which complements existing work in three aspects: (1) We uncover the core function of PEs by identifying two common properties, Locality and Symmetry; (2) We show that the two properties are closely correlated with the performances of downstream tasks; (3) We quantify the weakness of current PEs by introducing two new probing tasks, on which current PEs perform poorly. We believe that these results are the basis for developing better PEs for transformer-based language models. The code is available at \faGithub~ \url{https://github.com/tigerchen52/locality\_symmetry}
翻訳日:2023-10-20 14:12:36 公開日:2023-10-19
# 自律コアネットワークのためのディジタル双対型インテリジェントddos検出機構

Digital Twin-Enabled Intelligent DDoS Detection Mechanism for Autonomous Core Networks ( http://arxiv.org/abs/2310.12924v1 )

ライセンス: Link先を確認
Yagmur Yigit, Bahadir Bal, Aytac Karameseoglu, Trung Q. Duong, Berk Canberk(参考訳) 既存のDDoS(Distributed Denial of Service attack)ソリューションは、高度に集約されたデータレートを処理できないため、インターネットサービスプロバイダ(ISP)コアネットワークには適さない。 本稿では,自律システムのためのオンライン学習手法を用いたディジタル双対型知的ddos検出機構を提案する。 私たちはまず、ISPコアネットワークのディジタルツインに基づいたDDoS検出アーキテクチャを設計しました。 我々はコアネットワークデータを処理するために,YANGモデルと自動機能選択(AutoFS)モジュールを実装した。 オンライン学習アプローチを用いて,モデルを迅速かつ効率的に更新し,学習モデルを迅速に改善し,正確な予測を保証する。 最後に,提案手法がddos攻撃を検知し,特徴選択法と学習モデルを更新し,真の分類率は9%であることを明らかにした。 提案手法では,DDoS攻撃開始から約15分以内に攻撃を推定できる。

Existing distributed denial of service attack (DDoS) solutions cannot handle highly aggregated data rates; thus, they are unsuitable for Internet service provider (ISP) core networks. This article proposes a digital twin-enabled intelligent DDoS detection mechanism using an online learning method for autonomous systems. Our contributions are three-fold: we first design a DDoS detection architecture based on the digital twin for ISP core networks. We implemented a Yet Another Next Generation (YANG) model and an automated feature selection (AutoFS) module to handle core network data. We used an online learning approach to update the model instantly and efficiently, improve the learning model quickly, and ensure accurate predictions. Finally, we reveal that our proposed solution successfully detects DDoS attacks and updates the feature selection method and learning model with a true classification rate of ninety-seven percent. Our proposed solution can estimate the attack within approximately fifteen minutes after the DDoS attack starts.
翻訳日:2023-10-20 14:06:30 公開日:2023-10-19
# 視覚言語モデルは強化学習のためのゼロショット報酬モデルである

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning ( http://arxiv.org/abs/2310.12921v1 )

ライセンス: Link先を確認
Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner(参考訳) 強化学習(rl)は、しばしば実現不可能である報酬関数を手動で指定するか、あるいは大量の人的フィードバックから報酬モデルを学ぶか、非常に高価である。 本稿では,事前学習された視覚言語モデル (VLM) をゼロショット報酬モデル (RM) として用いて,自然言語によるタスクの特定を行う。 本稿では,VLMを報酬モデルとして用いるための,自然かつ一般的なアプローチを提案する。 CLIPをベースとしたVLM-RMを使用して、MuJoCoヒューマノイドをトレーニングし、ひざまずいて、スプリットを行い、ロータス位置に座っているような、手動で特定された報酬関数なしで複雑なタスクを学習する。 それぞれのタスクに対して、最小限のプロンプトエンジニアリングで所望のタスクを記述する1つのテキストプロンプトのみを提供する。 トレーニングされたエージェントのビデオは、https://sites.google.com/view/vlm-rm.comで提供します。 第二の ``baseline''プロンプトを提供し、目標とベースラインの区別に無関係にCLIP埋め込みスペースの一部を投影することでパフォーマンスを向上させることができる。 さらに、より多くの計算とデータで訓練されたより大きなVLMはより良い報酬モデルである。 私たちが遭遇したVLM-RMの障害モードは、空間的推論能力の制限や、VLMにとって遠く離れた視覚的非現実的な環境など、現在のVLMの既知の能力制限と関係している。 VLM-RMは、VLMが十分に大きい限り、非常に頑丈である。 これは、将来のVLMがより広範囲のRLアプリケーションに対してより有用な報酬モデルになることを示唆している。

Reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive. We study a more sample-efficient alternative: using pretrained vision-language models (VLMs) as zero-shot reward models (RMs) to specify tasks via natural language. We propose a natural and general approach to using VLMs as reward models, which we call VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn complex tasks without a manually specified reward function, such as kneeling, doing the splits, and sitting in a lotus position. For each of these tasks, we only provide a single sentence text prompt describing the desired task with minimal prompt engineering. We provide videos of the trained agents at: https://sites.google.com/view/vlm-rm. We can improve performance by providing a second ``baseline'' prompt and projecting out parts of the CLIP embedding space irrelevant to distinguish between goal and baseline. Further, we find a strong scaling effect for VLM-RMs: larger VLMs trained with more compute and data are better reward models. The failure modes of VLM-RMs we encountered are all related to known capability limitations of current VLMs, such as limited spatial reasoning ability or visually unrealistic environments that are far off-distribution for the VLM. We find that VLM-RMs are remarkably robust as long as the VLM is large enough. This suggests that future VLMs will become more and more useful reward models for a wide range of RL applications.
翻訳日:2023-10-20 14:06:14 公開日:2023-10-19
# 遺伝子組換えモデル

Generative Marginalization Models ( http://arxiv.org/abs/2310.12920v1 )

ライセンス: Link先を確認
Sulin Liu, Peter J. Ramadge, Ryan P. Adams(参考訳) 本稿では,高次元離散データのための新しい生成モデルであるマーカライゼーションモデル(MaMs)を紹介する。 これらは、すべての誘導限界分布を明示的にモデル化することにより、扱いやすい可能性を持つスケーラブルで柔軟な生成モデリングを提供する。 マージナライゼーションモデルは、ニューラルネットワークの単一の前方通過による任意の辺縁確率の迅速な評価を可能にし、自動回帰モデル(ARM)のような、正確な辺縁推論のメソッドの大きな制限を克服する。 マージナリゼーション・セルフ・コンシスタンシー(marginalization self-consistency)という概念に基づく,限界学習のためのスケーラブルな手法を提案する。 従来の方法とは異なり、MaMsはエネルギーベーストレーニングの設定の下で高次元問題に対する任意の階数生成モデルのスケーラブルなトレーニングをサポートし、そこでは学習された分布を所望の確率(エネルギー関数や報酬関数のような非正規化(log)確率関数によって特定される)に一致させることが目的である。 本研究では,2値画像,言語,物理システム,分子など様々な離散データ分布におけるモデルの有効性を,最大確率とエネルギーベースのトレーニング設定に示す。 MaMは、両方の設定で限界確率を評価する際に、桁違いのスピードアップを達成する。 エネルギーベースのトレーニングタスクでは、MaMは従来の手法の能力を超える高次元問題の任意の順序生成モデリングを可能にする。 コードはhttps://github.com/PrincetonLIPS/MaMにある。

We introduce marginalization models (MaMs), a new family of generative models for high-dimensional discrete data. They offer scalable and flexible generative modeling with tractable likelihoods by explicitly modeling all induced marginal distributions. Marginalization models enable fast evaluation of arbitrary marginal probabilities with a single forward pass of the neural network, which overcomes a major limitation of methods with exact marginal inference, such as autoregressive models (ARMs). We propose scalable methods for learning the marginals, grounded in the concept of "marginalization self-consistency". Unlike previous methods, MaMs support scalable training of any-order generative models for high-dimensional problems under the setting of energy-based training, where the goal is to match the learned distribution to a given desired probability (specified by an unnormalized (log) probability function such as energy function or reward function). We demonstrate the effectiveness of the proposed model on a variety of discrete data distributions, including binary images, language, physical systems, and molecules, for maximum likelihood and energy-based training settings. MaMs achieve orders of magnitude speedup in evaluating the marginal probabilities on both settings. For energy-based training tasks, MaMs enable any-order generative modeling of high-dimensional problems beyond the capability of previous methods. Code is at https://github.com/PrincetonLIPS/MaM.
翻訳日:2023-10-20 14:05:46 公開日:2023-10-19
# センサネットワークのためのネットワーク対応AutoMLフレームワーク

Network-Aware AutoML Framework for Software-Defined Sensor Networks ( http://arxiv.org/abs/2310.12914v1 )

ライセンス: Link先を確認
Emre Horsanali, Yagmur Yigit, Gokhan Secinti, Aytac Karameseoglu, and Berk Canberk(参考訳) 現在のddos(distributed denial of service attack)検出ソリューションは、高集約データレートを処理するための追加のインフラストラクチャを必要とするため、センサネットワークやモノのインターネットには適していない。 さらに、ソフトウェア定義センサネットワークのセキュリティアーキテクチャは、ソフトウェア定義ネットワークとセンサーネットワークの両方の脆弱性に注意を払う必要がある。 本稿では,ソフトウェア定義センサネットワークにおけるDDoS攻撃を検出するネットワーク対応自動機械学習(AutoML)フレームワークを提案する。 ネットワークに制約のある環境でのDDoS攻撃を,可変トラフィック負荷,異種トラフィック率,検出時間などの指標を用いて検出する,理想的な機械学習アルゴリズムを選択する。 私たちの貢献は2つあります。 i) DDoS検出範囲におけるMLアルゴリズムの効率性とネットワーク/トラヒック状態とのトレードオフをまず検討する。 (II)複数のMLアルゴリズムを配置し,オープンソースネットワークツールを含むソフトウェアアーキテクチャの設計と実装を行う。 最後に、サービス攻撃の否定の下で、当社のフレームワークは、追加の遅延でネットワーク内でトラフィックパケットが配信されるようにします。

As the current detection solutions of distributed denial of service attacks (DDoS) need additional infrastructures to handle high aggregate data rates, they are not suitable for sensor networks or the Internet of Things. Besides, the security architecture of software-defined sensor networks needs to pay attention to the vulnerabilities of both software-defined networks and sensor networks. In this paper, we propose a network-aware automated machine learning (AutoML) framework which detects DDoS attacks in software-defined sensor networks. Our framework selects an ideal machine learning algorithm to detect DDoS attacks in network-constrained environments, using metrics such as variable traffic load, heterogeneous traffic rate, and detection time while preventing over-fitting. Our contributions are two-fold: (i) we first investigate the trade-off between the efficiency of ML algorithms and network/traffic state in the scope of DDoS detection. (ii) we design and implement a software architecture containing open-source network tools, with the deployment of multiple ML algorithms. Lastly, we show that under the denial of service attacks, our framework ensures the traffic packets are still delivered within the network with additional delays.
翻訳日:2023-10-20 14:05:24 公開日:2023-10-19
# リードベルク原子を用いたキタエフ量子スピン液体の実現と検出

Realization and detection of Kitaev quantum spin liquid with Rydberg atoms ( http://arxiv.org/abs/2310.12905v1 )

ライセンス: Link先を確認
Yi-Hong Chen, Bao-Zong Wang, Ting-Fung Jeffrey Poon, Xin-Chi Zhou, Zheng-Xin Liu, and Xiong-Jun Liu(参考訳) キタエフのキラルスピン液体は、本質的な非可換励起のため、近年広く関心を集めているが、実験的な実現は困難である。 本稿では,リドベルグ原子の変形したハニカム配列におけるキタエフキラルスピン液体の実現と検出を提案する。 新しいレーザー支援双極子-双極子相互作用機構により、ハードコアボソンの効果的なホッピングとペアリング項の両方を生成し、ファンデルワールス相互作用とともに高精度なキタエフスピン液体モデルを実現する。 そして、ギャップ付き非アベリアスピン液体相を得る。 さらに,光ブラッグ散乱によるカイラルマヨラナエッジモードの探索と,そのカイラル運動を想像し,スピン自由度のみを測定することを提案する。 我々の研究は、原子系で実現および検出できる異方性量子多体相の範囲を広げ、非アベリア異性体を操作するための重要なステップとなる。

The Kitaev chiral spin liquid has captured widespread interest in recent decades because of its intrinsic non-Abelian excitations, yet the experimental realization is challenging. Here we propose to realize and detect Kitaev chiral spin liquid in a deformed honeycomb array of Rydberg atoms. Through a novel laser-assisted dipole-dipole interaction mechanism to generate both effective hopping and pairing terms for hard-core bosons, together with van der Waals interaction, we achieve the Kitaev spin liquid model with high precision. The gapped non-Abelian spin liquid phase is then obtained. Further, we propose to probe the chiral Majorana edge modes by light Bragg scattering and by imagining their chiral motion, in which only spin degree of freedom needs to be measured. Our work broadens the range of exotic quantum many-body phases that can be realized and detected in atomic systems, and makes an important step toward manipulating non-Abelian anyons.
翻訳日:2023-10-20 14:05:06 公開日:2023-10-19
# 自己監督型 ViT 時代における教師なし物体の局在:サーベイ

Unsupervised Object Localization in the Era of Self-Supervised ViTs: A Survey ( http://arxiv.org/abs/2310.12904v1 )

ライセンス: Link先を確認
Oriane Sim\'eoni and \'Eloi Zablocki and Spyros Gidaris and Gilles Puy and Patrick P\'erez(参考訳) オープンワールドビジョンシステムに対する最近の熱意は、これまで人気があったクローズドボキャブラリベンチマークのセットアップ以外の知覚タスクを実行することに対するコミュニティの関心の高さを示している。 データセットにどのオブジェクトが現れるのか事前に知ることなく、画像やビデオでオブジェクトを発見できることは、エキサイティングな期待だ。 しかし、それについて何も知らないオブジェクトを見つけるにはどうすればいいのか? 近年の研究では, 自己教師付き事前学習機能を利用することで, クラス非教師なしオブジェクトのローカライズが可能となった。 本稿では,自己教師型 ViT の時代において手動のアノテーションを必要とせず,画像中のオブジェクトを検出する非教師付きオブジェクトローカライズ手法を提案する。 議論されたメソッドのリンクをリポジトリ https://github.com/valeoai/Awesome-Unsupervised-Object-Localization に集めます。

The recent enthusiasm for open-world vision systems show the high interest of the community to perform perception tasks outside of the closed-vocabulary benchmark setups which have been so popular until now. Being able to discover objects in images/videos without knowing in advance what objects populate the dataset is an exciting prospect. But how to find objects without knowing anything about them? Recent works show that it is possible to perform class-agnostic unsupervised object localization by exploiting self-supervised pre-trained features. We propose here a survey of unsupervised object localization methods that discover objects in images without requiring any manual annotation in the era of self-supervised ViTs. We gather links of discussed methods in the repository https://github.com/valeoai/Awesome-Unsupervised-Object-Localization.
翻訳日:2023-10-20 14:04:48 公開日:2023-10-19
# 実験物語:人間のクラウドソーシングストーリーテリングとAIストーリーテリングの比較

Experimental Narratives: A Comparison of Human Crowdsourced Storytelling and AI Storytelling ( http://arxiv.org/abs/2310.12902v1 )

ライセンス: Link先を確認
Nina Begus(参考訳) 本稿では,人間と生成aiの両方による物語の文物や社会的バイアスを調べるための新しいツールとして,架空のプロンプトを用いた行動実験と計算実験を組み合わせた枠組みを提案する。 本研究は,2019年6月にクラウドワーカーが著した250話,2023年3月にgpt-3.5とgpt-4が生成した80話を分析し,ナラトロジーと推論統計を融合した。 群衆労働者と大きな言語モデルの両方が、人工的な人間を創造し、恋に落ちるという同じプロンプトに反応した。 提案した実験パラダイムは、人間とLLM生成したストーリーテリングの直接比較を可能にする。 pygmalionesqueに対する反応は、人間と大きな言語モデルの両方の想像上のピグマリオン神話が広く存在していることを確認する。 すべての誘惑された物語は科学的または技術的追求をもたらす。 この分析により、GPT-3.5、特にGPT-4の物語は、人間によって書かれたものよりも性役割やセクシュアリティの点でより進歩的であることが明らかとなった。 AIの物語は時折革新的なプロットのツイストを提供するが、人間によって書かれたテキストよりも想像上のシナリオや修辞的なシナリオは少ない。 提案された枠組みは、フィクションは人間とAIに基づく集合的想像と社会的次元の窓として使用できると主張している。

The paper proposes a framework that combines behavioral and computational experiments employing fictional prompts as a novel tool for investigating cultural artifacts and social biases in storytelling both by humans and generative AI. The study analyzes 250 stories authored by crowdworkers in June 2019 and 80 stories generated by GPT-3.5 and GPT-4 in March 2023 by merging methods from narratology and inferential statistics. Both crowdworkers and large language models responded to identical prompts about creating and falling in love with an artificial human. The proposed experimental paradigm allows a direct comparison between human and LLM-generated storytelling. Responses to the Pygmalionesque prompts confirm the pervasive presence of the Pygmalion myth in the collective imaginary of both humans and large language models. All solicited narratives present a scientific or technological pursuit. The analysis reveals that narratives from GPT-3.5 and particularly GPT-4 are more more progressive in terms of gender roles and sexuality than those written by humans. While AI narratives can occasionally provide innovative plot twists, they offer less imaginative scenarios and rhetoric than human-authored texts. The proposed framework argues that fiction can be used as a window into human and AI-based collective imaginary and social dimensions.
翻訳日:2023-10-20 14:04:33 公開日:2023-10-19
# HuMobチャレンジのためのパーソナライズされた人間移動予測

Personalized human mobility prediction for HuMob challenge ( http://arxiv.org/abs/2310.12900v1 )

ライセンス: Link先を確認
Masahiro Suzuki, Shomu Furuta, Yusuke Fukazawa(参考訳) 本稿では,人間移動予測のためのデータ分析コンペであるHuMob Challengeに提出したデータ作成手法について説明する。 本研究では,個人の運動軌跡を予測するためのパーソナライズドモデルを採用し,個人の行動は個人に固有のものであるという仮説に基づいて,全体の動きから予測するのではなく,個人データから個人の動き軌跡を予測する。 我々は,日時,活動時間,週日,日時,POI訪問頻度などの特徴を考案した。 付加的な特徴として,クラスタリングの活用を通じて,類似の行動パターンを持つ他者の運動を取り入れた。 私たちが採用した機械学習モデルは、Support Vector Regression(SVR)です。 オフライン評価を行い,特徴選択とパラメータチューニングを行った。 提供される全体のデータセットは10万のユーザ軌道で構成されていますが、我々の方法は2万のユーザデータしか使用していません。 パーソナライズされたモデルの伝統的な特徴工学アプローチにもかかわらず、このモデルは計算コストを低くして合理的に優れた精度が得られる。

We explain the methodology used to create the data submitted to HuMob Challenge, a data analysis competition for human mobility prediction. We adopted a personalized model to predict the individual's movement trajectory from their data, instead of predicting from the overall movement, based on the hypothesis that human movement is unique to each person. We devised the features such as the date and time, activity time, days of the week, time of day, and frequency of visits to POI (Point of Interest). As additional features, we incorporated the movement of other individuals with similar behavior patterns through the employment of clustering. The machine learning model we adopted was the Support Vector Regression (SVR). We performed accuracy through offline assessment and carried out feature selection and parameter tuning. Although overall dataset provided consists of 100,000 users trajectory, our method use only 20,000 target users data, and do not need to use other 80,000 data. Despite the personalized model's traditional feature engineering approach, this model yields reasonably good accuracy with lower computational cost.
翻訳日:2023-10-20 14:04:12 公開日:2023-10-19
# 量子2部コリレータを用いたブラインド量子機械学習

Blind quantum machine learning with quantum bipartite correlator ( http://arxiv.org/abs/2310.12893v1 )

ライセンス: Link先を確認
Changhao Li, Boning Li, Omar Amer, Ruslan Shaydulin, Shouvanik Chakrabarti, Guoqing Wang, Haowei Xu, Hao Tang, Isidor Schoch, Niraj Kumar, Charles Lim, Ju Li, Paola Cappellaro and Marco Pistoia(参考訳) 分散量子コンピューティングは、個々の量子デバイスの範囲を超えた計算を行うための有望な計算パラダイムである。 分散量子コンピューティングにおけるプライバシは、機密性を維持し、信頼できない計算ノードの存在下でデータを保護するために重要である。 本研究では,量子二部相関アルゴリズムに基づく新しい盲点量子機械学習プロトコルを提案する。 当社のプロトコルは、信頼できない関係者からのデータのプライバシーを維持しながら、通信オーバーヘッドを減らした。 複雑な暗号化技術を必要としない計算オーバーヘッドの少ないロバストなアルゴリズム固有のプライバシ保存機構を導入する。 次に、複雑性とプライバシー分析により提案プロトコルの有効性を検証する。 我々の発見は、分散量子コンピューティングの進歩の道を開き、量子技術の時代にプライバシーに配慮した機械学習アプリケーションに新たな可能性を開く。

Distributed quantum computing is a promising computational paradigm for performing computations that are beyond the reach of individual quantum devices. Privacy in distributed quantum computing is critical for maintaining confidentiality and protecting the data in the presence of untrusted computing nodes. In this work, we introduce novel blind quantum machine learning protocols based on the quantum bipartite correlator algorithm. Our protocols have reduced communication overhead while preserving the privacy of data from untrusted parties. We introduce robust algorithm-specific privacy-preserving mechanisms with low computational overhead that do not require complex cryptographic techniques. We then validate the effectiveness of the proposed protocols through complexity and privacy analysis. Our findings pave the way for advancements in distributed quantum computing, opening up new possibilities for privacy-aware machine learning applications in the era of quantum technologies.
翻訳日:2023-10-20 14:03:56 公開日:2023-10-19
# 多言語タスク指向対話システムにおける性能格差の体系的研究

A Systematic Study of Performance Disparities in Multilingual Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2310.12892v1 )

ライセンス: Link先を確認
Songbo Hu, Han Zhou, Moy Yuan, Milan Gritta, Guchun Zhang, Ignacio Iacobacci, Anna Korhonen, Ivan Vuli\'c(参考訳) 世界中の多くの言語でうまく機能するロバストな言語技術の実現は、多言語nlpの中心的な目標である。 本研究では,多言語タスク指向対話(ToD)システム間に存在するタスク性能の相違を実証的に分析する。 まず,システム性能における絶対的および相対的等価性の新しい定量的尺度を定義し,言語間および個々の言語内における差異を捉えた。 一連の制御実験を通じて,todタスクの性質,基礎となる事前学習された言語モデル,対象言語,todアノテートデータの量など,パフォーマンスの相違がさまざまな要因に依存していることを実証した。 例えば、アラビア語やトルコ語で訓練されたToDシステムは、英語のToDデータと完全に平行な注釈付きToDデータを使用して、今でも減少しているToDタスクのパフォーマンスを示す。 異なる言語におけるToDシステムの性能格差に関する一連の知見を提供するだけでなく、新しい言語に対するToDデータ収集とシステム開発へのアプローチに関する実践的なヒントを提供する。

Achieving robust language technologies that can perform well across the world's many languages is a central goal of multilingual NLP. In this work, we take stock of and empirically analyse task performance disparities that exist between multilingual task-oriented dialogue (ToD) systems. We first define new quantitative measures of absolute and relative equivalence in system performance, capturing disparities across languages and within individual languages. Through a series of controlled experiments, we demonstrate that performance disparities depend on a number of factors: the nature of the ToD task at hand, the underlying pretrained language model, the target language, and the amount of ToD annotated data. We empirically prove the existence of the adaptation and intrinsic biases in current ToD systems: e.g., ToD systems trained for Arabic or Turkish using annotated ToD data fully parallel to English ToD data still exhibit diminished ToD task performance. Beyond providing a series of insights into the performance disparities of ToD systems in different languages, our analyses offer practical tips on how to approach ToD data collection and system development for new languages.
翻訳日:2023-10-20 14:03:44 公開日:2023-10-19
# 人間-ai共創のための大規模言語モデルによる設計空間の構造化と探索

Structured Generation and Exploration of Design Space with Large Language Models for Human-AI Co-Creation ( http://arxiv.org/abs/2310.12953v1 )

ライセンス: Link先を確認
Sangho Suh, Meng Chen, Bryan Min, Toby Jia-Jun Li, and Haijun Xia(参考訳) 彼らの生成能力のおかげで、大きな言語モデル(LLM)は創造的プロセスにとって貴重なツールになっている。 これらのモデルは、数百、何千もの視覚およびテキストのアウトプットを生成する能力を持ち、創造的な取り組みに豊富なインスピレーションを与えます。 しかし、その潜在能力を活用できるだろうか? 我々は、現在のインタラクションパラダイムは不足しており、ユーザーが膨大な潜在的なデザイン空間を生成モデルで探究する権限を与えるのではなく、限られたアイデアセットで迅速に収束する方向に導くと論じている。 そこで本研究では,ユーザがシームレスに多数の応答を探索し,評価し,合成できる設計空間の構造的生成を容易にするフレームワークを提案する。 本稿では,対話型システムLuminateの設計と開発,および8人のプロライターによるユーザスタディを通じて,このフレームワークの有効性と有用性を示す。 我々の研究は、LLMの創造的な可能性を活用する方法を導入し、創造的なタスクのためにLLMと対話する方法を前進させます。

Thanks to their generative capabilities, large language models (LLMs) have become an invaluable tool for creative processes. These models have the capacity to produce hundreds and thousands of visual and textual outputs, offering abundant inspiration for creative endeavors. But are we harnessing their full potential? We argue that current interaction paradigms fall short, guiding users towards rapid convergence on a limited set of ideas, rather than empowering them to explore the vast latent design space in generative models. To address this limitation, we propose a framework that facilitates the structured generation of design space in which users can seamlessly explore, evaluate, and synthesize a multitude of responses. We demonstrate the feasibility and usefulness of this framework through the design and development of an interactive system, Luminate, and a user study with 8 professional writers. Our work advances how we interact with LLMs for creative tasks, introducing a way to harness the creative potential of LLMs.
翻訳日:2023-10-20 13:56:54 公開日:2023-10-19
# Vendi ScoreのCousins:科学と機械学習のための類似性に基づく多様性メトリクスの家族

Cousins Of The Vendi Score: A Family Of Similarity-Based Diversity Metrics For Science And Machine Learning ( http://arxiv.org/abs/2310.12952v1 )

ライセンス: Link先を確認
Amey Pasarkar and Adji Bousso Dieng(参考訳) 多様性を正確に測定することは、機械学習(ML)、生態学、化学など多くの科学分野において重要である。 vendiスコアは、量子統計力学のアイデアを活用し、q=1のヒル数を拡張する一般的な類似性に基づく多様性メトリックとして導入された。 生態学における多くの多様性指標とは対照的に、ヴェンディスコアは類似性を考慮し、多様性を評価するためにコレクション内のカテゴリの有病率の知識を必要としない。 しかしながら、Vendi Scoreは、アイテムの頻度に比例する感度のレベルで、所定のコレクション内の各アイテムを扱います。 これはアイテムの頻度にかなりの不均衡がある設定では望ましくない。 本稿では,類似性を用いて他のヒル数を拡張し,希少品や共通品に感度を割り当てる柔軟性を提供する。 これにより、さまざまなアプリケーションで使用可能な、多様性指標のファミリー -- 異なるレベルの感度を持つ自動スコア -- が生まれます。 基底真理の多様性が知られている合成制御環境におけるスコアの特性について検討する。 次に、その有用性をテストし、ヴェンディサンプリングによる分子シミュレーションを改善する。 最後に、記憶、重複、多様性、およびサンプル品質の観点から画像生成モデルの振る舞いをよりよく理解するために、vendiスコアを使用する。

Measuring diversity accurately is important for many scientific fields, including machine learning (ML), ecology, and chemistry. The Vendi Score was introduced as a generic similarity-based diversity metric that extends the Hill number of order q=1 by leveraging ideas from quantum statistical mechanics. Contrary to many diversity metrics in ecology, the Vendi Score accounts for similarity and does not require knowledge of the prevalence of the categories in the collection to be evaluated for diversity. However, the Vendi Score treats each item in a given collection with a level of sensitivity proportional to the item's prevalence. This is undesirable in settings where there is a significant imbalance in item prevalence. In this paper, we extend the other Hill numbers using similarity to provide flexibility in allocating sensitivity to rare or common items. This leads to a family of diversity metrics -- Vendi scores with different levels of sensitivity -- that can be used in a variety of applications. We study the properties of the scores in a synthetic controlled setting where the ground truth diversity is known. We then test their utility in improving molecular simulations via Vendi Sampling. Finally, we use the Vendi scores to better understand the behavior of image generative models in terms of memorization, duplication, diversity, and sample quality.
翻訳日:2023-10-20 13:56:26 公開日:2023-10-19
# 3D-GPT:大規模言語モデルを用いた手続き型3Dモデリング

3D-GPT: Procedural 3D Modeling with Large Language Models ( http://arxiv.org/abs/2310.12945v1 )

ライセンス: Link先を確認
Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, Stephen Gould(参考訳) 効率的な自動コンテンツ作成の追求において、修正可能なパラメータとルールベースのシステムを活用する手続き生成が有望なアプローチとして現れている。 それにもかかわらず、規則、アルゴリズム、パラメータの深い理解を必要とする複雑な性質を考えると、それは要求される努力かもしれない。 3d-gptは,命令駆動型3dモデリングのための大規模言語モデル~(llms)を活用したフレームワークである。 3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。 3D-GPTは、タスクディスパッチエージェント、概念化エージェント、モデリングエージェントの3つのコアエージェントを統合する。 彼らは共同で2つの目標を達成する。 まず、簡潔な初期シーン記述を強化し、後続の指示に基づいてテキストを動的に適応させながら、詳細な形式に発展させる。 第二に、プロシージャ生成を統合し、リッチテキストからパラメータ値を抽出し、3Dソフトウェアに精通してアセット生成を行う。 実験の結果,3d-gptは命令を解釈し実行し,信頼性の高い結果を提供するだけでなく,人間設計者と効果的に連携できることが確認された。 さらに、blenderとシームレスに統合され、操作可能性の拡張をアンロックする。 本研究は3次元モデリングにおけるLLMの可能性を強調し,シーン生成とアニメーションの今後の進歩のための基本的なフレームワークを提供する。

In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given its intricate nature necessitating a deep understanding of rules, algorithms, and parameters. To reduce workload, we introduce 3D-GPT, a framework utilizing large language models~(LLMs) for instruction-driven 3D modeling. 3D-GPT positions LLMs as proficient problem solvers, dissecting the procedural 3D modeling tasks into accessible segments and appointing the apt agent for each task. 3D-GPT integrates three core agents: the task dispatch agent, the conceptualization agent, and the modeling agent. They collaboratively achieve two objectives. First, it enhances concise initial scene descriptions, evolving them into detailed forms while dynamically adapting the text based on subsequent instructions. Second, it integrates procedural generation, extracting parameter values from enriched text to effortlessly interface with 3D software for asset creation. Our empirical investigations confirm that 3D-GPT not only interprets and executes instructions, delivering reliable results but also collaborates effectively with human designers. Furthermore, it seamlessly integrates with Blender, unlocking expanded manipulation possibilities. Our work highlights the potential of LLMs in 3D modeling, offering a basic framework for future advancements in scene generation and animation.
翻訳日:2023-10-20 13:55:48 公開日:2023-10-19
# リカレントニューラルネットワークモデルの表現能力について

On the Representational Capacity of Recurrent Neural Language Models ( http://arxiv.org/abs/2310.12942v1 )

ライセンス: Link先を確認
Franz Nowak, Anej Svete, Li Du, Ryan Cotterell(参考訳) 本稿では,recurrent neural networks(rnns)に基づく言語モデル(lms)の計算表現性について検討する。 Siegelmann and Sontag (1992) は、合理的な重みと隠れた状態と非有界な計算時間を持つ RNN がチューリング完全であることを示した。 しかし、文字列の重み付けは、単に(重み付けされていない)言語のメンバーシップに加えて定義されており、RNN LM(RLM)の計算能力の分析もこれを反映すべきである。 我々はチューリング完全性の結果を確率的ケースに拡張し、有界計算時間を持つ有理重み付き RLM が任意の確率的チューリングマシン (PTM) をシミュレートできることを示す。 実のところ、RLMはリアルタイムに動作し、各ステップでシンボルを処理するので、上記の結果をRLMの表現性上の上限として扱う。 また、実時間計算の制限下では、決定論的実時間有理PTMをシミュレートできることを示す。

This work investigates the computational expressivity of language models (LMs) based on recurrent neural networks (RNNs). Siegelmann and Sontag (1992) famously showed that RNNs with rational weights and hidden states and unbounded computation time are Turing complete. However, LMs define weightings over strings in addition to just (unweighted) language membership and the analysis of the computational power of RNN LMs (RLMs) should reflect this. We extend the Turing completeness result to the probabilistic case, showing how a rationally weighted RLM with unbounded computation time can simulate any probabilistic Turing machine (PTM). Since, in practice, RLMs work in real-time, processing a symbol at every time step, we treat the above result as an upper bound on the expressivity of RLMs. We also provide a lower bound by showing that under the restriction to real-time computation, such models can simulate deterministic real-time rational PTMs.
翻訳日:2023-10-20 13:54:56 公開日:2023-10-19
# 基礎モデル透明性指標

The Foundation Model Transparency Index ( http://arxiv.org/abs/2310.12941v1 )

ライセンス: Link先を確認
Rishi Bommasani, Kevin Klyman, Shayne Longpre, Sayash Kapoor, Nestor Maslej, Betty Xiong, Daniel Zhang, Percy Liang(参考訳) ファウンデーションモデルは急速に社会に浸透し、企業や消費者が直面するコンテキストにまたがる生成AIアプリケーションの波を引き起こしている。 基礎モデルの社会的影響は増大しているが、透明性の低下は過去のデジタル技術(ソーシャルメディアなど)を悩ませた不透明さを反映している。 透明性は、公的説明責任、科学的革新、効果的なガバナンスにとって重要な前提条件である。 基礎モデルのエコシステムの透明性を評価し、時間とともに透明性を向上させるために、基盤モデルの透明性指標を導入します。 foundation model transparency indexは、基盤モデルを構築するのに使用される上流のリソース(例えば、データ、労力、計算)、モデル自体の詳細(サイズ、能力、リスク)、下流の使用(例えば、流通チャネル、使用ポリシー、影響を受ける地形)にまたがる、基礎モデルの透明性を包括的に体系化する100のきめ細かい指標を特定する。 透明性を評価するために、100の指標に対して10の主要なファンデーションモデル開発者(OpenAI、Google、Metaなど)をスコア付けします。 評価の容易化と標準化のために、私たちは、彼らの旗艦となる基盤モデルのプラクティス(OpenAIのGPT-4、GoogleのPaLM 2、MetaのLlama 2など)に関して、開発者をスコア付けします。 例えば、フラッグシップモデルのダウンストリームへの影響に関する重要な情報(ユーザ数、影響を受けるマーケットセクタ、ユーザによる被害への対処方法など)を現在公表している開発者はいません。 全体として、foundation model transparency indexは、今日の透明性のレベルを確立し、業界標準と規制介入を通じて、foundation model governanceの進捗を促進する。

Foundation models have rapidly permeated society, catalyzing a wave of generative AI applications spanning enterprise and consumer-facing contexts. While the societal impact of foundation models is growing, transparency is on the decline, mirroring the opacity that has plagued past digital technologies (e.g. social media). Reversing this trend is essential: transparency is a vital precondition for public accountability, scientific innovation, and effective governance. To assess the transparency of the foundation model ecosystem and help improve transparency over time, we introduce the Foundation Model Transparency Index. The Foundation Model Transparency Index specifies 100 fine-grained indicators that comprehensively codify transparency for foundation models, spanning the upstream resources used to build a foundation model (e.g data, labor, compute), details about the model itself (e.g. size, capabilities, risks), and the downstream use (e.g. distribution channels, usage policies, affected geographies). We score 10 major foundation model developers (e.g. OpenAI, Google, Meta) against the 100 indicators to assess their transparency. To facilitate and standardize assessment, we score developers in relation to their practices for their flagship foundation model (e.g. GPT-4 for OpenAI, PaLM 2 for Google, Llama 2 for Meta). We present 10 top-level findings about the foundation model ecosystem: for example, no developer currently discloses significant information about the downstream impact of its flagship model, such as the number of users, affected market sectors, or how users can seek redress for harm. Overall, the Foundation Model Transparency Index establishes the level of transparency today to drive progress on foundation model governance via industry standards and regulatory intervention.
翻訳日:2023-10-20 13:54:27 公開日:2023-10-19
# 事前学習されたマスキング言語モデルにおける社会的バイアスとタスクパフォーマンスの予測因子分析

A Predictive Factor Analysis of Social Biases and Task-Performance in Pretrained Masked Language Models ( http://arxiv.org/abs/2310.12936v1 )

ライセンス: Link先を確認
Yi Zhou, Jose Camacho-Collados, Danushka Bollegala(参考訳) 様々な社会的バイアスが事前訓練されたマスケッド言語モデル(MLM)によって報告されている。 しかしながら、そのモデルサイズ、トレーニングデータのサイズ、トレーニング対象、事前トレーニングデータのサンプル化されたドメイン、トークン化、プリトレーニングされたコーパスに存在する言語など、複数の下位要素がmlmに関連付けられ、いくつかの名称が与えられる。 MLMが学習した社会的偏見にどのような影響があるのかは、まだ不明である。 モデルファクターとMLMが学習した社会的バイアスとモデル下流タスク性能の関係を検討するため,モデルのサイズ,トレーニング目標,トークン化方法,データドメインのトレーニング,言語を対象とする39の事前学習MLMを総合的に調査した。 我々の結果は、トークン化やモデル目的など、以前の文献で無視される重要な要素に光を当てた。

Various types of social biases have been reported with pretrained Masked Language Models (MLMs) in prior work. However, multiple underlying factors are associated with an MLM such as its model size, size of the training data, training objectives, the domain from which pretraining data is sampled, tokenization, and languages present in the pretrained corpora, to name a few. It remains unclear as to which of those factors influence social biases that are learned by MLMs. To study the relationship between model factors and the social biases learned by an MLM, as well as the downstream task performance of the model, we conduct a comprehensive study over 39 pretrained MLMs covering different model sizes, training objectives, tokenization methods, training data domains and languages. Our results shed light on important factors often neglected in prior literature, such as tokenization or model objectives.
翻訳日:2023-10-20 13:53:53 公開日:2023-10-19
# エントロピー規則化RLとしての生成フローネットワーク

Generative Flow Networks as Entropy-Regularized RL ( http://arxiv.org/abs/2310.12934v1 )

ライセンス: Link先を確認
Daniil Tiapkin, Nikita Morozov, Alexey Naumov, Dmitry Vetrov(参考訳) 最近提案された生成フローネットワーク(GFlowNets)は、一連のアクションを通して与えられた報酬に比例する確率を持つ合成離散オブジェクトをサンプリングするポリシーを訓練する手法である。 GFlowNetsはこの問題のシーケンシャルな性質を利用し、強化学習(RL)と平行に描画する。 我々の研究は、RL と GFlowNets の接続を一般的なケースに拡張する。 生成フローネットワークを学習するタスクを,特定の報酬と正規化器構造を持つエントロピー規則化RL問題として効率的に再定義できることを示す。 さらに,複数の確率的モデリングタスクにわたるgflownetトレーニングに標準ソフトrlアルゴリズムを適用することで,この再構成の実用的効率を示す。 先に報告した結果とは対照的に,エントロピー的RLアプローチは,既存のGFlowNetトレーニング手法と競合する可能性がある。 この視点は、生成フローネットワークの領域に強化学習原則を統合するための直接的な道を開く。

The recently proposed generative flow networks (GFlowNets) are a method of training a policy to sample compositional discrete objects with probabilities proportional to a given reward via a sequence of actions. GFlowNets exploit the sequential nature of the problem, drawing parallels with reinforcement learning (RL). Our work extends the connection between RL and GFlowNets to a general case. We demonstrate how the task of learning a generative flow network can be efficiently redefined as an entropy-regularized RL problem with a specific reward and regularizer structure. Furthermore, we illustrate the practical efficiency of this reformulation by applying standard soft RL algorithms to GFlowNet training across several probabilistic modeling tasks. Contrary to previously reported results, we show that entropic RL approaches can be competitive against established GFlowNet training methods. This perspective opens a direct path for integrating reinforcement learning principles into the realm of generative flow networks.
翻訳日:2023-10-20 13:53:36 公開日:2023-10-19
# スプリットスピンスクイーズ状態を持つマクロ微視的重ね合わせのキャラクタリゼーションと調製

Assisted metrology and preparation of macroscopic superpositions with split spin-squeezed states ( http://arxiv.org/abs/2310.12933v1 )

ライセンス: Link先を確認
Jiajie Guo, Fengxiao Sun, Qiongyi He, Matteo Fadel(参考訳) 本研究では, スプリットスピンスキー状態の1つの部分が残されている条件状態について, 他の部分の集団スピン測定を行うことで解析する。 適切な測定方向と結果を得るためには、ハイゼンベルク限界に達するまで高い量子フィッシャー情報を持つ状態が得られる可能性がある。 これにより、例えば、プローブ内の粒子数が有界な状況において、標準的なアプローチよりも優れたメトロジープロトコルを提案することができる。 本プロトコルのロバスト性は, 粒子数変動や不完全検出など, 低温原子実験における現実的なノイズ形態を考慮し検討した。 最終的に、この測定に基づく状態準備アプローチにより、分割前の初期状態がわずかに絞り込まれていない場合でも、スピンシュル({o}dinger's cat state)の状態の条件付き (\ie heralded) 合成が可能となることを示す。

We analyse the conditional states in which one part of a split spin-squeezed state is left, upon performing a collective spin measurement on the other part. For appropriate measurement directions and outcomes, we see the possibility of obtaining states with high quantum Fisher information, even reaching the Heisenberg limit. This allows us to propose a metrological protocol that can outperform standard approaches, for example in a situation where the number of particles in the probe is bounded. The robustness of this protocol is investigated by considering realistic forms of noise present in cold-atom experiments, such as particle number fluctuations and imperfect detection. Ultimately, we show how this measurement-based state preparation approach can allow for the conditional (\ie heralded) preparation of spin Schr\"{o}dinger's cat states even when the initial state before splitting is only mildly squeezed.
翻訳日:2023-10-20 13:53:21 公開日:2023-10-19
# Eureka: 大規模言語モデルのコーディングによるヒューマンレベルリワード設計

Eureka: Human-Level Reward Design via Coding Large Language Models ( http://arxiv.org/abs/2310.12931v1 )

ライセンス: Link先を確認
Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar(参考訳) 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れている。 しかし、粗いペン回転のような複雑な低レベルの操作タスクを学習するためにそれらを活用することは、未解決の問題である。 このギャップを橋渡しし,llmsを用いた人間レベルの報酬設計アルゴリズムであるeurekaを提案する。 Eurekaは、GPT-4のような最先端のLCMの顕著なゼロショット生成、コード書き、コンテキスト改善機能を利用して、報酬コードよりも進化的な最適化を行う。 得られた報酬は強化学習によって複雑なスキルを獲得するのに使うことができる。 タスク固有のプロンプトや事前定義された報酬テンプレートがなければ、Eurekaは有能な人間工学的な報酬よりも優れた報酬関数を生成する。 10の異なるロボット形態を含む29のオープンソースRL環境の多様なスイートにおいて、Eurekaは83%のタスクで人間の専門家より優れており、平均52%の正規化された改善につながっている。 ユーレカの一般性はまた、人間のフィードバックからの強化学習(RLHF)のための新しい勾配なしのインコンテキスト学習アプローチを可能にし、人間の入力を容易に取り入れることで、モデル更新なしで生成された報酬の品質と安全性を向上させることができる。 最後に、カリキュラム学習環境におけるユーレカ報酬を用いて、ペン回転トリックを実行し、高速でペンを円状に巧みに操作できるシミュレートされたシャドウハンドを初めて実演する。

Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this fundamental gap and present Eureka, a human-level reward design algorithm powered by LLMs. Eureka exploits the remarkable zero-shot generation, code-writing, and in-context improvement capabilities of state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over reward code. The resulting rewards can then be used to acquire complex skills via reinforcement learning. Without any task-specific prompting or pre-defined reward templates, Eureka generates reward functions that outperform expert human-engineered rewards. In a diverse suite of 29 open-source RL environments that include 10 distinct robot morphologies, Eureka outperforms human experts on 83% of the tasks, leading to an average normalized improvement of 52%. The generality of Eureka also enables a new gradient-free in-context learning approach to reinforcement learning from human feedback (RLHF), readily incorporating human inputs to improve the quality and the safety of the generated rewards without model updating. Finally, using Eureka rewards in a curriculum learning setting, we demonstrate for the first time, a simulated Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a pen in circles at rapid speed.
翻訳日:2023-10-20 13:53:04 公開日:2023-10-19
# 偽の信念を推測する確率論的チームモデリング

Probabilistic Modeling of Human Teams to Infer False Beliefs ( http://arxiv.org/abs/2310.12929v1 )

ライセンス: Link先を確認
Paulo Soares, Adarsh Pyarelal, Kobus Barnard(参考訳) 本研究では,3人のプレイヤーからなるマインクラフト環境で実施される都市探索救助(USAR)シナリオにおいて,AIエージェントの確率論的グラフィカルモデルを構築し,人間の信念を推測する。 PGMのアプローチは、観測可能な状態と行動を明確にし、プレイヤーが時間とともに見たり、何をするかという証拠に基づく信念と意図を明確化する。 このアプローチはまた、人間のチームを支援するAIエージェントが不可欠である介入の効果を推測することを支援する。 この実験にはプレイヤーの知識の操作が組み込まれており、仮想マインクラフトベースのテストベッドはプレイヤーの視野内のオブジェクトを含む複数の情報ストリームへのアクセスを提供する。 参加者は、部屋の入り口近くにマーカーブロックを配置して、部屋にいる犠牲者の存在や不在をチームメイトに知らせることができる。 各チームでは、メンバーの1人に他の2人とは異なる伝説が与えられ、部屋の状態について誤解を招く可能性がある。 我々は、個人的および共有的精神状態の推論が可能なaiエージェントであるtomcatを導入することで、この分野の以前の作業を拡張する。 プレイヤーの行動は、ゲーム内の視野で見たもの、マーカーの意味に関する信念、そして、チームが採用することを決めた意味に関する信念に影響されていることがわかりました。 さらに,ToMCATの信念はプレイヤーの行動と一致しており,人間の観察者による推測に匹敵する精度で誤信を推測できることを示した。

We develop a probabilistic graphical model (PGM) for artificially intelligent (AI) agents to infer human beliefs during a simulated urban search and rescue (USAR) scenario executed in a Minecraft environment with a team of three players. The PGM approach makes observable states and actions explicit, as well as beliefs and intentions grounded by evidence about what players see and do over time. This approach also supports inferring the effect of interventions, which are vital if AI agents are to assist human teams. The experiment incorporates manipulations of players' knowledge, and the virtual Minecraft-based testbed provides access to several streams of information, including the objects in the players' field of view. The participants are equipped with a set of marker blocks that can be placed near room entrances to signal the presence or absence of victims in the rooms to their teammates. In each team, one of the members is given a different legend for the markers than the other two, which may mislead them about the state of the rooms; that is, they will hold a false belief. We extend previous works in this field by introducing ToMCAT, an AI agent that can reason about individual and shared mental states. We find that the players' behaviors are affected by what they see in their in-game field of view, their beliefs about the meaning of the markers, and their beliefs about which meaning the team decided to adopt. In addition, we show that ToMCAT's beliefs are consistent with the players' actions and that it can infer false beliefs with accuracy significantly better than chance and comparable to inferences made by human observers.
翻訳日:2023-10-20 13:52:38 公開日:2023-10-19
# sgdの非凸収束の神話と伝説の幻想化

Demystifying the Myths and Legends of Nonconvex Convergence of SGD ( http://arxiv.org/abs/2310.12969v1 )

ライセンス: Link先を確認
Aritra Dutta, El Houcine Bergou, Soumia Boucherouite, Nicklas Werge, Melih Kandemir, Xin Li(参考訳) 確率勾配勾配(SGD)とその変種は、非凸目的関数を用いた大規模最適化問題の解法の主要な仕事場である。 SGD の(強く)凸の場合の収束はよく理解されているが、非凸函数に対する収束は弱い数学的基礎の上に立つ。 SGDの非凸収束に関する既存の研究は、予想される勾配ノルムの最小値と(余分な構造的性質を持つ函数に対する)機能的部分最適ギャップに基づいて、イテレートの全範囲を探索することによって複雑さの結果を示す。 したがって、sgdの最後のイテレーションは必ずしも同じ複雑さの保証を保たない。 この論文は、sgdsの最終イテレートに$\epsilon$-stationary pointが存在し、十分な総イテレーション予算が与えられ、イテレートの範囲内だけでなく、既存のイテレートよりもずっと強力な結果が得られることを示している。 さらに,本解析により,sgd の最終イテレートにおける $\epsilon$-stationary point の密度を測定し,目的関数と確率勾配の境界に関する様々な既定仮定の下で古典的 $o(\frac{1}{\sqrt{t}})$ asymptotic rate を回復する。 分析の結果,SGDの非凸収束に関連する神話や伝説に対処し,新たな研究の方向性を定めうる思慮に富んだ疑問を提起した。

Stochastic gradient descent (SGD) and its variants are the main workhorses for solving large-scale optimization problems with nonconvex objective functions. Although the convergence of SGDs in the (strongly) convex case is well-understood, their convergence for nonconvex functions stands on weak mathematical foundations. Most existing studies on the nonconvex convergence of SGD show the complexity results based on either the minimum of the expected gradient norm or the functional sub-optimality gap (for functions with extra structural property) by searching the entire range of iterates. Hence the last iterations of SGDs do not necessarily maintain the same complexity guarantee. This paper shows that an $\epsilon$-stationary point exists in the final iterates of SGDs, given a large enough total iteration budget, $T$, not just anywhere in the entire range of iterates -- a much stronger result than the existing one. Additionally, our analyses allow us to measure the density of the $\epsilon$-stationary points in the final iterates of SGD, and we recover the classical $O(\frac{1}{\sqrt{T}})$ asymptotic rate under various existing assumptions on the objective function and the bounds on the stochastic gradient. As a result of our analyses, we addressed certain myths and legends related to the nonconvex convergence of SGD and posed some thought-provoking questions that could set new directions for research.
翻訳日:2023-10-20 13:47:16 公開日:2023-10-19
# あなたのモデルはエンジニアのように見えるか? 深層学習による故障検出のための説明可能なAI

Does Your Model Think Like an Engineer? Explainable AI for Bearing Fault Detection with Deep Learning ( http://arxiv.org/abs/2310.12967v1 )

ライセンス: Link先を確認
Thomas Decker, Michael Lebacher, and Volker Tresp(参考訳) Deep Learningはすでに、さまざまなユースケースにおける産業センサデータ分析に成功している。 しかし、多くのうまく機能するメソッドの不透明な性質は、現実のデプロイメントにとって大きな障害となる。 説明可能なAI(XAI)、特に特徴属性技術は、そのようなモデルがどのように意思決定を形成するかについての洞察を可能にする。 しかし、そのような方法の平易な適用は、ドメインエキスパートに真に有益で問題に固有の洞察を提供することに失敗します。 本研究では,振動信号から転がり要素軸受の欠陥を検出することに焦点を当てた。 我々は、モデルの基盤となるロジックがいかに専門家の推論と合致するかを評価することができる、新規でドメイン固有の機能帰属フレームワークを提案する。 フレームワークを利用することで、信頼性を検証し、さまざまな優れたディープラーニングモデルの一般化能力を期待できます。 提案手法は,信号処理ツールを用いて説明可能なAI技術を強化し,同様の問題のテンプレートとして機能することを示す。

Deep Learning has already been successfully applied to analyze industrial sensor data in a variety of relevant use cases. However, the opaque nature of many well-performing methods poses a major obstacle for real-world deployment. Explainable AI (XAI) and especially feature attribution techniques promise to enable insights about how such models form their decision. But the plain application of such methods often fails to provide truly informative and problem-specific insights to domain experts. In this work, we focus on the specific task of detecting faults in rolling element bearings from vibration signals. We propose a novel and domain-specific feature attribution framework that allows us to evaluate how well the underlying logic of a model corresponds with expert reasoning. Utilizing the framework we are able to validate the trustworthiness and to successfully anticipate the generalization ability of different well-performing deep learning models. Our methodology demonstrates how signal processing tools can effectively be used to enhance Explainable AI techniques and acts as a template for similar problems.
翻訳日:2023-10-20 13:46:47 公開日:2023-10-19
# テンソルネットワークを用いた前最適化変分量子固有解法

Pre-optimizing variational quantum eigensolvers with tensor networks ( http://arxiv.org/abs/2310.12965v1 )

ライセンス: Link先を確認
Abid Khan, Bryan K. Clark, Norm M. Tubman(参考訳) 変分量子固有解法(VQE)は、ノイズのある中間スケール量子(NISQ)時代に量子優位を示す有望なアルゴリズムである。 しかし、バレン高原、ノイズの有無の最適化、収束の遅いといった様々な問題により、ランダムな初期開始パラメータからVQEを最適化することは困難である。 量子回路のシミュレーションは一般には難しいが、古典的な計算手法が広く開発され、量子回路を概ねシミュレートするための強力なツールが現在存在する。 これにより、量子ハードウェア上で実行する最適化の量を制限する様々な戦略が開かれる。 本稿では,パラメータ化量子回路 (PQC) を有限結合次元の行列積状態 (MPS) として近似することにより,古典的にVQEをシミュレートすることで,パラメータ化量子回路のよい開始パラメータを求める手法を提案する。 このアプローチは変分テンソルネットワーク固有解法(VTNE)と呼ばれ、最大32キュービットのシステムサイズを持つ1Dおよび2Dフェルミ-ハッバードモデルに適用する。 1Dでは、VTNE は基底状態に対してエネルギー誤差が 0.5% 以内の PQC のパラメータを見つけることができる。 2Dでは、VTNEが検出するパラメータは開始構成よりもはるかに低いエネルギーであり、これらのパラメータから開始するVQEは、与えられたエネルギーに降り着くためには、自明に少ない演算を必要とすることを示す。 VTNEで使用する結合次元が大きくなるほど、VQEで行う必要は少なくなる。 量子回路の初期化として古典的に最適化されたパラメータを生成することで、量子コンピュータ上でvqeを悩ませる多くの課題を軽減できる。

The variational quantum eigensolver (VQE) is a promising algorithm for demonstrating quantum advantage in the noisy intermediate-scale quantum (NISQ) era. However, optimizing VQE from random initial starting parameters is challenging due to a variety of issues including barren plateaus, optimization in the presence of noise, and slow convergence. While simulating quantum circuits classically is generically difficult, classical computing methods have been developed extensively, and powerful tools now exist to approximately simulate quantum circuits. This opens up various strategies that limit the amount of optimization that needs to be performed on quantum hardware. Here we present and benchmark an approach where we find good starting parameters for parameterized quantum circuits by classically simulating VQE by approximating the parameterized quantum circuit (PQC) as a matrix product state (MPS) with a limited bond dimension. Calling this approach the variational tensor network eigensolver (VTNE), we apply it to the 1D and 2D Fermi-Hubbard model with system sizes that use up to 32 qubits. We find that in 1D, VTNE can find parameters for PQC whose energy error is within 0.5% relative to the ground state. In 2D, the parameters that VTNE finds have significantly lower energy than their starting configurations, and we show that starting VQE from these parameters requires non-trivially fewer operations to come down to a given energy. The higher the bond dimension we use in VTNE, the less work needs to be done in VQE. By generating classically optimized parameters as the initialization for the quantum circuit one can alleviate many of the challenges that plague VQE on quantum computers.
翻訳日:2023-10-20 13:46:31 公開日:2023-10-19
# ラベルシフト下でのPAC予測

PAC Prediction Sets Under Label Shift ( http://arxiv.org/abs/2310.12964v1 )

ライセンス: Link先を確認
Wenwen Si, Sangdon Park, Insup Lee, Edgar Dobriban and Osbert Bastani(参考訳) 予測セットは、個々のラベルではなくラベルのセットを予測することで不確実性を捉え、下流の判断がすべての妥当な結果に保守的に説明できる。 コンフォーマル推論アルゴリズムは、真のラベルを高い確率で含むことが保証される予測セットを構成する。 これらの保証は、信頼性の高い不確かさの定量化が最も有用であるときに、分布シフトに直面して保持できない。 ラベルシフト設定においてPAC保証付き予測セットを構築するための新しいアルゴリズムを提案する。 この方法では、対象領域のクラスと混乱行列の予測確率を推定し、ガウス除去アルゴリズムを用いてこれらの推定値の不確かさを伝搬し、重要重みに対する信頼区間を計算する。 最後に、これらの間隔を使って予測セットを構築する。 我々は、cifar-10、胸部x線およびentity-13画像データセット、表cdcハートデータセット、agnewsテキストデータセットの5つのデータセットに対するアプローチを評価した。 提案アルゴリズムはPAC保証を満たすとともに,より小さく,より情報に富む予測セットを生成する。

Prediction sets capture uncertainty by predicting sets of labels rather than individual labels, enabling downstream decisions to conservatively account for all plausible outcomes. Conformal inference algorithms construct prediction sets guaranteed to contain the true label with high probability. These guarantees fail to hold in the face of distribution shift, which is precisely when reliable uncertainty quantification can be most useful. We propose a novel algorithm for constructing prediction sets with PAC guarantees in the label shift setting. This method estimates the predicted probabilities of the classes in a target domain, as well as the confusion matrix, then propagates uncertainty in these estimates through a Gaussian elimination algorithm to compute confidence intervals for importance weights. Finally, it uses these intervals to construct prediction sets. We evaluate our approach on five datasets: the CIFAR-10, ChestX-Ray and Entity-13 image datasets, the tabular CDC Heart dataset, and the AGNews text dataset. Our algorithm satisfies the PAC guarantee while producing smaller, more informative, prediction sets compared to several baselines.
翻訳日:2023-10-20 13:46:01 公開日:2023-10-19
# automix: 言語モデルの自動混合

AutoMix: Automatically Mixing Language Models ( http://arxiv.org/abs/2310.12963v1 )

ライセンス: Link先を確認
Aman Madaan, Pranjal Aggarwal, Ankit Anand, Srividya Pranavi Potharaju, Swaroop Mishra, Pei Zhou, Aditya Gupta, Dheeraj Rajagopal, Karthik Kappaganthu, Yiming Yang, Shyam Upadhyay, Mausam, Manaal Faruqui(参考訳) 大規模言語モデル(LLM)が、クラウドAPIプロバイダからさまざまなサイズと構成で利用可能になった。 この多様性は幅広い選択肢を提供するが、計算コストと性能を最適化するオプションを効果的に活用することは依然として困難である。 本稿では,より小さいlmからの出力の近似正しさに基づいて,クエリをより大きなlmに戦略的にルーティングする手法であるautomixを提案する。 Central to AutoMixは数発の自己検証メカニズムで、トレーニングを必要とせずに出力の信頼性を見積もる。 検証がノイズになりうることを考慮し、これらの評価の精度を向上するためにAutoMixのメタ検証を用いる。 llama2-13/70bを用いた5つのコンテキストに基づく推論データセットによる実験では,automixが確立されたベースラインを上回っており,コストごとのインクリメンタルなメリットを最大89%向上している。 私たちのコードとデータはhttps://github.com/automix-llm/automixで入手できます。

Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.
翻訳日:2023-10-20 13:45:42 公開日:2023-10-19
# 小言語モデルを用いた大規模言語モデルの微調整エミュレータ

An Emulator for Fine-Tuning Large Language Models using Small Language Models ( http://arxiv.org/abs/2310.12962v1 )

ライセンス: Link先を確認
Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning(参考訳) 広く使われている言語モデル(lms)は、通常、2段階のトレーニングパイプラインをスケールアップすることで構築される。テキストの非常に大きく多様なデータセットを使用する事前トレーニングステージと、望ましい振る舞いのターゲット例やその他の仕様を使用する微調整ステージ(時には'alignment')である。 知識とスキルは事前トレーニングによるものと仮定され、微調整は知識とスキルセットをほとんど阻害するが、この直観は広くテストされていない。 そこで我々は,この2つの段階において得られた知識とスキルを疎結合化するための新しい手法を導入し,「大型モデルが事前学習中に学んだ知識と小型モデルが習得した知識(あるいはその逆)を組み合せたらどうなるか?」という疑問への直接的な回答を可能にした。 人間の嗜好から学ぶことの最近の進歩から生まれたRLベースのフレームワークを用いて、異なるスケールでの事前学習と微調整の結果を近似(または「エミュレート」)する分布からサンプリングするエミュレートファインチューニング(EFT)を原則的かつ実践的に導入する。 EFTを用いた実験では、微調整のスケールアップは有用性を改善する傾向を示し、事前学習のスケールアップは事実性を改善する傾向を示した。 スケールをデカップリングする以外に、EDTは追加のトレーニングなしで、助け合いや無害といった競合する行動特性をテストタイムで調整できることを示す。 最後に、LMアップスケーリングと呼ばれるエミュレートファインチューニングの特殊な場合において、大規模事前学習モデルの微調整の結果をエミュレートすることで、大規模事前学習モデルの資源集約的な微調整を回避する。 アップスケーリングは、追加のハイパーパラメータやトレーニングなしで、llama、llama-2、falconファミリの命令追従モデルの有用性と事実性を一貫して改善する。

Widely used language models (LMs) are typically built by scaling up a two-stage training pipeline: a pre-training stage that uses a very large, diverse dataset of text and a fine-tuning (sometimes, 'alignment') stage that uses targeted examples or other specifications of desired behaviors. While it has been hypothesized that knowledge and skills come from pre-training, and fine-tuning mostly filters this knowledge and skillset, this intuition has not been extensively tested. To aid in doing so, we introduce a novel technique for decoupling the knowledge and skills gained in these two stages, enabling a direct answer to the question, "What would happen if we combined the knowledge learned by a large model during pre-training with the knowledge learned by a small model during fine-tuning (or vice versa)?" Using an RL-based framework derived from recent developments in learning from human preferences, we introduce emulated fine-tuning (EFT), a principled and practical method for sampling from a distribution that approximates (or 'emulates') the result of pre-training and fine-tuning at different scales. Our experiments with EFT show that scaling up fine-tuning tends to improve helpfulness, while scaling up pre-training tends to improve factuality. Beyond decoupling scale, we show that EFT enables test-time adjustment of competing behavioral traits like helpfulness and harmlessness without additional training. Finally, a special case of emulated fine-tuning, which we call LM up-scaling, avoids resource-intensive fine-tuning of large pre-trained models by ensembling them with small fine-tuned models, essentially emulating the result of fine-tuning the large pre-trained model. Up-scaling consistently improves helpfulness and factuality of instruction-following models in the Llama, Llama-2, and Falcon families, without additional hyperparameters or training.
翻訳日:2023-10-20 13:45:23 公開日:2023-10-19
# SEGO: 数学的問題解決のための逐次部分最適化

SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving ( http://arxiv.org/abs/2310.12960v1 )

ライセンス: Link先を確認
Xueliang Zhao, Xinting Huang, Wei Bi, Lingpeng Kong(参考訳) 近年、Large Language Models (LLM) は人工知能の大幅な進歩を導いており、数学的な問題解決を含む幅広いタスクで優れた能力を発揮している。 サブゴール法の成功に触発されて,数理問題を解くための LLM の能力を高めるための新しいフレームワークである \textbf{SE}quential sub\textbf{G}oal \textbf{O}ptimization (SEGO) を提案する。 サブゴール分解プロセスと問題解決の確率の関連を確立することで、SEGOは理論的な保証でより良いサブゴールを特定することを目指している。 大規模なソリューション空間において適切なサブゴールを特定するという課題に対処するため,我々のフレームワークは問題固有のサブゴールを生成し,慎重に設計された基準に従って調整する。 これらの最適化されたサブゴールをポリシーモデルトレーニングに組み込むことで、問題解決のパフォーマンスが大幅に向上する。 我々は,本手法が既存の手法を上回っているgsm8kとmathの2つのベンチマークを用いてsegoの有効性を検証し,aiによる数学的問題解決におけるsegoの可能性を強調した。 この論文に関連するデータとコードは、https://github.com/zhaoxlpku/segoで入手できる。

Large Language Models (LLMs) have driven substantial progress in artificial intelligence in recent years, exhibiting impressive capabilities across a wide range of tasks, including mathematical problem-solving. Inspired by the success of subgoal-based methods, we propose a novel framework called \textbf{SE}quential sub\textbf{G}oal \textbf{O}ptimization (SEGO) to enhance LLMs' ability to solve mathematical problems. By establishing a connection between the subgoal breakdown process and the probability of solving problems, SEGO aims to identify better subgoals with theoretical guarantees. Addressing the challenge of identifying suitable subgoals in a large solution space, our framework generates problem-specific subgoals and adjusts them according to carefully designed criteria. Incorporating these optimized subgoals into the policy model training leads to significant improvements in problem-solving performance. We validate SEGO's efficacy through experiments on two benchmarks, GSM8K and MATH, where our approach outperforms existing methods, highlighting the potential of SEGO in AI-driven mathematical problem-solving. Data and code associated with this paper will be available at https://github.com/zhaoxlpku/SEGO
翻訳日:2023-10-20 13:44:46 公開日:2023-10-19
# 変圧器のエレウリカ-モーメント:マルチステップタスクがSoftmaxによる最適化問題を解き明かす

Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems ( http://arxiv.org/abs/2310.12956v1 )

ライセンス: Link先を確認
David T. Hoffmann, Simon Schrodi, Nadine Behrmann, Volker Fischer, Thomas Brox(参考訳) 本研究では,多段階決定タスクに直面した際の変圧器の損失の迅速かつ段階的な改善について検討する。 トランスフォーマーが中間タスクを学ぶのに苦労しているのに対して、cnnは研究したタスクにそのような問題はないことがわかった。 トランスフォーマは中間タスクを学習すると、数百エポックにわたってトレーニングと検証の損失が飽和した後、迅速かつ予期せぬほどこれを実行します。 Eureka-momentsと呼ばれるこの急激な改善は、トランスフォーマーが突然、理解不能なタスクを学習したように見えるためである。 同様のパフォーマンスの飛躍はGrokkingとして知られるようになった。 grokkingとは対照的に、eureka-momentsでは、バリデーションとトレーニング損失の両方が急速に改善する前に飽和する。 この問題をトランスフォーマーの自己アテンションブロックのソフトマックス関数に遡り、問題を緩和する方法を示す。 これらの修正はトレーニング速度を改善する。 改良されたモデルは、トレーニングステップのわずか20%でベースラインモデルの95%に達し、中間タスクを学習する確率がはるかに高く、最終的な精度が向上し、ハイパーパラメーターに対して堅牢である。

In this work, we study rapid, step-wise improvements of the loss in transformers when being confronted with multi-step decision tasks. We found that transformers struggle to learn the intermediate tasks, whereas CNNs have no such issue on the tasks we studied. When transformers learn the intermediate task, they do this rapidly and unexpectedly after both training and validation loss saturated for hundreds of epochs. We call these rapid improvements Eureka-moments, since the transformer appears to suddenly learn a previously incomprehensible task. Similar leaps in performance have become known as Grokking. In contrast to Grokking, for Eureka-moments, both the validation and the training loss saturate before rapidly improving. We trace the problem back to the Softmax function in the self-attention block of transformers and show ways to alleviate the problem. These fixes improve training speed. The improved models reach 95% of the baseline model in just 20% of training steps while having a much higher likelihood to learn the intermediate task, lead to higher final accuracy and are more robust to hyper-parameters.
翻訳日:2023-10-20 13:44:24 公開日:2023-10-19
# 多様なデータ破壊下でのロバストオフライン強化学習に向けて

Towards Robust Offline Reinforcement Learning under Diverse Data Corruption ( http://arxiv.org/abs/2310.12955v1 )

ライセンス: Link先を確認
Rui Yang, Han Zhong, Jiawei Xu, Amy Zhang, Chongjie Zhang, Lei Han, Tong Zhang(参考訳) オフライン強化学習(rl)は、コストのかかる、あるいは安全でない環境とのインタラクションを必要とせずに、オフラインデータセットから強化されたポリシーを学ぶための有望なアプローチを提供する。 しかし、実際の環境で人間が収集したデータセットは、しばしば騒々しく、悪質に悪用されることもあり、オフラインのRLの性能を著しく低下させる可能性がある。 本研究では,現状のオフラインrlアルゴリズムの性能を,状態,動作,報酬,ダイナミクスを含む総合的データ破損下で調査する。 我々の広範な実験により、暗黙のq-learning(iql)が様々なオフラインrlアルゴリズムにおけるデータ破損に対する顕著なレジリエンスを示していることが明らかとなった。 さらに、IQLのロバストなパフォーマンスを理解するために、実証的および理論的両方の分析を行い、その教師付きポリシー学習スキームを重要な要素とみなす。 相対的な堅牢性にもかかわらず、iqlはダイナミクス破壊下でq関数のヘビーテールターゲットに苦しめられている。 この課題に取り組むために,我々は,ヘビーテールネスを扱うためにフーバーロスを活用し,腐敗したデータに対するペナライゼーションと学習安定性のバランスをとるために,質的推定器を活用するためのロバストな統計からインスピレーションを得た。 これらの単純で効果的な修正をIQLに組み込むことで、ロバストIQL(RIQL)というより堅牢なオフラインRLアプローチを提案する。 大規模な実験により、RIQLはさまざまなデータ破損シナリオで非常に堅牢なパフォーマンスを示します。

Offline reinforcement learning (RL) presents a promising approach for learning reinforced policies from offline datasets without the need for costly or unsafe interactions with the environment. However, datasets collected by humans in real-world environments are often noisy and may even be maliciously corrupted, which can significantly degrade the performance of offline RL. In this work, we first investigate the performance of current offline RL algorithms under comprehensive data corruption, including states, actions, rewards, and dynamics. Our extensive experiments reveal that implicit Q-learning (IQL) demonstrates remarkable resilience to data corruption among various offline RL algorithms. Furthermore, we conduct both empirical and theoretical analyses to understand IQL's robust performance, identifying its supervised policy learning scheme as the key factor. Despite its relative robustness, IQL still suffers from heavy-tail targets of Q functions under dynamics corruption. To tackle this challenge, we draw inspiration from robust statistics to employ the Huber loss to handle the heavy-tailedness and utilize quantile estimators to balance penalization for corrupted data and learning stability. By incorporating these simple yet effective modifications into IQL, we propose a more robust offline RL approach named Robust IQL (RIQL). Extensive experiments demonstrate that RIQL exhibits highly robust performance when subjected to diverse data corruption scenarios.
翻訳日:2023-10-20 13:44:04 公開日:2023-10-19
# 集積型光パラメトリック発振器を用いた単一モード圧縮光発生とトモグラフィ

Single-Mode Squeezed Light Generation and Tomography with an Integrated Optical Parametric Oscillator ( http://arxiv.org/abs/2310.12954v1 )

ライセンス: Link先を確認
Taewon Park, Hubert S. Stokowski, Vahid Ansari, Samuel Gyger, Kevin K. S. Multani, Oguz Tolga Celik, Alexander Y. Hwang, Devin J. Dean, Felix M. Mayor, Timothy P. McKenna, Martin M. Fejer, Amir H. Safavi-Naeini(参考訳) 量子光学技術はセンシング、コンピューティング、通信の進歩を約束する。 鍵となるリソースは圧縮光であり、量子ノイズは光学的二次構造の間で再分配される。 我々は, 薄膜窒化リチウム共振器(TFLN)の非線形性を利用して, 光の励起状態を効率よく生成する, モノリシックなチップスケールのプラットフォームを導入する。 我々のシステムは、レーザーと2つの検出器を除くすべての必須成分を、1平方センチメートルの面積の1チップに統合し、従来のセットアップに関連するサイズ、運用上の複雑さ、消費電力を大幅に削減します。 本研究は、従来の統合型非線形フォトニック実装が、$\chi^{(3)}$非線形共振器または$\chi^{(2)}$パラメトリック増幅器に依存する場合の課題に対処する。 同じチップ上に実装した平衡ホモダイン測定サブシステムを用いて、0.55dBのスクイーズと1.55dBのアンチスクイーズを測定する。 我々は20mWの入力電力を用いて、同じチップ上で第2高調波発生を用いてパラメトリック振動子ポンプ場を生成する。 我々の研究は、集積非線形および量子フォトニクスの急速な進歩を活用するために、コンパクトで効率的な量子光学システムに向けた重要な一歩である。

Quantum optical technologies promise advances in sensing, computing, and communication. A key resource is squeezed light, where quantum noise is redistributed between optical quadratures. We introduce a monolithic, chip-scale platform that exploits the $\chi^{(2)}$ nonlinearity of a thin-film lithium niobate (TFLN) resonator device to efficiently generate squeezed states of light. Our system integrates all essential components -- except for the laser and two detectors -- on a single chip with an area of one square centimeter, significantly reducing the size, operational complexity, and power consumption associated with conventional setups. Our work addresses challenges that have limited previous integrated nonlinear photonic implementations that rely on either $\chi^{(3)}$ nonlinear resonators or on integrated waveguide $\chi^{(2)}$ parametric amplifiers. Using the balanced homodyne measurement subsystem that we implemented on the same chip, we measure a squeezing of 0.55 dB and an anti-squeezing of 1.55 dB. We use 20 mW of input power to generate the parametric oscillator pump field by employing second harmonic generation on the same chip. Our work represents a substantial step toward compact and efficient quantum optical systems posed to leverage the rapid advances in integrated nonlinear and quantum photonics.
翻訳日:2023-10-20 13:43:40 公開日:2023-10-19
# ビデオオブジェクトセグメンテーションにオブジェクトを戻す

Putting the Object Back into Video Object Segmentation ( http://arxiv.org/abs/2310.12982v1 )

ライセンス: Link先を確認
Ho Kei Cheng, Seoung Wug Oh, Brian Price, Joon-Young Lee, Alexander Schwing(参考訳) 我々は、オブジェクトレベルのメモリ読み込みを備えたビデオオブジェクトセグメンテーション(VOS)ネットワークであるCutieを紹介し、メモリからのオブジェクト表現をビデオオブジェクトセグメンテーション結果に戻す。 VOSの最近の研究はボトムアップレベルのメモリ読み込みを採用しており、特にノイズの一致に苦しむため、より困難なデータではパフォーマンスが低下する。 対照的に、Cutieは、クエリベースのオブジェクトトランスフォーマー(qt、つまりCutie)と反復的にボトムアップピクセル機能に再構成および相互作用するための小さなオブジェクトクエリのセットを適用することで、トップダウンのオブジェクトレベルのメモリ読み込みを実行する。 オブジェクトクエリは対象オブジェクトの高レベル要約として機能し、高解像度の特徴マップは正確なセグメンテーションのために保持される。 前景バックグラウンドのマスク付き注意と共に、cutieは前景オブジェクトのセマンティクスを背景からきれいに分離する。 挑戦的なMOSEデータセットでは、同様の実行時間でXMem上の8.7 J&Fを改善し、DeAOT上の4.2 J&Fを3倍高速で改善している。 コードはhttps://hkchengrex.github.io/cutie。

We present Cutie, a video object segmentation (VOS) network with object-level memory reading, which puts the object representation from memory back into the video object segmentation result. Recent works on VOS employ bottom-up pixel-level memory reading which struggles due to matching noise, especially in the presence of distractors, resulting in lower performance in more challenging data. In contrast, Cutie performs top-down object-level memory reading by adapting a small set of object queries for restructuring and interacting with the bottom-up pixel features iteratively with a query-based object transformer (qt, hence Cutie). The object queries act as a high-level summary of the target object, while high-resolution feature maps are retained for accurate segmentation. Together with foreground-background masked attention, Cutie cleanly separates the semantics of the foreground object from the background. On the challenging MOSE dataset, Cutie improves by 8.7 J&F over XMem with a similar running time and improves by 4.2 J&F over DeAOT while running three times as fast. Code is available at: https://hkchengrex.github.io/Cutie
翻訳日:2023-10-20 13:35:26 公開日:2023-10-19
# Pairwise Measurement-based Surface Code の改良

Improved Pairwise Measurement-Based Surface Code ( http://arxiv.org/abs/2310.12981v1 )

ライセンス: Link先を確認
Linnea Grans-Samuelsson, Ryan V. Mishmash, David Aasen, Christina Knapp, Bela Bauer, Brad Lackey, Marcus P. da Silva, Parsa Bonderson(参考訳) 本研究では, 1キュービット, 最寄りの2キュービットパウリ測定と, プラーペット当たり3キュービットの補助値を用いて, キュービットの長方形格子上での表面符号を新たに実現する。 この実現は、事前のペアワイズ計測に基づく表面コードの実現よりも実質的な利点をもたらす。 動作期間は4段階であり, 標準回路ノイズモデルの性能解析の結果, 耐故障閾値が約0.66 %であることがわかった。 シンドローム抽出回路は双方向のフックエラーを避けるため、適切な境界条件を選択することで完全な符号距離を達成することができる。 また,より深い回路深度を犠牲にして,フックエラーを完全に防止するシンドローム抽出回路の変種も構築する。 これにより境界条件に関係なく完全な距離が得られ、閾値はわずかに低下する。 さらに,表面コードの実現においてデッドコンポーネント(量子ビットと測定値)を扱うための効率的な戦略を提案する。 新しい表面コードの実現はMajoranaベースのハードウェアに高度に最適化されており、レイアウトによる制約や測定の実装を考慮に入れており、最近提案されたFloquetコードと競合する。

We devise a new realization of the surface code on a rectangular lattice of qubits utilizing single-qubit and nearest-neighbor two-qubit Pauli measurements and three auxiliary qubits per plaquette. This realization gains substantial advantages over prior pairwise measurement-based realizations of the surface code. It has a short operation period of 4 steps and our performance analysis for a standard circuit noise model yields a high fault-tolerance threshold of approximately $0.66\% $. The syndrome extraction circuits avoid bidirectional hook errors, so we can achieve full code distance by choosing appropriate boundary conditions. We also construct variants of the syndrome extraction circuits that entirely prevent hook errors, at the cost of larger circuit depth. This achieves full distance regardless of boundary conditions, with only a modest decrease in the threshold. Furthermore, we propose an efficient strategy for dealing with dead components (qubits and measurements) in our surface code realization, which can be adopted more generally for other surface code realizations. This new surface code realization is highly optimized for Majorana-based hardware, accounting for constraints imposed by layouts and the implementation of measurements, making it competitive with the recently proposed Floquet codes.
翻訳日:2023-10-20 13:35:02 公開日:2023-10-19
# HumanTOMATO:テキスト整列全体モーションジェネレーション

HumanTOMATO: Text-aligned Whole-body Motion Generation ( http://arxiv.org/abs/2310.12978v1 )

ライセンス: Link先を確認
Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang, Heung-Yeung Shum(参考訳) 本研究は,文章記述を入力として用い,高品質で多彩で一貫性のある表情,手の動き,身体の動きを同時に生成することを目的とした,新たなテキスト駆動型全身動作生成タスクを目標とする。 テキスト駆動動作生成タスクに関するこれまでの研究は、鮮明な全身動作生成におけるきめ細かな手と顔制御のキーの役割を無視し、テキストと動きの整合性が良くない、という2つの制限がある。 このような制約に対処するために,本研究分野において,適用可能な全体的モーション生成に向けた知識の最初の試みである「ヒューマントマト」という,テキストに整合した全身運動生成フレームワークを提案する。 この課題に対処するために,本ソリューションは,(1) 全体的階層型VQ-VAE (別名H$^2$VQ) と(2) 入力テキスト記述に明示的に一致した動きを生成するための事前学習されたテキスト・モーション・アライメント・モデルを含む。 総合実験により,本モデルが生成する動作の質とテキストとのアライメントの両方において有意なアドバンテージを持つことを確認した。

This work targets a novel text-driven whole-body motion generation task, which takes a given textual description as input and aims at generating high-quality, diverse, and coherent facial expressions, hand gestures, and body motions simultaneously. Previous works on text-driven motion generation tasks mainly have two limitations: they ignore the key role of fine-grained hand and face controlling in vivid whole-body motion generation, and lack a good alignment between text and motion. To address such limitations, we propose a Text-aligned whOle-body Motion generATiOn framework, named HumanTOMATO, which is the first attempt to our knowledge towards applicable holistic motion generation in this research area. To tackle this challenging task, our solution includes two key designs: (1) a Holistic Hierarchical VQ-VAE (aka H$^2$VQ) and a Hierarchical-GPT for fine-grained body and hand motion reconstruction and generation with two structured codebooks; and (2) a pre-trained text-motion-alignment model to help generated motion align with the input textual description explicitly. Comprehensive experiments verify that our model has significant advantages in both the quality of generated motions and their alignment with text.
翻訳日:2023-10-20 13:34:43 公開日:2023-10-19
# ディープネットワーク線形領域のトレーニングダイナミクス

Training Dynamics of Deep Network Linear Regions ( http://arxiv.org/abs/2310.12977v1 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk(参考訳) ディープネットワーク(DN)トレーニングダイナミクスの研究は、損失関数の進化に大きく焦点を合わせ、列車やテストセットのデータポイントの周辺で評価されている。 実際、多くのDN現象が文献で最初に導入されたのは、例えば二重降下、グラッキングなどである。 本研究では,連続的なアフィンdnsによって形成される入力空間分割あるいは線形領域のトレーニングダイナミクス,例えば(リーキー)レルル非線形性を持つネットワークについて検討する。 まず,DNの局所的複雑性(LC)を,データ点周辺の任意の次元近傍における線形領域の濃度に基づいて包含する新しい統計法を提案する。 トレーニング中、データポイント周辺のlcは、初期化後のトレンドの低下から始まり、上昇し、最終下降傾向で終わるという、いくつかのフェーズを経ることを観察した。 正確な可視化手法を用いて、トレーニングの最終lc降下フェーズの間、リニア領域はトレーニングやテストサンプルから離れ、決定境界に向かって移動し、dn入力出力を他のあらゆる場所でほぼ線形にすることを発見した。 また,DNの記憶と一般化性能,特にグルーキング時のLC位相が密接に関連していることも確認した。

The study of Deep Network (DN) training dynamics has largely focused on the evolution of the loss function, evaluated on or around train and test set data points. In fact, many DN phenomenon were first introduced in literature with that respect, e.g., double descent, grokking. In this study, we look at the training dynamics of the input space partition or linear regions formed by continuous piecewise affine DNs, e.g., networks with (leaky)ReLU nonlinearities. First, we present a novel statistic that encompasses the local complexity (LC) of the DN based on the concentration of linear regions inside arbitrary dimensional neighborhoods around data points. We observe that during training, the LC around data points undergoes a number of phases, starting with a decreasing trend after initialization, followed by an ascent and ending with a final descending trend. Using exact visualization methods, we come across the perplexing observation that during the final LC descent phase of training, linear regions migrate away from training and test samples towards the decision boundary, making the DN input-output nearly linear everywhere else. We also observe that the different LC phases are closely related to the memorization and generalization performance of the DN, especially during grokking.
翻訳日:2023-10-20 13:34:16 公開日:2023-10-19
# 隠れた画像の波について

On the Hidden Waves of Image ( http://arxiv.org/abs/2310.12976v1 )

ライセンス: Link先を確認
Yinpeng Chen and Dongdong Chen and Xiyang Dai and Mengchen Liu and Lu Yuan and Zicheng Liu and Youzuo Lin(参考訳) 本稿では,隠れて学習可能な速度を持つ一方向波動方程式の集合を用いて,画像の再構成に成功した興味深い現象を紹介する。 個々の画像は、視覚エンコーダ(畳み込みニューラルネットワークなど)を使用して元の画像から計算できるユニークな初期条件の解に対応する。 さらに、各画像に対する解には注目すべき数学的性質が2つある。 (a) 1次自己回帰型である同じ一方向波動方程式の特別な解の集合に分解することができ、自己回帰のための共役係数行列を持つ。 (b)これらの係数行列の積は、波動方程式の速度を対角元とする対角行列を形成する。 この現象を隠れた波と呼び、波動方程式と自己回帰係数行列の集合の速度は潜んでいるが、どちらも学習可能であり、画像間で共有できることを示した。 これは画像間の数学的不変性を表し、画像を理解するための新しい数学的視点を提供する。

In this paper, we introduce an intriguing phenomenon-the successful reconstruction of images using a set of one-way wave equations with hidden and learnable speeds. Each individual image corresponds to a solution with a unique initial condition, which can be computed from the original image using a visual encoder (e.g., a convolutional neural network). Furthermore, the solution for each image exhibits two noteworthy mathematical properties: (a) it can be decomposed into a collection of special solutions of the same one-way wave equations that are first-order autoregressive, with shared coefficient matrices for autoregression, and (b) the product of these coefficient matrices forms a diagonal matrix with the speeds of the wave equations as its diagonal elements. We term this phenomenon hidden waves, as it reveals that, although the speeds of the set of wave equations and autoregressive coefficient matrices are latent, they are both learnable and shared across images. This represents a mathematical invariance across images, providing a new mathematical perspective to understand images.
翻訳日:2023-10-20 13:33:55 公開日:2023-10-19
# フラクショナルノイズによるSDEの変分推定

Variational Inference for SDEs Driven by Fractional Noise ( http://arxiv.org/abs/2310.12975v1 )

ライセンス: Link先を確認
Rembert Daems and Manfred Opper and Guillaume Crevecoeur and Tolga Birdal(参考訳) 本稿ではマルコフ近似分数的ブラウン運動(fBM)によって駆動される(神経)確率微分方程式(SDE)の推論を行う新しい変分フレームワークを提案する。 SDEは、固有のノイズとランダム性を持つ実世界の連続時間力学システムをモデリングするための汎用的なツールを提供する。 SDEと変分法の強力な推論能力を組み合わせることで、確率勾配降下による代表関数分布の学習が可能になる。 しかし、従来のSDEでは、基礎となるノイズはブラウン運動(BM)に従うと仮定しており、これは長期依存を捉える能力を妨げている。 対照的に、分数的ブラウン運動(fBM)はBMを拡張して非マルコフ力学を包含するが、fBMパラメータを推定する既存の手法は計算的に要求されるか統計的に非効率である。 本稿では,fbmのマルコフ近似に基づいて,確率解析の確立された分野から得られた後路測度の効率的な変分推論に必須なエビデンスを導出する。 さらに,最適近似係数を決定するための閉形式式を提案する。 さらに, ニューラルネットワークを用いて変動後部におけるドリフト, 拡散, 制御条件を学習し, ニューラルSDEの変分訓練を実現することを提案する。 このフレームワークでは、ハースト指数を最適化し、分数ノイズの性質を制御します。 合成データに対する検証以外にも,可変潜在性ビデオ予測のための新しいアーキテクチャを提案し,その手法を最大限に活用することで,映像知覚に対する最初の変動型ニューラルsde応用を可能にした。

We present a novel variational framework for performing inference in (neural) stochastic differential equations (SDEs) driven by Markov-approximate fractional Brownian motion (fBM). SDEs offer a versatile tool for modeling real-world continuous-time dynamic systems with inherent noise and randomness. Combining SDEs with the powerful inference capabilities of variational methods, enables the learning of representative function distributions through stochastic gradient descent. However, conventional SDEs typically assume the underlying noise to follow a Brownian motion (BM), which hinders their ability to capture long-term dependencies. In contrast, fractional Brownian motion (fBM) extends BM to encompass non-Markovian dynamics, but existing methods for inferring fBM parameters are either computationally demanding or statistically inefficient. In this paper, building upon the Markov approximation of fBM, we derive the evidence lower bound essential for efficient variational inference of posterior path measures, drawing from the well-established field of stochastic analysis. Additionally, we provide a closed-form expression to determine optimal approximation coefficients. Furthermore, we propose the use of neural networks to learn the drift, diffusion and control terms within our variational posterior, leading to the variational training of neural-SDEs. In this framework, we also optimize the Hurst index, governing the nature of our fractional noise. Beyond validation on synthetic data, we contribute a novel architecture for variational latent video prediction,-an approach that, to the best of our knowledge, enables the first variational neural-SDE application to video perception.
翻訳日:2023-10-20 13:33:41 公開日:2023-10-19
# 高速なRGB-Dで3Dオブジェクトを分類できるFSD

FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects ( http://arxiv.org/abs/2310.12974v1 )

ライセンス: Link先を確認
Mayank Lunayach, Sergey Zakharov, Dian Chen, Rares Ambrus, Zsolt Kira, Muhammad Zubair Irshad(参考訳) 本研究では,実世界の3Dラベルデータに依存しない3Dオブジェクト認識の課題に対処する。 我々のゴールは、単一のRGB-D画像内のオブジェクトの3次元形状、サイズ、および6次元のポーズを予測し、カテゴリレベルで動作し、推論中のCADモデルの必要性を排除することである。 既存の自己監督手法はこの分野で進歩を遂げているが、非エンドツーエンド処理による非効率性、異なる対象カテゴリの別々のモデルへの依存、暗黙の再構成モデルのトレーニング中の表面抽出の遅さ、そして、3D認識プロセスの速度と実世界の適用性を妨げている。 提案手法は,実世界領域に効率的に合成性能を伝達する多段階訓練パイプラインを活用する。 このアプローチは、合成ドメイントレーニング中の2dと3dの教師付き損失の組み合わせと、さらに2つの学習段階における実世界のデータに対する2d教師付きおよび3d自己教師付き損失の組込みによって達成される。 この包括的戦略を採用することで、上記の制限を克服し、既存の自監督型6DポーズとNOCSテストセットにおけるサイズ推定ベースラインを16.4%改善し、ほぼリアルタイムで5Hzで6Dポーズ推定を行う。

In this work, we address the challenging task of 3D object recognition without the reliance on real-world 3D labeled data. Our goal is to predict the 3D shape, size, and 6D pose of objects within a single RGB-D image, operating at the category level and eliminating the need for CAD models during inference. While existing self-supervised methods have made strides in this field, they often suffer from inefficiencies arising from non-end-to-end processing, reliance on separate models for different object categories, and slow surface extraction during the training of implicit reconstruction models; thus hindering both the speed and real-world applicability of the 3D recognition process. Our proposed method leverages a multi-stage training pipeline, designed to efficiently transfer synthetic performance to the real-world domain. This approach is achieved through a combination of 2D and 3D supervised losses during the synthetic domain training, followed by the incorporation of 2D supervised and 3D self-supervised losses on real-world data in two additional learning stages. By adopting this comprehensive strategy, our method successfully overcomes the aforementioned limitations and outperforms existing self-supervised 6D pose and size estimation baselines on the NOCS test-set with a 16.4% absolute improvement in mAP for 6D pose estimation while running in near real-time at 5 Hz.
翻訳日:2023-10-20 13:33:14 公開日:2023-10-19
# 言語モデルにおける凍結トランスフォーマーは効果的なビジュアルエンコーダ層である

Frozen Transformers in Language Models Are Effective Visual Encoder Layers ( http://arxiv.org/abs/2310.12973v1 )

ライセンス: Link先を確認
Ziqi Pang, Ziyang Xie, Yunze Man, Yu-Xiong Wang(参考訳) 本稿では,テキストデータのみに基づいて訓練された大規模言語モデル (llm) が,言語不在時の純粋に視覚的なタスクに対して驚くほど強力なエンコーダであることを示す。 さらに興味深いのは、事前にトレーニングされたllmsの凍結トランスフォーマーブロックを構成エンコーダ層として使用して、視覚的トークンを直接処理する、シンプルで見落とされた戦略によって、これは達成できます。 我々の研究は、コンピュータビジョンタスクにLLMを利用することの限界を押し上げ、通常、関連する言語プロンプト、インプット、アウトプットを伴うマルチモーダル視覚言語セットアップを必要とする慣行からかなり離れている。 提案手法は,純粋に2次元と3次元の認識タスク(画像とポイントクラウドの分類など),時間的モデリングタスク(アクション認識など),非意味的タスク(モーション予測など),マルチモーダルタスク(2次元/3次元の視覚的質問応答や画像テキスト検索など)を含む,さまざまなタスクにわたるパフォーマンスを一貫して向上させることを実証する。 このような改善は、様々な種類のLLM(例えば、LLaMAとOPT)と異なるLLMトランスブロックに適用できる一般的な現象である。 また、情報フィルタリング仮説を提案し、事前学習したLCMが視覚符号化における有効性を説明するとともに、情報化による視覚トークンの識別をブロックし、その効果をさらに増幅する。 この仮説は、LLMトランスフォーマーブロックを用いたトレーニングの後、機能活性化が関連する領域に強く焦点を絞っているという観察によって実証的に支持されている。 LLMの活用と、その基盤となるメカニズムの理解を深める上で、我々の研究が新たな視点を刺激することを期待します。 コードはhttps://github.com/ziqipang/lm4visualencodingで入手できる。

This paper reveals that large language models (LLMs), despite being trained solely on textual data, are surprisingly strong encoders for purely visual tasks in the absence of language. Even more intriguingly, this can be achieved by a simple yet previously overlooked strategy -- employing a frozen transformer block from pre-trained LLMs as a constituent encoder layer to directly process visual tokens. Our work pushes the boundaries of leveraging LLMs for computer vision tasks, significantly departing from conventional practices that typically necessitate a multi-modal vision-language setup with associated language prompts, inputs, or outputs. We demonstrate that our approach consistently enhances performance across a diverse range of tasks, encompassing pure 2D and 3D visual recognition tasks (e.g., image and point cloud classification), temporal modeling tasks (e.g., action recognition), non-semantic tasks (e.g., motion forecasting), and multi-modal tasks (e.g., 2D/3D visual question answering and image-text retrieval). Such improvements are a general phenomenon, applicable to various types of LLMs (e.g., LLaMA and OPT) and different LLM transformer blocks. We additionally propose the information filtering hypothesis to explain the effectiveness of pre-trained LLMs in visual encoding -- the pre-trained LLM transformer blocks discern informative visual tokens and further amplify their effect. This hypothesis is empirically supported by the observation that the feature activation, after training with LLM transformer blocks, exhibits a stronger focus on relevant regions. We hope that our work inspires new perspectives on utilizing LLMs and deepening our understanding of their underlying mechanisms. Code is available at https://github.com/ziqipang/LM4VisualEncoding.
翻訳日:2023-10-20 13:32:47 公開日:2023-10-19
# CLAIR: 大きな言語モデルによる画像キャプションの評価

CLAIR: Evaluating Image Captions with Large Language Models ( http://arxiv.org/abs/2310.12971v1 )

ライセンス: Link先を確認
David Chan, Suzanne Petryk, Joseph E. Gonzalez, Trevor Darrell, John Canny(参考訳) マシン生成画像キャプションの評価は、興味深いが永続的な課題である。 効果的な評価尺度は、意味的関連性、視覚構造、オブジェクト間相互作用、キャプションの多様性、特異性など、多くの類似性の次元を考慮する必要がある。 既存の高度に設計された尺度は、特定の側面を捉えようとするが、人間の判断と密接に一致する総合的なスコアを提供することには不足している。 本稿では,大規模言語モデル(LLM)のゼロショット言語モデリング機能を利用して,候補字幕の評価を行うCLAIRを提案する。 本評価では,既存の尺度と比較し,キャプション品質の人間判断との相関が強いことを示した。 特にFlickr8K-Expertでは、CLAIRはSPICEの39.6%、RefCLIP-Sの18.3%といった画像拡張手法よりも相対的な相関改善を実現している。 さらにCLAIRは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。 コードはhttps://davidmchan.github.io/clair/で入手できる。

The evaluation of machine-generated image captions poses an interesting yet persistent challenge. Effective evaluation measures must consider numerous dimensions of similarity, including semantic relevance, visual structure, object interactions, caption diversity, and specificity. Existing highly-engineered measures attempt to capture specific aspects, but fall short in providing a holistic score that aligns closely with human judgments. Here, we propose CLAIR, a novel method that leverages the zero-shot language modeling capabilities of large language models (LLMs) to evaluate candidate captions. In our evaluations, CLAIR demonstrates a stronger correlation with human judgments of caption quality compared to existing measures. Notably, on Flickr8K-Expert, CLAIR achieves relative correlation improvements over SPICE of 39.6% and over image-augmented methods such as RefCLIP-S of 18.3%. Moreover, CLAIR provides noisily interpretable results by allowing the language model to identify the underlying reasoning behind its assigned score. Code is available at https://davidmchan.github.io/clair/
翻訳日:2023-10-20 13:32:17 公開日:2023-10-19
# 相対的ポーズ符号化を用いた不均質ポリライントランスによる実時間動き予測

Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding ( http://arxiv.org/abs/2310.12970v1 )

ライセンス: Link先を確認
Zhejun Zhang, Alexander Liniger, Christos Sakaridis, Fisher Yu, Luc Van Gool(参考訳) 自動運転システムの現実的な展開には、周囲の交通参加者の将来の軌道を予測するモーション予測モジュールを含む、そのコンポーネントをオンボードおよびリアルタイムに実行する必要がある。 既存のエージェント中心の手法は、公開ベンチマークで優れた性能を示した。 しかし、予測されるエージェントの数が増えるにつれて、高い計算オーバーヘッドとスケーラビリティに悩まされる。 この問題に対処するために,K-nearest Near attention with relative pose encoding (KNARPE)を導入する。 次に,knarpeに基づいて,オンライン推論中に非同期トークン更新を可能にする階層型フレームワークである相対ポーズ符号化(hptr)を用いたヘテロジニアスポリライントランスを提案する。 エージェント間のコンテキストの共有と変更のないコンテキストの再利用により、このアプローチはシーン中心のメソッドと同じくらい効率的であり、また、最先端のエージェント中心のメソッドと同等の性能を発揮する。 WaymoとArgoverse-2データセットの実験では、HPTRは高価な後処理やモデルアンサンブルを適用しないエンドツーエンドメソッドよりも優れたパフォーマンスを実現している。 コードはhttps://github.com/zhejz/HPTRで公開されている。

The real-world deployment of an autonomous driving system requires its components to run on-board and in real-time, including the motion prediction module that predicts the future trajectories of surrounding traffic participants. Existing agent-centric methods have demonstrated outstanding performance on public benchmarks. However, they suffer from high computational overhead and poor scalability as the number of agents to be predicted increases. To address this problem, we introduce the K-nearest neighbor attention with relative pose encoding (KNARPE), a novel attention mechanism allowing the pairwise-relative representation to be used by Transformers. Then, based on KNARPE we present the Heterogeneous Polyline Transformer with Relative pose encoding (HPTR), a hierarchical framework enabling asynchronous token update during the online inference. By sharing contexts among agents and reusing the unchanged contexts, our approach is as efficient as scene-centric methods, while performing on par with state-of-the-art agent-centric methods. Experiments on Waymo and Argoverse-2 datasets show that HPTR achieves superior performance among end-to-end methods that do not apply expensive post-processing or model ensembling. The code is available at https://github.com/zhejz/HPTR.
翻訳日:2023-10-20 13:32:00 公開日:2023-10-19
# DeepVol: トレーニング済みのユニバーサルアセット変動モデル

DeepVol: A Pre-Trained Universal Asset Volatility Model ( http://arxiv.org/abs/2309.02072v3 )

ライセンス: Link先を確認
Chen Liu, Minh-Ngoc Tran, Chao Wang, Richard Gerlach, Robert Kohn(参考訳) 本稿では,従来のエコノメトリモデルよりも汎用的な,事前学習型ディープラーニングボラティリティモデルであるDeepVolを紹介する。 DeepVolは、トランスファー学習の力を活用して、単一のユニバーサルモデルを使用して、以前は目に見えないものを含むすべての金融資産のボラティリティのダイナミクスを効果的に捉え、モデル化する。 これは、それぞれの資産に対して独立したモデルを訓練する計量学文学における通常の慣習とは対照的である。 DeepVolの導入は、金融業界におけるボラティリティモデリングの新しい道を開き、ボラティリティの予測方法を変える可能性がある。

This paper introduces DeepVol, a pre-trained deep learning volatility model that is more general than traditional econometric models. DeepVol leverage the power of transfer learning to effectively capture and model the volatility dynamics of all financial assets, including previously unseen ones, using a single universal model. This contrasts to the usual practice in the econometrics literature, which trains a separate model for each asset. The introduction of DeepVol opens up new avenues for volatility modeling in the finance industry, potentially transforming the way volatility is predicted.
翻訳日:2023-10-20 11:45:05 公開日:2023-10-19
# マルコフ決定過程におけるオンライン資源配分

Online Resource Allocation in Episodic Markov Decision Processes ( http://arxiv.org/abs/2305.10744v3 )

ライセンス: Link先を確認
Duksang Lee, William Overman, Dabeen Lee(参考訳) 本稿では,多段階意思決定プロセスを必要とする複数期間にわたる長期資源配分問題について検討する。 未知の非定常遷移関数と確率的非定常報酬と資源消費関数を持つエピソディック有限ホリゾン制約マルコフ決定過程において、オンライン割り当て問題として問題を定式化する。 そこで,提案手法では,報酬と資源消費関数に関する観察とフィードバックが意思決定者に与えられる方法が異なるが,観察・決定方式を提案し,既存の決定・監視体制を改善する。 両設定のほぼ最適後悔境界を実現するオンライン二重ミラー降下アルゴリズムを開発した。 オブザーバ・then-decide 体制では、動的透視的最適ポリシーに対する期待された後悔が $\tilde O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$ で有界であることが証明され、$\rho\in(0,1)$ は予算パラメータ、$H$ は地平線の長さ、$S$ と $A$ は状態と行動の数、$T$ はエピソード数である。 ここでは, 平均報酬と平均資源消費関数にアクセスできる静的最適政策に対する後悔は, 高確率で$\tilde O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$で有界であることを示す。 資源制約のある在庫管理問題の変種に対して,本手法の数値効率を検証した。

This paper studies a long-term resource allocation problem over multiple periods where each period requires a multi-stage decision-making process. We formulate the problem as an online allocation problem in an episodic finite-horizon constrained Markov decision process with an unknown non-stationary transition function and stochastic non-stationary reward and resource consumption functions. We propose the observe-then-decide regime and improve the existing decide-then-observe regime, while the two settings differ in how the observations and feedback about the reward and resource consumption functions are given to the decision-maker. We develop an online dual mirror descent algorithm that achieves near-optimal regret bounds for both settings. For the observe-then-decide regime, we prove that the expected regret against the dynamic clairvoyant optimal policy is bounded by $\tilde O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$ where $\rho\in(0,1)$ is the budget parameter, $H$ is the length of the horizon, $S$ and $A$ are the numbers of states and actions, and $T$ is the number of episodes. For the decide-then-observe regime, we show that the regret against the static optimal policy that has access to the mean reward and mean resource consumption functions is bounded by $\tilde O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$ with high probability. We test the numerical efficiency of our method for a variant of the resource-constrained inventory management problem.
翻訳日:2023-10-20 11:44:12 公開日:2023-10-19
# 顔提示攻撃検出の公正性

Fairness in Face Presentation Attack Detection ( http://arxiv.org/abs/2209.09035v3 )

ライセンス: Link先を確認
Meiling Fang and Wufei Yang and Arjan Kuijper and Vitomir Struc and Naser Damer(参考訳) 顔認識(FR)アルゴリズムは、特定の人口集団や非人口集団に対する差別行動を示すことが証明されており、現実のシナリオへの展開に関する倫理的および法的懸念を提起している。 FRにおけるフェアネス研究の増加にもかかわらず、顔提示攻撃検出(PAD)の公平さは、主に適切な注釈データがないために見過ごされている。 このような行動の潜在的な負の影響を回避・緩和するためには, PAD面の公平さを評価し, 公正なPADモデルを開発することが不可欠である。 顔PADの公平性解析を可能にするために, 7つの属性ラベルを付加したCAAD-PAD(Combined Attribute Annotated PAD Dataset)を提案する。 そこで我々は,PADの公正性とトレーニングデータの性質,およびODTA(Operational Decision Threshold Assignment)との関係を,顔PADソリューションの集合を通して包括的に分析した。 さらに, パッドフェアネスと絶対パッド性能の両方を共同で表現した新しい指標, 精度バランスフェアネス(abf)を提案する。 実験結果から, すべてのパッド溶液により, 女性および顔(眼鏡, あごひげなど)は, 男性および非閉塞群に比べて比較的保護が小さいことが示唆された。 この観察された不公平さを緩和するため,我々は,id/semantic情報を混乱させ,モデルに攻撃の手がかりをマイニングするよう促すために,fairswapというプラグイン・アンド・プレイデータ拡張手法を提案する。 以上の結果から,FairSWAPは12例中10例において,より良好で公平な対面PADを誘導することが明らかとなった。

Face recognition (FR) algorithms have been proven to exhibit discriminatory behaviors against certain demographic and non-demographic groups, raising ethical and legal concerns regarding their deployment in real-world scenarios. Despite the growing number of fairness studies in FR, the fairness of face presentation attack detection (PAD) has been overlooked, mainly due to the lack of appropriately annotated data. To avoid and mitigate the potential negative impact of such behavior, it is essential to assess the fairness in face PAD and develop fair PAD models. To enable fairness analysis in face PAD, we present a Combined Attribute Annotated PAD Dataset (CAAD-PAD), offering seven human-annotated attribute labels. Then, we comprehensively analyze the fairness of PAD and its relation to the nature of the training data and the Operational Decision Threshold Assignment (ODTA) through a set of face PAD solutions. Additionally, we propose a novel metric, the Accuracy Balanced Fairness (ABF), that jointly represents both the PAD fairness and the absolute PAD performance. The experimental results pointed out that female and faces with occluding features (e.g. eyeglasses, beard, etc.) are relatively less protected than male and non-occlusion groups by all PAD solutions. To alleviate this observed unfairness, we propose a plug-and-play data augmentation method, FairSWAP, to disrupt the identity/semantic information and encourage models to mine the attack clues. The extensive experimental results indicate that FairSWAP leads to better-performing and fairer face PADs in 10 out of 12 investigated cases.
翻訳日:2023-10-20 11:43:36 公開日:2023-10-19
# Rigidity Hurts:確率的階層的時系列予測のためのソフト一貫性規則化

When Rigidity Hurts: Soft Consistency Regularization for Probabilistic Hierarchical Time Series Forecasting ( http://arxiv.org/abs/2206.07940v4 )

ライセンス: Link先を確認
Harshavardhan Kamarthi, Lingkai Kong, Alexander Rodr\'iguez, Chao Zhang and B. Aditya Prakash(参考訳) 確率的階層的時系列予測は時系列予測の重要な変種であり、階層的関係を基礎とする多変量時系列のモデル化と予測を目標としている。 ほとんどの手法は点予測に焦点をあて、適切に調整された確率的予測分布を提供しない。 近年の最先端確率予測手法は,予測分布の一貫性を考慮しない点予測と分布のサンプルに階層的関係を課している。 以前の研究は、データセットが常に与えられた階層的な関係と一致しており、この仮定からの逸脱を示す現実世界のデータセットに適応していないことを静かに仮定している。 両者のギャップを埋めて,階層全体の分布の予測を共同でモデル化する完全確率的階層予測モデル PROFHiT を提案する。 PROFHiTは柔軟な確率的ベイズ的アプローチを採用し、新しい分散コヒーレンシ正規化を導入し、予測分布全体の階層的関係から学習し、堅牢で校正された予測を可能にし、様々な階層的一貫性のデータセットに適応する。 幅広いデータセット上での習熟度評価では,精度が41~88%向上し,校正精度が有意に向上した。 完全分布上のコヒーレンシをモデル化することにより,入力時系列データの最大10%が欠落していても,proFHiTは信頼性の高い予測を確実に提供できることがわかった。

Probabilistic hierarchical time-series forecasting is an important variant of time-series forecasting, where the goal is to model and forecast multivariate time-series that have underlying hierarchical relations. Most methods focus on point predictions and do not provide well-calibrated probabilistic forecasts distributions. Recent state-of-art probabilistic forecasting methods also impose hierarchical relations on point predictions and samples of distribution which does not account for coherency of forecast distributions. Previous works also silently assume that datasets are always consistent with given hierarchical relations and do not adapt to real-world datasets that show deviation from this assumption. We close both these gap and propose PROFHiT, which is a fully probabilistic hierarchical forecasting model that jointly models forecast distribution of entire hierarchy. PROFHiT uses a flexible probabilistic Bayesian approach and introduces a novel Distributional Coherency regularization to learn from hierarchical relations for entire forecast distribution that enables robust and calibrated forecasts as well as adapt to datasets of varying hierarchical consistency. On evaluating PROFHiT over wide range of datasets, we observed 41-88% better performance in accuracy and significantly better calibration. Due to modeling the coherency over full distribution, we observed that PROFHiT can robustly provide reliable forecasts even if up to 10% of input time-series data is missing where other methods' performance severely degrade by over 70%.
翻訳日:2023-10-20 11:43:04 公開日:2023-10-19
# 偽情報コンバットのためのAI技術の実験:IDMOプロジェクト

Experimenting AI Technologies for Disinformation Combat: the IDMO Project ( http://arxiv.org/abs/2310.11097v2 )

ライセンス: Link先を確認
Lorenzo Canale, Alberto Messina(参考訳) イタリアのデジタルメディア天文台(IDMO)プロジェクトは、偽情報や偽ニュースに対抗することに焦点を当てている。 本報告では,プロジェクトへのrai-critsからの貢献について概説する。 (i)試験技術のための新規データセットの作成 (ii)幅広い分析を容易にするためにpagella politica verdictsを分類する自動モデルの開発 (iii)フィーバーデータセットにおける例外的正確性を伴う文章の包含認識のための自動モデルの作成 4) GPT-4 を用いたテキスト・エントリメンの識別 (v)全国のイベントで偽ニュースに対する意識を高めるゲーム。

The Italian Digital Media Observatory (IDMO) project, part of a European initiative, focuses on countering disinformation and fake news. This report outlines contributions from Rai-CRITS to the project, including: (i) the creation of novel datasets for testing technologies (ii) development of an automatic model for categorizing Pagella Politica verdicts to facilitate broader analysis (iii) creation of an automatic model for recognizing textual entailment with exceptional accuracy on the FEVER dataset (iv) assessment using GPT-4 to identify textual entailmen (v) a game to raise awareness about fake news at national events.
翻訳日:2023-10-20 11:37:30 公開日:2023-10-19
# LLM4SGG:弱教師付きシーングラフ生成のための大規模言語モデル

LLM4SGG: Large Language Model for Weakly Supervised Scene Graph Generation ( http://arxiv.org/abs/2310.10404v3 )

ライセンス: Link先を確認
Kibum Kim, Kanghoon Yoon, Jaehyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park(参考訳) Wakly-Supervised Scene Graph Generation (WSSGG) 研究は、最近、コストのかかるアノテーションに大きく依存する、完全に教師されたアプローチの代替として現れた。 そこで,WSSGGの研究は,画像領域上の非局在化三重項の接地に着目しつつ,非局在化三重項の取得に画像キャプションを利用した。 しかし、キャプションから三重項形成の過程に関わる2つの問題を見落としている。 1)字幕中のきめ細かい述語を好ましくなく粗い述語に変換して長尾述語分布にするキャプションから三重項を抽出する際に意味的な単純化の問題が発生する。 2 低密度シーングラフは、キャプション内の三つ子を、多くの三つ子を捨てて訓練に使用しない利害関係のクラスに整列させ、監督が不十分な場合に発生する。 この2つの問題に対処するため,LLM の言語理解の深みを生かし,キャプションから三重項を抽出する際の推論能力と,エンティティ/述語クラスを対象データにアライメントすることで,弱教師付き SGG のための大規模言語モデル (LLM4SGG) を提案する。 これらのプロセスでLLMをさらに活用するため、我々はChain-of-Thoughtという概念と、文脈内数ショット学習戦略を採用した。 LLM4SGGの有効性を検証するために、我々は、Visual GenomeとGQAデータセットの広範な実験を行い、Recall@Kと平均Recall@Kの両方において、最先端のWSSGG法と比較して大幅に改善されていることを示す。 さらに、LLM4SGGはデータ効率が良く、少量のトレーニング画像で効果的なモデルトレーニングを可能にする。

Weakly-Supervised Scene Graph Generation (WSSGG) research has recently emerged as an alternative to the fully-supervised approach that heavily relies on costly annotations. In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions. However, they have overlooked the two issues involved in the triplet formation process from the captions: 1) Semantic over-simplification issue arises when extracting triplets from captions, where fine-grained predicates in captions are undesirably converted into coarse-grained predicates, resulting in a long-tailed predicate distribution, and 2) Low-density scene graph issue arises when aligning the triplets in the caption with entity/predicate classes of interest, where many triplets are discarded and not used in training, leading to insufficient supervision. To tackle the two issues, we propose a new approach, i.e., Large Language Model for weakly-supervised SGG (LLM4SGG), where we mitigate the two issues by leveraging the LLM's in-depth understanding of language and reasoning ability during the extraction of triplets from captions and alignment of entity/predicate classes with target data. To further engage the LLM in these processes, we adopt the idea of Chain-of-Thought and the in-context few-shot learning strategy. To validate the effectiveness of LLM4SGG, we conduct extensive experiments on Visual Genome and GQA datasets, showing significant improvements in both Recall@K and mean Recall@K compared to the state-of-the-art WSSGG methods. A further appeal is that LLM4SGG is data-efficient, enabling effective model training with a small amount of training images.
翻訳日:2023-10-20 11:37:21 公開日:2023-10-19
# vibe: twitter分類のためのトピック駆動時間適応

VIBE: Topic-Driven Temporal Adaptation for Twitter Classification ( http://arxiv.org/abs/2310.10191v2 )

ライセンス: Link先を確認
Yuji Zhang, Jing Li, Wenjie Li(参考訳) 言語機能は現実世界のソーシャルメディアで進化しており、ダイナミックスにおけるテキスト分類のパフォーマンスが低下している。 この課題に対処するために、過去のデータに基づいてトレーニングされたモデルが将来テストされる時間適応について研究する。 以前のほとんどの作業は、事前トレーニングや知識更新の継続に重点を置いており、騒がしいソーシャルメディアデータでのパフォーマンスを損なう可能性がある。 この問題に取り組むために,潜在トピック進化のモデル化を通じて特徴変化を反映し,新しいモデルであるvibe: variational information bottleneck for evolutionsを提案する。 具体的には、まず2つのInformation Bottleneck(IB)レギュレータを使用し、過去と将来のトピックを区別する。 次に,タイムスタンプとクラスラベル予測を用いたマルチタスクトレーニングによる適応機能として機能する。 適応学習では、VIBEは、後進的に生成されたオンラインストリームから取得した未ラベルデータをトレーニングデータ時間に利用する。 twitterによる3つの分類タスクの実験では、データのわずか3%のモデルが、これまでの最先端のトレーニング方法を大きく上回っていることが分かりました。

Language features are evolving in real-world social media, resulting in the deteriorating performance of text classification in dynamics. To address this challenge, we study temporal adaptation, where models trained on past data are tested in the future. Most prior work focused on continued pretraining or knowledge updating, which may compromise their performance on noisy social media data. To tackle this issue, we reflect feature change via modeling latent topic evolution and propose a novel model, VIBE: Variational Information Bottleneck for Evolutions. Concretely, we first employ two Information Bottleneck (IB) regularizers to distinguish past and future topics. Then, the distinguished topics work as adaptive features via multi-task training with timestamp and class label prediction. In adaptive learning, VIBE utilizes retrieved unlabeled data from online streams created posterior to training data time. Substantial Twitter experiments on three classification tasks show that our model, with only 3% of data, significantly outperforms previous state-of-the-art continued-pretraining methods.
翻訳日:2023-10-20 11:36:43 公開日:2023-10-19
# 時系列分類のためのデータ拡張:大規模な実証研究と包括的調査

Data Augmentation for Time-Series Classification: An Extensive Empirical Study and Comprehensive Survey ( http://arxiv.org/abs/2310.10060v2 )

ライセンス: Link先を確認
Zijun Gao, Lingbo Li and Tianhua Xu(参考訳) データ拡張(DA)は、主にトレーニングサンプルを増幅し、モデルロバスト性を強化し、データセットを多様化し、過剰適合を緩和する能力のために、時系列分類(TSC)において必須の戦略として現れてきた。 しかしながら、現在のtscにおけるdaの展望は、断片化された文献レビュー、曖昧な方法論的分類、不十分な評価手段、アクセス可能なユーザ指向ツールの不足に苦しめられている。 これらの課題を踏まえて,本研究はtsc領域におけるda方法論の徹底的な分析に着手する。 最初のアプローチでは10年間にわたる広範な文献レビューを行い、現代の調査では、TSCのDAの進歩の幅がほとんどなく、100以上の学術論文を慎重に分析し、60以上のDAテクニックを蒸留することに成功した。 この厳密な分析は、TSCにおけるDAの複雑化のために構築された新しい分類学の定式化を先導し、テクニックを変換ベース、パターンベース、生成ベース、分解ベース、自動データ拡張の5つの主要なエキロンに分類した。 我々の分類学は、学者にとって堅牢なナビゲーション支援として機能し、方法選択の明確さと方向性を提供する。 一般的なda手法に対する全体的評価の欠如に対処し,8つのutr時系列データセットで15以上のda戦略を精査し,resnetと多面的評価パラダイムを用いて精度,手法のランク付け,残差解析を行い,88.94+11.83%のベンチマーク精度を得た。 我々の調査はda技術の 一貫性のない効果を裏付けた...

Data Augmentation (DA) has emerged as an indispensable strategy in Time Series Classification (TSC), primarily due to its capacity to amplify training samples, thereby bolstering model robustness, diversifying datasets, and curtailing overfitting. However, the current landscape of DA in TSC is plagued with fragmented literature reviews, nebulous methodological taxonomies, inadequate evaluative measures, and a dearth of accessible, user-oriented tools. In light of these challenges, this study embarks on an exhaustive dissection of DA methodologies within the TSC realm. Our initial approach involved an extensive literature review spanning a decade, revealing that contemporary surveys scarcely capture the breadth of advancements in DA for TSC, prompting us to meticulously analyze over 100 scholarly articles to distill more than 60 unique DA techniques. This rigorous analysis precipitated the formulation of a novel taxonomy, purpose-built for the intricacies of DA in TSC, categorizing techniques into five principal echelons: Transformation-Based, Pattern-Based, Generative, Decomposition-Based, and Automated Data Augmentation. Our taxonomy promises to serve as a robust navigational aid for scholars, offering clarity and direction in method selection. Addressing the conspicuous absence of holistic evaluations for prevalent DA techniques, we executed an all-encompassing empirical assessment, wherein upwards of 15 DA strategies were subjected to scrutiny across 8 UCR time-series datasets, employing ResNet and a multi-faceted evaluation paradigm encompassing Accuracy, Method Ranking, and Residual Analysis, yielding a benchmark accuracy of 88.94 +- 11.83%. Our investigation underscored the inconsistent efficacies of DA techniques, with...
翻訳日:2023-10-20 11:36:25 公開日:2023-10-19
# zkFL:フェデレートラーニングのためのゼロ知識証明に基づくグラディエントアグリゲーション

zkFL: Zero-Knowledge Proof-based Gradient Aggregation for Federated Learning ( http://arxiv.org/abs/2310.02554v3 )

ライセンス: Link先を確認
Zhipeng Wang, Nanqing Dong, Jiahao Sun, William Knottenbelt(参考訳) Federated Learning(FL)は、中央アグリゲータのオーケストレーションの下で、複数の分散クライアントが協力してモデルをトレーニングできる機械学習パラダイムである。 従来のflソリューションは集中型アグリゲータの信頼の前提に依存しており、これは公正で正直な方法でクライアントのコホートを形成する。 しかし、実際には悪意のあるアグリゲータは、クライアントのトレーニングモデルを捨てて置き換えるか、偽のクライアントを挿入するためにsybil攻撃を開始することができる。 このような悪意ある行動によって、アグリゲータはfl設定でクライアントを制御でき、最終的なトレーニング結果を決定することができる。 本稿では,zkfl(zero-knowledge proofs (zkps) を利用して,トレーニングモデル集約プロセスにおける悪意のあるアグリゲータの問題に対処する。 正しい集計結果を保証するために、アグリゲータはラウンド毎の証明を提供する必要がある。 この証明は、クライアントにアグリゲータが意図した振る舞いを忠実に実行することを示すことができる。 クライアントの検証コストをさらに削減するため、マイナ(すなわち、ブロックチェーンデータの検証と維持を行うノード)がクライアントのローカルモデルや集約モデルを知ることなく、証明を検証できるゼロ知識の方法で、証明を処理するブロックチェーンを採用しました。 理論的解析と実証結果から、zkFLは基礎となるFLネットワーク構造を変更したり、トレーニング速度を著しく向上させることなく、従来のFLよりも優れたセキュリティとプライバシを実現することができることが示された。

Federated Learning (FL) is a machine learning paradigm, which enables multiple and decentralized clients to collaboratively train a model under the orchestration of a central aggregator. Traditional FL solutions rely on the trust assumption of the centralized aggregator, which forms cohorts of clients in a fair and honest manner. However, a malicious aggregator, in reality, could abandon and replace the client's training models, or launch Sybil attacks to insert fake clients. Such malicious behaviors give the aggregator more power to control clients in the FL setting and determine the final training results. In this work, we introduce zkFL, which leverages zero-knowledge proofs (ZKPs) to tackle the issue of a malicious aggregator during the training model aggregation process. To guarantee the correct aggregation results, the aggregator needs to provide a proof per round. The proof can demonstrate to the clients that the aggregator executes the intended behavior faithfully. To further reduce the verification cost of clients, we employ a blockchain to handle the proof in a zero-knowledge way, where miners (i.e., the nodes validating and maintaining the blockchain data) can verify the proof without knowing the clients' local and aggregated models. The theoretical analysis and empirical results show that zkFL can achieve better security and privacy than traditional FL, without modifying the underlying FL network structure or heavily compromising the training speed.
翻訳日:2023-10-20 11:34:34 公開日:2023-10-19
# AnglE最適化テキスト埋め込み

AnglE-optimized Text Embeddings ( http://arxiv.org/abs/2309.12871v4 )

ライセンス: Link先を確認
Xianming Li, Jing Li(参考訳) 高品質なテキスト埋め込みは、Large Language Model (LLM) アプリケーションにおいて重要なコンポーネントであるセマンティックテキスト類似性(STS)タスクの改善に重要である。 しかし、既存のテキスト埋め込みモデルが直面する共通の課題は、主に飽和ゾーンを持つ最適化目的におけるコサイン関数に依存することによる勾配の消失の問題である。 本稿では,AnglEと呼ばれる新しい角度最適化テキスト埋め込みモデルを提案する。 AnglEの中核となる考え方は、複素空間に角度最適化を導入することである。 この手法は、勾配を阻害し最適化を妨げうるコサイン関数における飽和域の悪影響を効果的に軽減する。 包括的なSTS評価を設定するために、既存の短文STSデータセットとGitHub Issuesから新たに収集された長文STSデータセットを試した。 さらに、ラベル付きデータに制限のあるドメイン固有のstsシナリオを検討し、アングルがllmアノテートデータとどのように連携するかを検討する。 短文STS、長文STS、ドメイン固有のSTSタスクなど、さまざまなタスクで大規模な実験が行われた。 その結果、AnglEはコサイン飽和ゾーンを無視したSOTA(State-of-the-art STS)モデルよりも優れていた。 これらの結果は、AnglEが高品質なテキスト埋め込みを生成する能力と、STSにおける角度最適化の有用性を示している。

High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
翻訳日:2023-10-20 11:34:08 公開日:2023-10-19
# DCPT:夜間UAVでのダークネスの追跡

DCPT: Darkness Clue-Prompted Tracking in Nighttime UAVs ( http://arxiv.org/abs/2309.10491v3 )

ライセンス: Link先を確認
Jiawen Zhu, Huayi Tang, Zhi-Qi Cheng, Jun-Yan He, Bin Luo, Shihao Qiu, Shengming Li, Huchuan Lu(参考訳) 既存の夜間無人航空機(UAV)トラッカーは"Enhance-then-Track"アーキテクチャに従っている。 この分離された拡張とトラッキングは、エンドツーエンドのトレーニング可能なビジョンシステムの構築に失敗します。 そこで本研究では,夜間の強靭なUAV追跡を効率よく学習し,暗黙の手がかりを生成する,Darkness Clue-Prompted Tracking (DCPT) という新しいアーキテクチャを提案する。 別個のエンハンサーがなければ、DCPTは暗黒誘導プロンプト(DCP)を使用して、アンチダーク機能を直接プロンプトにエンコードする。 具体的には、DCPは暗黒の手がかりの投影を強調し、損なうことを反復的に学習する。 そして、学習した視覚的プロンプトを、トランスフォーマー層にまたがる固定パラメータで、昼間のトラッカーに注入する。 さらに、ゲート特徴集約機構は、プロンプトとプロンプトとベースモデルとの適応的な融合を可能にする。 複数のダークシナリオベンチマークにおいて,DCPTの最先端性能を示す実験を行った。 DCPTにおける拡張と追跡の統一的なエンドツーエンド学習は、より訓練可能なシステムを実現する。 暗黒の手がかりは、余分な加群なしで効率的に反暗黒の知識を注入する。 コードはhttps://github.com/bearyi26/DCPTで入手できる。

Existing nighttime unmanned aerial vehicle (UAV) trackers follow an "Enhance-then-Track" architecture - first using a light enhancer to brighten the nighttime video, then employing a daytime tracker to locate the object. This separate enhancement and tracking fails to build an end-to-end trainable vision system. To address this, we propose a novel architecture called Darkness Clue-Prompted Tracking (DCPT) that achieves robust UAV tracking at night by efficiently learning to generate darkness clue prompts. Without a separate enhancer, DCPT directly encodes anti-dark capabilities into prompts using a darkness clue prompter (DCP). Specifically, DCP iteratively learns emphasizing and undermining projections for darkness clues. It then injects these learned visual prompts into a daytime tracker with fixed parameters across transformer layers. Moreover, a gated feature aggregation mechanism enables adaptive fusion between prompts and between prompts and the base model. Extensive experiments show state-of-the-art performance for DCPT on multiple dark scenario benchmarks. The unified end-to-end learning of enhancement and tracking in DCPT enables a more trainable system. The darkness clue prompting efficiently injects anti-dark knowledge without extra modules. Code is available at https://github.com/bearyi26/DCPT.
翻訳日:2023-10-20 11:33:45 公開日:2023-10-19
# Gottesman-Kitaev-Preskill状態の自律的量子誤差補正

Autonomous quantum error correction of Gottesman-Kitaev-Preskill states ( http://arxiv.org/abs/2310.11400v2 )

ライセンス: Link先を確認
Dany Lachance-Quirion, Marc-Antoine Lemonde, Jean Olivier Simoneau, Lucas St-Jean, Pascal Lemieux, Sara Turcotte, Wyatt Wright, Am\'elie Lacroix, Jo\"elle Fr\'echette-Viens, Ross Shillito, Florian Hopfmueller, Maxime Tremblay, Nicholas E. Frattini, Julien Camirand Lemyre, Philippe St-Jean(参考訳) Gottesman-Kitaev-Preskill (GKP) 符号は、論理キュービットを1光子損失に対するレジリエンスを持つボソニック系に符号化する。 本稿では,超伝導装置の貯留層工学に基づくGKP状態の量子誤差補正実験を行った。 エラー訂正は、補助トランスモンキュービットの無条件リセットによって自律的に行われる。 論理量子ビットの寿命は量子誤差補正から増加することが示され、生成するよりも多くの誤差が修正される点に達する。

The Gottesman-Kitaev-Preskill (GKP) code encodes a logical qubit into a bosonic system with resilience against single-photon loss, the predominant error in most bosonic systems. Here we present experimental results demonstrating quantum error correction of GKP states based on reservoir engineering of a superconducting device. Error correction is made autonomous through an unconditional reset of an auxiliary transmon qubit. The lifetime of the logical qubit is shown to be increased from quantum error correction, therefore reaching the point at which more errors are corrected than generated.
翻訳日:2023-10-20 11:27:43 公開日:2023-10-19
# vechr:欧州人権裁判所における脆弱性タイプの説明可能かつロバストな分類のためのデータセット

VECHR: A Dataset for Explainable and Robust Classification of Vulnerability Type in the European Court of Human Rights ( http://arxiv.org/abs/2310.11368v2 )

ライセンス: Link先を確認
Shanshan Xu, Leon Staufer, Santosh T.Y.S.S, Oana Ichim, Corina Heri, Matthias Grabmair(参考訳) 脆弱性を認識することは,対象とするサポートの理解と実装において極めて重要である。 これは欧州人権裁判所(ECtHR)において特に重要であり、裁判所は条約の基準を実際の個人のニーズに適合させ、それによって効果的な人権保護を確保する。 しかし、脆弱性の概念はECtHRではいまだ解明されておらず、これまでのNLP研究では対応していない。 そこで本研究では,脆弱性型分類と説明的根拠からなる,新たな専門家によるマルチラベルデータセットであるVECHRを提案する。 予測可能性と説明可能性の両方の観点から,VECHRの最先端モデルの性能をベンチマークする。 結果は,予測性能が低く,モデルと専門家の合意が限られているタスクの難易度を示す。 さらに,out-of-domain(ood)データを扱う際のモデルのロバスト性を分析し,全体の性能を観測する。 私たちのデータセットは、パフォーマンス、説明可能性、堅牢性に関する大きな改善の余地を提供するユニークな課題をもたらします。

Recognizing vulnerability is crucial for understanding and implementing targeted support to empower individuals in need. This is especially important at the European Court of Human Rights (ECtHR), where the court adapts Convention standards to meet actual individual needs and thus ensures effective human rights protection. However, the concept of vulnerability remains elusive at the ECtHR and no prior NLP research has dealt with it. To enable future research in this area, we present VECHR, a novel expert-annotated multi-label dataset comprising of vulnerability type classification and explanation rationale. We benchmark the performance of state-of-the-art models on VECHR from both prediction and explainability perspectives. Our results demonstrate the challenging nature of the task with lower prediction performance and limited agreement between models and experts. Further, we analyze the robustness of these models in dealing with out-of-domain (OOD) data and observe overall limited performance. Our dataset poses unique challenges offering significant room for improvement regarding performance, explainability, and robustness.
翻訳日:2023-10-20 11:27:32 公開日:2023-10-19
# hgcvae:ヘテロジニアスグラフ学習のための生成的および対比的学習の統合

HGCVAE: Integrating Generative and Contrastive Learning for Heterogeneous Graph Learning ( http://arxiv.org/abs/2310.11102v3 )

ライセンス: Link先を確認
Yulan Hu, Zhirui Yang, Sheng Ouyang, Junchen Wan, Fuzheng Zhang, Zhongyuan Wang, Yong Liu(参考訳) 生成的自己教師型学習(SSL)は大きな可能性を示し、グラフ学習への関心が高まっている。 本研究では,ヘテロジニアスグラフ学習(HGL)におけるSSL生成問題について検討する。 ヘテロジニアスグラフに対する以前のSSLアプローチは主にコントラスト学習に依存しており、ヘテロジニアスを捉えるために複雑なビューの設計を必要とする。 しかし、既存の生成SSLメソッドは、HGLの課題に対処するために生成モデルの能力を十分に活用していない。 本稿では,hglを複雑な異種捕獲の負担から解放する,新しいコントラスト変動グラフ自動エンコーダであるhgcvaeを提案する。 複雑な異種性に焦点を当てる代わりに、HGCVAEは生成性SSLの可能性を最大限活用する。 HGCVAEは、対照的な学習と生成的SSLを革新的に統合し、いくつかの重要なイノベーションを導入している。 まず, 差分推論の力を利用して, 比較学習のための高品質な硬質負のサンプルを生成するための進行的メカニズムを用いる。 さらに,効果的かつ安定した学習を実現するための動的マスク戦略を提案する。 さらに,より優れた属性再構成のための基準として,拡張スケールのコサイン誤りを提案する。 HGCVAEは、生成的かつコントラスト的なSSLを組み合わせる最初のステップとして、様々な最先端のベースラインと比較して顕著な結果をもたらし、その優位性を確認する。

Generative self-supervised learning (SSL) has exhibited significant potential and garnered increasing interest in graph learning. In this study, we aim to explore the problem of generative SSL in the context of heterogeneous graph learning (HGL). The previous SSL approaches for heterogeneous graphs have primarily relied on contrastive learning, necessitating the design of complex views to capture heterogeneity. However, existing generative SSL methods have not fully leveraged the capabilities of generative models to address the challenges of HGL. In this paper, we present HGCVAE, a novel contrastive variational graph auto-encoder that liberates HGL from the burden of intricate heterogeneity capturing. Instead of focusing on complicated heterogeneity, HGCVAE harnesses the full potential of generative SSL. HGCVAE innovatively consolidates contrastive learning with generative SSL, introducing several key innovations. Firstly, we employ a progressive mechanism to generate high-quality hard negative samples for contrastive learning, utilizing the power of variational inference. Additionally, we present a dynamic mask strategy to ensure effective and stable learning. Moreover, we propose an enhanced scaled cosine error as the criterion for better attribute reconstruction. As an initial step in combining generative and contrastive SSL, HGCVAE achieves remarkable results compared to various state-of-the-art baselines, confirming its superiority.
翻訳日:2023-10-20 11:27:14 公開日:2023-10-19
# DORec:2次元自己監督機能を利用した分解物再構成

DORec: Decomposed Object Reconstruction Utilizing 2D Self-Supervised Features ( http://arxiv.org/abs/2310.11092v2 )

ライセンス: Link先を確認
Jun Wu, Sicheng Li, Sihui Ji, Yue Wang, Rong Xiong, and Yiyi Liao(参考訳) 複雑な背景から対象のオブジェクトを分解して再構築することは難しい。 ほとんどのアプローチは手動ラベルを使ってオブジェクトインスタンスの認識を取得するが、アノテーションの手順は高価である。 最近の2d自己教師付き学習の進歩は、オブジェクト認識表現に新たな展望をもたらしたが、このようなノイズの多い2d機能をクリーンな分解に活用する方法はまだ不明である。 本稿では,神経的暗黙表現に基づく分解型オブジェクト再構成(dorec)ネットワークを提案する。 我々のキーとなるアイデアは、2次元の自己監督された特徴を2段階の粒度のマスクに転送して分解を監督することであり、その中には前景領域を示すバイナリマスクと、意味的に類似した領域を示すKクラスターマスクが含まれる。 これら2つのマスクは互いに相補的であり、堅牢な分解をもたらす。 実験結果から, 各種データセットにおける前景オブジェクトのセグメンテーションおよび再構成におけるDORecの優位性を示した。

Decomposing a target object from a complex background while reconstructing is challenging. Most approaches acquire the perception for object instances through the use of manual labels, but the annotation procedure is costly. The recent advancements in 2D self-supervised learning have brought new prospects to object-aware representation, yet it remains unclear how to leverage such noisy 2D features for clean decomposition. In this paper, we propose a Decomposed Object Reconstruction (DORec) network based on neural implicit representations. Our key idea is to transfer 2D self-supervised features into masks of two levels of granularity to supervise the decomposition, including a binary mask to indicate the foreground regions and a K-cluster mask to indicate the semantically similar regions. These two masks are complementary to each other and lead to robust decomposition. Experimental results show the superiority of DORec in segmenting and reconstructing the foreground object on various datasets.
翻訳日:2023-10-20 11:26:49 公開日:2023-10-19
# 病理画像登録のための教師なしセグメンテーションの共学習

Co-Learning Semantic-aware Unsupervised Segmentation for Pathological Image Registration ( http://arxiv.org/abs/2310.11040v2 )

ライセンス: Link先を確認
Yang Liu, Shi Gu(参考訳) 病理画像の登録は医学的応用において重要な役割を果たす。 その重要性にもかかわらず、この分野のほとんどの研究者は、主に正常な組織を正常な組織に登録することに焦点を当てている。 空間対応情報の喪失や組織の異常な歪みなど、焦点組織の負の影響はめったに考慮されない。 そこで本稿では,gir(genation, inpainting, and registration)の原則を通し,セグメンテーションとインペインティングを組み込んだ新しい病理画像登録手法であるgirenetを提案する。 集中領域のセグメンテーションとインペイントされたペアの登録を協調的に改善できるように、登録、セグメンテーション、およびインペイントモジュールを協調的に同時に訓練する。 全体として、病理画像の登録は完全に教師なしの学習フレームワークで行われる。 T1配列の磁気共鳴画像(MRI)を含む複数のデータセットの実験結果から,提案手法の有効性が示された。 以上より,病理像の登録を精度良く達成でき,画像診断の難易度においても病変を同定できることを示した。 非教師なしのアプローチは,病理画像の効率的かつ費用効率の良い登録のための有望なソリューションを提供する。 私たちのコードはhttps://github.com/brain-intelligence-lab/GIRNetで利用可能です。

The registration of pathological images plays an important role in medical applications. Despite its significance, most researchers in this field primarily focus on the registration of normal tissue into normal tissue. The negative impact of focal tissue, such as the loss of spatial correspondence information and the abnormal distortion of tissue, are rarely considered. In this paper, we propose GIRNet, a novel unsupervised approach for pathological image registration by incorporating segmentation and inpainting through the principles of Generation, Inpainting, and Registration (GIR). The registration, segmentation, and inpainting modules are trained simultaneously in a co-learning manner so that the segmentation of the focal area and the registration of inpainted pairs can improve collaboratively. Overall, the registration of pathological images is achieved in a completely unsupervised learning framework. Experimental results on multiple datasets, including Magnetic Resonance Imaging (MRI) of T1 sequences, demonstrate the efficacy of our proposed method. Our results show that our method can accurately achieve the registration of pathological images and identify lesions even in challenging imaging modalities. Our unsupervised approach offers a promising solution for the efficient and cost-effective registration of pathological images. Our code is available at https://github.com/brain-intelligence-lab/GIRNet.
翻訳日:2023-10-20 11:26:32 公開日:2023-10-19
# In-Context Pretraining: ドキュメント境界を越えた言語モデリング

In-Context Pretraining: Language Modeling Beyond Document Boundaries ( http://arxiv.org/abs/2310.10638v2 )

ライセンス: Link先を確認
Weijia Shi and Sewon Min and Maria Lomeli and Chunting Zhou and Margaret Li and Victoria Lin and Noah A. Smith and Luke Zettlemoyer and Scott Yih and Mike Lewis(参考訳) 大規模な言語モデル(lms)は現在、ドキュメントプレフィックスが与えられたトークンを予測するように訓練されており、直接ロングフォーム生成や、ドキュメント補完に還元可能なプロンプトスタイルのタスクを実行することができる。 既存の事前訓練パイプラインは、短い文書のランダムなセットを連結して入力コンテキストを作成することでLMを訓練するが、以前の文書は次の文書を予測するための信号を提供しない。 In-Context Pretrainingは、言語モデルが関連する文書のシーケンスで事前訓練される新しいアプローチであり、それによって文書境界を越えて読み書きを明示的に促す。 In-Context Pretrainingは、ドキュメントの順序を変更するだけで、それぞれのコンテキストに関連ドキュメントが含まれ、既存の事前トレーニングパイプラインを直接適用できる。 しかし,この文書ソート問題は困難である。 何十億ものドキュメントがあり、データを繰り返すことなく、すべてのドキュメントの文脈的類似性を最大化したいと考えています。 そこで本研究では, 近接探索を効率よく行う関連文書の探索と, グラフトラバーサルアルゴリズムを用いたコヒーレントな入力コンテキスト構築のための近似アルゴリズムを提案する。 in-context learning (+8%), reading comprehension (+15%), honestness to previous contexts (+16%), long-context reasoning (+5%), retrieval augmentation (+9%) など,より複雑なコンテキスト推論を必要とするタスクには注目すべき改善点があります。

Large language models (LMs) are currently trained to predict tokens given document prefixes, enabling them to directly perform long-form generation and prompting-style tasks which can be reduced to document completion. Existing pretraining pipelines train LMs by concatenating random sets of short documents to create input contexts but the prior documents provide no signal for predicting the next document. We instead present In-Context Pretraining, a new approach where language models are pretrained on a sequence of related documents, thereby explicitly encouraging them to read and reason across document boundaries. We can do In-Context Pretraining by simply changing the document ordering so that each context contains related documents, and directly applying existing pretraining pipelines. However, this document sorting problem is challenging. There are billions of documents and we would like the sort to maximize contextual similarity for every document without repeating any data. To do this, we introduce approximate algorithms for finding related documents with efficient nearest neighbor search and constructing coherent input contexts with a graph traversal algorithm. Our experiments show In-Context Pretraining offers a simple and scalable approach to significantly enhance LMs'performance: we see notable improvements in tasks that require more complex contextual reasoning, including in-context learning (+8%), reading comprehension (+15%), faithfulness to previous contexts (+16%), long-context reasoning (+5%), and retrieval augmentation (+9%).
翻訳日:2023-10-20 11:25:09 公開日:2023-10-19
# ディープラーニングのためのマイクロスケーリングデータフォーマット

Microscaling Data Formats for Deep Learning ( http://arxiv.org/abs/2310.10537v3 )

ライセンス: Link先を確認
Bita Darvish Rouhani, Ritchie Zhao, Ankit More, Mathew Hall, Alireza Khodamoradi, Summer Deng, Dhruv Choudhary, Marius Cornea, Eric Dellinger, Kristof Denolf, Stosic Dusan, Venmugil Elango, Maximilian Golub, Alexander Heinecke, Phil James-Roxby, Dharmesh Jani, Gaurav Kolhe, Martin Langhammer, Ada Li, Levi Melnick, Maral Mesmakhosroshahi, Andres Rodriguez, Michael Schulte, Rasoul Shafipour, Lei Shao, Michael Siu, Pradeep Dubey, Paulius Micikevicius, Maxim Naumov, Colin Verrilli, Ralph Wittig, Doug Burger, Eric Chung(参考訳) 狭いビット幅のデータフォーマットは、現代のディープラーニングアプリケーションの計算コストとストレージコストを削減する鍵となる。 本稿では,ブロック単位のスケーリング係数と狭い浮動小数点数と整数型を組み合わせたマイクロスケーリング(mx)データ形式を評価する。 mxフォーマットは、ハードウェア効率、モデル精度、ユーザ摩擦といった競合するニーズとバランスをとる。 2ダース以上のベンチマークにおける実証的な結果は、AI推論と低ユーザ摩擦によるトレーニングのためのベースラインFP32のドロップイン代替として、MXデータフォーマットの実用性を示している。 また,8ビット以下の重み,アクティベーション,勾配で生成言語モデルをトレーニングする最初の事例を示す。

Narrow bit-width data formats are key to reducing the computational and storage costs of modern deep learning applications. This paper evaluates Microscaling (MX) data formats that combine a per-block scaling factor with narrow floating-point and integer types for individual elements. MX formats balance the competing needs of hardware efficiency, model accuracy, and user friction. Empirical results on over two dozen benchmarks demonstrate practicality of MX data formats as a drop-in replacement for baseline FP32 for AI inference and training with low user friction. We also show the first instance of training generative language models at sub-8-bit weights, activations, and gradients with minimal accuracy loss and no modifications to the training recipe.
翻訳日:2023-10-20 11:24:42 公開日:2023-10-19
# 科学データ変換器--天文学者の教育学的考察

Transformers for scientific data: a pedagogical review for astronomers ( http://arxiv.org/abs/2310.12069v2 )

ライセンス: Link先を確認
Dimitrios Tanoglidis, Bhuvnesh Jain, Helen Qu (University of Pennsylvania)(参考訳) chatgptと関連する生成ai製品に関連するディープラーニングアーキテクチャはtransformersとして知られている。 最初は自然言語処理、トランスフォーマー、そしてそれらが生み出す自己認識機構に応用され、自然科学に広く関心を集めている。 この教育的かつ非公式なレビューの目的は、科学者にトランスフォーマーを導入することである。 このレビューには、アテンションメカニズムの基礎となる数学、オリジナルのトランスフォーマーアーキテクチャの説明、天文学における時系列データや画像データへの応用に関するセクションが含まれている。 我々は、生成AIに興味がある読者や、研究問題のためにトランスフォーマーを使い始めることに興味がある読者のために、頻繁に質問するセクションを含む。

The deep learning architecture associated with ChatGPT and related generative AI products is known as transformers. Initially applied to Natural Language Processing, transformers and the self-attention mechanism they exploit have gained widespread interest across the natural sciences. The goal of this pedagogical and informal review is to introduce transformers to scientists. The review includes the mathematics underlying the attention mechanism, a description of the original transformer architecture, and a section on applications to time series and imaging data in astronomy. We include a Frequently Asked Questions section for readers who are curious about generative AI or interested in getting started with transformers for their research problem.
翻訳日:2023-10-20 11:16:12 公開日:2023-10-19
# 部分領域適応のためのロバストなクラス条件分布アライメント

Robust Class-Conditional Distribution Alignment for Partial Domain Adaptation ( http://arxiv.org/abs/2310.12060v2 )

ライセンス: Link先を確認
Sandipan Choudhuri, Arunabha Sen(参考訳) 部分的なドメイン適応設定の学習目的におけるプライベートソースカテゴリからの不要なサンプルは、負の転送と分類性能の低下につながる可能性がある。 目標予測の再重み付けや集約といった既存のメソッドは、この問題、特に初期トレーニング段階では脆弱であり、クラスレベルの機能アライメントには不十分である。 提案手法は, 1次モーメントよりも深く掘り下げることで, 特徴的かつコンパクトなカテゴリー分布を導出することにより, それらの限界を克服しようとするものである。 ドメイン不変な方法でクラス内およびクラス間分布を最適化し、効率的なターゲット監視のための堅牢な擬似ラベルを設計する。 提案手法は,分類の不確かさを低減し,不正確なカテゴリー予測をフラット化するために,補的エントロピー目的モジュールを組み込んだ。 提案モジュールの実験結果とアブレーション解析により,提案モデルの性能をベンチマークと比較した。

Unwanted samples from private source categories in the learning objective of a partial domain adaptation setup can lead to negative transfer and reduce classification performance. Existing methods, such as re-weighting or aggregating target predictions, are vulnerable to this issue, especially during initial training stages, and do not adequately address class-level feature alignment. Our proposed approach seeks to overcome these limitations by delving deeper than just the first-order moments to derive distinct and compact categorical distributions. We employ objectives that optimize the intra and inter-class distributions in a domain-invariant fashion and design a robust pseudo-labeling for efficient target supervision. Our approach incorporates a complement entropy objective module to reduce classification uncertainty and flatten incorrect category predictions. The experimental findings and ablation analysis of the proposed modules demonstrate the superior performance of our proposed model compared to benchmarks.
翻訳日:2023-10-20 11:16:02 公開日:2023-10-19
# グループ不変学習による人間選好へのアライメントの一般化

Improving Generalization of Alignment with Human Preferences through Group Invariant Learning ( http://arxiv.org/abs/2310.11971v2 )

ライセンス: Link先を確認
Rui Zheng, Wei Shen, Yuan Hua, Wenbin Lai, Shihan Dou, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Haoran Huang, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 言語モデル(LLM)に基づくAIアシスタントの成功は、人間からのフィードバックからの強化学習(RLHF)に大きく依存している。 ユニバーサルなAIアシスタントとして、さまざまなドメインで一貫して実行するという期待が高まっています。 しかし、以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。 これにより、トレーニングの安定性と、新しい、目に見えないデータに一般化するモデルの能力の両方が損なわれる。 本研究では,様々なデータグループやドメインにまたがる一貫したポリシーをRLで学習する手法を提案する。 グループアノテーションの取得に関わる課題を考慮し,データを自動的に異なるグループに分類し,パフォーマンスの分散を意図的に最大化する。 そして、挑戦するグループでうまく機能するようにポリシーを最適化します。 最後に、確立したグループを活用して探索空間を適応的に調整し、より困難なデータに学習能力を割り当て、モデルが単純なデータに対して過度に最適化されるのを防ぐ。 実験結果から,本手法はトレーニング安定性とモデル一般化を著しく向上させることが示された。

The success of AI assistants based on language models (LLMs) hinges crucially on Reinforcement Learning from Human Feedback (RLHF), which enables the generation of responses more aligned with human preferences. As universal AI assistants, there's a growing expectation for them to perform consistently across various domains. However, previous work shows that Reinforcement Learning (RL) often exploits shortcuts to attain high rewards and overlooks challenging samples. This focus on quick reward gains undermines both the stability in training and the model's ability to generalize to new, unseen data. In this work, we propose a novel approach that can learn a consistent policy via RL across various data groups or domains. Given the challenges associated with acquiring group annotations, our method automatically classifies data into different groups, deliberately maximizing performance variance. Then, we optimize the policy to perform well on challenging groups. Lastly, leveraging the established groups, our approach adaptively adjusts the exploration space, allocating more learning capacity to more challenging data and preventing the model from over-optimizing on simpler data. Experimental results indicate that our approach significantly enhances training stability and model generalization.
翻訳日:2023-10-20 11:15:48 公開日:2023-10-19
# ディスコナンスからインサイトへ:事例アウトカム分類のための集合住宅の解体

From Dissonance to Insights: Dissecting Disagreements in Rationale Construction for Case Outcome Classification ( http://arxiv.org/abs/2310.11878v2 )

ライセンス: Link先を確認
Shanshan Xu, Santosh T.Y.S.S, Oana Ichim, Isabella Risini, Barbara Plank, Matthias Grabmair(参考訳) 法的NLPでは、ケースアウトカム分類(COC)は正確であるだけでなく、信頼性と説明性も必要である。 説明可能なCOCの既存の作業は、単一の専門家によるアノテーションに限定されている。 しかし、弁護士が事件事実の評価に異議を唱えることも知られている。 そこで我々は,国際人権法領域の専門家2人から得られたechr1の合理的な変動に関する新たなデータセットを収集し,弱い合意を遵守する。 それらの不一致を調査し,coc固有のサブカテゴリを補う2段階のタスク非依存分類法を構築した。 我々の知る限り、これは人間のラベルの変化に焦点を当てた法的NLPにおける最初の研究である。 異なる分類群を定量的に評価し,cocメタデータの粒度やノイズを考慮し,法的な文脈を過小に特定することによる不一致が主な原因であることを見出した。 さらに、RAVE上でのSOTA COCモデルの妥当性を評価し、モデルと専門家間の限定的な合意を観察する。 総じて,本事例のケーススタディでは,法的nlpにおけるベンチマークデータセット作成におけるhhertoの不正確さが明らかにされている。

In legal NLP, Case Outcome Classification (COC) must not only be accurate but also trustworthy and explainable. Existing work in explainable COC has been limited to annotations by a single expert. However, it is well-known that lawyers may disagree in their assessment of case facts. We hence collect a novel dataset RAVE: Rationale Variation in ECHR1, which is obtained from two experts in the domain of international human rights law, for whom we observe weak agreement. We study their disagreements and build a two-level task-independent taxonomy, supplemented with COC-specific subcategories. To our knowledge, this is the first work in the legal NLP that focuses on human label variation. We quantitatively assess different taxonomy categories and find that disagreements mainly stem from underspecification of the legal context, which poses challenges given the typically limited granularity and noise in COC metadata. We further assess the explainablility of SOTA COC models on RAVE and observe limited agreement between models and experts. Overall, our case study reveals hitherto underappreciated complexities in creating benchmark datasets in legal NLP that revolve around identifying aspects of a case's facts supposedly relevant to its outcome.
翻訳日:2023-10-20 11:15:26 公開日:2023-10-19
# グラフニューラルネットワーク学習のための準wasserstein損失

A Quasi-Wasserstein Loss for Learning Graph Neural Networks ( http://arxiv.org/abs/2310.11762v2 )

ライセンス: Link先を確認
Minjie Cheng and Hongteng Xu(参考訳) ノードレベルの予測タスクでグラフニューラルネットワーク(GNN)を学習する場合、ノードの埋め込みとそのラベルがグラフ構造のため非i.d.である場合でも、既存の損失関数は各ノードに独立して適用される。 そこで本研究では,グラフ上で定義された最適輸送の助けを借りて,新たな準ワッサーシュタイン損失(QW)を提案し,GNNの新たな学習・予測パラダイムを導出する。 特に,観測された多次元ノードラベルと推定値との"Quasi-Wasserstein"距離を設計し,グラフエッジ上で定義されたラベル転送を最適化する。 推定は、最適ラベル輸送がグラフエッジ重みを任意に決定できるGNNによってパラメータ化される。 ラベル転送の厳密な制約をbregman divergence-based regularizerに再構成することで、gnnを学習する2つの効率的な解法と最適なラベル転送に関する疑似wasserstein損失を得る。 ノードラベルを予測する場合、GNNの出力と最適なラベル転送によって提供される残差成分を組み合わせ、新たなトランスダクティブ予測パラダイムを導出する。 実験の結果,提案したQW損失は様々なGNNに適用され,ノードレベルの分類や回帰タスクのパフォーマンス向上に有効であることがわかった。

When learning graph neural networks (GNNs) in node-level prediction tasks, most existing loss functions are applied for each node independently, even if node embeddings and their labels are non-i.i.d. because of their graph structures. To eliminate such inconsistency, in this study we propose a novel Quasi-Wasserstein (QW) loss with the help of the optimal transport defined on graphs, leading to new learning and prediction paradigms of GNNs. In particular, we design a "Quasi-Wasserstein" distance between the observed multi-dimensional node labels and their estimations, optimizing the label transport defined on graph edges. The estimations are parameterized by a GNN in which the optimal label transport may determine the graph edge weights optionally. By reformulating the strict constraint of the label transport to a Bregman divergence-based regularizer, we obtain the proposed Quasi-Wasserstein loss associated with two efficient solvers learning the GNN together with optimal label transport. When predicting node labels, our model combines the output of the GNN with the residual component provided by the optimal label transport, leading to a new transductive prediction paradigm. Experiments show that the proposed QW loss applies to various GNNs and helps to improve their performance in node-level classification and regression tasks.
翻訳日:2023-10-20 11:15:06 公開日:2023-10-19
# Live Graph Lab: NFTによるオープン、動的、リアルなトランザクショングラフを目指す

Live Graph Lab: Towards Open, Dynamic and Real Transaction Graphs with NFT ( http://arxiv.org/abs/2310.11709v2 )

ライセンス: Link先を確認
Zhen Zhang, Bingqiao Luo, Shengliang Lu, Bingsheng He(参考訳) 大規模時間グラフの性質について多くの研究がなされている。 これらのグラフが現実世界のシナリオで普及しているにもかかわらず、プライバシの懸念と技術的な制限のために、リアルタイムグラフ全体を取得するのは、通常非現実的です。 本稿では,ブロックチェーンからオープンで動的,かつ実際のトランザクショングラフを可能にする時間グラフのための"it live graph lab"の概念を紹介する。 その中でも、Non-fungible tokens(NFT)は、ここ数年でブロックチェーンの最も顕著な部分のひとつになっている。 400億ドル以上の市場資本を持つこの分散エコシステムは、巨大で匿名の実際の取引活動を生み出し、自然に複雑な取引ネットワークを形成する。 しかし、時間グラフ分析の観点からは、この新興nftエコシステムの特徴に関する理解は限られている。 このギャップを軽減するために、NFTトランザクションネットワークでライブグラフをインスタンス化し、そのダイナミクスを調査し、新しい観察と洞察を提供する。 具体的には、NFTトランザクションアクティビティのダウンロードと解析を通じて、450万以上のノードと1400万のエッジを持つ時間グラフを得る。 次に、NFT生態系の性質を理解するための一連の測定結果を示す。 ソーシャル, 引用, およびウェブネットワークとの比較を通じて, 分析によって興味深い結果が得られ, 今後の探索の可能性も指摘される。 最後に、このライブグラフで機械学習モデルを調べ、現在のデータセットを強化し、グラフコミュニティに新たな機会を提供する。 ソースコードとデータセットはhttps://livegraphlab.github.ioで入手できる。

Numerous studies have been conducted to investigate the properties of large-scale temporal graphs. Despite the ubiquity of these graphs in real-world scenarios, it's usually impractical for us to obtain the whole real-time graphs due to privacy concerns and technical limitations. In this paper, we introduce the concept of {\it Live Graph Lab} for temporal graphs, which enables open, dynamic and real transaction graphs from blockchains. Among them, Non-fungible tokens (NFTs) have become one of the most prominent parts of blockchain over the past several years. With more than \$40 billion market capitalization, this decentralized ecosystem produces massive, anonymous and real transaction activities, which naturally forms a complicated transaction network. However, there is limited understanding about the characteristics of this emerging NFT ecosystem from a temporal graph analysis perspective. To mitigate this gap, we instantiate a live graph with NFT transaction network and investigate its dynamics to provide new observations and insights. Specifically, through downloading and parsing the NFT transaction activities, we obtain a temporal graph with more than 4.5 million nodes and 124 million edges. Then, a series of measurements are presented to understand the properties of the NFT ecosystem. Through comparisons with social, citation, and web networks, our analyses give intriguing findings and point out potential directions for future exploration. Finally, we also study machine learning models in this live graph to enrich the current datasets and provide new opportunities for the graph community. The source codes and dataset are available at https://livegraphlab.github.io.
翻訳日:2023-10-20 11:14:40 公開日:2023-10-19
# サンプル効率の良いマルチタスクチューニングのためのプロトタイプベースハイパーアダプタ

Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning ( http://arxiv.org/abs/2310.11670v2 )

ライセンス: Link先を確認
Hao Zhao, Jie Fu, Zhaofeng He(参考訳) パラメータ効率のよい微調整(PEFT)は、少数のパラメータを更新するだけで、トレーニング済み言語モデルを下流タスクに適応させる効果を示した。 成功にもかかわらず、既存の手法のほとんどはタスク間の知識伝達を考慮せずに個別にタスクに適応し、低データ体制に限られる。 この問題を解決するために,アダプタチューニングとハイパーネットワークに基づく新しいフレームワークであるPrototype-based HyperAdapter (PHA)を提案する。 インスタンスデンスレトリバーとプロトタイプのハイパーネットワークを導入し、条件付きモジュールをサンプル効率のよい方法で生成する。 これにより、マルチタスク学習と少ない転送学習において、既存のpeftメソッドと同等のパフォーマンス改善がもたらされる。 さらに重要なことは、利用可能なデータサイズが小さくなると、我々のメソッドは大きなマージンで他の強力なベースラインを上回っます。 さまざまなデータセットにわたる広範な実証実験に基づいて、トレーニング可能なパラメータとストリームタスクの正確性、サンプル効率のトレードオフをPHAがよりよいものにすることを実証した。

Parameter-efficient fine-tuning (PEFT) has shown its effectiveness in adapting the pre-trained language models to downstream tasks while only updating a small number of parameters. Despite the success, most existing methods independently adapt to each task without considering knowledge transfer between tasks and are limited to low-data regimes. To overcome this issue, we propose Prototype-based HyperAdapter (PHA), a novel framework built on the adapter-tuning and hypernetwork. It introduces an instance-dense retriever and a prototypical hypernetwork to generate the conditional modules in a sample-efficient manner. This leads to comparable performance improvements against existing PEFT methods on multi-task learning and few-shot transfer learning. More importantly, when the available data size gets smaller, our method outperforms other strong baselines by a large margin. Based on our extensive empirical experiments across various datasets, we demonstrate that PHA strikes a better trade-off between trainable parameters, accuracy on stream tasks, and sample efficiency.
翻訳日:2023-10-20 11:14:17 公開日:2023-10-19
# WaveAttack:非対称周波数難読化に基づくディープニューラルネットワークに対するバックドア攻撃

WaveAttack: Asymmetric Frequency Obfuscation-based Backdoor Attacks Against Deep Neural Networks ( http://arxiv.org/abs/2310.11595v2 )

ライセンス: Link先を確認
Jun Xia, Zhihao Yue, Yingbo Zhou, Zhiwei Ling, Xian Wei, Mingsong Chen(参考訳) 人工知能(AI)技術の人気のため、多くのバックドア攻撃は、トレーニングサンプルとトレーニングプロセスを操作することで、ディープニューラルネットワーク予測を誤解させるように設計されている。 バックドア攻撃は様々な現実のシナリオで有効であるが、有毒なサンプルの忠実度が低いことと、潜在空間における無視できない転送の問題があるため、既存のバックドア検出アルゴリズムによって容易に検出できる。 この弱点を克服するために,DWT(Drete Wavelet Transform)を用いて画像の高周波数特性を取得し,バックドアトリガを生成するWaveAttackという新しいバックドア攻撃手法を提案する。 さらに、トレーニングおよび推論段階で適応的な残差を付加し、トリガの影響を改善し、WaveAttackの有効性をさらに高める非対称周波数難読化法を導入する。 総合的な実験結果から、WaveAttackは高いステルスネスと有効性を達成するだけでなく、PSNRの28.27倍、SSIMの1.61倍、ISの70.59倍、画像の忠実度において、最先端(SOTA)バックドア攻撃法よりも優れていた。

Due to the popularity of Artificial Intelligence (AI) technology, numerous backdoor attacks are designed by adversaries to mislead deep neural network predictions by manipulating training samples and training processes. Although backdoor attacks are effective in various real scenarios, they still suffer from the problems of both low fidelity of poisoned samples and non-negligible transfer in latent space, which make them easily detectable by existing backdoor detection algorithms. To overcome the weakness, this paper proposes a novel frequency-based backdoor attack method named WaveAttack, which obtains image high-frequency features through Discrete Wavelet Transform (DWT) to generate backdoor triggers. Furthermore, we introduce an asymmetric frequency obfuscation method, which can add an adaptive residual in the training and inference stage to improve the impact of triggers and further enhance the effectiveness of WaveAttack. Comprehensive experimental results show that WaveAttack not only achieves higher stealthiness and effectiveness, but also outperforms state-of-the-art (SOTA) backdoor attack methods in the fidelity of images by up to 28.27\% improvement in PSNR, 1.61\% improvement in SSIM, and 70.59\% reduction in IS.
翻訳日:2023-10-20 11:13:59 公開日:2023-10-19
# Rigidity Hurts:確率的階層的時系列予測のためのソフト一貫性規則化

When Rigidity Hurts: Soft Consistency Regularization for Probabilistic Hierarchical Time Series Forecasting ( http://arxiv.org/abs/2310.11569v2 )

ライセンス: Link先を確認
Harshavardhan Kamarthi, Lingkai Kong, Alexander Rodr\'iguez, Chao Zhang, B. Aditya Prakash(参考訳) 確率的階層的時系列予測は時系列予測の重要な変種であり、階層的関係を基礎とする多変量時系列のモデル化と予測を目標としている。 ほとんどの手法は点予測に焦点をあて、適切に調整された確率的予測分布を提供しない。 近年の最先端確率予測手法は,予測分布の一貫性を考慮しない点予測と分布のサンプルに階層的関係を課している。 以前の研究は、データセットが常に与えられた階層的な関係と一致しており、この仮定からの逸脱を示す現実世界のデータセットに適応していないことを静かに仮定している。 両者のギャップを埋めて,階層全体の分布の予測を共同でモデル化する完全確率的階層予測モデル PROFHiT を提案する。 PROFHiTは柔軟な確率的ベイズ的アプローチを採用し、新しい分散コヒーレンシ正規化を導入し、予測分布全体の階層的関係から学習し、堅牢で校正された予測を可能にし、様々な階層的一貫性のデータセットに適応する。 幅広いデータセット上での習熟度評価では,精度が41~88%向上し,校正精度が有意に向上した。 完全分布上のコヒーレンシをモデル化することにより,入力時系列データの最大10%が欠落していても,proFHiTは信頼性の高い予測を確実に提供できることがわかった。

Probabilistic hierarchical time-series forecasting is an important variant of time-series forecasting, where the goal is to model and forecast multivariate time-series that have underlying hierarchical relations. Most methods focus on point predictions and do not provide well-calibrated probabilistic forecasts distributions. Recent state-of-art probabilistic forecasting methods also impose hierarchical relations on point predictions and samples of distribution which does not account for coherency of forecast distributions. Previous works also silently assume that datasets are always consistent with given hierarchical relations and do not adapt to real-world datasets that show deviation from this assumption. We close both these gap and propose PROFHiT, which is a fully probabilistic hierarchical forecasting model that jointly models forecast distribution of entire hierarchy. PROFHiT uses a flexible probabilistic Bayesian approach and introduces a novel Distributional Coherency regularization to learn from hierarchical relations for entire forecast distribution that enables robust and calibrated forecasts as well as adapt to datasets of varying hierarchical consistency. On evaluating PROFHiT over wide range of datasets, we observed 41-88% better performance in accuracy and significantly better calibration. Due to modeling the coherency over full distribution, we observed that PROFHiT can robustly provide reliable forecasts even if up to 10% of input time-series data is missing where other methods' performance severely degrade by over 70%.
翻訳日:2023-10-20 11:13:31 公開日:2023-10-19
# 量子ワンウェイネスからのコミットメント

Commitments from Quantum One-Wayness ( http://arxiv.org/abs/2310.11526v2 )

ライセンス: Link先を確認
Dakshita Khurana (UIUC) and Kabir Tomer (UIUC)(参考訳) 片道関数は古典暗号の中心である。 これらは、非自明な古典暗号システムの存在のために必要であり、コミットメント、擬似ランダム生成器、デジタル署名を含む有意義なプリミティブを実現するのに十分である。 同時に、仮説が一方的な関数よりも弱いことが、ビットコミットメントやセキュアなマルチパーティ計算を含む多くの量子世界に興味を持つ暗号的タスクに十分であることを示している。 本研究は, 片道関数の自然量子緩和である片道状態発生器[森前-山川, CRYPTO 2022]を研究する。 秘密鍵が与えられた場合、一方の状態発生器は、量子状態の反転が難しい状態を出力する。 根本的な問題は、このタイプの量子ワンウェイネスが量子暗号を実現するのに十分であるかどうかである。 純粋な状態を持つ一方向状態生成器が量子ビットのコミットメントを生じさせ、マルチパーティ計算を安全に行うことを証明し、この問題に対する肯定的な答えを得る。 その過程で、古典的な出力を持つ中間プリミティブを構築し、これを(量子)片道パズルと呼ぶ。 我々の主な技術的貢献は、一方のパズルが量子ビットのコミットメントを暗示する証拠である。

One-way functions are central to classical cryptography. They are both necessary for the existence of non-trivial classical cryptosystems, and sufficient to realize meaningful primitives including commitments, pseudorandom generators and digital signatures. At the same time, a mounting body of evidence suggests that assumptions even weaker than one-way functions may suffice for many cryptographic tasks of interest in a quantum world, including bit commitments and secure multi-party computation. This work studies one-way state generators [Morimae-Yamakawa, CRYPTO 2022], a natural quantum relaxation of one-way functions. Given a secret key, a one-way state generator outputs a hard to invert quantum state. A fundamental question is whether this type of quantum one-wayness suffices to realize quantum cryptography. We obtain an affirmative answer to this question, by proving that one-way state generators with pure state outputs imply quantum bit commitments and secure multiparty computation. Along the way, we build an intermediate primitive with classical outputs, which we call a (quantum) one-way puzzle. Our main technical contribution is a proof that one-way puzzles imply quantum bit commitments.
翻訳日:2023-10-20 11:13:05 公開日:2023-10-19