このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231108となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# CompactTag: ディープニューラルネットワークのための能動的セキュアMPCにおける計算オーバヘッドの最小化
CompactTag: Minimizing Computation Overheads in Actively-Secure MPC for Deep Neural Networks ( http://arxiv.org/abs/2311.04406v1 ) ライセンス: Link先を確認 | Yongqin Wang, Pratik Sarkar, Nishat Koti, Arpita Patra, Murali Annavaram, | (参考訳) セキュアなマルチパーティ計算(MPC)プロトコルは、複数のパーティによる回路のセキュアな評価を可能にする。
これらのMPCプロトコルは、よく知られた秘密共有ベースのパラダイム(SPDZとSPDZ2k)を用いて構築され、このプロトコルは、入力共有のMACタグを計算し、これらの入力共有とタグで回路の評価を行う。
しかし、このタグ計算は、特に畳み込みや完全に接続された層のような多数の線形計算層を持つ機械学習(ML)アプリケーションにおいて、大きなランタイムオーバーヘッドをもたらす。
タグ計算のオーバーヘッドを軽減するために,MLの線形層に適したMACタグを生成する軽量アルゴリズムであるCompactTagを導入する。
畳み込みを含むMLの線形層演算は、Toeplitz行列乗法に変換することができる。
次元 T1 x T2 と T2 x T3 の2つの行列の乗算に対して、SPDZ2k はタグ計算に O(T1 x T2 x T3) の局所乗算を必要とした。
対照的に、CompactTagはO(T1 x T2 + T1 x T3 + T2 x T3)ローカル乗算しか必要とせず、様々なMLモデルの大幅な性能向上をもたらす。
このプロトコルを,ResNet Training-Inference, Transformer Training-Inference, VGG16 Training-Inferenceなど,さまざまなML回路用のSPDZ2kプロトコルと比較した。
SPDZ2kは、タグ計算のためのオンラインランタイムの30%を専門にしている。
CompactTagは、このタグ計算のボトルネックを最大23倍に高速化し、さまざまなMLワークロードのオンラインフェーズランタイム全体の1.47倍のスピードアップを実現している。
Secure Multiparty Computation (MPC) protocols enable secure evaluation of a circuit by several parties, even in the presence of an adversary who maliciously corrupts all but one of the parties. These MPC protocols are constructed using the well-known secret-sharing-based paradigm (SPDZ and SPDZ2k), where the protocols ensure security against a malicious adversary by computing Message Authentication Code (MAC) tags on the input shares and then evaluating the circuit with these input shares and tags. However, this tag computation adds a significant runtime overhead, particularly for machine learning (ML) applications with numerous linear computation layers such as convolutions and fully connected layers. To alleviate the tag computation overhead, we introduce CompactTag, a lightweight algorithm for generating MAC tags specifically tailored for linear layers in ML. Linear layer operations in ML, including convolutions, can be transformed into Toeplitz matrix multiplications. For the multiplication of two matrices with dimensions T1 x T2 and T2 x T3 respectively, SPDZ2k required O(T1 x T2 x T3) local multiplications for the tag computation. In contrast, CompactTag only requires O(T1 x T2 + T1 x T3 + T2 x T3) local multiplications, resulting in a substantial performance boost for various ML models. We empirically compared our protocol to the SPDZ2k protocol for various ML circuits, including ResNet Training-Inference, Transformer Training-Inference, and VGG16 Training-Inference. SPDZ2k dedicated around 30% of its online runtime for tag computation. CompactTag speeds up this tag computation bottleneck by up to 23x, resulting in up to 1.47x total online phase runtime speedups for various ML workloads. | 翻訳日:2024-03-25 13:26:22 公開日:2023-11-08 |
# SyncBleed:ZIPA(Zero-Involvement Pairing and Authentication)のためのリアルな脅威モデルと緩和戦略
SyncBleed: A Realistic Threat Model and Mitigation Strategy for Zero-Involvement Pairing and Authentication (ZIPA) ( http://arxiv.org/abs/2311.04433v1 ) ライセンス: Link先を確認 | Isaac Ahlgren, Jack West, Kyuin Lee, George K. Thiruvathukal, Neil Klingensmith, | (参考訳) Zero Involvement Pairing and Authentication (ZIPA)は、IoT(Internet-of-Things)デバイスの大規模なネットワークを自動プロビジョニングするための有望なテクニックである。
現在、これらのネットワークはパスワードベースの認証を使用しており、少数のデバイスに拡張することは困難である。
この課題に対処するため、ZIPAは周囲の環境信号から同一の認証または暗号化キーを自律的に抽出することを可能にする。
しかし、鍵交渉の過程で、既存のZIPAシステムは、相手が鍵を学習できるように、公開無線チャネルの情報を漏洩する。
我々は、ZIPAシステムによって生成された鍵を復元するために漏洩情報を利用するSyncBleedと呼ばれるパッシブ攻撃を実演する。
SyncBleedを緩和するために,情報漏洩のない環境信号からほぼ同じビット列を生成する改良されたキー生成技術TREVORを提案する。
TREVORは, 様々な環境信号から4秒以下の鍵を生成できることを示す。
Zero Involvement Pairing and Authentication (ZIPA) is a promising technique for auto-provisioning large networks of Internet-of-Things (IoT) devices. Presently, these networks use password-based authentication, which is difficult to scale to more than a handful of devices. To deal with this challenge, ZIPA enabled devices autonomously extract identical authentication or encryption keys from ambient environmental signals. However, during the key negotiation process, existing ZIPA systems leak information on a public wireless channel which can allow adversaries to learn the key. We demonstrate a passive attack called SyncBleed, which uses leaked information to reconstruct keys generated by ZIPA systems. To mitigate SyncBleed, we present TREVOR, an improved key generation technique that produces nearly identical bit sequences from environmental signals without leaking information. We demonstrate that TREVOR can generate keys from a variety of environmental signal types under 4 seconds, consistently achieving a 90-95% bit agreement rate across devices within various environmental sources. | 翻訳日:2024-03-25 13:26:22 公開日:2023-11-08 |
# KiD:FPGA上のCRYSTALS-KyberとCRYSTALS-Dilithiumの統一NTT乗算を目的としたハードウェア設計フレームワーク
KiD: A Hardware Design Framework Targeting Unified NTT Multiplication for CRYSTALS-Kyber and CRYSTALS-Dilithium on FPGA ( http://arxiv.org/abs/2311.04581v1 ) ライセンス: Link先を確認 | Suraj Mandal, Debapriya Basu Roy, | (参考訳) 大次多項式乗算は、CRYSTALS-KyberやDilithiumのような、量子後安全な格子ベースの暗号アルゴリズムの不可欠な構成要素である。
大次多項式乗算の計算複雑性は、数論変換(NTT)によって著しく減少することができる。
本稿では,CRYSTALS-KyberとDilithiumの両方の多項式乗算をサポート可能な,統一的で共有的なNTTアーキテクチャを開発することを目的とする。
具体的には,CRYSTALS-Kyber と Dilithium におけるNTT乗算のための3つの異なる統一アーキテクチャを提案する。
さらに、開発された実装は、アーキテクチャを完全にパイプライン化できるコンフリクトフリーなメモリマッピングスキームと結合されている。
我々はArtix-7、Zynq-7000、Zynq Ultrascale+FPGAの実装を検証した。
CRYSTALS-Kyber と Dilithium のNTT乗算のスタンドアロン実装は,既存の作業よりも優れた性能を示し,我々の統合アーキテクチャは,スタンドアロンおよび既存の統合実装と比較して,優れた面積とタイミング性能を示す。
このアーキテクチャは、CRYSTALS-KyberとDilithiumのコンパクトで効率的な実装に使用できる。
Large-degree polynomial multiplication is an integral component of post-quantum secure lattice-based cryptographic algorithms like CRYSTALS-Kyber and Dilithium. The computational complexity of large-degree polynomial multiplication can be reduced significantly through Number Theoretic Transformation (NTT). In this paper, we aim to develop a unified and shared NTT architecture that can support polynomial multiplication for both CRYSTALS-Kyber and Dilithium. More specifically, in this paper, we have proposed three different unified architectures for NTT multiplication in CRYSTALS-Kyber and Dilithium with varying numbers of configurable radix-2 butterfly units. Additionally, the developed implementation is coupled with a conflict-free memory mapping scheme that allows the architecture to be fully pipelined. We have validated our implementation on Artix-7, Zynq-7000 and Zynq Ultrascale+ FPGAs. Our standalone implementations for NTT multiplication for CRYSTALS-Kyber and Dilithium perform better than the existing works, and our unified architecture shows excellent area and timing performance compared to both standalone and existing unified implementations. This architecture can potentially be used for compact and efficient implementation for CRYSTALS-Kyber and Dilithium. | 翻訳日:2024-03-25 13:26:22 公開日:2023-11-08 |
# DAG-Sword: 大規模ネットワークトポロジのシミュレーション
DAG-Sword: A Simulator of Large-Scale Network Topologies for DAG-Oriented Proof-of-Work Blockchains ( http://arxiv.org/abs/2311.04638v1 ) ライセンス: Link先を確認 | Martin Perešíni, Tomáš Hladký, Kamil Malinka, Ivan Homoliak, | (参考訳) ブロックチェーンは多くの実用的なアプリケーションに興味深い特性をもたらした。
しかしながら、トランザクション処理スループットなどのいくつかのプロパティは、特にProof-of-Workブロックチェーンでは制限されていた。
そのため、シャーディング設計やDAGベースのプロトコルなど、いくつかの有望な方向性が現れた。
本稿では,DAGに基づくコンセンサスプロトコルに着目し,離散イベントシミュレータを提案する。
我々のシミュレーターは、Bitcoinネットワークのデータから生成された現実的なブロックチェーンネットワークをシミュレートし、そのネットワーク構成とトポロジをカスタマイズすることができる。
シミュレーションネットワークは、誠実で悪意のある鉱山労働者で構成されている。
悪質な鉱山労働者は合意そのものを攻撃しない。
その代わり、彼らは正直なマイナ(ランダムにトランザクションを選択する)とは異なるトランザクション選択戦略を使い、重複するトランザクションによってプロトコルのパフォーマンスを低下させるコストで、正直なマイナよりも不公平により多くの利益を稼ぐことを意図している。
その結果、トランザクション処理スループットの観点からDAGベースのプロトコル(PHANTOMやGHOSTDAGなど)の性能が損なわれ、7000ノードの大規模ネットワーク上で得られた結果により、10ノードの小規模ネットワークを含む関連作業の結果が拡張された。
次に,メムプール構造に対する異なるアルゴリズムを実証的に比較し,メモリ効率が良く,資源需要の高い大規模ネットワークのシミュレーションに便利な複合メムプール構造を提案する。
The blockchain brought interesting properties for many practical applications. However, some properties, such as the transaction processing throughput remained limited, especially in Proof-of-Work blockchains. Therefore, several promising directions, such as sharding designs and DAG-based protocols emerged. In this paper, we focus on DAG-based consensus protocols and present a discrete-event simulator for them. Our simulator can simulate realistic blockchain networks created from data of a Bitcoin network, while its network configuration and topology can be customized. The simulated network consists of honest and malicious miners. Malicious miners do not make any attack on consensus itself. Instead, they use a different transaction selection strategy than honest miners (who select transactions randomly) with the intention to earn unfairly more profits than honest miners at the cost of downgrading the protocol performance by duplicate transactions. As a consequence, this harms the performance of some DAG-based protocols (e.g., PHANTOM and GHOSTDAG) in terms of transaction processing throughput, which we demonstrate in our experiments and extend the results of the related work that contains a small-scale network of 10 nodes by the results obtained on a large-scale network with 7000 nodes. Next, we empirically compare different algorithms for the mempool structure, and we propose a composite mempool structure that is memory-efficient and thus convenient for simulations of resource-demanding large-scale networks. | 翻訳日:2024-03-25 13:26:22 公開日:2023-11-08 |
# Sandi: 直接コミュニケーションにおける説明責任と応用のためのシステム(拡張抽象化)
Sandi: A System for Accountability and Applications in Direct Communication (Extended Abstract) ( http://arxiv.org/abs/2311.04861v1 ) ライセンス: Link先を確認 | F. Betül Durak, Kim Laine, Simon Langowski, Radames Cruz Moreno, Robert Sim, Shrey Jain, | (参考訳) レビューシステムは、どのレストランで食事をするか、どのベンダーから購入するか、どのソフトウェア依存物を使うか、誰が信頼するか、という、生活と仕事の両方の意思決定をガイドします。
これらのシステムは、しばしば古い考えに基づいており、現代の脅威に直面して失敗している。
詐欺師はそれらを操作する方法を見つけ、その完全性と実用性を損なう。
ジェネレーティブAIは、現実的な偽の物語を大規模に作成することを可能にし、誤ったコンセンサスを創り出すことによって、この問題に付加する。
一方、信頼できる評判の概念の必要性は、誤った判断がますます深刻な結果をもたらすため、これまで以上に重要である。
この拡張抽象化では、1対1のトランザクションにおける説明責任を通じて信頼を生み出す、単一の明確に定義された目的を持った新しいタイプの評価システムであるSandiを紹介します。
そのような取引の例としては、電子メールの送信やオンラインでの購入などがある。
Sandiには強力なセキュリティとプライバシ特性があり、センシティブなコンテキストでも使用するのに適している。
さらに、Sandiは登録ユーザーに対して、評判の整合性と透明性を保証することができる。
第一の応用として、直接コミュニケーションにおいてSandiが詐欺や虐待にどう対処できるかを考察する。
具体的には、メッセージ送信者は、メッセージと共に送信するSandiから暗号化タグを要求する。
レシーバーがメッセージが不適切であれば、このタグを使って送信者を報告することができる。
特に、送信側だけが登録アカウントを必要とし、長期キーを管理する必要はない。
Sandiの設計は、小さなバイナリデータ転送を可能にするあらゆる通信システムとの互換性を保証する。
Reputation systems guide our decision making both in life and work: which restaurant to eat at, which vendor to buy from, which software dependencies to use, and who or what to trust. These systems are often based on old ideas and are failing in the face of modern threats. Fraudsters have found ways to manipulate them, undermining their integrity and utility. Generative AI adds to the problem by enabling the creation of real-looking fake narratives at scale, creating a false sense of consensus. Meanwhile, the need for reliable reputation concepts is more important than ever, as wrong decisions lead to increasingly severe outcomes: wasted time, poor service, and a feeling of injustice at best, fraud, identity theft, and ransomware at worst. In this extended abstract we introduce Sandi, a new kind of reputation system with a single well-defined purpose: to create trust through accountability in one-to-one transactions. Examples of such transactions include sending an email or making a purchase online. Sandi has strong security and privacy properties that make it suitable for use also in sensitive contexts. Furthermore, Sandi can guarantee reputation integrity and transparency for its registered users. As a primary application, we envision how Sandi could counter fraud and abuse in direct communication. Concretely, message senders request a cryptographic tag from Sandi that they send along with their message. If the receiver finds the message inappropriate, they can report the sender using this tag. Notably, only senders need registered accounts and do not need to manage long-term keys. The design of Sandi ensures compatibility with any communication system that allows for small binary data transmission. | 翻訳日:2024-03-25 13:26:22 公開日:2023-11-08 |
# フラットランドから脱出する:サイバーハイパーグラフにおけるトポロジカル構造としての行動パターンの発見
Stepping out of Flatland: Discovering Behavior Patterns as Topological Structures in Cyber Hypergraphs ( http://arxiv.org/abs/2311.16154v1 ) ライセンス: Link先を確認 | Helen Jenne, Sinan G. Aksoy, Daniel Best, Alyson Bittner, Gregory Henselman-Petrusek, Cliff Joslyn, Bill Kay, Audun Myers, Garret Seppala, Jackson Warley, Stephen J. Young, Emilie Purvine, | (参考訳) データ漏洩やランサムウェア攻撃は頻繁に発生し、日々のニュースサイクルの一部になっている。
これは、インターネット・オブ・シング・デバイスの増加、パンデミック中のリモートワークへの移行、敵対的手法の進歩など、さまざまな要因によるものだ。
同時に、サイバー研究は、機械学習と自然言語処理の進歩を活用して、従来の対策を回避することで知られている高度な攻撃を特定することに重点を置いている。
これらの手法の欠点、特に解釈可能性の欠如は本質的に克服が困難である。
その結果、より効果的な攻撃検出を可能にするために、サイバーデータを分析するための新しいツールを開発する必要がある。
本稿では,ハイパーグラフ理論とトポロジに基づく新しいフレームワークを提案し,トポロジ的シグネチャを通じてネットワークからのデータを理解する。
このアプローチの数学的基盤は、いくつかの技術的開発を必要とするが、これは解釈可能性において有効であり、大規模なサイバーネットワークデータセットで具体的な例を示す。
我々のゴールは、サイバーデータにおける行動間の関係を理解するために、ハイパーネットワーク科学と応用トポロジの急成長する分野からメソッドを適用することの価値を実証することである。
Data breaches and ransomware attacks occur so often that they have become part of our daily news cycle. This is due to a myriad of factors, including the increasing number of internet-of-things devices, shift to remote work during the pandemic, and advancement in adversarial techniques, which all contribute to the increase in both the complexity of data captured and the challenge of protecting our networks. At the same time, cyber research has made strides, leveraging advances in machine learning and natural language processing to focus on identifying sophisticated attacks that are known to evade conventional measures. While successful, the shortcomings of these methods, particularly the lack of interpretability, are inherent and difficult to overcome. Consequently, there is an ever-increasing need to develop new tools for analyzing cyber data to enable more effective attack detection. In this paper, we present a novel framework based in the theory of hypergraphs and topology to understand data from cyber networks through topological signatures, which are both flexible and can be traced back to the log data. While our approach's mathematical grounding requires some technical development, this pays off in interpretability, which we will demonstrate with concrete examples in a large-scale cyber network dataset. These examples are an introduction to the broader possibilities that lie ahead; our goal is to demonstrate the value of applying methods from the burgeoning fields of hypernetwork science and applied topology to understand relationships among behaviors in cyber data. | 翻訳日:2024-03-25 13:06:53 公開日:2023-11-08 |
# CVE-2022-46480, CVE-2023-26941, CVE-2023-26942, CVE-2023-26943に関する技術報告
Technical Report relating to CVE-2022-46480, CVE-2023-26941, CVE-2023-26942, and CVE-2023-26943 ( http://arxiv.org/abs/2312.00021v1 ) ライセンス: Link先を確認 | Ashley Allen, Alexios Mylonas, Stilianos Vidalis, | (参考訳) 以下の技術報告では、Ultraloq UL3 BT (CVE-2022-46480)、Yale Conexis L1 Smart Lock (CVE-2023-26941)、Yale IA-210 Intruder Alarm (CVE-2023-26942)、Yale Keyless Smart Lock (CVE-2023-26943)の4つのCVEに関する背景情報を提供している。
この研究は、Ash Allen氏、Alexios Mylonas博士、Stilianos Vidalis博士によって、スマートデバイスのセキュリティに関するより広範な研究プロジェクトの一環として実施された。
責任ある4つの問題の開示は、適切なベンダーによって行われ、それらは脆弱性として認識されている。
The following technical report provides background information relating to four CVEs found in the following products: Ultraloq UL3 BT (CVE-2022-46480); Yale Conexis L1 Smart Lock (CVE-2023-26941); Yale IA-210 Intruder Alarm (CVE-2023-26942); Yale Keyless Smart Lock (CVE-2023-26943). The work discussed here was carried out by Ash Allen, Dr. Alexios Mylonas, and Dr. Stilianos Vidalis as part of a wider research project into smart device security. Responsible disclosure of all four issues has been made with the appropriate vendors, and they have been acknowledged as vulnerabilities. | 翻訳日:2024-03-25 13:06:53 公開日:2023-11-08 |
# 自然言語処理モデルにおけるバックドア攻撃と対策:包括的セキュリティレビュー
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review ( http://arxiv.org/abs/2309.06055v4 ) ライセンス: Link先を確認 | Pengzhou Cheng, Zongru Wu, Wei Du, Haodong Zhao, Wei Lu, Gongshen Liu, | (参考訳) サードパーティのデータとモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなり、攻撃者がトレーニングプロセスとデータソースを操作できるため、潜在的なセキュリティ脆弱性も導入されている。
この場合、バックドアアタックは特定のトリガーを通じて期待される振る舞いを示すモデルを誘導し、プリミティブなタスクにはほとんど影響しない。
したがって、特にバックドアの攻撃面が広いことを考えると、これは恐ろしい結果をもたらす可能性がある。
しかし、攻撃面に応じたセキュリティ上の課題、攻撃者の能力、目的を反映する体系的かつ包括的なレビューはいまだに存在しない。
さらに、この文脈における多様なバックドア対策の分析と比較が不足している。
本報告では,NLPセキュリティコミュニティのレッドアラームを鳴らすため,バックドア攻撃と対策のタイムリーなレビューを行う。
機械学習パイプラインの影響を受けるステージによると、攻撃面は広く認識され、その後、微調整(APMF)による事前訓練されたモデル攻撃(APMP)と、トレーニング(AFMT)による最終モデル攻撃(AFMT)の3つのカテゴリに分類される。
これにより、各カテゴリの攻撃が組み合わされる。
対策は、サンプル検査とモデル検査の2つの一般的なクラスに分類される。
全体として、防衛側の研究は攻撃側よりはるかに遅れており、あらゆる種類のバックドア攻撃を防げる単一の防御は存在しない。
攻撃者は、より見えない攻撃で既存の防御を知的にバイパスすることができる。
本研究は,大規模言語モデルにおける実証的セキュリティ評価,特に,より効率的で実践的な対策を要請するなど,バックドアに関する今後の研究にとって重要な領域を提示する。
Applicating third-party data and models has become a new paradigm for language modeling in NLP, which also introduces some potential security vulnerabilities because attackers can manipulate the training process and data source. In this case, backdoor attacks can induce the model to exhibit expected behaviors through specific triggers and have little inferior influence on primitive tasks. Hence, it could have dire consequences, especially considering that the backdoor attack surfaces are broad. However, there is still no systematic and comprehensive review to reflect the security challenges, attacker's capabilities, and purposes according to the attack surface. Moreover, there is a shortage of analysis and comparison of the diverse emerging backdoor countermeasures in this context. In this paper, we conduct a timely review of backdoor attacks and countermeasures to sound the red alarm for the NLP security community. According to the affected stage of the machine learning pipeline, the attack surfaces are recognized to be wide and then formalized into three categorizations: attacking pre-trained model with fine-tuning (APMF) or parameter-efficient tuning (APMP), and attacking final model with training (AFMT). Thus, attacks under each categorization are combed. The countermeasures are categorized into two general classes: sample inspection and model inspection. Overall, the research on the defense side is far behind the attack side, and there is no single defense that can prevent all types of backdoor attacks. An attacker can intelligently bypass existing defenses with a more invisible attack. Drawing the insights from the systematic review, we also present crucial areas for future research on the backdoor, such as empirical security evaluations on large language models, and in particular, more efficient and practical countermeasures are solicited. | 翻訳日:2024-03-19 06:43:22 公開日:2023-11-08 |
# 変圧器によるUAV支援IoTネットワークにおけるAoI最小データ収集のためのUAV軌道計画 UAV Trajectory Planning for AoI-Minimal Data Collection in UAV-Aided IoT Networks by Transformer ( http://arxiv.org/abs/2401.02425v1 ) ライセンス: Link先を確認 | Botao Zhu, Ebrahim Bedeer, Ha H. Nguyen, Robert Barton, Zhen Gao | (参考訳) IoT(Internet-of-Things)ネットワークにおけるデータ収集の鮮度維持が注目されている。
情報化の年齢(AoI)を考慮し、クラスタベースのIoTネットワークを支援するために使用される無人航空機(UAV)の軌道計画問題について検討する。
地上IoTネットワークからのUAVによる収集データの総AoIを最小化するために最適化問題を定式化する。
IoTネットワークの全AoIは、UAVの飛行時間とホバリングポイントのデータ収集時間に依存するため、ホバリングポイントの選択とこれらのポイントへの訪問順序を協調的に最適化する。
我々は,最先端の変圧器と経路探索アルゴリズムである重み付きa*を用いて,定式化問題を解く機械学習アルゴリズムを設計した。
UAV-IoTシステム全体が提案アルゴリズムのエンコーダネットワークに入力され、アルゴリズムのデコーダネットワークは、訪問順をグラウンドクラスタに出力する。
次に、重み付きA*を使用して、地上IoTネットワーク内の各クラスタのホバリングポイントを見つける。
シミュレーションの結果,提案アルゴリズムによりトレーニングされたモデルでは,モデルの再トレーニングを必要とせずに,異なる数の地上クラスタを持つIoTネットワークのソリューションを生成することができることがわかった。
さらに, 提案アルゴリズムは, 他のアルゴリズムと比較して, AoI が最小値の UAV トラジェクトリを求めることができることを示した。 Maintaining freshness of data collection in Internet-of-Things (IoT) networks has attracted increasing attention. By taking into account age-of-information (AoI), we investigate the trajectory planning problem of an unmanned aerial vehicle (UAV) that is used to aid a cluster-based IoT network. An optimization problem is formulated to minimize the total AoI of the collected data by the UAV from the ground IoT network. Since the total AoI of the IoT network depends on the flight time of the UAV and the data collection time at hovering points, we jointly optimize the selection of hovering points and the visiting order to these points. We exploit the state-of-the-art transformer and the weighted A*, which is a path search algorithm, to design a machine learning algorithm to solve the formulated problem. The whole UAV-IoT system is fed into the encoder network of the proposed algorithm, and the algorithm's decoder network outputs the visiting order to ground clusters. Then, the weighted A* is used to find the hovering point for each cluster in the ground IoT network. Simulation results show that the trained model by the proposed algorithm has a good generalization ability to generate solutions for IoT networks with different numbers of ground clusters, without the need to retrain the model. Furthermore, results show that our proposed algorithm can find better UAV trajectories with the minimum total AoI when compared to other algorithms. | 翻訳日:2024-01-15 09:59:54 公開日:2023-11-08 |
# geotop:幾何トポロジー解析による画像分類の進歩 GeoTop: Advancing Image Classification with Geometric-Topological Analysis ( http://arxiv.org/abs/2311.16157v1 ) ライセンス: Link先を確認 | Mariem Abaach, Ian Morilla | (参考訳) 本研究では,TDA(Topological Data Analysis)とLipschitz-Killing Curvatures(LKCs)のバイオメディカル・マルチオミクス問題における特徴抽出と分類のための強力なツールとしての利用について検討する。
TDAは複雑なデータセット内のトポロジ的特徴やパターンをキャプチャし、LKCは基本的な幾何学的洞察を提供する。
両手法を組み合わせた分類精度の向上の可能性を検討する。
バイオメディカル画像のデータセットを用いて,TDAとLKCがそれぞれ,位相的特徴と幾何学的特徴を効果的に抽出できることを実証した。
これらの特徴を組み合わせることで,個々の手法と比較して分類性能が向上する。
このアプローチは有望な結果をもたらし、様々な生体医学応用における複雑な生物学的プロセスの理解を深める可能性を秘めている。
バイオメディカルデータ解析におけるトポロジカルおよび幾何学的情報の統合の意義を明らかにする。
マルチオミクス問題の複雑さを探求し続けていくにつれ、これらの知見の融合は、基礎となる生物学的複雑さを解き放つ大きな可能性を秘めている。 In this study, we explore the application of Topological Data Analysis (TDA) and Lipschitz-Killing Curvatures (LKCs) as powerful tools for feature extraction and classification in the context of biomedical multiomics problems. TDA allows us to capture topological features and patterns within complex datasets, while LKCs provide essential geometric insights. We investigate the potential of combining both methods to improve classification accuracy. Using a dataset of biomedical images, we demonstrate that TDA and LKCs can effectively extract topological and geometrical features, respectively. The combination of these features results in enhanced classification performance compared to using each method individually. This approach offers promising results and has the potential to advance our understanding of complex biological processes in various biomedical applications. Our findings highlight the value of integrating topological and geometrical information in biomedical data analysis. As we continue to delve into the intricacies of multiomics problems, the fusion of these insights holds great promise for unraveling the underlying biological complexities. | 翻訳日:2023-12-03 13:20:30 公開日:2023-11-08 |
# 深層学習に基づく周波数オフセット推定 Deep Learning-Based Frequency Offset Estimation ( http://arxiv.org/abs/2311.16155v1 ) ライセンス: Link先を確認 | Tao Chen, Shilian Zheng, Jiawei Zhu, Qi Xuan, and Xiaoniu Yang | (参考訳) 無線通信システムでは、相対移動によるドップラーシフトに伴う送信機と受信機における発振器の非同期化は、受信信号におけるキャリア周波数オフセット(cfo)の存在につながる可能性がある。
コヒーレント復調などのその後の処理にはCFOの推定が不可欠である。
本稿では,残差ネットワーク(resnet)を用いて信号の生の位相(i)と二次(q)成分から信号の特徴を学習し抽出することにより,cfo推定におけるディープラーニングの活用を実証する。
トレーニングセットに複数の変調スキームを使用して、トレーニングされたモデルを複数の変調や新しい信号に適応できるようにする。
従来のcfo推定法と比較して,提案手法は,オーバーサンプリング比,信号長,チャネルの違いなど,様々なシナリオにおいて優れた性能を示す。 In wireless communication systems, the asynchronization of the oscillators in the transmitter and the receiver along with the Doppler shift due to relative movement may lead to the presence of carrier frequency offset (CFO) in the received signals. Estimation of CFO is crucial for subsequent processing such as coherent demodulation. In this brief, we demonstrate the utilization of deep learning for CFO estimation by employing a residual network (ResNet) to learn and extract signal features from the raw in-phase (I) and quadrature (Q) components of the signals. We use multiple modulation schemes in the training set to make the trained model adaptable to multiple modulations or even new signals. In comparison to the commonly used traditional CFO estimation methods, our proposed IQ-ResNet method exhibits superior performance across various scenarios including different oversampling ratios, various signal lengths, and different channels | 翻訳日:2023-12-03 13:20:08 公開日:2023-11-08 |
# 0/1クナップサック問題に対する振幅エンサンブル量子インスパイアされたタブ探索アルゴリズム Amplitude-Ensemble Quantum-Inspired Tabu Search Algorithm for Solving 0/1 Knapsack Problems ( http://arxiv.org/abs/2311.12867v1 ) ライセンス: Link先を確認 | Kuo-Chun Tseng, Wei-Chieh Lai, I-Chia Chen, Yun-Hsiang Hsiao, Jr-Yu Chiue, Wei-Chun Huang | (参考訳) 本稿では,QTS(Amplitude-ensemble)と呼ばれるQTS(Quantum-inspired Tabu Search Algorithm)の拡張版を紹介する。
人口情報を利用することで、qtを量子アルゴリズム -- glover 探索アルゴリズムに近づけ、アルゴリズムの単純さを維持する。
AE-QTSは0/1knapsack問題に対して検証され、全ての問題に対して少なくとも20%性能が向上し、元のQTSと比較して30%効率が向上した。
複雑化する問題にもかかわらず、この方法は元のQTSよりも一貫して優れている。 In this paper, we introduce an enhanced version of the "Quantum-inspired Tabu Search Algorithm" (QTS), termed "amplitude-ensemble" QTS (AE-QTS). By utilizing population information, we bring QTS closer to the quantum algorithm -- Glover Search Algorithm, maintaining algorithmic simplicity. AE-QTS is validated against the 0/1 knapsack problem, showing at least a 20% performance boost across all problems and over a 30% efficiency increase in some cases compared to the original QTS. Even with increasingly complex problems, this method consistently outperforms the original QTS. | 翻訳日:2023-11-27 00:22:30 公開日:2023-11-08 |
# 合成された子ども―なぜ必要なのか、どうやって作るのか Synthetic Speaking Children -- Why We Need Them and How to Make Them ( http://arxiv.org/abs/2311.06307v1 ) ライセンス: Link先を確認 | Muhammad Ali Farooq and Dan Bigioi and Rishabh Jain and Wang Yao and Mariam Yiwere and Peter Corcoran | (参考訳) 現代のヒューマン・コンピュータ・インタラクション(HCI)の研究は、主にシステムユーザーのマシンビジョンと音声理解のためのニューラルネットワークモデルに依存している。
このようなモデルでは、最適なパフォーマンスのために広範囲に注釈付けされたトレーニングデータセットが必要であり、幼児のような脆弱な集団からユーザーのためのインターフェースを構築する際には、GDPRはデータ収集、管理、処理において重大な複雑さを導入する。
エッジAIスマートトイプラットフォームのトレーニングニーズに触発されたこの研究は、生成的ニューラルネットワークの最新技術を探究し、音声駆動型顔訓練データのための制御可能なデータ生成パイプラインの概念を大規模に実証する。
この文脈では、stylegan2を微調整して子供の顔のジェンダーバランスデータセットを作成する方法が示される。
このデータセットには、表情、年齢変化、顔のポーズ、さらにはリアルな唇同期を伴う音声駆動アニメーションなど、さまざまなコントロール可能な要素が含まれている。
音声合成のための生成テキストと音声モデルと3dランドマークベースのトークヘッドパイプラインを組み合わせることで、高度にリアルで完全に合成された子供向けビデオクリップを生成することができる。
これらのビデオクリップは、ニューラルネットワークモデルに価値があり、制御可能で、総合的なトレーニングデータを提供し、実際のデータがプライバシー規制によって不足したり制限されたりするときにギャップを埋めることができる。 Contemporary Human Computer Interaction (HCI) research relies primarily on neural network models for machine vision and speech understanding of a system user. Such models require extensively annotated training datasets for optimal performance and when building interfaces for users from a vulnerable population such as young children, GDPR introduces significant complexities in data collection, management, and processing. Motivated by the training needs of an Edge AI smart toy platform this research explores the latest advances in generative neural technologies and provides a working proof of concept of a controllable data generation pipeline for speech driven facial training data at scale. In this context, we demonstrate how StyleGAN2 can be finetuned to create a gender balanced dataset of children's faces. This dataset includes a variety of controllable factors such as facial expressions, age variations, facial poses, and even speech-driven animations with realistic lip synchronization. By combining generative text to speech models for child voice synthesis and a 3D landmark based talking heads pipeline, we can generate highly realistic, entirely synthetic, talking child video clips. These video clips can provide valuable, and controllable, synthetic training data for neural network models, bridging the gap when real data is scarce or restricted due to privacy regulations. | 翻訳日:2023-11-19 14:31:32 公開日:2023-11-08 |
# NLQxform: SPARQL変換器に対する言語モデルに基づく質問 NLQxform: A Language Model-based Question to SPARQL Transformer ( http://arxiv.org/abs/2311.07588v1 ) ライセンス: Link先を確認 | Ruijie Wang, Zhiruo Zhang, Luca Rossetto, Florian Ruosch, Abraham Bernstein | (参考訳) 近年、学術データは規模と複雑さの両面で劇的に成長している。
学者、論文、組織など、さまざまな種類のエンティティ間で、著者シップ、所属、引用など、大規模な異質な関係を含む学術的知識グラフから情報を取得することはますます難しくなっている。
Scholarly QALD Challengeの一環として,学術知識グラフへのアクセスを容易にする自然言語インタフェースを提供するNLQxformというQAシステムを提案する。
NLQxformでは、自然言語の質問で複雑なクエリ意図を表現できる。
トランスフォーマーベースの言語モデル、すなわちBARTは、質問を標準のSPARQLクエリに変換するために使用され、必要な情報を取得するために評価することができる。
ISWC 2023のScholarly QALD Challenge (Task 1: DBLP-QUAD - Knowledge Graph Question Answering over DBLP)の公開リーダボードによると、NLQxformはF1スコア0.85を獲得し、QAタスクで第1位となり、システムの競争力を示している。 In recent years, scholarly data has grown dramatically in terms of both scale and complexity. It becomes increasingly challenging to retrieve information from scholarly knowledge graphs that include large-scale heterogeneous relationships, such as authorship, affiliation, and citation, between various types of entities, e.g., scholars, papers, and organizations. As part of the Scholarly QALD Challenge, this paper presents a question-answering (QA) system called NLQxform, which provides an easy-to-use natural language interface to facilitate accessing scholarly knowledge graphs. NLQxform allows users to express their complex query intentions in natural language questions. A transformer-based language model, i.e., BART, is employed to translate questions into standard SPARQL queries, which can be evaluated to retrieve the required information. According to the public leaderboard of the Scholarly QALD Challenge at ISWC 2023 (Task 1: DBLP-QUAD - Knowledge Graph Question Answering over DBLP), NLQxform achieved an F1 score of 0.85 and ranked first on the QA task, demonstrating the competitiveness of the system. | 翻訳日:2023-11-19 14:18:48 公開日:2023-11-08 |
# ヒューマン・AIインタラクションにおける適切な信頼の育成に関するシステムレビュー A Systematic Review on Fostering Appropriate Trust in Human-AI Interaction ( http://arxiv.org/abs/2311.06305v1 ) ライセンス: Link先を確認 | Siddharth Mehrotra, Chadha Degachi, Oleksandra Vereschak, Catholijn M. Jonker, Myrthe L. Tielman | (参考訳) 人工知能の適切な信頼(AI)システムは、研究者と実践者の両方にとって、急速に重要な領域になってきた。
信頼性スコア、説明、信頼性の手がかり、不確実性コミュニケーションなど、さまざまなアプローチが採用されている。
しかし、その分野に対する包括的理解は、それに影響を与える様々な背景から生じる視点の多様性と、適切な信頼のための単一の定義の欠如によって欠落している。
そこで本研究では,適切な信頼の構築,測定方法の相違,使用するタスクの種類,それに関連する潜在的な課題について体系的なレビューを行う。
我々はまた、適切な信頼に関する概念の共通性と相違を研究するために、BIAマッピング(Breief, Intentions, Actions)を提案する。
(a) 適切な信頼の定義に関する既存の意見の不一致を記載し、
(b)既存の文献からのAIの適切な信頼に関する概念及び定義の概要を提供する。
最後に、適切な信頼を研究する上での課題を議論し、現在の傾向、潜在的なギャップ、将来の仕事のための研究機会として観察をまとめる。
本論文は、人間とAIの相互作用に対する適切な信頼という複雑な概念に関する洞察を提供し、このトピックに対する理解を深めるための研究機会を提供する。 Appropriate Trust in Artificial Intelligence (AI) systems has rapidly become an important area of focus for both researchers and practitioners. Various approaches have been used to achieve it, such as confidence scores, explanations, trustworthiness cues, or uncertainty communication. However, a comprehensive understanding of the field is lacking due to the diversity of perspectives arising from various backgrounds that influence it and the lack of a single definition for appropriate trust. To investigate this topic, this paper presents a systematic review to identify current practices in building appropriate trust, different ways to measure it, types of tasks used, and potential challenges associated with it. We also propose a Belief, Intentions, and Actions (BIA) mapping to study commonalities and differences in the concepts related to appropriate trust by (a) describing the existing disagreements on defining appropriate trust, and (b) providing an overview of the concepts and definitions related to appropriate trust in AI from the existing literature. Finally, the challenges identified in studying appropriate trust are discussed, and observations are summarized as current trends, potential gaps, and research opportunities for future work. Overall, the paper provides insights into the complex concept of appropriate trust in human-AI interaction and presents research opportunities to advance our understanding on this topic. | 翻訳日:2023-11-19 14:16:52 公開日:2023-11-08 |
# Retro-BLEU:反応テンプレート解析による再合成経路の定量化 Retro-BLEU: Quantifying Chemical Plausibility of Retrosynthesis Routes through Reaction Template Sequence Analysis ( http://arxiv.org/abs/2311.06304v1 ) ライセンス: Link先を確認 | Junren Li, Lei Fang and Jian-Guang Lou | (参考訳) コンピュータ支援手法は, 生合成解析に有用であると考えられる。
しかし、生成した逆合成経路の妥当性を定量化することは難しい課題である。
本稿では,機械翻訳において確立されたBLEUスコアから適応した統計量であるRetro-BLEUを導入し,反応テンプレート解析に基づく逆合成経路の妥当性を評価する。
本稿では,Retro-BLEUの有効性を,最先端のアルゴリズムが生成する様々な逆合成経路に適用し,他の評価指標と比較する。
その結果,Retro-BLEUは可算経路と可算経路を区別できることがわかった。
さらに、我々はRetro-BLEUの強みと弱みに関する洞察を提供し、この分野での今後の発展と改善の道を開く。 Computer-assisted methods have emerged as valuable tools for retrosynthesis analysis. However, quantifying the plausibility of generated retrosynthesis routes remains a challenging task. We introduce Retro-BLEU, a statistical metric adapted from the well-established BLEU score in machine translation, to evaluate the plausibility of retrosynthesis routes based on reaction template sequences analysis. We demonstrate the effectiveness of Retro-BLEU by applying it to a diverse set of retrosynthesis routes generated by state-of-the-art algorithms and compare the performance with other evaluation metrics. The results show that Retro-BLEU is capable of differentiating between plausible and implausible routes. Furthermore, we provide insights into the strengths and weaknesses of Retro-BLEU, paving the way for future developments and improvements in this field. | 翻訳日:2023-11-19 14:16:32 公開日:2023-11-08 |
# TAKDE:リアルタイム動的密度推定のための時間適応カーネル密度推定器 TAKDE: Temporal Adaptive Kernel Density Estimator for Real-Time Dynamic Density Estimation ( http://arxiv.org/abs/2203.08317v2 ) ライセンス: Link先を確認 | Yinsong Wang, Yu Ding, Shahin Shahrampour | (参考訳) リアルタイム密度推定はコンピュータビジョンや信号処理を含む多くのアプリケーションで広く使われている。
カーネル密度推定は最も一般的な密度推定技術の1つであり、"スライディングウィンドウ"機構はカーネル密度推定器を動的プロセスに適応させる。
本稿では「すべり窓」カーネル密度推定器に対する漸近平均積分二乗誤差(AMISE)の上界を導出する。
この上限は、時間適応型カーネル密度推定器(TAKDE)と呼ばれる新しい推定器を考案するための原理的なガイドを提供する。
スライディングウインドウ」カーネル密度推定器のヒューリスティックアプローチと比較して、TAKDEは最悪のAMISEの観点で理論的に最適である。
合成および実世界のデータセットを用いて数値実験を行い、TAKDEが他の最先端の動的密度推定器(カーネルファミリー以外のものを含む)より優れていることを示す。
特にTAKDEは、より小さなランタイムで優れたテストログライクな動作を実現している。 Real-time density estimation is ubiquitous in many applications, including computer vision and signal processing. Kernel density estimation is arguably one of the most commonly used density estimation techniques, and the use of "sliding window" mechanism adapts kernel density estimators to dynamic processes. In this paper, we derive the asymptotic mean integrated squared error (AMISE) upper bound for the "sliding window" kernel density estimator. This upper bound provides a principled guide to devise a novel estimator, which we name the temporal adaptive kernel density estimator (TAKDE). Compared to heuristic approaches for "sliding window" kernel density estimator, TAKDE is theoretically optimal in terms of the worst-case AMISE. We provide numerical experiments using synthetic and real-world datasets, showing that TAKDE outperforms other state-of-the-art dynamic density estimators (including those outside of kernel family). In particular, TAKDE achieves a superior test log-likelihood with a smaller runtime. | 翻訳日:2023-11-13 18:53:30 公開日:2023-11-08 |
# Zero-TPrune: 事前学習トランスにおけるアテンショングラフの活用によるゼロショットトケンプルーニング Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers ( http://arxiv.org/abs/2305.17328v2 ) ライセンス: Link先を確認 | Hongjie Wang, Bhishma Dedhia, Niraj K. Jha | (参考訳) 入力シーケンスのトークン数と2乗的にスケールする指数関数的に増加する推論コストのため、エッジデバイスへのトランスフォーマーモデルのデプロイはますます難しくなっている。
Token pruningは、様々なTransformerバックボーンへのデプロイが容易であるため、この問題に対処する新たなソリューションである。
しかし、ほとんどのトークンプルーニングには計算コストのかかる微調整が必要であり、多くのエッジデプロイメントケースでは望ましくない。
本研究では,トークンプルーニングにおけるトークンの重要性と類似性を両立する最初のゼロショット手法であるZero-TPruneを提案する。
事前学習したTransformerモデルの注意グラフを利用して,提案したWeighted Page Rank (WPR)アルゴリズムを用いてトークンの重要分布を生成する。
この分布は、効率的な類似性に基づくプルーニングのためのトークンパーティショニングをさらに導く。
微調整オーバヘッドの除去により、ゼロツルーンは計算コストを無視でき、異なるプルーニング構成を計算コストなしで切り替えることができ、ハイパーパラメータチューニングを効率的に行うことができる。
我々は,様々な視覚トランスフォーマーバックボーンに適用し,imagenet上でテストすることにより,視覚タスクにおけるゼロツルンの性能を評価する。
微調整なしでは、Zero-TPrune は DeiT-S の FLOPs コストを 34.7 % 削減し、スループットを 45.3 % 改善する。
ファインチューニングを必要とする最先端のプルーニング法と比較して、Zero-TPruneはプルーニング後の微調整の必要性をなくすだけでなく、精度が0.1\%の精度で行う。
最先端の微調整不要プルーニング法と比較して、Zero-TPruneは、同じまたは高いスループットで、精度損失を最大49\%削減する。 Deployment of Transformer models on edge devices is becoming increasingly challenging due to the exponentially growing inference cost that scales quadratically with the number of tokens in the input sequence. Token pruning is an emerging solution to address this challenge due to its ease of deployment on various Transformer backbones. However, most token pruning methods require computationally expensive fine-tuning, which is undesirable in many edge deployment cases. In this work, we propose Zero-TPrune, the first zero-shot method that considers both the importance and similarity of tokens in performing token pruning. It leverages the attention graph of pre-trained Transformer models to produce an importance distribution for tokens via our proposed Weighted Page Rank (WPR) algorithm. This distribution further guides token partitioning for efficient similarity-based pruning. Due to the elimination of the fine-tuning overhead, Zero-TPrune can prune large models at negligible computational cost, switch between different pruning configurations at no computational cost, and perform hyperparameter tuning efficiently. We evaluate the performance of Zero-TPrune on vision tasks by applying it to various vision Transformer backbones and testing them on ImageNet. Without any fine-tuning, Zero-TPrune reduces the FLOPs cost of DeiT-S by 34.7\% and improves its throughput by 45.3\% with only 0.4\% accuracy loss. Compared with state-of-the-art pruning methods that require fine-tuning, Zero-TPrune not only eliminates the need for fine-tuning after pruning but also does so with only 0.1\% accuracy loss. Compared with state-of-the-art fine-tuning-free pruning methods, Zero-TPrune reduces accuracy loss by up to 49\% with the same or higher throughput. | 翻訳日:2023-11-13 18:18:20 公開日:2023-11-08 |
# ポリトープ距離のマージ可能なコアセットについて On Mergable Coresets for Polytope Distance ( http://arxiv.org/abs/2311.05651v1 ) ライセンス: Link先を確認 | Benwei Shi, Aditya Bhaskara, Wai Ming Tai, Jeff M. Phillips | (参考訳) ポリトープ距離に対する定数サイズ定数エラーコアセットは、コアセットのマージ下での維持が簡単であることを示す。
しかし、サイズを拡大しても、その定数を超える誤差を大幅に改善することはできない。 We show that a constant-size constant-error coreset for polytope distance is simple to maintain under merges of coresets. However, increasing the size cannot improve the error bound significantly beyond that constant. | 翻訳日:2023-11-13 16:58:21 公開日:2023-11-08 |
# ブランチ・アンド・カットにおけるセパレータ構成の学習 Learning to Configure Separators in Branch-and-Cut ( http://arxiv.org/abs/2311.05650v1 ) ライセンス: Link先を確認 | Sirui Li, Wenbin Ouyang, Max B. Paulus, Cathy Wu | (参考訳) カット平面は、最適解のバウンダリ改善を促進するため、混合整数線形プログラム(MILP)の解決に不可欠である。
現代のMILPソルバは、様々な分離器を頼りに、解法プロセス中に分離器を頻繁に呼び出すことによって、様々な切断面を生成する。
本研究は, セパレータを適切に選択することでMILPソルバを劇的に高速化できることを示す。
組合せセパレータ選択空間は機械学習の課題を課すため、選択空間を制限するための新しいデータ駆動戦略と、制限空間上で学習誘導アルゴリズムを提案することで、分離することを学ぶ。
本手法は, 実世界のMILPベンチマークにおいて, 相対解時間を72%, 37%に向上させることにより, オープンソースのMILPソルバSCIPを効果的に高速化し, 動的に適用可能なインスタンス認識セパレータ構成を予測する。
我々の研究は、切削面の選択に関する最近の研究を補完し、セパレータ管理の重要性を強調している。 Cutting planes are crucial in solving mixed integer linear programs (MILP) as they facilitate bound improvements on the optimal solution. Modern MILP solvers rely on a variety of separators to generate a diverse set of cutting planes by invoking the separators frequently during the solving process. This work identifies that MILP solvers can be drastically accelerated by appropriately selecting separators to activate. As the combinatorial separator selection space imposes challenges for machine learning, we learn to separate by proposing a novel data-driven strategy to restrict the selection space and a learning-guided algorithm on the restricted space. Our method predicts instance-aware separator configurations which can dynamically adapt during the solve, effectively accelerating the open source MILP solver SCIP by improving the relative solve time up to 72% and 37% on synthetic and real-world MILP benchmarks. Our work complements recent work on learning to select cutting planes and highlights the importance of separator management. | 翻訳日:2023-11-13 16:58:18 公開日:2023-11-08 |
# adapt: 言語モデルによる必要な分解と計画 ADaPT: As-Needed Decomposition and Planning with Language Models ( http://arxiv.org/abs/2311.05772v1 ) ライセンス: Link先を確認 | Archiki Prasad, Alexander Koller, Mareike Hartmann, Peter Clark, Ashish Sabharwal, Mohit Bansal, Tushar Khot | (参考訳) 大規模言語モデル(LLM)は、計画と環境適応を必要とする対話的な意思決定タスクにますます使われています。
最近の研究は LLM を広く2つの方法で採用している: 反復的に次のアクション(実行命令)を決定する、計画を生成する、そして LLM を使ってサブタスクを実行する(計画と実行)。
しかし、これらのメソッドはタスクの複雑さに悩まされ、サブタスクを実行できないとタスクが失敗する可能性がある。
これらの欠点に対処するために、我々は、複雑なサブタスクを明示的に計画し分解する、すなわち、llmが実行できない場合に、複雑なタスクの分解と計画(adapt)を導入する。
ADaPTはタスク複雑性とLLM能力の両方に対応するためにサブタスクを再分解する。
以上の結果から,ALFWorldでは最大28.3%,WebShopでは27%,TextCraftでは33%,ADaPTは高いベースラインを確立した。
広範な分析を通じて,マルチレベル分解の重要性を明らかにし,実行者llmの能力とタスクの複雑さに動的に適応することを示す。 Large Language Models (LLMs) are increasingly being used for interactive decision-making tasks requiring planning and adapting to the environment. Recent works employ LLMs-as-agents in broadly two ways: iteratively determining the next action (iterative executors) or generating plans and executing sub-tasks using LLMs (plan-and-execute). However, these methods struggle with task complexity, as the inability to execute any sub-task may lead to task failure. To address these shortcomings, we introduce As-Needed Decomposition and Planning for complex Tasks (ADaPT), an approach that explicitly plans and decomposes complex sub-tasks as-needed, i.e., when the LLM is unable to execute them. ADaPT recursively decomposes sub-tasks to adapt to both task complexity and LLM capability. Our results demonstrate that ADaPT substantially outperforms established strong baselines, achieving success rates up to 28.3% higher in ALFWorld, 27% in WebShop, and 33% in TextCraft -- a novel compositional dataset that we introduce. Through extensive analysis, we illustrate the importance of multilevel decomposition and establish that ADaPT dynamically adjusts to the capabilities of the executor LLM as well as to task complexity. | 翻訳日:2023-11-13 16:20:19 公開日:2023-11-08 |
# 敏感なschr\"odinger cat状態 Sensitive Schr\"odinger Cat States ( http://arxiv.org/abs/2311.05771v1 ) ライセンス: Link先を確認 | Shahab Ramezanpour | (参考訳) 強いレーザーと原子の相互作用は、原子中の高ハーモニック生成の過程を用いて、非常に非古典的な光状態を生成することができる。
高調波発生が存在するとき、相互作用に続く基本モードの量子状態はシュリンガー・キャット状態(Schr\"odinger cat state)と呼ばれ、これはレーザーの初期コヒーレント状態と、原子との相互作用によって生じるより小さな振幅のコヒーレント状態の重畳である。
ここでは、2つの分離したシュリンガー猫状態を組み合わせることで、ウィグナー関数の分布が著しく異なる新しい光状態が生成できることを実証する。
Schr\\odinger cat state'パラメータのエンジニアリングにより、システムパラメータに対して高い感度を示すウィグナー関数を生成することができる。
我々の研究は、Schr\odinger cat状態に量子センシングなどの応用を加えて、古典的でない光の創出の道を開く。 Strong laser-atom interactions can produce highly non-classical states of light by using the process of high-harmonic generation in atoms. When the high-harmonic generation is present, the quantum state of the fundamental mode following the interaction is known as the Schr\"odinger cat state, which is a superposition of the laser's initial coherent state and the coherent state with a smaller amplitude that results from its interaction with atoms. Here, we demonstrate that new light states with significantly different Wigner function distributions can be produced by combining two separate Schr\"odinger cat states. Through the engineering of Schr\"odinger cat states' parameters, we are able to produce Wigner functions that exhibit high sensitivity in relation to the system parameter. Our research paves the way for the creation of non-classical light by superposing Schr\"odinger cat states with application in such as quantum sensing. | 翻訳日:2023-11-13 16:19:55 公開日:2023-11-08 |
# 自己正規化経路積分 Self-normalizing Path Integrals ( http://arxiv.org/abs/2109.00517v2 ) ライセンス: Link先を確認 | I. M. Burbano and Francisco Calder\'on | (参考訳) 量子場理論へのパス積分アプローチの正規化は、統計場理論とは対照的に、物理情報を含むことができる。
本論文の主な主張は、古典場理論を量子化するのに必要なデータの基本要素の一つである場構成の空間上の内積は、経路積分の正規化を決定することである。
実際、次元解析は、この構造の導入が必ずしも古典理論によって固定されていないスケールをもたらすことを示している。
我々はこのスケールにおける理論の依存について研究する。
これにより、異なる積分の切断とグルーによる正規化の修正に使用できるメカニズムを探索できます。
自己正規化(Self-normalizing)パス積分は、このプロセスにおいて重要な役割を果たす。
さらに、スケール依存は、他の重要な物理データをエンコードしていることを示す:我々は、キラル異常の概念的に明確な導出を与えるためにそれを使用する。
異なる幾何学におけるスカラーおよびコンパクトボソンを含むいくつかの明示的な例は、我々の議論を補足する。 The normalization in the path integral approach to quantum field theory, in contrast with statistical field theory, can contain physical information. The main claim of this paper is that the inner product on the space of field configurations, one of the fundamental pieces of data required to be added to quantize a classical field theory, determines the normalization of the path integral. In fact, dimensional analysis shows that the introduction of this structure necessarily introduces a scale that is left unfixed by the classical theory. We study the dependence of the theory on this scale. This allows us to explore mechanisms that can be used to fix the normalization based on cutting and gluing different integrals. "Self-normalizing" path integrals, those independent of the scale, play an important role in this process. Furthermore, we show that the scale dependence encodes other important physical data: we use it to give a conceptually clear derivation of the chiral anomaly. Several explicit examples, including the scalar and compact bosons in different geometries, supplement our discussion. | 翻訳日:2023-11-10 19:26:46 公開日:2023-11-08 |
# シークレットリークプラントによるログスペースの低減 Logspace Reducibility From Secret Leakage Planted Clique ( http://arxiv.org/abs/2107.11886v2 ) ライセンス: Link先を確認 | Jay Mardia | (参考訳) 植えられたクランク問題は、統計的問題に関連する興味深い計算現象を観察、説明、予測するという文脈でよく研究されている。
計算効率を多項式時間アルゴリズムの存在と同一視する場合、(いくつかの変種)植込みクリッド問題の計算硬度は、他の統計問題のホストの計算硬度を推測するために用いられる。
この能力は、計算効率の概念を宇宙効率に変化させるのに頑健な他の統計問題に(ある変種)植民された斜め問題から移すことができるだろうか?
我々は,スパースPCA,サブマトリクス検出,ほぼk-wise独立性テストという,3つの異なる統計問題に対して肯定的に回答する。
鍵となる課題は、空間効率のよいランダム化還元は、使用するランダム性に繰り返しアクセスする必要があることである。
これらの問題の既知の還元はすべてランダム化され、実装には多項式的に多くのランダムビットが必要である。
多項式的に多くのランダムビットをメモリに格納できないため、既存の還元空間を効率的に実装する方法は不明である。
この問題を回避し、これらの問題に対する既知の削減を実装するには、2つの考えがある。
1 統計問題を解く際、入力自体の一部をランダム性として用いることができる。
2 入力の一部をランダム性として使用したい場合、適切な秘密漏洩を伴う植込みクランク問題の秘密漏洩変種は、標準植込みクランク問題よりも有用である。
(arxiv制約により短縮) The planted clique problem is well-studied in the context of observing, explaining, and predicting interesting computational phenomena associated with statistical problems. When equating computational efficiency with the existence of polynomial time algorithms, the computational hardness of (some variant of) the planted clique problem can be used to infer the computational hardness of a host of other statistical problems. Is this ability to transfer computational hardness from (some variant of) the planted clique problem to other statistical problems robust to changing our notion of computational efficiency to space efficiency? We answer this question affirmatively for three different statistical problems, namely Sparse PCA, submatrix detection, and testing almost k-wise independence. The key challenge is that space efficient randomized reductions need to repeatedly access the randomness they use. Known reductions to these problems are all randomized and need polynomially many random bits to implement. Since we can not store polynomially many random bits in memory, it is unclear how to implement these existing reductions space efficiently. There are two ideas involved in circumventing this issue and implementing known reductions to these problems space efficiently. 1. When solving statistical problems, we can use parts of the input itself as randomness. 2. Secret leakage variants of the planted clique problem with appropriate secret leakage can be more useful than the standard planted clique problem when we want to use parts of the input as randomness. (abstract shortened due to arxiv constraints) | 翻訳日:2023-11-10 19:26:31 公開日:2023-11-08 |
# コンベックスゲームにおける平衡予測学習のための演算子分割 Operator Splitting for Learning to Predict Equilibria in Convex Games ( http://arxiv.org/abs/2106.00906v3 ) ライセンス: Link先を確認 | Daniel McKenzie, Howard Heaton, Qiuwei Li, Samy Wu Fung, Stanley Osher, Wotao Yin | (参考訳) 競合するエージェントのシステムは、しばしばゲームとしてモデル化される。
合理性を仮定すると、最も可能性の高い結果は平衡(例えばナッシュ平衡)によって与えられる。
多くの実践的な環境では、ゲームは文脈、すなわちいかなるエージェントの制御以外の追加データ(例えば交通の天気や市場経済の財政政策)に影響を受けている。
多くの場合、正確なゲーム力学は分かっていないが、(文脈、平衡)ペアからなる膨大な歴史的データが利用可能であり、文脈のみによって平衡を予測する解法を学習する可能性を高める。
平衡を自然に出力するニューラルネットワークのクラスであるNash Fixed Point Networks (N-FPNs)を紹介する。
重要なことに、N-FPNは高価な投影を避けながら複雑なエージェントアクションセットを扱うために制約分離方式を採用している。
経験的に、N-FPNは暗黙のネットワークをトレーニングするための最近開発されたヤコビアンフリーバックプロパゲーション技術と互換性があり、従来のモデルよりもはるかに高速で訓練が容易である。
実験の結果,N-FPNは既存の学習ゲーム解法よりも桁違いにスケールできることがわかった。 Systems of competing agents can often be modeled as games. Assuming rationality, the most likely outcomes are given by an equilibrium (e.g. a Nash equilibrium). In many practical settings, games are influenced by context, i.e. additional data beyond the control of any agent (e.g. weather for traffic and fiscal policy for market economies). Often the exact game mechanics are unknown, yet vast amounts of historical data consisting of (context, equilibrium) pairs are available, raising the possibility of learning a solver which predicts the equilibria given only the context. We introduce Nash Fixed Point Networks (N-FPNs), a class of neural networks that naturally output equilibria. Crucially, N- FPNs employ a constraint decoupling scheme to handle complicated agent action sets while avoiding expensive projections. Empirically, we find N-FPNs are compatible with the recently developed Jacobian-Free Backpropagation technique for training implicit networks, making them significantly faster and easier to train than prior models. Our experiments show N-FPNs are capable of scaling to problems orders of magnitude larger than existing learned game solvers. | 翻訳日:2023-11-10 19:25:38 公開日:2023-11-08 |
# 簡単なステップは必要なだけ:フランク=ウルフと一般化された自己調和関数 Simple steps are all you need: Frank-Wolfe and generalized self-concordant functions ( http://arxiv.org/abs/2105.13913v7 ) ライセンス: Link先を確認 | Alejandro Carderera and Mathieu Besan\c{c}on and Sebastian Pokutta | (参考訳) 一般化自己一致は、多くの重要な学習問題の目的関数に存在する重要な特性である。
自由ループのステップサイズ戦略である$\gamma_t = 2/(t+2)$を用いて、原始ギャップとフランクウルフギャップの観点で、この関数のクラスに対して$\mathcal{o}(1/t)$の収束率を得る単純なフランク・ウルフ変種(英語版)の収束率を確立し、ここで$t$は反復数である。
これにより、二階情報の使用や、前の作業の局所的滑らか度パラメータを見積もる必要がない。
また,一様凸領域や多面体領域を考慮に入れた場合など,様々な症例に対する収束率の改善も示した。 Generalized self-concordance is a key property present in the objective function of many important learning problems. We establish the convergence rate of a simple Frank-Wolfe variant that uses the open-loop step size strategy $\gamma_t = 2/(t+2)$, obtaining a $\mathcal{O}(1/t)$ convergence rate for this class of functions in terms of primal gap and Frank-Wolfe gap, where $t$ is the iteration count. This avoids the use of second-order information or the need to estimate local smoothness parameters of previous work. We also show improved convergence rates for various common cases, e.g., when the feasible region under consideration is uniformly convex or polyhedral. | 翻訳日:2023-11-10 19:25:18 公開日:2023-11-08 |
# 移植学習による病理組織像の自動スコア化 Automatically Score Tissue Images Like a Pathologist by Transfer Learning ( http://arxiv.org/abs/2209.05954v3 ) ライセンス: Link先を確認 | Iris Yan | (参考訳) がんは世界で2番目に多い死因である。
早期にがんを診断することで多くの命を救える。
病理学者は、腫瘍を特定するために手動で組織マイクロアレイ(TMA)画像を見る必要がある。
既存の自動アルゴリズムは病理学者の正確性レベルに達していないか、あるいはかなりの人間の関与を必要とする。
最大の課題は、異なる形状、サイズ、位置のtma画像が同じスコアを持つ可能性があることである。
tma画像における染色パターンの学習には膨大な数の画像が必要であり、医療機関のプライバシーや規制上の懸念からかなり制限されている。
異なるがんタイプのTMA画像は、特定の共通の特徴を共有できるが、それらの組み合わせは、染色パターンの不均一性による精度を直接的に損なう。
トランスファーラーニングは、同様の問題から強みを借りることのできる、新たな学習パラダイムである。
しかし、既存のアプローチでは、通常、類似した学習問題の大規模なサンプルを必要とするが、異なるがんタイプのTMAイメージは、小さなサンプルサイズでしばしば利用可能であり、さらに既存のアルゴリズムは、類似した問題からの学習の転送に限られている。
本稿では,複数の問題から学習可能な新しい移動学習アルゴリズムを提案する。各問題には小さなサンプルがあり,元の問題とはかなり異なる分布を持つことができる。
提案したアルゴリズムは、スタンフォード組織マイクロアレイデータベース(Stanford tissue Microarray Database)から乳がんTMA画像の75.9%の精度で、重要な精度障壁(病理医の75%の精度レベル)を破ることを可能にした。
転送学習理論の最近の発展とクラスタリング技術の実証的証拠によって支持されている。
これにより、病理学者は腫瘍をリアルタイムでより高い精度で認識する自動アルゴリズムを確実に採用できる。 Cancer is the second leading cause of death in the world. Diagnosing cancer early on can save many lives. Pathologists have to look at tissue microarray (TMA) images manually to identify tumors, which can be time-consuming, inconsistent and subjective. Existing automatic algorithms either have not achieved the accuracy level of a pathologist or require substantial human involvements. A major challenge is that TMA images with different shapes, sizes, and locations can have the same score. Learning staining patterns in TMA images requires a huge number of images, which are severely limited due to privacy and regulation concerns in medical organizations. TMA images from different cancer types may share certain common characteristics, but combining them directly harms the accuracy due to heterogeneity in their staining patterns. Transfer learning is an emerging learning paradigm that allows borrowing strength from similar problems. However, existing approaches typically require a large sample from similar learning problems, while TMA images of different cancer types are often available in small sample size and further existing algorithms are limited to transfer learning from one similar problem. We propose a new transfer learning algorithm that could learn from multiple related problems, where each problem has a small sample and can have a substantially different distribution from the original one. The proposed algorithm has made it possible to break the critical accuracy barrier (the 75% accuracy level of pathologists), with a reported accuracy of 75.9% on breast cancer TMA images from the Stanford Tissue Microarray Database. It is supported by recent developments in transfer learning theory and empirical evidence in clustering technology. This will allow pathologists to confidently adopt automatic algorithms in recognizing tumors consistently with a higher accuracy in real time. | 翻訳日:2023-11-10 19:15:00 公開日:2023-11-08 |
# A*Net:知識グラフのためのスケーラブルパスベースの推論アプローチ A*Net: A Scalable Path-based Reasoning Approach for Knowledge Graphs ( http://arxiv.org/abs/2206.04798v5 ) ライセンス: Link先を確認 | Zhaocheng Zhu, Xinyu Yuan, Mikhail Galkin, Sophie Xhonneux, Ming Zhang, Maxime Gazeau, Jian Tang | (参考訳) 大規模知識グラフの推論は、長い間埋め込み手法に支配されてきた。
パスベースの手法は埋め込みに欠けているインダクティブキャパシティを持っているが、そのスケーラビリティは指数的なパス数によって制限される。
本稿では,知識グラフ推論のためのスケーラブルなパスベース手法であるA*Netを紹介する。
最短経路問題に対するa*アルゴリズムにインスパイアされたa*netは、各イテレーションで重要なノードとエッジを選択し、トレーニングと推論の時間とメモリフットプリントを削減する優先関数を学習します。
選択されたノードとエッジの比率は、パフォーマンスと効率のトレードオフとして指定できる。
トランスダクティブグラフとインダクティブナレッジグラフの両方の推論ベンチマーク実験では、a*netが既存の最先端のパスベースメソッドと競合性能を達成し、各イテレーションで単に10%のノードと10%のエッジを訪問している。
A*Netは、100万スケールのデータセットogbl-wikikg2上で、新しい最先端の結果を達成するだけでなく、埋め込みメソッドよりも早く収束する。
A*Netはそのようなスケールでの知識グラフ推論のための最初のパスベースの手法である。 Reasoning on large-scale knowledge graphs has been long dominated by embedding methods. While path-based methods possess the inductive capacity that embeddings lack, their scalability is limited by the exponential number of paths. Here we present A*Net, a scalable path-based method for knowledge graph reasoning. Inspired by the A* algorithm for shortest path problems, our A*Net learns a priority function to select important nodes and edges at each iteration, to reduce time and memory footprint for both training and inference. The ratio of selected nodes and edges can be specified to trade off between performance and efficiency. Experiments on both transductive and inductive knowledge graph reasoning benchmarks show that A*Net achieves competitive performance with existing state-of-the-art path-based methods, while merely visiting 10% nodes and 10% edges at each iteration. On a million-scale dataset ogbl-wikikg2, A*Net not only achieves a new state-of-the-art result, but also converges faster than embedding methods. A*Net is the first path-based method for knowledge graph reasoning at such scale. | 翻訳日:2023-11-10 19:13:57 公開日:2023-11-08 |
# サーロゲートモデリングによる効率的な活性化関数最適化 Efficient Activation Function Optimization through Surrogate Modeling ( http://arxiv.org/abs/2301.05785v6 ) ライセンス: Link先を確認 | Garrett Bingham and Risto Miikkulainen | (参考訳) 慎重に設計されたアクティベーション機能は、多くの機械学習タスクにおけるニューラルネットワークのパフォーマンスを改善することができる。
しかし、人間が最適な活性化関数を構築することは困難であり、現在の活性化関数探索アルゴリズムは極めて高価である。
本研究の目的は, コンボリューション, 残留, 視覚トランスフォーマーの訓練により, act-bench-cnn, act-bench-resnet, act-bench-vitのベンチマークデータセットを2,913個の系統的生成アクティベーション関数を用いてスクラッチから作成することである。
第2に,ベンチマーク空間のキャラクタリゼーションが開発され,新たなサロゲートに基づく最適化手法が開発された。
より具体的には、初期化時のモデルの予測分布と活性化関数の出力分布に関連するフィッシャー情報行列のスペクトルは、高い性能予測値であることが判明した。
第3に、サロゲートはいくつかの実世界のタスクで改良されたアクティベーション関数を発見するために用いられ、驚くべき発見として、他のアクティベーション関数よりも優れたシグモダル設計が発見された。
これらのステップはいずれもそれ自体が貢献しており、アクティベーション関数の最適化に関するさらなる研究のための実践的で理論的な基礎となっている。 Carefully designed activation functions can improve the performance of neural networks in many machine learning tasks. However, it is difficult for humans to construct optimal activation functions, and current activation function search algorithms are prohibitively expensive. This paper aims to improve the state of the art through three steps: First, the benchmark datasets Act-Bench-CNN, Act-Bench-ResNet, and Act-Bench-ViT were created by training convolutional, residual, and vision transformer architectures from scratch with 2,913 systematically generated activation functions. Second, a characterization of the benchmark space was developed, leading to a new surrogate-based method for optimization. More specifically, the spectrum of the Fisher information matrix associated with the model's predictive distribution at initialization and the activation function's output distribution were found to be highly predictive of performance. Third, the surrogate was used to discover improved activation functions in several real-world tasks, with a surprising finding: a sigmoidal design that outperformed all other activation functions was discovered, challenging the status quo of always using rectifier nonlinearities in deep learning. Each of these steps is a contribution in its own right; together they serve as a practical and theoretical foundation for further research on activation function optimization. | 翻訳日:2023-11-10 19:03:43 公開日:2023-11-08 |
# 変更点検出のためのオンラインカーネルCUSUM Online Kernel CUSUM for Change-Point Detection ( http://arxiv.org/abs/2211.15070v5 ) ライセンス: Link先を確認 | Song Wei, Yao Xie | (参考訳) 本稿では,カーネル統計値の最大値を用いて未知の変更点位置を推定する,変更点検出のための計算効率のよいオンラインカーネルCumulative Sum(CUSUM)法を提案する。
提案手法は,Scan-B統計量を含む既存のカーネルベースの変更点検出法と比較して,非パラメトリックなショーハートチャート型手法に対する感度の向上を示す。
平均実行長(ARL)と予測検出遅延(EDD)の2つの主要な性能指標に対して,ARLの対数順に最適なウィンドウ長を確立することで,無限メモリのオーラルプロシージャに対して最小限の電力損失を確保することができる。
さらに,オンライン実装に不可欠な一定の計算量とメモリの複雑性を確保するために,検出統計量の再帰的計算手順を提案する。
シミュレーションデータと実データの両方について広範な実験を行い,本手法の競合性能を実証し,理論結果の検証を行った。 We present a computationally efficient online kernel Cumulative Sum (CUSUM) method for change-point detection that utilizes the maximum over a set of kernel statistics to account for the unknown change-point location. Our approach exhibits increased sensitivity to small changes compared to existing kernel-based change-point detection methods, including Scan-B statistic, corresponding to a non-parametric Shewhart chart-type procedure. We provide accurate analytic approximations for two key performance metrics: the Average Run Length (ARL) and Expected Detection Delay (EDD), which enable us to establish an optimal window length to be on the order of the logarithm of ARL to ensure minimal power loss relative to an oracle procedure with infinite memory. Moreover, we introduce a recursive calculation procedure for detection statistics to ensure constant computational and memory complexity, which is essential for online implementation. Through extensive experiments on both simulated and real data, we demonstrate the competitive performance of our method and validate our theoretical results. | 翻訳日:2023-11-10 19:00:54 公開日:2023-11-08 |
# コヒーレント制御誤差に対する量子アルゴリズムのロバスト性 Robustness of quantum algorithms against coherent control errors ( http://arxiv.org/abs/2303.00618v2 ) ライセンス: Link先を確認 | Julian Berberich, Daniel Fink, and Christian Holm | (参考訳) 理想ハミルトニアンが未知の乗法的雑音項によって摂動されるコヒーレント制御誤差は、信頼できる量子コンピューティングの大きな障害である。
本稿では,リプシッツ境界を用いたコヒーレント制御誤差に対する量子アルゴリズムのロバスト性を分析する枠組みを提案する。
我々は,コヒーレント制御誤差に対するレジリエンスが,個々のゲートを生成するハミルトニアンの規範に主に影響されていることを示す,最悪の場合の忠実性境界を導出する。
これらの境界は大きな回路でも明示的に計算可能であり、しきい値定理によるフォールトトレランスを保証するために使うことができる。
さらに,ロバストな量子アルゴリズム設計とトランスパイル化のための新しいガイドラインを導出するために,ハミルトニアンのノルムを減少させるための理論的枠組みを適用した。
3ドルの量子フーリエ変換を例にとると、このガイドラインは回路の深さやゲート数に基づいて、既存のものよりも頑健さを目標としている。
さらに,変動量子アルゴリズムにおけるパラメータ正規化の効果について検討する。
理論結果の実用性は、シミュレーションおよび量子コンピュータ上での実装によって実証される。 Coherent control errors, for which ideal Hamiltonians are perturbed by unknown multiplicative noise terms, are a major obstacle for reliable quantum computing. In this paper, we present a framework for analyzing the robustness of quantum algorithms against coherent control errors using Lipschitz bounds. We derive worst-case fidelity bounds which show that the resilience against coherent control errors is mainly influenced by the norms of the Hamiltonians generating the individual gates. These bounds are explicitly computable even for large circuits, and they can be used to guarantee fault-tolerance via threshold theorems. Moreover, we apply our theoretical framework to derive a novel guideline for robust quantum algorithm design and transpilation, which amounts to reducing the norms of the Hamiltonians. Using the $3$-qubit Quantum Fourier Transform as an example application, we demonstrate that this guideline targets robustness more effectively than existing ones based on circuit depth or gate count. Furthermore, we apply our framework to study the effect of parameter regularization in variational quantum algorithms. The practicality of the theoretical results is demonstrated via implementations in simulation and on a quantum computer. | 翻訳日:2023-11-10 18:52:01 公開日:2023-11-08 |
# 分散閾値を超えるスパースPCA Sparse PCA Beyond Covariance Thresholding ( http://arxiv.org/abs/2302.10158v2 ) ライセンス: Link先を確認 | Gleb Novikov | (参考訳) スパースPCAのウィッシュアートモデルでは、$n$サンプル$Y_1,\ldots, Y_n$を$d$次元ガウス分布$N({0, Id + \beta vv^\top})$から独立に描画し、$\beta > 0$と$v\in \mathbb{R}^d$を$k$スパース単位ベクトルとし、$v$を回復したい。
すると、$n \ge \Omega(d)$ であれば、すべての $t \ll k$ に対して \[ \beta \gtrsim \frac{k}{\sqrt{nt}}\sqrt{\ln({2 + td/k^2})}\ である限り、この問題を解くアルゴリズムが存在することを示す。
この研究に先立ち、$k\approx \sqrt{d}$、すなわち \emph{Covariance Thresholding} ([KNV15a]で提案され、[DM14]で解析された) における最良の多項式時間アルゴリズムは、$\beta \gtrsim \frac{k}{\sqrt{n}}\sqrt{\ln({2 + d/k^2})}$である。
十分大きな定数$t$の場合、我々のアルゴリズムは多項式時間で動き、Covariance Thresholdingよりも保証が高い。
このような保証を持つ既知アルゴリズムは、準多項式時間 $d^{O(\log d)}$ を必要とする。
さらに,本手法は[dKNS20]で研究した対向摂動を伴うスパースPCAで動作することを示す。
このモデルはスパースPCAだけでなく、スパース植込みベクトル問題を含む以前の研究で研究された他の問題も一般化する。
結果として、いくつかのレジームにおける最先端技術よりも優れた保証を持つ疎植ベクトル問題に対する多項式時間アルゴリズムを提供する。
我々のアプローチは、スパースPCAのためのWignerモデルとも連携する。
さらに,本手法とスパースpcaの最近の結果と対称重み付き雑音 [dnns22] を組み合わせることが可能であることを示した。
特に、レジーム $k \approx \sqrt{d}$ では、[dNNS22] のアルゴリズムが対称重み付きノイズを扱う最初の多項式時間アルゴリズムが得られます。
これらの設定では準多項時間を必要とする。 In the Wishart model for sparse PCA we are given $n$ samples $Y_1,\ldots, Y_n$ drawn independently from a $d$-dimensional Gaussian distribution $N({0, Id + \beta vv^\top})$, where $\beta > 0$ and $v\in \mathbb{R}^d$ is a $k$-sparse unit vector, and we wish to recover $v$ (up to sign). We show that if $n \ge \Omega(d)$, then for every $t \ll k$ there exists an algorithm running in time $n\cdot d^{O(t)}$ that solves this problem as long as \[ \beta \gtrsim \frac{k}{\sqrt{nt}}\sqrt{\ln({2 + td/k^2})}\,. \] Prior to this work, the best polynomial time algorithm in the regime $k\approx \sqrt{d}$, called \emph{Covariance Thresholding} (proposed in [KNV15a] and analyzed in [DM14]), required $\beta \gtrsim \frac{k}{\sqrt{n}}\sqrt{\ln({2 + d/k^2})}$. For large enough constant $t$ our algorithm runs in polynomial time and has better guarantees than Covariance Thresholding. Previously known algorithms with such guarantees required quasi-polynomial time $d^{O(\log d)}$. In addition, we show that our techniques work with sparse PCA with adversarial perturbations studied in [dKNS20]. This model generalizes not only sparse PCA, but also other problems studied in prior works, including the sparse planted vector problem. As a consequence, we provide polynomial time algorithms for the sparse planted vector problem that have better guarantees than the state of the art in some regimes. Our approach also works with the Wigner model for sparse PCA. Moreover, we show that it is possible to combine our techniques with recent results on sparse PCA with symmetric heavy-tailed noise [dNNS22]. In particular, in the regime $k \approx \sqrt{d}$ we get the first polynomial time algorithm that works with symmetric heavy-tailed noise, while the algorithm from [dNNS22]. requires quasi-polynomial time in these settings. | 翻訳日:2023-11-10 18:51:40 公開日:2023-11-08 |
# フェデレートラーニングを用いたSARS-CoV-2スパイクシーケンスの効率的な分類 Efficient Classification of SARS-CoV-2 Spike Sequences Using Federated Learning ( http://arxiv.org/abs/2302.08688v2 ) ライセンス: Link先を確認 | Prakash Chourasia, Taslim Murad, Zahra Tayebi, Sarwan Ali, Imdad Ullah Khan and Murray Patterson | (参考訳) 本稿では,SARS-Cov-2変種分類のためのAIモデルを訓練するためのFLアプローチを提案する。
我々は,SARS-CoV-2のスパイク配列をデータ共有なしで分散解析し,この急速変異型ウイルスの異なる変種を検出する。
本手法は, 地域データの機密性(異なる場所に保存できる)を維持しながら, 新型コロナウイルスSARS-CoV-2の様々な変種を確実に検出し, 同定することができる。
提案手法を用いて, 新型コロナウイルスの変種識別タスクにおいて, 総合的精度93%の精度を達成する。
また,提案モデルが,データ所有の法則,データプライバシ,モデル集約,モデル不均質性といった,連合学習の主な法則にどのように従っているかの詳細を述べる。
提案したモデルが分散されているため、 ``Big Data'' に簡単にスケールできる。
我々はこの概念実証を,プライバシ保護型パンデミック対応戦略の実施に活用する予定である。 This paper presents a federated learning (FL) approach to train an AI model for SARS-Cov-2 variant classification. We analyze the SARS-CoV-2 spike sequences in a distributed way, without data sharing, to detect different variants of this rapidly mutating coronavirus. Our method maintains the confidentiality of local data (that could be stored in different locations) yet allows us to reliably detect and identify different known and unknown variants of the novel coronavirus SARS-CoV-2. Using the proposed approach, we achieve an overall accuracy of $93\%$ on the coronavirus variant identification task. We also provide details regarding how the proposed model follows the main laws of federated learning, such as Laws of data ownership, data privacy, model aggregation, and model heterogeneity. Since the proposed model is distributed, it could scale on ``Big Data'' easily. We plan to use this proof-of-concept to implement a privacy-preserving pandemic response strategy. | 翻訳日:2023-11-10 18:50:29 公開日:2023-11-08 |
# 一般計測フレーム上のシャドウトモグラフィ Shadow tomography on general measurement frames ( http://arxiv.org/abs/2301.13229v3 ) ライセンス: Link先を確認 | Luca Innocenti, Salvatore Lorenzo, Ivan Palmisano, Francesco Albarelli, Alessandro Ferraro, Mauro Paternostro, G. Massimo Palma | (参考訳) 観測フレームの一般理論との深い関係を示すことによって,影トモグラフィーの新しい視点を提供する。
測定フレームの形式化がシャドウトモグラフィーの自然な枠組みであることを示すことによって、'古典的なシャドウ'は、与えられた測定に関連付けられた適切な2つのフレームから導かれる偏りのない推定値に対応する。
このような視点から,計測結果の処理に使用される計測,再構成観測,推定値間の相互作用を検証し,入力状態と基底空間の寸法が推定誤差に与える影響を評価する方法を提案する。
本手法は[H]で記述した手法を一般化する。
-y。
Huang et al. など。
Nat, Nat。
Phys
16, 1050 (2020)] は, 共変測定フレームの特別な場合において, 結果が回収される。
そこで本研究では,厳密なランク-1測定フレームのクラス全体に対して,シャドウトモグラフィの追尾目標を達成できることを実証する。つまり,要求されるサンプル数と状態次元の増大を回避しつつ,有限個の一般的なランク-1有界可観測集合を正確に推定することが可能である。 We provide a new perspective on shadow tomography by demonstrating its deep connections with the general theory of measurement frames. By showing that the formalism of measurement frames offers a natural framework for shadow tomography -- in which ``classical shadows'' correspond to unbiased estimators derived from a suitable dual frame associated with the given measurement -- we highlight the intrinsic connection between standard state tomography and shadow tomography. Such perspective allows us to examine the interplay between measurements, reconstructed observables, and the estimators used to process measurement outcomes, while paving the way to assess the influence of the input state and the dimension of the underlying space on estimation errors. Our approach generalizes the method described in [H.-Y. Huang {\it et al.}, Nat. Phys. 16, 1050 (2020)], whose results are recovered in the special case of covariant measurement frames. As an application, we demonstrate that a sought-after target of shadow tomography can be achieved for the entire class of tight rank-1 measurement frames -- namely, that it is possible to accurately estimate a finite set of generic rank-1 bounded observables while avoiding the growth of the number of the required samples with the state dimension. | 翻訳日:2023-11-10 18:48:01 公開日:2023-11-08 |
# plex: ロボット操作の事前訓練のために利用可能なデータを最大限に活用する PLEX: Making the Most of the Available Data for Robotic Manipulation Pretraining ( http://arxiv.org/abs/2303.08789v2 ) ライセンス: Link先を確認 | Garrett Thomas, Ching-An Cheng, Ricky Loynd, Felipe Vieira Frujeri, Vibhav Vineet, Mihai Jalobeanu, Andrey Kolobov | (参考訳) 豊かな表現は一般的なロボット操作の鍵であるが、既存の表現学習には大量のマルチモーダルなデモンストレーションが必要である。
本研究では,タスク非依存のビズモータトラジェクトリとタスク条件のオブジェクト操作ビデオから学ぶ,トランスフォーマーベースのアーキテクチャであるPLEXを提案する。
PLEXは、潜在機能空間を誘導し、タスクに依存しない操作ルーチンを学ぶために、visuomotor trajectoriesを使用する。
実験では、Robosuite環境におけるPLEXのMeta-WorldとSOTAパフォーマンスの一般化を示す。
特に、plexのトランスフォーマーに相対的な位置エンコーディングを使用することは、人間の集団的なデモンストレーションから学習する低データ環境に大きく役立つ。
論文の添付コードとデータはhttps://microsoft.github.io/PLEX.comで公開されている。 A rich representation is key to general robotic manipulation, but existing approaches to representation learning require large amounts of multimodal demonstrations. In this work we propose PLEX, a transformer-based architecture that learns from a small amount of task-agnostic visuomotor trajectories and a much larger amount of task-conditioned object manipulation videos -- a type of data available in quantity. PLEX uses visuomotor trajectories to induce a latent feature space and to learn task-agnostic manipulation routines, while diverse video-only demonstrations teach PLEX how to plan in the induced latent feature space for a wide variety of tasks. Experiments showcase PLEX's generalization on Meta-World and SOTA performance in challenging Robosuite environments. In particular, using relative positional encoding in PLEX's transformers greatly helps in low-data regimes of learning from human-collected demonstrations. The paper's accompanying code and data are available at https://microsoft.github.io/PLEX. | 翻訳日:2023-11-10 18:36:30 公開日:2023-11-08 |
# バンドフィードバックを持つ2プレイヤーゼロサムマルコフゲームにおけるアンカップリングと収束学習 Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games with Bandit Feedback ( http://arxiv.org/abs/2303.02738v2 ) ライセンス: Link先を確認 | Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng | (参考訳) 2人プレイのゼロサムマルコフゲームにおける学習の問題を再検討し、非漸近収束率で非結合、収束、合理的なアルゴリズムを開発することに焦点を当てる。
我々は、バンドフィードバックをウォームアップとしたステートレス行列ゲームの場合から始め、$O(t^{-\frac{1}{8}})$ last-iterate convergence rateを示す。
我々の知る限りでは、これはバンディットフィードバックのみにアクセス可能な有限のラストイテレート収束率を得る最初の結果である。
我々はその結果を既約マルコフゲームの場合にまで拡張し、任意の$\varepsilon>0$に対して$O(t^{-\frac{1}{9+\varepsilon}})$の最終定値収束率を与える。
最後に、マルコフゲームについてダイナミクスを仮定せずに研究し、経路収束率を示し、これは我々が定義した収束の新しい概念である、$o(t^{-\frac{1}{10}})$を示す。
我々のアルゴリズムは[Wei et al., 2021]の協調と事前の知識要件を取り除き、既約マルコフゲームにおいて私たちと同じ目標を追求した。
本アルゴリズムは[chen et al., 2021, cen et al., 2021]と関連しており,エントロピー正規化手法を基礎としている。
しかし、エントロピー値に関するコミュニケーションの必要性を取り除き、アルゴリズムを完全に無結合にしています。 We revisit the problem of learning in two-player zero-sum Markov games, focusing on developing an algorithm that is uncoupled, convergent, and rational, with non-asymptotic convergence rates. We start from the case of stateless matrix game with bandit feedback as a warm-up, showing an $O(t^{-\frac{1}{8}})$ last-iterate convergence rate. To the best of our knowledge, this is the first result that obtains finite last-iterate convergence rate given access to only bandit feedback. We extend our result to the case of irreducible Markov games, providing a last-iterate convergence rate of $O(t^{-\frac{1}{9+\varepsilon}})$ for any $\varepsilon>0$. Finally, we study Markov games without any assumptions on the dynamics, and show a path convergence rate, which is a new notion of convergence we defined, of $O(t^{-\frac{1}{10}})$. Our algorithm removes the coordination and prior knowledge requirement of [Wei et al., 2021], which pursued the same goals as us for irreducible Markov games. Our algorithm is related to [Chen et al., 2021, Cen et al., 2021] and also builds on the entropy regularization technique. However, we remove their requirement of communications on the entropy values, making our algorithm entirely uncoupled. | 翻訳日:2023-11-10 18:34:22 公開日:2023-11-08 |
# nnMobileNe:網膜症研究のためのCNNを再考 nnMobileNe: Rethinking CNN for Retinopathy Research ( http://arxiv.org/abs/2306.01289v2 ) ライセンス: Link先を確認 | Wenhui Zhu, Peijie Qiu, Xin Li, Natasha Lepore, Oana M. Dumitrascu, and Yalin Wang | (参考訳) 過去数十年にわたり、畳み込みニューラルネットワーク(cnns)は様々な網膜疾患(rd)の検出と追跡の最前線にある。
その成功にもかかわらず、2020年代のビジョントランスフォーマー(ViT)の出現はRDモデル開発の軌跡を変えている。
rd における vit ベースのモデルの最先端のパフォーマンスは、そのスケーラビリティ - より多くのパラメータが追加されるにつれて改善できる能力 - が大きな功績を挙げることができる。
結果として、vitベースのモデルは、データの増加と計算要求のコストにもかかわらず、rdアプリケーションにおける従来のcnnを上回る傾向があります。
ViTはまた、画像処理のアプローチにおいてCNNと異なり、局所的な領域ではなくパッチで作業することで、RD内の小さな可変性病変の正確な識別を複雑にすることができる。
本研究では,CNNモデル,特にMobileNetのアーキテクチャを再検討し,RD診断における実用性の向上を図る。
選択的な修正によって最適化されたモバイルネットは、糖尿病網膜症格付け、複数の眼底疾患の検出、糖尿病黄斑浮腫の分類など、様々なrdベンチマークでvitベースのモデルを上回ることが判明した。
私たちのソフトウェアパッケージはhttps://github.com/Retinal-Research/NN-MOBILENETで利用可能です。 Over the past few decades, convolutional neural networks (CNNs) have been at the forefront of the detection and tracking of various retinal diseases (RD). Despite their success, the emergence of vision transformers (ViT) in the 2020s has shifted the trajectory of RD model development. The leading-edge performance of ViT-based models in RD can be largely credited to their scalability - their ability to improve as more parameters are added. As a result, ViT-based models tend to outshine traditional CNNs in RD applications, albeit at the cost of increased data and computational demands. ViTs also differ from CNNs in their approach to processing images, working with patches rather than local regions, which can complicate the precise identification of small, variably presented lesions in RD. In our study, we revisited and updated the architecture of a CNN model, specifically MobileNet, to enhance its utility in RD diagnostics. We found that an optimized MobileNet, through selective modifications, can surpass ViT-based models in various RD benchmarks, including diabetic retinopathy grading, detection of multiple fundus diseases, and classification of diabetic macular edema. Our software package is available at https://github.com/Retinal-Research/NN-MOBILENET | 翻訳日:2023-11-10 18:26:37 公開日:2023-11-08 |
# 微分可能なランダム分割モデル Differentiable Random Partition Models ( http://arxiv.org/abs/2305.16841v2 ) ライセンス: Link先を確認 | Thomas M. Sutter, Alain Ryser, Joram Liebeskind, Julia E. Vogt | (参考訳) 要素の集合を未知の数の排他的部分集合に分割することは、多くの機械学習問題において不可欠である。
しかし、データセットのサンプルやネットワーク層内のニューロンなどの要素を未知かつ離散的なサブセットに割り当てることは本質的には微分不可能であり、パラメータのエンドツーエンドの勾配に基づく最適化を禁止している。
この制限を克服するために,分割を推定する新しい二段階法を提案し,変分推論タスクでの利用を可能にした。
この新しいアプローチは、新しいランダムパーティションモデルのパラメータに対するパラメータ化勾配を可能にする。
提案手法は,各部分集合の要素数を推定し,第二に,これらの部分集合を学習順序で満たすことで動作する。
変動クラスタリング、弱い監督下での共有および独立生成因子の推定、マルチタスク学習という3つの異なる課題実験に対する汎用的アプローチの汎用性を強調した。 Partitioning a set of elements into an unknown number of mutually exclusive subsets is essential in many machine learning problems. However, assigning elements, such as samples in a dataset or neurons in a network layer, to an unknown and discrete number of subsets is inherently non-differentiable, prohibiting end-to-end gradient-based optimization of parameters. We overcome this limitation by proposing a novel two-step method for inferring partitions, which allows its usage in variational inference tasks. This new approach enables reparameterized gradients with respect to the parameters of the new random partition model. Our method works by inferring the number of elements per subset and, second, by filling these subsets in a learned order. We highlight the versatility of our general-purpose approach on three different challenging experiments: variational clustering, inference of shared and independent generative factors under weak supervision, and multitask learning. | 翻訳日:2023-11-10 18:25:56 公開日:2023-11-08 |
# 弱教師付き意味セグメンテーションのためのマスキング協調コントラスト Masked Collaborative Contrast for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.08491v6 ) ライセンス: Link先を確認 | Fangwen Wu, Jingxuan He, Yufei Yin, Yanbin Hao, Gang Huang, Lechao Cheng | (参考訳) 本研究では,弱教師付きセマンティックセマンティックセグメンテーションにおける意味領域を強調するため,Masked Collaborative Contrast (MCC) を提案する。
MCCは暗黙のイメージモデリングと対照的な学習から着想を得て、セマンティック領域に向けた鍵を誘導する新しいフレームワークを考案した。
マスク生成時に入力画像のパッチ領域を直接消去する一般的な手法とは異なり,アフィニティ行列のキーを考慮したマスクを探索することにより,パッチトークンの近傍関係を精査する。
さらに,マスキングローカルアウトプットを活用し,グローバルアウトプットと対比することにより,対照学習において正負のサンプルを生成する。
一般的に使用されるデータセットに関する実験により、提案されたMCCメカニズムが画像内のグローバルとローカルの視点を効果的に整合させ、印象的なパフォーマンスを実現することが証明された。
ソースコードは \url{https://github.com/fwu11/MCC} で入手できる。 This study introduces an efficacious approach, Masked Collaborative Contrast (MCC), to highlight semantic regions in weakly supervised semantic segmentation. MCC adroitly draws inspiration from masked image modeling and contrastive learning to devise a novel framework that induces keys to contract toward semantic regions. Unlike prevalent techniques that directly eradicate patch regions in the input image when generating masks, we scrutinize the neighborhood relations of patch tokens by exploring masks considering keys on the affinity matrix. Moreover, we generate positive and negative samples in contrastive learning by utilizing the masked local output and contrasting it with the global output. Elaborate experiments on commonly employed datasets evidences that the proposed MCC mechanism effectively aligns global and local perspectives within the image, attaining impressive performance. The source code is available at \url{https://github.com/fwu11/MCC}. | 翻訳日:2023-11-10 18:23:35 公開日:2023-11-08 |
# qubit cloakingによるQubit Readoutsの実現 Qubit readouts enabled by qubit cloaking ( http://arxiv.org/abs/2305.00895v3 ) ライセンス: Link先を確認 | Manuel H. Mu\~noz-Arias, Crist\'obal Lled\'o, Alexandre Blais | (参考訳) 時間依存ドライブは、回路量子力学における量子コンピューティングの取り組みにおいて重要な役割を果たす。
単一キュービットの制御、論理演算の絡み込み、およびキュービットの読み出しを可能にする。
しかし、それらの存在は、大きな交流スタークシフトや不要な量子ビット遷移のような有害な効果を招き、最終的には制御の低下や読み出しのフィデリティに反映される。
クビット・クローキングは、Lled\'o, Dassonneville, et alで導入された。
[c。
Lled\'o, R. Dassonneville, A. Moulinas et al., Nat.
共産。
\textbf{14}, 6313 (2023)] 駆動キャビティのコヒーレント光子集団から一時的にキュービットを分離し、キュービットに対する有害な影響を避けつつキャビティフィールドへの任意の変位を適用できるようにする。
キュービット読み出しでは、クローキングはキャビティフィールドのキュービット状態に依存した進化を期待して、原則として多数の光子でキャビティをプリアームすることを可能にし、読み出し戦略を改善することができる。
ここでは2つを詳しく見ていきます。
まず、キュービットクローキングと共に導入されたarm-and-release readoutでは、キャビティをアーミングした後、クローキング機構が解放され、キャビティフィールドは一定駆動振幅の印加下で進化する。
第2に、キャビティ駆動振幅が解放後にゆっくりと変調されるアーム・アンド・縦方向読み出し方式である。
これら2つのスキームは相互に補完し、分散相互作用と空洞崩壊率の値の標準分散読み出しよりも改善され、目標測定積分時間も改善されることを示す。
この結果から,標準回路QEDアーキテクチャを変更することなく,量子ビットの読み出しを改善することを提案する。 Time-dependent drives play a crucial role in quantum computing efforts with circuit quantum electrodynamics. They enable single-qubit control, entangling logical operations, as well as qubit readout. However, their presence can lead to deleterious effects such as large ac-Stark shifts and unwanted qubit transitions ultimately reflected into reduced control or readout fidelities. Qubit cloaking was introduced in Lled\'o, Dassonneville, et al. [C. Lled\'o, R. Dassonneville, A. Moulinas et al., Nat. Commun. \textbf{14}, 6313 (2023)] to temporarily decouple the qubit from the coherent photon population of a driven cavity, allowing for the application of arbitrary displacements to the cavity field while avoiding the deleterious effects on the qubit. For qubit readout, cloaking permits to prearm the cavity with an, in principle, arbitrarily large number of photons, in anticipation to the qubit-state-dependent evolution of the cavity field, allowing for improved readout strategies. Here we take a closer look at two of them. First, arm-and-release readout, introduced together with qubit cloaking, where after arming the cavity the cloaking mechanism is released and the cavity field evolves under the application of a constant drive amplitude. Second, an arm-and-longitudinal readout scheme, where the cavity drive amplitude is slowly modulated after the release. We show that the two schemes complement each other, offering an improvement over the standard dispersive readout for any values of the dispersive interaction and cavity decay rate, as well as any target measurement integration time. Our results provide a recommendation for improving qubit readout without changes to the standard circuit QED architecture. | 翻訳日:2023-11-10 18:22:19 公開日:2023-11-08 |
# TD Convergence: 最適化の観点から TD Convergence: An Optimization Perspective ( http://arxiv.org/abs/2306.17750v2 ) ライセンス: Link先を確認 | Kavosh Asadi, Shoham Sabach, Yao Liu, Omer Gottesman, Rasool Fakoor | (参考訳) 本稿では,TD学習アルゴリズムの収束挙動について検討する。
最適化のレンズを通してアルゴリズムを見ることにより、まず、tdは、最小化された関数が反復毎に変化する反復最適化アルゴリズムと見なすことができる。
古典的反例でtdが示す発散を慎重に調べることにより、アルゴリズムの収束性または発散性を決定する2つの力を特定する。
次に2次損失を伴う線形TD設定での発見を定式化し、TDヒンジの収束がこれら2つの力の間の相互作用に依存することを示す。
この最適化の観点を拡張して、線形近似や二乗損失よりもはるかに広い条件でTDの収束を証明する。
本結果は,強化学習におけるTDの有効利用に関する理論的説明を提供する。 We study the convergence behavior of the celebrated temporal-difference (TD) learning algorithm. By looking at the algorithm through the lens of optimization, we first argue that TD can be viewed as an iterative optimization algorithm where the function to be minimized changes per iteration. By carefully investigating the divergence displayed by TD on a classical counter example, we identify two forces that determine the convergent or divergent behavior of the algorithm. We next formalize our discovery in the linear TD setting with quadratic loss and prove that convergence of TD hinges on the interplay between these two forces. We extend this optimization perspective to prove convergence of TD in a much broader setting than just linear approximation and squared loss. Our results provide a theoretical explanation for the successful application of TD in reinforcement learning. | 翻訳日:2023-11-10 18:14:10 公開日:2023-11-08 |
# 大規模言語モデルはred herringsによって固定される: 唯一のconnect wallデータセットを用いた創造的問題解決とeinstellung効果の探求 Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving and Einstellung Effect using the Only Connect Wall Dataset ( http://arxiv.org/abs/2306.11167v4 ) ライセンス: Link先を確認 | Saeid Naeini, Raeid Saqur, Mozhgan Saeidi, John Giorgi and Babak Taati | (参考訳) 人間の模倣AIの探求は、その誕生以来、AI研究において永続的な話題となっている。
大規模言語モデル(llm)の最新コホートの技術的進化と新しい能力は、学界を超えて文化的な風刺家へと主題を復活させた。
最近のnlp評価ベンチマークタスクは、人間の模倣行動のいくつかの側面(例えば、big-benchの"human-like behavior"タスク)をテストするが、創造的な問題解決能力を調べることは少ない。
人間の創造的問題解決は認知神経科学においてよく研究されているトピックであり、主に創造性の指標として手がかり語間の(ヘテロジェンスな)接続を関連付ける能力を使用する標準化されたテストがある。
誤解を招く刺激(レッド・ハーリングと呼ばれる邪魔者)への露出は、固定効果やアインシュタインパラダイムを通じて人間のパフォーマンスを阻害する。
認知神経科学研究において、そのような固定は実験参加者によって実験的に誘導される。
イギリスの人気クイズ番組「Not only Connect's Connecting Wall segment」は、基本的にはメドニックのリモートアソシエイツテスト(RAT)の定式化を、組み込みの故意のレッドハーリングで模倣している。
本稿では,未学習言語モデルとLLMの評価から,未知の単語をヘテロジニアスな接続でグループ化し,各グループにおける正しいオープンな知識領域接続を同定するといった,創造的な問題解決課題について,その成果を報告する。
ocw-randomized, ocw-wordnetという2つのデータセットを合成して生成し、言語モデルにおけるred-herrings仮説をさらに分析しました。
データセットのコードとリンクはhttps://github.com/TaatiTeam/OCW.comで公開されている。 The quest for human imitative AI has been an enduring topic in AI research since its inception. The technical evolution and emerging capabilities of the latest cohort of large language models (LLMs) have reinvigorated the subject beyond academia to the cultural zeitgeist. While recent NLP evaluation benchmark tasks test some aspects of human-imitative behaviour (e.g., BIG-bench's 'human-like behavior' tasks), few, if not none, examine creative problem solving abilities. Creative problem solving in humans is a well-studied topic in cognitive neuroscience with standardized tests that predominantly use the ability to associate (heterogeneous) connections among clue words as a metric for creativity. Exposure to misleading stimuli - distractors dubbed red herrings - impede human performance in such tasks via the fixation effect and Einstellung paradigm. In cognitive neuroscience studies, such fixations are experimentally induced by pre-exposing participants to orthographically similar incorrect words to subsequent word-fragments or clues. The popular British quiz show Only Connect's Connecting Wall segment essentially mimics Mednick's Remote Associates Test (RAT) formulation with built-in, deliberate red herrings, which makes it an ideal proxy dataset to explore and study fixation effect and Einstellung paradigm from cognitive neuroscience in LLMs. In this paper we present the novel Only Connect Wall (OCW) dataset and report results from our evaluation of selected pre-trained language models and LLMs on creative problem solving tasks like grouping clue words by heterogeneous connections, and identifying correct open knowledge domain connections in respective groups. We synthetically generate two additional datasets: OCW-Randomized, OCW-WordNet to further analyze our red-herrings hypothesis in language models. The code and link to the dataset are available at https://github.com/TaatiTeam/OCW. | 翻訳日:2023-11-10 18:13:11 公開日:2023-11-08 |
# ヒンジ損失によるノイズデータに対する浅いreluネットワークのトレーニング: いつ、オーバーフィットするのか、良性なのか? Training shallow ReLU networks on noisy data using hinge loss: when do we overfit and is it benign? ( http://arxiv.org/abs/2306.09955v2 ) ライセンス: Link先を確認 | Erin George, Michael Murray, William Swartworth, Deanna Needell | (参考訳) 勾配降下法とヒンジ損失法を用いてトレーニングした2層reluネットワークの良性過フィッティングについて検討した。
特に、比較的少数のラベルが破損または反転している線形分離可能なデータを考える。
我々は, ゼロ損失を達成し, 高い確率テストデータを正しく分類した良性過剰適合, ゼロ損失を達成したが, テストデータが一定値の低い確率で誤分類された過適合, クリーンポイントを劣化点ではなく、ゼロ損失を達成し、また高い確率テストデータを正しく分類した, という3つの異なるトレーニング結果を生み出すクリーンデータのマージンについて, 条件を特定した。
我々の分析では、トレーニングを通してニューロンのダイナミクスを詳細に記述し、第1相のクリーンポイントはゼロ損失に近づき、第2相のクリーンポイントはゼロ損失の境界で振動し、破壊ポイントはゼロ損失に向かって収束するか、最終的にネットワークによってゼロになる。
これらの結果は、これらの段階にわたるクリーンな更新と不正な更新の数を制限した組合せ的アプローチを用いて証明する。 We study benign overfitting in two-layer ReLU networks trained using gradient descent and hinge loss on noisy data for binary classification. In particular, we consider linearly separable data for which a relatively small proportion of labels are corrupted or flipped. We identify conditions on the margin of the clean data that give rise to three distinct training outcomes: benign overfitting, in which zero loss is achieved and with high probability test data is classified correctly; overfitting, in which zero loss is achieved but test data is misclassified with probability lower bounded by a constant; and non-overfitting, in which clean points, but not corrupt points, achieve zero loss and again with high probability test data is classified correctly. Our analysis provides a fine-grained description of the dynamics of neurons throughout training and reveals two distinct phases: in the first phase clean points achieve close to zero loss, in the second phase clean points oscillate on the boundary of zero loss while corrupt points either converge towards zero loss or are eventually zeroed by the network. We prove these results using a combinatorial approach that involves bounding the number of clean versus corrupt updates across these phases of training. | 翻訳日:2023-11-10 18:12:35 公開日:2023-11-08 |
# 時変目的関数を用いた非凸双レベル最適化 Non-Convex Bilevel Optimization with Time-Varying Objective Functions ( http://arxiv.org/abs/2308.03811v2 ) ライセンス: Link先を確認 | Sen Lin, Daouda Sow, Kaiyi Ji, Yingbin Liang, Ness Shroff | (参考訳) バイレベル最適化は、幅広い機械学習問題において強力なツールとなっている。
しかし、現在のnonconvex bilevel optimizationでは、オフラインデータセットと静的関数が検討されており、ストリーミングデータと時変関数を備えた新興オンラインアプリケーションではうまく動作しない可能性がある。
本研究は,オンラインの双方向最適化(OBO)について検討し,時間変化が可能であるとともに,エージェントがオンラインストリーミングデータを用いて決定を継続的に更新する。
本稿では,booにおける真のハイパーグレードの関数のばらつきと可利用性に対処するために,メモリに格納されている最新のハイパーグレード推定のウィンドウ平均に基づいて外層決定を更新するウィンドウ平均化(sobow)を備えたシングルループオンラインバイレベルオプティマイザを提案する。
既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。
OBOの単一ループ更新と関数変動に根ざした技術的難しさに対処するため,決定変数間の複雑な結合を解消し,過次推定誤差を慎重に制御する新しい解析手法を開発した。
軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。
複数の領域にわたる大規模な実験は、SOBOWの有効性を裏付ける。 Bilevel optimization has become a powerful tool in a wide variety of machine learning problems. However, the current nonconvex bilevel optimization considers an offline dataset and static functions, which may not work well in emerging online applications with streaming data and time-varying functions. In this work, we study online bilevel optimization (OBO) where the functions can be time-varying and the agent continuously updates the decisions with online streaming data. To deal with the function variations and the unavailability of the true hypergradients in OBO, we propose a single-loop online bilevel optimizer with window averaging (SOBOW), which updates the outer-level decision based on a window average of the most recent hypergradient estimations stored in the memory. Compared to existing algorithms, SOBOW is computationally efficient and does not need to know previous functions. To handle the unique technical difficulties rooted in single-loop update and function variations for OBO, we develop a novel analytical technique that disentangles the complex couplings between decision variables, and carefully controls the hypergradient estimation error. We show that SOBOW can achieve a sublinear bilevel local regret under mild conditions. Extensive experiments across multiple domains corroborate the effectiveness of SOBOW. | 翻訳日:2023-11-10 18:00:39 公開日:2023-11-08 |
# 原子アレイによる超ラジアント・サブラジアントキャビティ散乱 Super-radiant and Sub-radiant Cavity Scattering by Atom Arrays ( http://arxiv.org/abs/2307.13321v2 ) ライセンス: Link先を確認 | Zhenjie Yan, Jacquelyn Ho, Yue-Hui Lu, Stuart J. Masson, Ana Asenjo-Garcia, Dan M. Stamper-Kurn | (参考訳) 我々は,強く結合したFabry-P\'{e}rot光学キャビティ内に位置するツイーザートラップ付き$^{87}$Rb原子の配列によって散乱した光の集合的増強と抑制を実現する。
我々は、低飽和状態にある空洞軸に光を向けたアレイを照明し、空洞内に散乱する光子を検出する。
原子がほぼ同じ散乱振幅で光をキャビティに散乱させ、原子数がN=1$からN=8$へと段階的に増加するにつれて、観測されたキャビティ光子数のスケールがN^2$になる。
対照的に、半整数の波長の間隔を持つ配列では、散乱振幅の破壊的干渉は非単調なサブラジアントキャビティ強度を、n$ に対して与える。
キャビティから放出される光の分極を解析した結果,レイリー散乱はラマン散乱に関して総じて強化あるいは抑制できることがわかった。
また, 原子数と位置を変化させることで, 原子誘起シフトとキャビティ共鳴の拡幅を精密に調整できることも観察した。
さらに、ツイーザーアレイは、単体状態から多体状態にまたがる原子空洞QEDの精巧な制御を提供する。 We realize collective enhancement and suppression of light scattered by an array of tweezer-trapped $^{87}$Rb atoms positioned within a strongly coupled Fabry-P\'{e}rot optical cavity. We illuminate the array with light directed transverse to the cavity axis, in the low saturation regime, and detect photons scattered into the cavity. For an array with integer-optical-wavelength spacing each atom scatters light into the cavity with nearly identical scattering amplitude, leading to an observed $N^2$ scaling of cavity photon number as the atom number increases stepwise from $N=1$ to $N=8$. By contrast, for an array with half-integer-wavelength spacing, destructive interference of scattering amplitudes yields a non-monotonic, sub-radiant cavity intensity versus $N$. By analyzing the polarization of light emitted from the cavity, we find that Rayleigh scattering can be collectively enhanced or suppressed with respect to Raman scattering. We observe also that atom-induced shifts and broadenings of the cavity resonance are precisely tuned by varying the atom number and positions. Altogether, tweezer arrays provide exquisite control of atomic cavity QED spanning from the single- to the many-body regime. | 翻訳日:2023-11-10 18:00:00 公開日:2023-11-08 |
# 振幅有界量子制御を用いた最小量子ゲート持続時間決定法 A practical approach to determine minimal quantum gate durations using amplitude-bounded quantum controls ( http://arxiv.org/abs/2307.13168v2 ) ライセンス: Link先を確認 | Stefanie G\"unther and N. Anders Petersson | (参考訳) 本稿では,制御パルス振幅のハードウェア制約を満たすとともに,量子ゲートを実現する最小期間を推定する反復方式を提案する。
このスキームは、制御パルス振幅に対する追加のペナルティ項とともに、所定のゲート持続時間におけるゲート忠実度を最小化する、制約のない最適制御サイクルのシーケンスを実行する。
各サイクルの後に、制御パルスが振幅制約を満たす新しい期間にダイナミクスを再スケーリングすることにより、結果の最大制御パルス振幅の逆に基づいてゲート持続時間を調整する。
これらのスケールした制御は、調整されたゲート時間を用いて、次の制約のない最適制御サイクルの初期推定として機能する。
我々は,制御パルス振幅境界を仮定して,量子速度限界に近いゲート持続時間へのスキームの高速収束を示す複数の数値例を示す。
提案手法は基礎となるシステムや制御ハミルトニアンモデル、およびターゲットのユニタリゲート操作と無関係であり、時間スケールの反復は、量子ゲート演算の持続時間を削減するための実装が容易で実用的なスキームである。 We present an iterative scheme to estimate the minimal duration in which a quantum gate can be realized while satisfying hardware constraints on the control pulse amplitudes. The scheme performs a sequence of unconstrained numerical optimal control cycles that each minimize the gate fidelity for a given gate duration alongside an additional penalty term for the control pulse amplitudes. After each cycle, the gate duration is adjusted based on the inverse of the resulting maximum control pulse amplitudes, by re-scaling the dynamics to a new duration where control pulses satisfy the amplitude constraints. Those scaled controls then serve as an initial guess for the next unconstrained optimal control cycle, using the adjusted gate duration. We provide multiple numerical examples that each demonstrate fast convergence of the scheme towards a gate duration that is close to the quantum speed limit, given the control pulse amplitude bound. The proposed technique is agnostic to the underlying system and control Hamiltonian models, as well as the target unitary gate operation, making the time-scaling iteration an easy to implement and practically useful scheme for reducing the durations of quantum gate operations. | 翻訳日:2023-11-10 17:59:38 公開日:2023-11-08 |
# 分子群補助データセットへの学習 Learning to Group Auxiliary Datasets for Molecule ( http://arxiv.org/abs/2307.04052v2 ) ライセンス: Link先を確認 | Tinglin Huang, Ziniu Hu, Rex Ying | (参考訳) 小さな分子データセットにおけるアノテーションの可用性の制限は、機械学習モデルに課題をもたらす。
これを解決するための一般的な戦略は、追加の補助データセットとのコラボレーションである。
しかし、より多くのデータを持つことは必ずしも改善を保証しない。
ターゲットデータセットの知識が異なる場合や補助分子データセットの知識と矛盾する場合に負の転送が発生する。
これを踏まえて、共同トレーニング時にターゲットデータセットに利益をもたらす補助分子データセットを特定することは、依然として重要かつ未解決の問題である。
経験的分析により,グラフ構造類似性とタスク類似性の組み合わせが,高親和性補助データセットの同定において,より信頼性の高い指標となることを確かめた。
この知見により,各補助分子データセットの潜在的な利益を予測するために,データセット親和性をタスクと構造親和性に分離するMollGroupを提案する。
MolGroupは、双方向最適化フレームワークによって最適化されたルーティングメカニズムを利用することで、これを実現する。
メタ勾配を利用して、ルーティング機構はターゲットデータセットのパフォーマンスを最大化するために最適化され、アフィニティをゲーティングスコアとして定量化する。
その結果、MollGroupは各ターゲットデータセットに対する補助データセットの最適な組み合わせを予測することができる。
実験により,11種類の標的分子データセットにおいて,分子群から選択したgin/graphormer群に対して平均4.41%/3.47%の改善が得られた。 The limited availability of annotations in small molecule datasets presents a challenge to machine learning models. To address this, one common strategy is to collaborate with additional auxiliary datasets. However, having more data does not always guarantee improvements. Negative transfer can occur when the knowledge in the target dataset differs or contradicts that of the auxiliary molecule datasets. In light of this, identifying the auxiliary molecule datasets that can benefit the target dataset when jointly trained remains a critical and unresolved problem. Through an empirical analysis, we observe that combining graph structure similarity and task similarity can serve as a more reliable indicator for identifying high-affinity auxiliary datasets. Motivated by this insight, we propose MolGroup, which separates the dataset affinity into task and structure affinity to predict the potential benefits of each auxiliary molecule dataset. MolGroup achieves this by utilizing a routing mechanism optimized through a bi-level optimization framework. Empowered by the meta gradient, the routing mechanism is optimized toward maximizing the target dataset's performance and quantifies the affinity as the gating score. As a result, MolGroup is capable of predicting the optimal combination of auxiliary datasets for each target dataset. Our extensive experiments demonstrate the efficiency and effectiveness of MolGroup, showing an average improvement of 4.41%/3.47% for GIN/Graphormer trained with the group of molecule datasets selected by MolGroup on 11 target molecule datasets. | 翻訳日:2023-11-10 17:57:39 公開日:2023-11-08 |
# 逆影響関数による深い勾配の漏洩の理解 Understanding Deep Gradient Leakage via Inversion Influence Functions ( http://arxiv.org/abs/2309.13016v2 ) ライセンス: Link先を確認 | Haobo Zhang, Junyuan Hong, Yuyang Deng, Mehrdad Mahdavi, Jiayu Zhou | (参考訳) Deep Gradient Leakage (DGL)は、勾配ベクトルからプライベートトレーニングイメージを復元する非常に効果的な攻撃である。
この攻撃は、クライアントが勾配を共有する必要がある機密データを持つクライアントからの分散学習に重大なプライバシー上の問題を引き起こす。
このような攻撃に対する防御は必要だが、特にディープネットワークのブラックボックス的性質のために、いつ、どのようにプライバシーの漏洩が起こるかの理解を欠いている。
本稿では,dgl問題を暗黙的に解くことにより,復元画像とプライベート勾配との閉形式接続を確立する新しい逆影響関数(i$^2$f)を提案する。
DGLと直接的に比較すると、I$^2$Fはディープネットワークを解析するのにスケーラブルであり、グラデーションやヤコビアンベクター製品へのオラクルアクセスのみを必要とする。
I$^2$Fは、一般的に異なるモデルアーキテクチャ、データセット、アタック実装、ノイズベースの防御に基づいてDGLを効果的に近似したことを実証的に実証した。
この新しいツールでは、効果的な勾配摂動方向、プライバシー保護の不公平性、およびプライバシ優先モデル初期化に関する洞察を提供する。
私たちのコードはhttps://github.com/illidanlab/inversion-influence-functionで提供される。 Deep Gradient Leakage (DGL) is a highly effective attack that recovers private training images from gradient vectors. This attack casts significant privacy challenges on distributed learning from clients with sensitive data, where clients are required to share gradients. Defending against such attacks requires but lacks an understanding of when and how privacy leakage happens, mostly because of the black-box nature of deep networks. In this paper, we propose a novel Inversion Influence Function (I$^2$F) that establishes a closed-form connection between the recovered images and the private gradients by implicitly solving the DGL problem. Compared to directly solving DGL, I$^2$F is scalable for analyzing deep networks, requiring only oracle access to gradients and Jacobian-vector products. We empirically demonstrate that I$^2$F effectively approximated the DGL generally on different model architectures, datasets, attack implementations, and noise-based defenses. With this novel tool, we provide insights into effective gradient perturbation directions, the unfairness of privacy protection, and privacy-preferred model initialization. Our codes are provided in https://github.com/illidanlab/inversion-influence-function. | 翻訳日:2023-11-10 17:47:57 公開日:2023-11-08 |
# ATMS:アルゴリズムによる取引誘導市場シミュレーション ATMS: Algorithmic Trading-Guided Market Simulation ( http://arxiv.org/abs/2309.01784v2 ) ライセンス: Link先を確認 | Song Wei, Andrea Coletta, Svitlana Vyetrenko, Tucker Balch | (参考訳) マルチエージェントシステム(mas)を含む多くのアプリケーションでは、実世界の予期せぬ損失を避けるために、実運用への展開前に高忠実度シミュレータで実験的な(exp)自律エージェントをテストすることが不可欠である。
このようなシミュレータは、エージェントベースシミュレータ(abs)と呼ばれる環境背景(bg)エージェントとして働き、複雑な実masを再現することを目指している。
しかし、現実的なABSの開発は、主にそのようなシステムのシーケンシャルでダイナミックな性質のため、依然として困難である。
本研究では,このギャップを埋めるために,expエージェントとbgエージェント間のライブインタラクションを通じて評価し,システムのシーケンシャルな性質を明示的に考慮した,実システムと合成マルチエージェントシステムを区別するメトリクスを提案する。
具体的には,環境状態変化に対するbgエージェントの応答列の効果を解析し,mas距離メトリックとしてその効果の差異を考慮し,環境進化と先行する環境状態とを結合した因果推論問題として効果推定をキャストする。
本稿では,対話型エージェント誘導シミュレーション(INTAGS)フレームワークを提案する。
対話型逐次意思決定エージェントで任意の環境に適応するために、INTAGSは、強化学習における確率的ポリシーとしてシミュレータを定式化する。
さらに、INTAGSはポリシー勾配更新を利用して、提案したメトリックの差別化を回避し、マルチエージェント環境の非微分可能な操作をサポートできるようにしている。
広範な実験を通じて、株式市場シミュレーションの例において、INTAGSの有効性を実証する。
InTAGSを用いてシミュレータのキャリブレーションを行い、現状のWasserstein Generative Adversarial Networkアプローチと比較して、より現実的な市場データを生成することを示す。 In many applications involving multi-agent system (MAS), it is imperative to test an experimental (Exp) autonomous agent in a high-fidelity simulator prior to its deployment to production, to avoid unexpected losses in the real-world. Such a simulator acts as the environmental background (BG) agent(s), called agent-based simulator (ABS), aiming to replicate the complex real MAS. However, developing realistic ABS remains challenging, mainly due to the sequential and dynamic nature of such systems. To fill this gap, we propose a metric to distinguish between real and synthetic multi-agent systems, which is evaluated through the live interaction between the Exp and BG agents to explicitly account for the systems' sequential nature. Specifically, we characterize the system/environment by studying the effect of a sequence of BG agents' responses to the environment state evolution and take such effects' differences as MAS distance metric; The effect estimation is cast as a causal inference problem since the environment evolution is confounded with the previous environment state. Importantly, we propose the Interactive Agent-Guided Simulation (INTAGS) framework to build a realistic ABS by optimizing over this novel metric. To adapt to any environment with interactive sequential decision making agents, INTAGS formulates the simulator as a stochastic policy in reinforcement learning. Moreover, INTAGS utilizes the policy gradient update to bypass differentiating the proposed metric such that it can support non-differentiable operations of multi-agent environments. Through extensive experiments, we demonstrate the effectiveness of INTAGS on an equity stock market simulation example. We show that using INTAGS to calibrate the simulator can generate more realistic market data compared to the state-of-the-art conditional Wasserstein Generative Adversarial Network approach. | 翻訳日:2023-11-10 17:45:32 公開日:2023-11-08 |
# copiloting the copilots: プログラムの自動修復のための補完エンジンを備えた大型言語モデルの使用 Copiloting the Copilots: Fusing Large Language Models with Completion Engines for Automated Program Repair ( http://arxiv.org/abs/2309.00608v3 ) ライセンス: Link先を確認 | Yuxiang Wei, Chunqiu Steven Xia, Lingming Zhang | (参考訳) 自動プログラム修復(APR)において、汎用プログラミング言語で現実世界のシステムに対して正しいパッチを合成することは困難である。
最近の大規模言語モデル(llm)は、様々なコーディングタスクの開発者を支援する上で有用な"コパイロット"であることが示されており、パッチ合成にも直接適用されている。
しかし、ほとんどのLLMはプログラムをトークンのシーケンスとして扱うため、ターゲットプログラミング言語の基本的なセマンティクス制約に無関係である。
この結果、多くの静的に無効なパッチが生まれ、この技術の実用性を妨げている。
そこで本稿では,修復プロセス中により有効なパッチを合成することにより,AIの"コパイロット"(すなわちLLM)をさらに協調する汎用コード生成フレームワークであるRepilotを提案する。
我々の重要な洞察は、多くのLLMが自動回帰的に(トークン単位のトークン)出力を生成し、人間の記述プログラムに似ており、コンプリーションエンジンを通じて大幅に向上しガイドすることができるということである。
RepilotはLLMとCompletion Engineの相互作用を通じて、候補パッチを相乗的に合成する
1) LLMが提案する実用不可能なトークンを削除し、
2) 完了エンジンが提供する提案に基づいてトークンを積極的に完了させる。
広く使用されているDefects4j 1.2と2.0データセットのサブセットに対する評価では、Repilotは、それぞれ27%と47%のバグを修正することで、最先端の技術よりも優れています。
さらに、Repilotは同じ予算でベースLLMよりも有効で正しいパッチを生成する。
この作業ではRepilotをAPRに活用することに重点を置いていますが、全体的なアプローチは他のコード生成タスクにも一般化可能です。 During Automated Program Repair (APR), it can be challenging to synthesize correct patches for real-world systems in general-purpose programming languages. Recent Large Language Models (LLMs) have been shown to be helpful "copilots" in assisting developers with various coding tasks, and have also been directly applied for patch synthesis. However, most LLMs treat programs as sequences of tokens, meaning that they are ignorant of the underlying semantics constraints of the target programming language. This results in plenty of statically invalid generated patches, impeding the practicality of the technique. Therefore, we propose Repilot, a general code generation framework to further copilot the AI "copilots" (i.e., LLMs) by synthesizing more valid patches during the repair process. Our key insight is that many LLMs produce outputs autoregressively (i.e., token by token), resembling human writing programs, which can be significantly boosted and guided through a Completion Engine. Repilot synergistically synthesizes a candidate patch through the interaction between an LLM and a Completion Engine, which 1) prunes away infeasible tokens suggested by the LLM and 2) proactively completes the token based on the suggestions provided by the Completion Engine. Our evaluation on a subset of the widely-used Defects4j 1.2 and 2.0 datasets shows that Repilot outperforms state-of-the-art techniques by fixing 27% and 47% more bugs, respectively. Moreover, Repilot produces more valid and correct patches than the base LLM with the same budget. While we focus on leveraging Repilot for APR in this work, the overall approach is also generalizable to other code generation tasks. | 翻訳日:2023-11-10 17:44:58 公開日:2023-11-08 |
# wonder3d:クロスドメイン拡散を用いた単一画像から3dへ Wonder3D: Single Image to 3D using Cross-Domain Diffusion ( http://arxiv.org/abs/2310.15008v3 ) ライセンス: Link先を確認 | Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt and Wenping Wang | (参考訳) 本研究では, 単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法であるWonder3Dを紹介する。近年, Score Distillation Sampling (SDS) に基づく手法は, 2次元拡散前の3次元形状を復元する可能性を示しているが, 一般には, 形状ごとの最適化と一貫性の欠如に悩まされている。
対照的に、いくつかの作品は高速ネットワーク推論によって直接3d情報を生成するが、それらの結果はしばしば品質が低く幾何学的詳細が欠如している。
画像から3Dまでのタスクの品質,一貫性,効率性を均一に向上するために,多視点正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。
一貫性を確保するために、ビューとモダリティ間の情報交換を容易にするマルチビュークロスドメインアテンション機構を用いる。
最後に,多視点2次元表現から高品質表面を抽出する幾何認識正規融合アルゴリズムを提案する。
提案手法は, 高品質な復元結果, 堅牢な一般化, 従来の作業に比べて合理的に良好な効率を達成できることを示す。 In this work, we introduce Wonder3D, a novel method for efficiently generating high-fidelity textured meshes from single-view images.Recent methods based on Score Distillation Sampling (SDS) have shown the potential to recover 3D geometry from 2D diffusion priors, but they typically suffer from time-consuming per-shape optimization and inconsistent geometry. In contrast, certain works directly produce 3D information via fast network inferences, but their results are often of low quality and lack geometric details. To holistically improve the quality, consistency, and efficiency of image-to-3D tasks, we propose a cross-domain diffusion model that generates multi-view normal maps and the corresponding color images. To ensure consistency, we employ a multi-view cross-domain attention mechanism that facilitates information exchange across views and modalities. Lastly, we introduce a geometry-aware normal fusion algorithm that extracts high-quality surfaces from the multi-view 2D representations. Our extensive evaluations demonstrate that our method achieves high-quality reconstruction results, robust generalization, and reasonably good efficiency compared to prior works. | 翻訳日:2023-11-10 17:36:27 公開日:2023-11-08 |
# famesumm:医療要約の忠実性の調査と改善 FaMeSumm: Investigating and Improving Faithfulness of Medical Summarization ( http://arxiv.org/abs/2311.02271v2 ) ライセンス: Link先を確認 | Nan Zhang, Yusen Zhang, Wu Guo, Prasenjit Mitra, Rui Zhang | (参考訳) 医療用テキストの要約は,医療における安全及び効率の重要かつ未検討の話題である,情報源の入力と整合かつ事実的であることに忠実である。
本稿では,医療要約タスクの幅広い範囲において,要約における忠実度を調査・改善する。
本研究は,現在の要約モデルが医療用入力テキストに対して不誠実な出力を生じることを明らかにする。
次に,医学的知識に基づく事前学習型言語モデルの微調整による忠実度向上のためのフレームワークであるFaMeSummを紹介する。
famesummは、忠実で不誠実な要約の設計セットで対照的な学習を行い、医学用語とその文脈を取り入れ、医学用語の忠実な生成を促進する。
健康問題と放射線医学レポートの要約データセットを英語で、患者と医師の対話データセットを中国語で比較した。
その結果、FaMeSummは、BART、T5、mT5、PEGASUSといった主流言語モデルに対して一貫した改善を施すことで、フレキシブルで効果的であることが証明された。
医師による人間の評価は、FaMeSummがより忠実な出力を生成することを示している。
私たちのコードはhttps://github.com/psunlpgroup/FaMeSummで利用可能です。 Summaries of medical text shall be faithful by being consistent and factual with source inputs, which is an important but understudied topic for safety and efficiency in healthcare. In this paper, we investigate and improve faithfulness in summarization on a broad range of medical summarization tasks. Our investigation reveals that current summarization models often produce unfaithful outputs for medical input text. We then introduce FaMeSumm, a framework to improve faithfulness by fine-tuning pre-trained language models based on medical knowledge. FaMeSumm performs contrastive learning on designed sets of faithful and unfaithful summaries, and it incorporates medical terms and their contexts to encourage faithful generation of medical terms. We conduct comprehensive experiments on three datasets in two languages: health question and radiology report summarization datasets in English, and a patient-doctor dialogue dataset in Chinese. Results demonstrate that FaMeSumm is flexible and effective by delivering consistent improvements over mainstream language models such as BART, T5, mT5, and PEGASUS, yielding state-of-the-art performances on metrics for faithfulness and general quality. Human evaluation by doctors also shows that FaMeSumm generates more faithful outputs. Our code is available at https://github.com/psunlpgroup/FaMeSumm . | 翻訳日:2023-11-10 17:23:36 公開日:2023-11-08 |
# 早期試薬による蒸留液中の飽和バイアスの仲介 Using Early Readouts to Mediate Featural Bias in Distillation ( http://arxiv.org/abs/2310.18590v2 ) ライセンス: Link先を確認 | Rishabh Tiwari, Durga Sivasubramanian, Anmol Mekala, Ganesh Ramakrishnan, Pradeep Shenoy | (参考訳) ディープネットワークは、現実世界の教師付き学習タスクにおいて、スプリアスな特徴ラベル相関を学習する傾向がある。
この脆弱性は、学生モデルが対応する教師モデルよりも表現能力の低い場合の蒸留で増大する。
多くの場合、特定のスプリアス相関の知識は、インスタンスの重み付けと学習プロセスの再バランスに使用される。
我々は,従来のネットワーク層からの表現を用いてラベルを予測しようとする,新しい早期読み出し機構を提案する。
これらの早期の読み出しは,信頼度の高い不正確な予測の形で問題インスタンスやグループを自動的に識別する。
これらの信号を利用して、インスタンスレベルで蒸留損失を変調することで、ベンチマークデータセット全体にわたるグループフェアネス測定だけでなく、学生モデルの全体的な精度も大幅に改善できます。
また,管理と蒸留における機能学習の役割に関する洞察を与える二次分析も提供する。 Deep networks tend to learn spurious feature-label correlations in real-world supervised learning tasks. This vulnerability is aggravated in distillation, where a student model may have lesser representational capacity than the corresponding teacher model. Often, knowledge of specific spurious correlations is used to reweight instances & rebalance the learning process. We propose a novel early readout mechanism whereby we attempt to predict the label using representations from earlier network layers. We show that these early readouts automatically identify problem instances or groups in the form of confident, incorrect predictions. Leveraging these signals to modulate the distillation loss on an instance level allows us to substantially improve not only group fairness measures across benchmark datasets, but also overall accuracy of the student model. We also provide secondary analyses that bring insight into the role of feature learning in supervision and distillation. | 翻訳日:2023-11-10 17:22:08 公開日:2023-11-08 |
# テキストレビューにおける説明異常検出:主観的シナリオを正しく評価できるか? Explained anomaly detection in text reviews: Can subjective scenarios be correctly evaluated? ( http://arxiv.org/abs/2311.04948v1 ) ライセンス: Link先を確認 | David Novoa-Paradela, Oscar Fontenla-Romero, Bertha Guijarro-Berdi\~nas | (参考訳) 本稿では,オンラインプラットフォームにおける異常レビューの検出と説明を行うパイプラインを提案する。
パイプラインは3つのモジュールで構成されており、価値のない構成でも悪意のある構成でもユーザの価値を生まないレビューの検出を可能にする。
分類には正規性スコアと、意思決定を正当化する説明が伴う。
異常検出タスクを解決するパイプラインの能力は、大規模なamazonデータベースから作成されたさまざまなデータセットを使用して評価された。
また,説明可能性モジュールを評価するために,241名の参加者を含む3つの説明可能性手法を比較した。
本研究は,分類モデルの再現能力とその有用性に対する説明の影響を評価することを目的とした。
この作業は、電子商取引などのオンラインプラットフォームレビューにおけるタスクの自動化に有用であり、テキストデータにおける異常検出の分野における同様の問題に対処するためのインスピレーションを与える。
また,異常なレビューの検出などの現実的かつ不適切なシナリオにおいて,説明可能性の異なる手法の能力について人間による評価を行うことや,タスクを人間的に主観的に説明できるかどうかを考察することも興味深い。 This paper presents a pipeline to detect and explain anomalous reviews in online platforms. The pipeline is made up of three modules and allows the detection of reviews that do not generate value for users due to either worthless or malicious composition. The classifications are accompanied by a normality score and an explanation that justifies the decision made. The pipeline's ability to solve the anomaly detection task was evaluated using different datasets created from a large Amazon database. Additionally, a study comparing three explainability techniques involving 241 participants was conducted to assess the explainability module. The study aimed to measure the impact of explanations on the respondents' ability to reproduce the classification model and their perceived usefulness. This work can be useful to automate tasks in review online platforms, such as those for electronic commerce, and offers inspiration for addressing similar problems in the field of anomaly detection in textual data. We also consider it interesting to have carried out a human evaluation of the capacity of different explainability techniques in a real and infrequent scenario such as the detection of anomalous reviews, as well as to reflect on whether it is possible to explain tasks as humanly subjective as this one. | 翻訳日:2023-11-10 17:12:31 公開日:2023-11-08 |
# 強化学習による動的ポートフォリオ最適化における投資制約と非定常性に関する因果推論 Causal Inference on Investment Constraints and Non-stationarity in Dynamic Portfolio Optimization through Reinforcement Learning ( http://arxiv.org/abs/2311.04946v1 ) ライセンス: Link先を確認 | Yasuhiro Nakayama, Tomochika Sawaki | (参考訳) 本研究では,強化学習手法を用いた動的資産配分投資戦略を開発した。
まず、投資戦略における強化学習の適用において重要な実装である強化学習アルゴリズムに金融時系列データの非定常性を導入するという重要な課題に対処してきた。
本研究は, 予測精度を高めるため, 環境設定に状況変化などの変数を導入することの重要性を強調した。
さらに,投資戦略における強化学習の適用は,最適化問題を柔軟に設定する上で大きな利点となる。
これにより、投資家が直面する現実的な制約をアルゴリズムに統合し、効率的な最適化を実現することができる。
本研究は、投資戦略定式化条件を、業績測定指標、ポートフォリオ管理ルール、その他の制約を含む3つの主なカテゴリに分類した。
強化学習の枠組みにおいて,これらの条件を環境に取り入れることの影響を評価し,投資行動にどのように影響するかを検討した。 In this study, we have developed a dynamic asset allocation investment strategy using reinforcement learning techniques. To begin with, we have addressed the crucial issue of incorporating non-stationarity of financial time series data into reinforcement learning algorithms, which is a significant implementation in the application of reinforcement learning in investment strategies. Our findings highlight the significance of introducing certain variables such as regime change in the environment setting to enhance the prediction accuracy. Furthermore, the application of reinforcement learning in investment strategies provides a remarkable advantage of setting the optimization problem flexibly. This enables the integration of practical constraints faced by investors into the algorithm, resulting in efficient optimization. Our study has categorized the investment strategy formulation conditions into three main categories, including performance measurement indicators, portfolio management rules, and other constraints. We have evaluated the impact of incorporating these conditions into the environment and rewards in a reinforcement learning framework and examined how they influence investment behavior. | 翻訳日:2023-11-10 17:12:12 公開日:2023-11-08 |
# 生体音響信号の自動深層学習 Auto deep learning for bioacoustic signals ( http://arxiv.org/abs/2311.04945v1 ) ライセンス: Link先を確認 | Giulio Tosato, Abdelrahman Shehata, Joshua Janssen, Kees Kamp, Pramatya Jati, Dan Stowell | (参考訳) 本研究では,従来の手作業による深層学習モデルと比較して,鳥声分類の精度と効率を高めるために,自動深層学習の可能性を検討する。
西地中海のWetland Birdsデータセットを用いて、自動機械学習フレームワークであるAutoKerasを使用して、ニューラルネットワーク検索とハイパーパラメータチューニングを自動化する。
比較分析は、AutoKeras由来のモデルがMobileNet、ResNet50、VGG16といった従来のモデルより一貫して優れているという我々の仮説を検証する。
我々のアプローチと知見は、バイオ音響研究とモデルの発展に向けた自動ディープラーニングの転換可能性の核心である。
実際、自動テクニックは、パフォーマンスを改善しながら、手動の機能エンジニアリングとモデル設計の必要性をなくす。
本研究は, この初期フィールドにおける再現性を高めるため, サンプリング, 評価, 報告のベストプラクティスを照らすものである。
使用したコードは、https: //github.com/giuliotosato/AutoKeras-bioacustic Keywords: AutoKeras、自動ディープラーニング、オーディオ分類、Wetlands Birdデータセット、比較分析、バイオ音響学、検証データセット、マルチクラス分類、スペクトログラムで利用可能である。 This study investigates the potential of automated deep learning to enhance the accuracy and efficiency of multi-class classification of bird vocalizations, compared against traditional manually-designed deep learning models. Using the Western Mediterranean Wetland Birds dataset, we investigated the use of AutoKeras, an automated machine learning framework, to automate neural architecture search and hyperparameter tuning. Comparative analysis validates our hypothesis that the AutoKeras-derived model consistently outperforms traditional models like MobileNet, ResNet50 and VGG16. Our approach and findings underscore the transformative potential of automated deep learning for advancing bioacoustics research and models. In fact, the automated techniques eliminate the need for manual feature engineering and model design while improving performance. This study illuminates best practices in sampling, evaluation and reporting to enhance reproducibility in this nascent field. All the code used is available at https: //github.com/giuliotosato/AutoKeras-bioacustic Keywords: AutoKeras; automated deep learning; audio classification; Wetlands Bird dataset; comparative analysis; bioacoustics; validation dataset; multi-class classification; spectrograms. | 翻訳日:2023-11-10 17:11:56 公開日:2023-11-08 |
# エッジ支援によるIoTのためのプライバシ保護によるU字型フェデレーション学習 Edge-assisted U-Shaped Split Federated Learning with Privacy-preserving for Internet of Things ( http://arxiv.org/abs/2311.04944v1 ) ライセンス: Link先を確認 | Hengliang Tang, Zihang Zhao, Detian Liu, Yang Cao, Shiqiang Zhang, Siqing You | (参考訳) IoT(Internet of Things)の世界では、IoTデバイスによって生成されたあるいは収集されたデータを処理するために、ディープラーニングモデルをデプロイすることが重要な課題である。
しかし、iotデバイスには通常計算能力や通信能力が欠けているため、直接データ転送はネットワークの混雑と非効率な実行を引き起こす可能性がある。
データプライバシとセキュリティに関する懸念から、データセンタの集中型データ処理ももはや実現不可能である。
これらの課題に対処するために、エッジサーバの高性能機能を活用して、モデルトレーニングと最適化プロセスにおいてIoTデバイスを支援する、革新的なエッジ支援U-Shaped Split Federated Learning(EUSFL)フレームワークを提案する。
このフレームワークでは,フェデレーション学習(fl)を利用して,データホルダがデータを共有することなく協調的にモデルをトレーニングし,モデルパラメータのみを送信することにより,データのプライバシ保護を強化する。
さらに、slit learning(sl)に触発されて、iotデバイスでのローカルトレーニングにu字型分割を使用して、ニューラルネットワークを3つの部分に分割する。
エッジサーバの計算能力を高めることで、フレームワークはトレーニング全体の時間を効果的に削減し、さまざまな能力を持つiotデバイスで効率的にトレーニングタスクを実行できる。
さらに,データ機能やラベルがレコンストラクション攻撃に安全に抵抗できることを保証し,プライバシリークのリスクをなくすために,lablerdpと呼ばれる新しいノイズメカニズムを提案する。
理論的解析と実験結果から,EUSFLは様々な集約アルゴリズムと統合可能であり,IoTデバイスのさまざまなコンピューティング能力にまたがる優れた性能を維持し,トレーニング時間と局所計算オーバーヘッドを大幅に削減できることが示された。 In the realm of the Internet of Things (IoT), deploying deep learning models to process data generated or collected by IoT devices is a critical challenge. However, direct data transmission can cause network congestion and inefficient execution, given that IoT devices typically lack computation and communication capabilities. Centralized data processing in data centers is also no longer feasible due to concerns over data privacy and security. To address these challenges, we present an innovative Edge-assisted U-Shaped Split Federated Learning (EUSFL) framework, which harnesses the high-performance capabilities of edge servers to assist IoT devices in model training and optimization process. In this framework, we leverage Federated Learning (FL) to enable data holders to collaboratively train models without sharing their data, thereby enhancing data privacy protection by transmitting only model parameters. Additionally, inspired by Split Learning (SL), we split the neural network into three parts using U-shaped splitting for local training on IoT devices. By exploiting the greater computation capability of edge servers, our framework effectively reduces overall training time and allows IoT devices with varying capabilities to perform training tasks efficiently. Furthermore, we proposed a novel noise mechanism called LabelDP to ensure that data features and labels can securely resist reconstruction attacks, eliminating the risk of privacy leakage. Our theoretical analysis and experimental results demonstrate that EUSFL can be integrated with various aggregation algorithms, maintaining good performance across different computing capabilities of IoT devices, and significantly reducing training time and local computation overhead. | 翻訳日:2023-11-10 17:11:22 公開日:2023-11-08 |
# MathNAS: ブロックに数学的アーキテクチャ設計の役割があるなら MathNAS: If Blocks Have a Role in Mathematical Architecture Design ( http://arxiv.org/abs/2311.04943v1 ) ライセンス: Link先を確認 | Wang Qinsi and Ke Jinhan and Liang Zhi and Zhang Sihai | (参考訳) ニューラルネットワーク探索(NAS)は、効果的なニューラルネットワークの探索方法として好まれている。
近年,大規模モデルの開発により,検索速度の向上と検索結果の精度向上が求められている。
しかし,NASによる大規模モデルの設計は,検索空間の劇的な増加とそれに伴う膨大な性能評価コストのために困難である。
NASで広く使われている典型的なモジュラー検索空間を考えると、ニューラルネットワークは$m$ブロックノードで構成され、ブロックノードは$n$代替ブロックを持つ。
Facing the space containing $n^m$ candidate networks, existing NAS methods attempt to find the best one by searching and evaluating candidate networks directly.Different from the general strategy that takes architecture search as a whole problem, we propose a novel divide-and-conquer strategy by making use of the modular nature of the search space.Here, we introduce MathNAS, a general NAS framework based on mathematical programming.In MathNAS, the performances of the $m*n$ possible building blocks in the search space are calculated first, and then the performance of a network is directly predicted based on the performances of its building blocks.
ブロック性能の推定にはネットワークトレーニングが伴うが、既存のNAS手法でネットワーク性能評価が起こっているように、ネットワーク性能の予測は完全にトレーニング不要であり、非常に高速である。
既存のNAS手法で評価する$n^m$の候補ネットワークとは対照的に、MathNASではトレーニングと計算負荷が厳しいため、扱えるブロックはわずか$m*n$である。
したがって、このアプローチはネットワーク性能評価の複雑さを効果的に低減します。 Neural Architecture Search (NAS) has emerged as a favoured method for unearthing effective neural architectures. Recent development of large models has intensified the demand for faster search speeds and more accurate search results. However, designing large models by NAS is challenging due to the dramatical increase of search space and the associated huge performance evaluation cost. Consider a typical modular search space widely used in NAS, in which a neural architecture consists of $m$ block nodes and a block node has $n$ alternative blocks. Facing the space containing $n^m$ candidate networks, existing NAS methods attempt to find the best one by searching and evaluating candidate networks directly.Different from the general strategy that takes architecture search as a whole problem, we propose a novel divide-and-conquer strategy by making use of the modular nature of the search space.Here, we introduce MathNAS, a general NAS framework based on mathematical programming.In MathNAS, the performances of the $m*n$ possible building blocks in the search space are calculated first, and then the performance of a network is directly predicted based on the performances of its building blocks. Although estimating block performances involves network training, just as what happens for network performance evaluation in existing NAS methods, predicting network performance is completely training-free and thus extremely fast. In contrast to the $n^m$ candidate networks to evaluate in existing NAS methods, which require training and a formidable computational burden, there are only $m*n$ possible blocks to handle in MathNAS. Therefore, our approach effectively reduces the complexity of network performance evaluation.Our code is available at https://github.com/wangqinsi1/MathNAS. | 翻訳日:2023-11-10 17:10:53 公開日:2023-11-08 |
# CSAM:異方性ボリューム画像分割のための2.5Dクロススライスアテンションモジュール CSAM: A 2.5D Cross-Slice Attention Module for Anisotropic Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2311.04942v1 ) ライセンス: Link先を確認 | Alex Ling Yu Hung, Haoxin Zheng, Kai Zhao, Xiaoxi Du, Kaifeng Pang, Qi Miao, Steven S. Raman, Demetri Terzopoulos, Kyunghyun Sung | (参考訳) 体積医学データ、特に磁気共鳴イメージング(MRI)データの大部分は異方性であり、平面内分解能は一般に平面内分解能よりもはるかに低い。
3次元および純粋に2次元の深層学習に基づくセグメンテーション法は、異方性データに直面すると3次元法の性能が損なわれるため、そのようなボリュームデータを扱うには不十分であり、2次元法は重要なボリューム情報を無視している。
2.5D法では、主に2D畳み込みがボリューム情報と協調して用いられる。
これらのモデルでは,スライス間の関係の学習に重点を置いている。
学習可能な最小パラメータを持つクロススライス・アテンション・モジュール(csam)を提供し,異なるスケールのディープ・フィーチャー・マップに意味的,位置的,スライス的アテンションを適用してボリューム内のすべてのスライス情報をキャプチャする。
異なるネットワークアーキテクチャとタスクを用いた大規模な実験により,CSAMの有用性と汎用性を示した。
関連コードはhttps://github.com/aL3x-O-o-Hung/CSAMで公開されている。 A large portion of volumetric medical data, especially magnetic resonance imaging (MRI) data, is anisotropic, as the through-plane resolution is typically much lower than the in-plane resolution. Both 3D and purely 2D deep learning-based segmentation methods are deficient in dealing with such volumetric data since the performance of 3D methods suffers when confronting anisotropic data, and 2D methods disregard crucial volumetric information. Insufficient work has been done on 2.5D methods, in which 2D convolution is mainly used in concert with volumetric information. These models focus on learning the relationship across slices, but typically have many parameters to train. We offer a Cross-Slice Attention Module (CSAM) with minimal trainable parameters, which captures information across all the slices in the volume by applying semantic, positional, and slice attention on deep feature maps at different scales. Our extensive experiments using different network architectures and tasks demonstrate the usefulness and generalizability of CSAM. Associated code is available at https://github.com/aL3x-O-o-Hung/CSAM. | 翻訳日:2023-11-10 17:10:29 公開日:2023-11-08 |
# 解釈可能な地球科学人工知能(XGeoS-AI):画像認識のデミスティファイションへの応用 Interpretable Geoscience Artificial Intelligence (XGeoS-AI): Application to Demystify Image Recognition ( http://arxiv.org/abs/2311.04940v1 ) ライセンス: Link先を確認 | Jin-Jian Xu, Hao Zhang, Chao-Sheng Tang, Lin Li, Bin Shi | (参考訳) 地球科学がビッグデータの時代に入るにつれ、人工知能(AI)は地球科学の問題を解決する大きな可能性を提供するだけでなく、地球の行動の複雑でインタラクティブでマルチスケールなプロセスを理解する上でも重要な役割を果たす。
地学AIモデルは、重要な状況において重要な予測のために徐々に活用されているため、地学研究者は、解釈可能性と汎用性をますます要求している。
本研究では,地球科学における画像認識の謎を明らかにするための解析可能な地球科学人工知能(XGeoS-AI)フレームワークを提案する。
提案するxgeos-aiフレームワークは,人間の視覚機構に着想を得て,画像内の局所領域からしきい値を生成し,認識を完了させる。
SVR(Support Vector Regression)、MLP(Multilayer Perceptron)、CNN(Convolutional Neural Network)など、さまざまな人工知能(AI)手法が提案されているXGeoS-AIフレームワークのAIエンジンとして採用され、地球科学画像認識タスクを効率的に完了する。
実験の結果,提案手法の有効性,汎用性,ヒューリスティックスは,ジオサイエンス画像認識問題を解決する上で大きな可能性を秘めている。
解釈可能なAIは、地球科学の分野でますます注目を集めるべきであり、これは地球科学の分野におけるAIのより合理的で広範な応用を促進する鍵である。
さらに、提案された解釈可能な枠組みは、地球科学における技術革新の先駆けとなるかもしれない。 As Earth science enters the era of big data, artificial intelligence (AI) not only offers great potential for solving geoscience problems, but also plays a critical role in accelerating the understanding of the complex, interactive, and multiscale processes of Earth's behavior. As geoscience AI models are progressively utilized for significant predictions in crucial situations, geoscience researchers are increasingly demanding their interpretability and versatility. This study proposes an interpretable geoscience artificial intelligence (XGeoS-AI) framework to unravel the mystery of image recognition in the Earth sciences, and its effectiveness and versatility is demonstrated by taking computed tomography (CT) image recognition as an example. Inspired by the mechanism of human vision, the proposed XGeoS-AI framework generates a threshold value from a local region within the whole image to complete the recognition. Different kinds of artificial intelligence (AI) methods, such as Support Vector Regression (SVR), Multilayer Perceptron (MLP), Convolutional Neural Network (CNN), can be adopted as the AI engines of the proposed XGeoS-AI framework to efficiently complete geoscience image recognition tasks. Experimental results demonstrate that the effectiveness, versatility, and heuristics of the proposed framework have great potential in solving geoscience image recognition problems. Interpretable AI should receive more and more attention in the field of the Earth sciences, which is the key to promoting more rational and wider applications of AI in the field of Earth sciences. In addition, the proposed interpretable framework may be the forerunner of technological innovation in the Earth sciences. | 翻訳日:2023-11-10 17:10:06 公開日:2023-11-08 |
# LooGLE:ロングコンテキスト言語モデルはロングコンテキストを理解することができるか? LooGLE: Can Long-Context Language Models Understand Long Contexts? ( http://arxiv.org/abs/2311.04939v1 ) ライセンス: Link先を確認 | Jiaqi Li, Mengmeng Wang, Zilong Zheng, Muhan Zhang | (参考訳) 大規模言語モデル(LLM)は、様々な言語タスクにおける優れた性能にもかかわらず、典型的にはコンテキストウィンドウサイズのテキスト処理に限られる。
この制限により、LLMの長文理解を高品質なロングシーケンスベンチマークで強化するための重要な研究が進められた。
しかし、この点における以前のデータセットは、現代のLCMのコンテキストウィンドウと比較して短いコンテキスト長、データ漏洩問題のある古いドキュメント、長い依存性タスクよりも短い依存性タスクを重視するといった欠点に悩まされている。
本稿では,LLMの長期文脈理解のためのLong Context Generic Language EvaluationベンチマークであるLooGLEを提案する。
LooGLEには2022年以降の比較的新しいドキュメントがあり、ドキュメント毎に24,000以上のトークンと、さまざまなドメインにまたがる6,000の新しい質問がある。
人間のアノテーションは、長い依存関係の要求を満たすために、1100以上の高品質な質問応答ペアを慎重に作り上げた。
これらのペアは徹底的なクロスバリデーションを行い、LLMの長期依存能力を最も正確に評価した。
LooGLEにおける8つの最先端LCMの評価から,重要な知見が得られた。
(i)商用モデルがオープンソースモデルを上回っていること。
(ii) llmは、短い質問処理やクローズタスクのような短い依存関係タスクに優れていたが、より複雑な依存性タスクに苦しんだ。
(iii)文脈内学習と連鎖思考は、限界的な改善しか提供しなかった。
(iv) 検索に基づく手法は, 短い質問応答に有意な効果を示したが, コンテキストウインドウ長を延ばす戦略は, 長い文脈理解にはほとんど影響を与えなかった。
そのため、LooGLEは長期コンテキストLLMの体系的かつ包括的な評価スキーマを提供するだけでなく、「真の長期コンテキスト理解」に向けた拡張モデルの開発にも光を当てている。 Large language models (LLMs), despite their impressive performance in various language tasks, are typically limited to processing texts within context-window size. This limitation has spurred significant research efforts to enhance LLMs' long-context understanding with high-quality long-sequence benchmarks. However, prior datasets in this regard suffer from shortcomings, such as short context length compared to the context window of modern LLMs; outdated documents that have data leakage problems; and an emphasis on short dependency tasks rather than long dependency tasks. In this paper, we present LooGLE, a Long Context Generic Language Evaluation benchmark for LLMs' long context understanding. LooGLE features relatively new documents post-2022, with over 24,000 tokens per document and 6,000 newly generated questions spanning diverse domains. Human annotators meticulously crafted more than 1,100 high-quality question-answer pairs to meet the long dependency requirements. These pairs underwent thorough cross-validation, yielding the most precise assessment of LLMs' long dependency capabilities. The evaluation of eight state-of-the-art LLMs on LooGLE revealed key findings: (i) commercial models outperformed open-sourced models; (ii) LLMs excelled in short dependency tasks like short question-answering and cloze tasks but struggled with more intricate long dependency tasks; (iii) in-context learning and chaining thoughts offered only marginal improvements; (iv) retrieval-based techniques demonstrated substantial benefits for short question-answering, while strategies for extending context window length had limited impact on long context understanding. As such, LooGLE not only provides a systematic and comprehensive evaluation schema on long-context LLMs, but also sheds light on future development of enhanced models towards "true long-context understanding". | 翻訳日:2023-11-10 17:09:37 公開日:2023-11-08 |
# モーメントマッチングガウス混合によるDDIMサンプリングの改善 Improved DDIM Sampling with Moment Matching Gaussian Mixtures ( http://arxiv.org/abs/2311.04938v1 ) ライセンス: Link先を確認 | Prasad Gabbur | (参考訳) 本稿では,事前学習した拡散確率モデル (ddpm) からのサンプリングを高速化するために最も広く用いられている手法の一つであるデノイジン拡散暗黙モデル (ddim) における逆遷移演算子 (kernel) としてガウス混合モデル (gmm) を用いることを提案する。
具体的には、GMMのパラメータを制約することにより、DDPMフォワードの1階と2階の中心モーメントを一致させる。
モーメントマッチングはガウス核を持つオリジナルのDDIMと同等かそれ以上の品質のサンプルを得るのに十分である。
celebahqおよびffhqでトレーニングされた非条件モデルおよびimagenetデータセットでトレーニングされたクラス条件モデルを用いて実験結果を提供する。
以上の結果から, GMMカーネルを使用すれば, サンプリングステップ数が少ない場合に, 生成したサンプルの品質が大幅に向上することが示唆された。
例えば、imagenet 256x256では10のサンプリングステップで6.94、gmmカーネルでは207.85、ガウスカーネルでは10.15と196.73である。 We propose using a Gaussian Mixture Model (GMM) as reverse transition operator (kernel) within the Denoising Diffusion Implicit Models (DDIM) framework, which is one of the most widely used approaches for accelerated sampling from pre-trained Denoising Diffusion Probabilistic Models (DDPM). Specifically we match the first and second order central moments of the DDPM forward marginals by constraining the parameters of the GMM. We see that moment matching is sufficient to obtain samples with equal or better quality than the original DDIM with Gaussian kernels. We provide experimental results with unconditional models trained on CelebAHQ and FFHQ and class-conditional models trained on ImageNet datasets respectively. Our results suggest that using the GMM kernel leads to significant improvements in the quality of the generated samples when the number of sampling steps is small, as measured by FID and IS metrics. For example on ImageNet 256x256, using 10 sampling steps, we achieve a FID of 6.94 and IS of 207.85 with a GMM kernel compared to 10.15 and 196.73 respectively with a Gaussian kernel. | 翻訳日:2023-11-10 17:09:07 公開日:2023-11-08 |
# マルチタスク深層学習を用いた共同センシングと意味コミュニケーション Joint Sensing and Semantic Communications with Multi-Task Deep Learning ( http://arxiv.org/abs/2311.05017v1 ) ライセンス: Link先を確認 | Yalin E. Sagduyu, Tugba Erpek, Aylin Yener, Sennur Ulukus | (参考訳) 本稿では,協調センシングとコミュニケーションのための深層学習技術の統合と,意味コミュニケーションの拡張について検討する。
無線チャンネル上で動作し、ノイズ及びフェーディング効果を受ける送信機と受信機とを含む統合システムである。
送信機は、ソース符号化、チャネル符号化、変調のジョイント操作のためにディープニューラルネットワーク、すなわちエンコーダを使用し、受信者は、復調、チャネル復号、およびソース復号のジョイント操作のために別のディープニューラルネットワーク、すなわちデコーダを使用してデータサンプルを再構築する。
送信信号は二重目的に機能し、受信機との通信をサポートし、センシングを可能にする。
ターゲットが存在する場合、反射信号が受信され、別のディープニューラルネットワークデコーダがセンシングに使用される。
このデコーダは、ターゲットの存在を検出し、その範囲を決定する。
1つのエンコーダと2つのデコーダを含むこれらのディープニューラルネットワークは、データとチャネル特性を考慮して、マルチタスク学習を通じて共同トレーニングを行っている。
本稿では,タスク分類器として機能する別のデコーダである深層ニューラルネットワークを導入することで,意味的コミュニケーションを取り入れるように拡張する。
このデコーダは受信信号のラベル分類の忠実性を評価し、通信プロセスにおける意味論の統合を高める。
本研究は,CIFAR-10を入力データとして使用し,付加白色ガウスノイズ (AWGN) やレイリーフェディング (Rayleigh fading) などのチャネル効果について考察した。
その結果,多タスク深層学習が高忠実度共同センシングおよび意味コミュニケーションの実現に有効であることを示す。 This paper explores the integration of deep learning techniques for joint sensing and communications, with an extension to semantic communications. The integrated system comprises a transmitter and receiver operating over a wireless channel, subject to noise and fading effects. The transmitter employs a deep neural network, namely an encoder, for joint operations of source coding, channel coding, and modulation, while the receiver utilizes another deep neural network, namely a decoder, for joint operations of demodulation, channel decoding, and source decoding to reconstruct the data samples. The transmitted signal serves a dual purpose, supporting communication with the receiver and enabling sensing. When a target is present, the reflected signal is received, and another deep neural network decoder is utilized for sensing. This decoder is responsible for detecting the target's presence and determining its range. All these deep neural networks, including one encoder and two decoders, undergo joint training through multi-task learning, considering data and channel characteristics. This paper extends to incorporate semantic communications by introducing an additional deep neural network, another decoder at the receiver, operating as a task classifier. This decoder evaluates the fidelity of label classification for received signals, enhancing the integration of semantics within the communication process. The study presents results based on using the CIFAR-10 as the input data and accounting for channel effects like Additive White Gaussian Noise (AWGN) and Rayleigh fading. The results underscore the effectiveness of multi-task deep learning in achieving high-fidelity joint sensing and semantic communications. | 翻訳日:2023-11-10 16:58:56 公開日:2023-11-08 |
# 概念ボトルネックによる事前学習言語モデルの解釈 Interpreting Pretrained Language Models via Concept Bottlenecks ( http://arxiv.org/abs/2311.05014v1 ) ライセンス: Link先を確認 | Zhen Tan, Lu Cheng, Song Wang, Yuan Bo, Jundong Li and Huan Liu | (参考訳) プリトレーニング言語モデル(plm)は、様々な自然言語処理タスクにおいて大きな進歩を遂げた。
しかし、'black-box' の性質による解釈可能性の欠如は、責任ある実装に困難をもたらす。
従来の研究では、自己着脱層における注意重みなどを用いて解釈可能性の向上を試みたが、これらの重みはしばしば明快さ、可読性、直感性に欠ける。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
例えば、``food''の概念を学び、それがレストランレビューに対するモデルの感情の予測にどのように影響するかを調べます。
C$3$Mを導入し、人間アノテーションと機械生成の概念を組み合わせて、意味論的およびタスク固有の概念をカプセル化した隠れニューロンを抽出する。
実世界のデータセットに対する経験的評価を通じて、我々のアプローチは、PLMの振る舞いを解釈し、モデルの失敗を診断し、ノイズのある概念ラベルの中でモデルの堅牢性を高めるための貴重な洞察を提供することを示した。 Pretrained language models (PLMs) have made significant strides in various natural language processing tasks. However, the lack of interpretability due to their ``black-box'' nature poses challenges for responsible implementation. Although previous studies have attempted to improve interpretability by using, e.g., attention weights in self-attention layers, these weights often lack clarity, readability, and intuitiveness. In this research, we propose a novel approach to interpreting PLMs by employing high-level, meaningful concepts that are easily understandable for humans. For example, we learn the concept of ``Food'' and investigate how it influences the prediction of a model's sentiment towards a restaurant review. We introduce C$^3$M, which combines human-annotated and machine-generated concepts to extract hidden neurons designed to encapsulate semantically meaningful and task-specific concepts. Through empirical evaluations on real-world datasets, we manifest that our approach offers valuable insights to interpret PLM behavior, helps diagnose model failures, and enhances model robustness amidst noisy concept labels. | 翻訳日:2023-11-10 16:58:24 公開日:2023-11-08 |
# コンセンサスに基づく高次元自由エネルギー表面の構築 Consensus-based construction of high-dimensional free energy surface ( http://arxiv.org/abs/2311.05009v1 ) ライセンス: Link先を確認 | Liyao Lyu, Huan Lei | (参考訳) 分子系の集合的挙動を定量化する重要な問題は、自由エネルギー表面(FES)の正確な構築にある。
主な課題は、エネルギー障壁の出現と高次元性から生じる。
既存のアプローチはしばしば、フルフェーズ空間の効率的な探索を確立するための洗練されたサンプリング手法に基づいている。
一方、FESの数値近似のための最適なサンプル点の収集は、多くの集合変数 (CV) を持つシステムでは、離散化誤差が支配的になりうるため、ほとんど未探索のままである。
関数表現とトレーニングセットを同時に最適化するミニマックス問題として構成を再構成し,コンセンサスサンプリングに基づくアプローチを提案する。
特に、最大化ステップは、現在損失関数のラプラス近似の活用と未チャート位相空間の探索を調節し、最大残留状態の適応サンプリングを達成する確率的相互作用粒子系を確立し、最小化ステップは新しいトレーニングセットでFES近似を更新する。
本手法は,ミニマックス問題を反復的に解くことにより,位相空間探索と後部誤差強調サンプリングの両面において,FESの対角学習を実現する。
本手法は,分子系のFESを最大30個までのCVで構築することで実証する。 One essential problem in quantifying the collective behaviors of molecular systems lies in the accurate construction of free energy surfaces (FESs). The main challenges arise from the prevalence of energy barriers and the high dimensionality. Existing approaches are often based on sophisticated enhanced sampling methods to establish efficient exploration of the full-phase space. On the other hand, the collection of optimal sample points for the numerical approximation of FESs remains largely under-explored, where the discretization error could become dominant for systems with a large number of collective variables (CVs). We propose a consensus sampling-based approach by reformulating the construction as a minimax problem which simultaneously optimizes the function representation and the training set. In particular, the maximization step establishes a stochastic interacting particle system to achieve the adaptive sampling of the max-residue regime by modulating the exploitation of the Laplace approximation of the current loss function and the exploration of the uncharted phase space; the minimization step updates the FES approximation with the new training set. By iteratively solving the minimax problem, the present method essentially achieves an adversarial learning of the FESs with unified tasks for both phase space exploration and posterior error-enhanced sampling. We demonstrate the method by constructing the FESs of molecular systems with a number of CVs up to 30. | 翻訳日:2023-11-10 16:58:04 公開日:2023-11-08 |
# 敵対的攻撃下での親密性に基づくオープンセット認識 Familiarity-Based Open-Set Recognition Under Adversarial Attacks ( http://arxiv.org/abs/2311.05006v1 ) ライセンス: Link先を確認 | Philip Enevoldsen, Christian Gundersen, Nico Lang, Serge Belongie, Christian Igel | (参考訳) 新しいカテゴリの識別であるオープンセット認識(osr)は、現実のアプリケーションで分類モデルをデプロイする際に重要な要素となる。
近年の研究では,最大ソフトマックス確率 (MSP) や最大ログスコア (MLS) などの親和性に基づくスコアルールが,クローズドセット精度が高い場合に強いベースラインであることが示されている。
しかし、慣れ親しんだOSRの潜在的な弱点の1つは敵攻撃である。
本稿では,stinyimagenetにおける知識と非情報の両方において,親密度スコアに対する勾配に基づく敵意攻撃,偽親密度,虚新性攻撃,およびそれらの効果を評価する。 Open-set recognition (OSR), the identification of novel categories, can be a critical component when deploying classification models in real-world applications. Recent work has shown that familiarity-based scoring rules such as the Maximum Softmax Probability (MSP) or the Maximum Logit Score (MLS) are strong baselines when the closed-set accuracy is high. However, one of the potential weaknesses of familiarity-based OSR are adversarial attacks. Here, we present gradient-based adversarial attacks on familiarity scores for both types of attacks, False Familiarity and False Novelty attacks, and evaluate their effectiveness in informed and uninformed settings on TinyImageNet. | 翻訳日:2023-11-10 16:57:42 公開日:2023-11-08 |
# 巨大異方性とカシミール現象:カーボンナノチューブのメタサーフェスの場合 Giant anisotropy and Casimir phenomena: the case of carbon nanotube metasurfaces ( http://arxiv.org/abs/2311.05001v1 ) ライセンス: Link先を確認 | Pablo Rodriguez-Lopez, Dai-Nam Le, Igor V. Bondarev, Mauro Antezza, Lilia M. Woods | (参考訳) カシミール相互作用とトルクは、物体間の電磁励起の交換に由来する関連する現象である。
カシミール力はあらゆる種類の物体の間に存在するが、材料や幾何学的異方性はカシミールトルクの出現を促進する。
ここでは, 両現象は, 平行単一壁カーボンナノチューブを希薄に浸漬した誘電体膜と, そのキラリティと電子的および光学的応答特性を考慮して理論的に検討した。
カシミール相互作用はサブミクロン分離における熱揺らぎによって支配され、トルクは主に量子力学的効果によって決定される。
この特異な量子対熱分離は、材料の次元の縮小と固有異方性の強い影響によって引き起こされる。
本研究は, ナノ構造異方性材料が, ユビキタスカシミール現象の新たな機能を明らかにする新しいプラットフォームとして機能することが示唆された。 The Casimir interaction and torque are related phenomena originating from the exchange of electromagnetic excitations between objects. While the Casimir force exists between any types of objects, the materials or geometrical anisotropy drives the emergence of the Casimir torque. Here both phenomena are studied theoretically between dielectric films with immersed parallel single wall carbon nanotubes in the dilute limit with their chirality and collective electronic and optical response properties taken into account. It is found that the Casimir interaction is dominated by thermal fluctuations at sub-micron separations, while the torque is primarily determined by quantum mechanical effects. This peculiar quantum vs. thermal separation is attributed to the strong influence of reduced dimensionality and inherent anisotropy of the materials. Our study suggests that nanostructured anisotropic materials can serve as novel platforms to uncover new functionalities in ubiquitous Casimir phenomena. | 翻訳日:2023-11-10 16:57:27 公開日:2023-11-08 |
# CTC音声認識のためのGPU高速化WFSTビーム探索デコーダ GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition ( http://arxiv.org/abs/2311.04996v1 ) ライセンス: Link先を確認 | Daniel Galvez and Tim Kaldewey | (参考訳) Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供するが、その性能はCPUベースのビームサーチデコーディングによって制限されている。
我々は、現在のCTCモデルと互換性のある、GPUによる重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを提案する。
パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
我々は、pythonベースの機械学習フレームワークで使いやすいように、ビルド済みのdlpackベースのpythonバインディングをhttps://github.com/nvidia-riva/riva-asrlib-decoderで提供する。
オフラインシナリオとオンラインシナリオのデコーダを評価し,ctcモデルの高速なビーム検索デコーダであることを実証した。
オフラインのシナリオでは、現在の最先端cpuデコーダの最大7倍のスループットを実現し、オンラインのストリーミングシナリオでは、ワードエラーレートが同じかそれ以上の8倍近いレイテンシを実現している。 While Connectionist Temporal Classification (CTC) models deliver state-of-the-art accuracy in automated speech recognition (ASR) pipelines, their performance has been limited by CPU-based beam search decoding. We introduce a GPU-accelerated Weighted Finite State Transducer (WFST) beam search decoder compatible with current CTC models. It increases pipeline throughput and decreases latency, supports streaming inference, and also supports advanced features like utterance-specific word boosting via on-the-fly composition. We provide pre-built DLPack-based python bindings for ease of use with Python-based machine learning frameworks at https://github.com/nvidia-riva/riva-asrlib-decoder. We evaluated our decoder for offline and online scenarios, demonstrating that it is the fastest beam search decoder for CTC models. In the offline scenario it achieves up to 7 times more throughput than the current state-of-the-art CPU decoder and in the online streaming scenario, it achieves nearly 8 times lower latency, with same or better word error rate. | 翻訳日:2023-11-10 16:57:10 公開日:2023-11-08 |
# 連続テスト時間適応におけるソース知識の効果的な復元 Effective Restoration of Source Knowledge in Continual Test Time Adaptation ( http://arxiv.org/abs/2311.04991v1 ) ライセンス: Link先を確認 | Fahim Faisal Niloy, Sk Miraj Ahmed, Dripta S. Raychaudhuri, Samet Oymak and Amit K. Roy-Chowdhury | (参考訳) 従来のテスト時間適応法(TTA)は、長期目標分布の継続的な変化を特徴とする動的環境に適応する上で重要な課題に直面している。
これらの課題は主に、以前に学習された貴重な情報源知識の破滅的な忘れと、誤校正された擬似ラベルによる段階的な誤り蓄積という2つの要因に起因している。
これらの課題に対処するため,本研究では,動的環境におけるドメインシフトを識別し,モデルパラメータを元のソース事前学習値にリセットする,教師なし領域変更検出手法を提案する。
ソースからの知識を復元することにより、ドメインの継続的なシフトに起因するモデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。
提案手法は,各領域に特有のグローバルバッチノルム統計の漸進的推定と,ドメインシフトによって引き起こされる統計の変化の追跡を含む。
重要なことに,本手法は特定の適応手法に依存しないため,既存のTTA手法に組み込んで動的環境における性能を向上させることができる。
ベンチマークデータセットに関する広範囲な実験を行い,最先端適応法と比較して,提案手法の優れた性能を示す。 Traditional test-time adaptation (TTA) methods face significant challenges in adapting to dynamic environments characterized by continuously changing long-term target distributions. These challenges primarily stem from two factors: catastrophic forgetting of previously learned valuable source knowledge and gradual error accumulation caused by miscalibrated pseudo labels. To address these issues, this paper introduces an unsupervised domain change detection method that is capable of identifying domain shifts in dynamic environments and subsequently resets the model parameters to the original source pre-trained values. By restoring the knowledge from the source, it effectively corrects the negative consequences arising from the gradual deterioration of model parameters caused by ongoing shifts in the domain. Our method involves progressive estimation of global batch-norm statistics specific to each domain, while keeping track of changes in the statistics triggered by domain shifts. Importantly, our method is agnostic to the specific adaptation technique employed and thus, can be incorporated to existing TTA methods to enhance their performance in dynamic environments. We perform extensive experiments on benchmark datasets to demonstrate the superior performance of our method compared to state-of-the-art adaptation methods. | 翻訳日:2023-11-10 16:56:51 公開日:2023-11-08 |
# ニューラルCDEによるビデオモデリングにおける誘導バイアスの爆発 Exploiting Inductive Biases in Video Modeling through Neural CDEs ( http://arxiv.org/abs/2311.04986v1 ) ライセンス: Link先を確認 | Johnathan Chiu, Samuel Duffield, Max Hunter-Gordon, Kaelan Donatella, Max Aifer, Andi Gu | (参考訳) 本稿では,制御微分方程式(CDE)を利用したビデオモデリングに新たなアプローチを導入し,特に映像補間とマスク伝搬の課題に対処する。
我々は、連続時間u-netアーキテクチャにつながる様々な解像度でcdesを適用する。
従来の手法とは異なり、このアプローチでは明示的なオプティカルフロー学習は必要とせず、cdesの固有の連続時間特徴を利用して高度に表現力のあるビデオモデルを作成する。
映像補間およびマスク伝搬タスクにおける最先端モデルに対する競合性能を示す。 We introduce a novel approach to video modeling that leverages controlled differential equations (CDEs) to address key challenges in video tasks, notably video interpolation and mask propagation. We apply CDEs at varying resolutions leading to a continuous-time U-Net architecture. Unlike traditional methods, our approach does not require explicit optical flow learning, and instead makes use of the inherent continuous-time features of CDEs to produce a highly expressive video model. We demonstrate competitive performance against state-of-the-art models for video interpolation and mask propagation tasks. | 翻訳日:2023-11-10 16:56:32 公開日:2023-11-08 |
# データ駆動型ペルソナに向けた大規模言語モデルの操縦性について On the steerability of large language models toward data-driven personas ( http://arxiv.org/abs/2311.04978v1 ) ライセンス: Link先を確認 | Junyi Li, Ninareh Mehrabi, Charith Peris, Palash Goyal, Kai-Wei Chang, Aram Galstyan, Richard Zemel, Rahul Gupta | (参考訳) 近年のLarge Language Model (LLM) 関連アプリケーションの増加により、LLMがペルソナを多用し、幅広い視点を包含するという期待が同時にエスカレーションされている。
この需要に対応するための重要な第一歩は、言語モデルを特定のペルソナ、例えばユーザや個人のグループと整合させることです。
この目的に向けて,まずペルソナの新たな概念化を提示する。
年齢、性別、政党関係といった伝統的な人口動態への依存を超えて、協調フィルタリングに基づくデータ駆動型ペルソナ定義手法を導入する。
この手法では,ユーザは意見に基づいて連続ベクトル空間に埋め込まれ,コホートにクラスタ化され,特定の質問に対して一貫性のある視点を示す。
この手法により、(単に人口統計グループを使うのではなく)人口全体に存在する異なる潜在社会集団をより微妙に理解することができ、モデルステアビリティの適用性を高めることができる。
最後に,LLMを特定のペルソナに対して効率的に操る手法を提案する。
ユーザの連続表現を仮想トークンのシーケンスにマッピングするソフトプロンプトモデルを学習し、LLM入力に先立ってLLMが所定のユーザに対応する応答を生成することを可能にする。
その結果,本アルゴリズムはベースライン群に比べて性能が優れていることがわかった。 The recent surge in Large Language Model (LLM) related applications has led to a concurrent escalation in expectations for LLMs to accommodate a myriad of personas and encompass a broad spectrum of perspectives. An important first step towards addressing this demand is to align language models with specific personas, be it groups of users or individuals. Towards this goal, we first present a new conceptualization of a persona. Moving beyond the traditional reliance on demographics like age, gender, or political party affiliation, we introduce a data-driven persona definition methodology built on collaborative-filtering. In this methodology, users are embedded into a continuous vector space based on their opinions and clustered into cohorts that manifest coherent views across specific inquiries. This methodology allows for a more nuanced understanding of different latent social groups present in the overall population (as opposed to simply using demographic groups) and enhances the applicability of model steerability. Finally, we present an efficient method to steer LLMs towards a particular persona. We learn a soft-prompting model to map the continuous representation of users into sequences of virtual tokens which, when prepended to the LLM input, enables the LLM to produce responses aligned with a given user. Our results show that our steerability algorithm is superior in performance compared to a collection of baselines. | 翻訳日:2023-11-10 16:56:24 公開日:2023-11-08 |
# 高次元における量子ハード球のガラス転移 The Glass Transition of Quantum Hard Spheres in High Dimensions ( http://arxiv.org/abs/2311.04968v1 ) ライセンス: Link先を確認 | Michael Winer, Christopher L. Baldwin, Richard Barney, Victor Galitski, Brian Swingle | (参考訳) 無限次元極限における量子ハード球の平衡熱力学を考察し、フランツ・パリポテンシャルを用いて温度密度平面における液相とガラス相の境界を決定する。
温度が高値から低下するにつれて、球面の有効半径は熱デブロリー波長の多重により増大し、有効充填率が増大し、ガラス相の臨界密度が低下することがわかった。
数値計算により、臨界密度は温度がさらに下がるにつれて単調に減少し続けることが示され、系はあらゆる密度に対して十分に低温でガラスを形成することが示唆された。 We study the equilibrium thermodynamics of quantum hard spheres in the infinite-dimensional limit, determining the boundary between liquid and glass phases in the temperature-density plane by means of the Franz-Parisi potential. We find that as the temperature decreases from high values, the effective radius of the spheres is enhanced by a multiple of the thermal de Broglie wavelength, thus increasing the effective filling fraction and decreasing the critical density for the glass phase. Numerical calculations show that the critical density continues to decrease monotonically as the temperature decreases further, suggesting that the system will form a glass at sufficiently low temperatures for any density. | 翻訳日:2023-11-10 16:55:59 公開日:2023-11-08 |
# 量子ニューラルタンジェントカーネルの表現性誘起濃度 Expressibility-induced Concentration of Quantum Neural Tangent Kernels ( http://arxiv.org/abs/2311.04965v1 ) ライセンス: Link先を確認 | Li-Wei Yu, Weikang Li, Qi Ye, Zhide Lu, Zizhao Han, Dong-Ling Deng | (参考訳) 量子接核法(quantum tangent kernel method)は、無限幅極限における量子機械学習モデルの性能を分析するための効率的なアプローチを提供する。
近年、量子ニューラルネットワークにおけるトレーニングエラーの収束率を解析的に記述するために適用されている。
本稿では,量子タンジェントカーネルモデルのトレーニング可能性と表現性の関係について検討する。
特に、大域的損失関数に対しては、大域的および局所的な量子エンコーディングの高表現性が量子接核値の指数関数的集中をゼロに導くことを厳密に証明する。
局所損失関数では、指数集中の問題は高発現性のため継続するが、部分的に緩和できる。
さらに,解析理論を支持するために,広範な数値シミュレーションを行う。
我々の発見は、量子ニューラル・タンジェント核の重要な特性を明らかにし、実用的な応用における幅広い量子変動回路モデルの設計に有用な洞察を与えている。 Quantum tangent kernel methods provide an efficient approach to analyzing the performance of quantum machine learning models in the infinite-width limit, which is of crucial importance in designing appropriate circuit architectures for certain learning tasks. Recently, they have been adapted to describe the convergence rate of training errors in quantum neural networks in an analytical manner. Here, we study the connections between the trainability and expressibility of quantum tangent kernel models. In particular, for global loss functions, we rigorously prove that high expressibility of both the global and local quantum encodings can lead to exponential concentration of quantum tangent kernel values to zero. Whereas for local loss functions, such issue of exponential concentration persists owing to the high expressibility, but can be partially mitigated. We further carry out extensive numerical simulations to support our analytical theories. Our discoveries unveil a pivotal characteristic of quantum neural tangent kernels, offering valuable insights for the design of wide quantum variational circuit models in practical applications. | 翻訳日:2023-11-10 16:55:47 公開日:2023-11-08 |
# 二極対称性保護位相相の分類:行列積状態、安定化ハミルトニアンおよび有限テンソルゲージ理論 Classification of Dipolar Symmetry-Protected Topological Phases: Matrix Product States, Stabilizer Hamiltonians and Finite Tensor Gauge Theories ( http://arxiv.org/abs/2311.04962v1 ) ライセンス: Link先を確認 | Ho Tat Lam | (参考訳) 双極子対称性によって保護される一次元対称性保護位相(SPT)位相を分類する。
双極子対称性は、電荷作用素と双極子作用素という2つの対称性生成器からなる。
行列積状態 (MPS) を用いて、有限アーベル群で$G$の双極子対称性に対して、1次元双極子 SPT は群 $H^2[G\times G,U(1)]/H^2[G,U(1)]^2$ で分類されることを示す。
対称性代数のため、MPSテンソルは異常な性質を示し、エッジでの電荷作用素の分数化を禁止している。
分類における各位相に対して、SPT位相を実現するための安定化ハミルトニアンを明示的に構成し、双極子対称性を背景テンソルゲージ場に結合することにより応答場理論を導出する。
これらの場の理論はディクグラーフ・ウィッテン理論をねじれた有限テンソルゲージ理論に一般化する。 We classify one-dimensional symmetry-protected topological (SPT) phases protected by dipole symmetries. A dipole symmetry comprises two sets of symmetry generators: charge and dipole operators, which together form a non-trivial algebra with translations. Using matrix product states (MPS), we show that for a $G$ dipole symmetry with $G$ a finite abelian group, the one-dimensional dipolar SPTs are classified by the group $H^2[G\times G,U(1)]/H^2[G,U(1)]^2$. Because of the symmetry algebra, the MPS tensors exhibit an unusual property, prohibiting the fractionalization of charge operators at the edges. For each phase in the classification, we explicitly construct a stabilizer Hamiltonian to realize the SPT phase and derive the response field theories by coupling the dipole symmetry to background tensor gauge fields. These field theories generalize the Dijkgraaf-Witten theories to twisted finite tensor gauge theories. | 翻訳日:2023-11-10 16:55:33 公開日:2023-11-08 |
# 大規模言語モデルのプロンプトスケッチ Prompt Sketching for Large Language Models ( http://arxiv.org/abs/2311.04954v1 ) ライセンス: Link先を確認 | Luca Beurer-Kellner, Mark Niklas M\"uller, Marc Fischer, Martin Vechev | (参考訳) 大規模言語モデル(LLM)に対する最近の多くのプロンプト戦略は、モデルを逐次的にクエリする -- 最初に中間結果を生成し、最後に回答する。
しかし、これらのメソッドを使用すると、デコーダとモデルの両方が潜在的なフォローアッププロンプトを意識せず、断続的かつ望ましくない中間応答に繋がる。
本研究では,プロンプトを完了させるだけでなく,テンプレート内の複数の変数の値を予測することにより,llmが応答する新しいプロンプトパラダイムであるprompt sketchingを提案することで,この問題に対処した。
このように、スケッチによって、例えば中間命令による推論フレームワークを提供することで、生成プロセスをより制御できるようになり、全体的な結果が改善される。
既存の自己回帰モデルでスケッチを可能にする重要なアイデアは、デコード手順に適応してテキスト生成中に追従命令をスコアアップすることで、推論における全体的なテンプレート可能性の最適化である。
実験では,ゼロショット設定では,状態追跡,算術推論,一般的な質問応答といった8つのllmベンチマークタスクのうち7つにおいて,直接質問やチェーン・オブ・マインドといった既存の逐次的プロンプトスキームよりもプロンプトスケッチが優れていることを示す。
将来の使用を容易にするために、多くのタスクに適用可能な汎用的で効果的なスケッチと、sketch-awareデコーダを駆動するdclibと呼ばれるオープンソースライブラリをリリースします。 Many recent prompting strategies for large language models (LLMs) query the model multiple times sequentially -- first to produce intermediate results and then the final answer. However, using these methods, both decoder and model are unaware of potential follow-up prompts, leading to disconnected and undesirably wordy intermediate responses. In this work, we address this issue by proposing prompt sketching, a new prompting paradigm in which an LLM does not only respond by completing a prompt, but by predicting values for multiple variables in a template. This way, sketching grants users more control over the generation process, e.g., by providing a reasoning framework via intermediate instructions, leading to better overall results. The key idea enabling sketching with existing, autoregressive models is to adapt the decoding procedure to also score follow-up instructions during text generation, thus optimizing overall template likelihood in inference. Our experiments show that in a zero-shot setting, prompt sketching outperforms existing, sequential prompting schemes such as direct asking or chain-of-thought on 7 out of 8 LLM benchmarking tasks, including state tracking, arithmetic reasoning, and general question answering. To facilitate future use, we release a number of generic, yet effective sketches applicable to many tasks, and an open source library called dclib, powering our sketch-aware decoders. | 翻訳日:2023-11-10 16:55:11 公開日:2023-11-08 |
# OpenVINOを用いたAI生成のための投機サンプリングとKVキャッシュの最適化 Leveraging Speculative Sampling and KV-Cache Optimizations Together for Generative AI using OpenVINO ( http://arxiv.org/abs/2311.04951v1 ) ライセンス: Link先を確認 | Haim Barad, Ekaterina Aidova, Yury Gorbachev | (参考訳) 推論の最適化は、ユーザエクスペリエンスの改善とインフラストラクチャのコストと消費電力の削減に不可欠である。
本稿では,テキスト生成の遅延を削減し,標準の自己回帰サンプリングと比較するために,投機的サンプリングと呼ばれる動的実行形式を示す。
これは、最適化されたソリューションを提供するためにモデルベースの最適化(量子化など)と一緒に使用できる。
どちらのサンプリング手法もKVキャッシュを利用する。
Jupyterノートとサンプル実行が提供される。 Inference optimizations are critical for improving user experience and reducing infrastructure costs and power consumption. In this article, we illustrate a form of dynamic execution known as speculative sampling to reduce the overall latency of text generation and compare it with standard autoregressive sampling. This can be used together with model-based optimizations (e.g. quantization) to provide an optimized solution. Both sampling methods make use of KV caching. A Jupyter notebook and some sample executions are provided. | 翻訳日:2023-11-10 16:54:44 公開日:2023-11-08 |
# 蒸留に基づくブロックニューラルアーキテクチャ探索による軽量拡散モデル Lightweight Diffusion Models with Distillation-Based Block Neural Architecture Search ( http://arxiv.org/abs/2311.04950v1 ) ライセンス: Link先を確認 | Siao Tang, Xin Wang, Hong Chen, Chaoyu Guan, Yansong Tang, Wenwu zhu | (参考訳) 拡散モデルは近年顕著な生成能力を示し、多くのタスクで最先端のパフォーマンスを実現している。
しかし、高い計算コストは拡散モデルにとっていまだに厄介な問題である。
そこで本研究では,拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(DiffNAS)を用いて,拡散モデルの構造的冗長性を自動的に除去する手法を提案する。
具体的には、事前訓練を受けた教師が大きくなると、DiffNASを利用して、教師よりもパフォーマンスが良い最小のアーキテクチャを探索する。
現在の拡散モデルは自然にブロック単位の構造を持つUNetに基づいており、各ブロックで独立してニューラルネットワークサーチを行い、探索空間を大幅に削減する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
具体的には,検索過程において,従来のグローバル検索戦略がもたらす不公平さを回避するために,最適なサブネットをブロックワイズに選択する。
探索されたアーキテクチャを再トレーニングする場合,スーパーネットトレーニングとサブネットリトレーニングの整合性を維持するために動的継手損失を採用し,各ブロックに対する情報的目的も提供し,勾配伝播の経路を短縮する。
この結合損失がモデル性能を効果的に向上することを示す。
また,この損失の動的調整の必要性も証明する。
実験により, 約50%のmacとパラメータ低減を持つ潜在拡散モデルにおいて, 計算量削減効果が得られた。 Diffusion models have recently shown remarkable generation ability, achieving state-of-the-art performance in many tasks. However, the high computational cost is still a troubling problem for diffusion models. To tackle this problem, we propose to automatically remove the structural redundancy in diffusion models with our proposed Diffusion Distillation-based Block-wise Neural Architecture Search (DiffNAS). Specifically, given a larger pretrained teacher, we leverage DiffNAS to search for the smallest architecture which achieves on-par or even better performance than the teacher. Considering current diffusion models are based on UNet which naturally has a block-wise structure, we perform neural architecture search independently in each block, which largely reduces the search space. Different from previous block-wise NAS methods, DiffNAS contains a block-wise local search strategy and a retraining strategy with a joint dynamic loss. Concretely, during the search process, we block-wisely select the best subnet to avoid the unfairness brought by the global search strategy used in previous works. When retraining the searched architecture, we adopt a dynamic joint loss to maintain the consistency between supernet training and subnet retraining, which also provides informative objectives for each block and shortens the paths of gradient propagation. We demonstrate this joint loss can effectively improve model performance. We also prove the necessity of the dynamic adjustment of this loss. The experiments show that our method can achieve significant computational reduction, especially on latent diffusion models with about 50% MACs and Parameter reduction. | 翻訳日:2023-11-10 16:54:36 公開日:2023-11-08 |
# 確率主成分分析の最大確率推定の一貫性について On the Consistency of Maximum Likelihood Estimation of Probabilistic Principal Component Analysis ( http://arxiv.org/abs/2311.05046v1 ) ライセンス: Link先を確認 | Arghya Datta, Sayak Chakrabarty | (参考訳) 確率的主成分分析(PPCA)は、現在、データの周囲寸法を減らすために最も使われている統計ツールの1つである。
多次元のスケーリングから欠落したデータの計算まで、PPCAは科学や工学から定量的ファイナンスまで幅広い応用範囲を持っている。
様々な分野に適用可能であるにもかかわらず、このモデルに対する最大可能性(ML)解の健全性を正当化する理論的な保証はほとんど存在しない。
実際、最大確率推定(mle)は、回転まで真のモデルパラメータのみを回復できることはよく知られている。
主障害は、パラメータ化の回転対称性から生じるPPCAモデル固有の識別性の性質によって引き起こされる。
この曖昧さを解決するために、商位相空間を用いた新しいアプローチを提案し、特に、最大極大解が適切な商ユークリッド空間において一貫したことを示す。
さらに、我々の整合性は、MLEを超えるより一般的な推定値を含む。
ML推定の強い一貫性、したがってPPCAモデルの強い共分散推定もコンパクト性仮定の下で確立されている。 Probabilistic principal component analysis (PPCA) is currently one of the most used statistical tools to reduce the ambient dimension of the data. From multidimensional scaling to the imputation of missing data, PPCA has a broad spectrum of applications ranging from science and engineering to quantitative finance. Despite this wide applicability in various fields, hardly any theoretical guarantees exist to justify the soundness of the maximal likelihood (ML) solution for this model. In fact, it is well known that the maximum likelihood estimation (MLE) can only recover the true model parameters up to a rotation. The main obstruction is posed by the inherent identifiability nature of the PPCA model resulting from the rotational symmetry of the parameterization. To resolve this ambiguity, we propose a novel approach using quotient topological spaces and in particular, we show that the maximum likelihood solution is consistent in an appropriate quotient Euclidean space. Furthermore, our consistency results encompass a more general class of estimators beyond the MLE. Strong consistency of the ML estimate and consequently strong covariance estimation of the PPCA model have also been established under a compactness assumption. | 翻訳日:2023-11-10 16:47:12 公開日:2023-11-08 |
# VQAモデルにおける注意パターンの自然言語へのゼロショット翻訳 Zero-shot Translation of Attention Patterns in VQA Models to Natural Language ( http://arxiv.org/abs/2311.05043v1 ) ライセンス: Link先を確認 | Leonard Salewski, A. Sophia Koepke, Hendrik P. A. Lensch, Zeynep Akata | (参考訳) モデルの内部をテキストに変換することで、モデルに関する人間に理解可能な洞察が得られる。
画像キャプションのためのトレーニングフリーアプローチの成功に触発されて,与えられたモデルのトランスフォーマー注意を,トレーニングを必要とせずに自然言語に変換するゼロショットフレームワークであるzs-a2tを提案する。
我々はこれを視覚質問応答(VQA)の文脈で考える。
ZS-A2Tは事前訓練された大規模言語モデル(LLM)上に構築され、タスクプロンプト、質問、予測応答を入力として受け取る。
LLMは、VQAモデルが参加する入力画像内の領域を記述するトークンを選択するためにガイドされる。
重要なことは、基礎となるVQAモデルのテキスト画像マッチング機能を利用して、この類似性を決定する。
私たちのフレームワークはトレーニングを必要とせず、さまざまなガイドソース(アトリビューションではなくアトリビューションなど)や言語モデルをドロップインで置き換えることを可能にします。
GQA-REX と VQA-X のゼロショット設定に最先端の性能を与えるため,本課題をVQA のテキスト説明データセット上で評価する。
私たちのコードは、https://github.com/explainableml/zs-a2tで利用可能です。 Converting a model's internals to text can yield human-understandable insights about the model. Inspired by the recent success of training-free approaches for image captioning, we propose ZS-A2T, a zero-shot framework that translates the transformer attention of a given model into natural language without requiring any training. We consider this in the context of Visual Question Answering (VQA). ZS-A2T builds on a pre-trained large language model (LLM), which receives a task prompt, question, and predicted answer, as inputs. The LLM is guided to select tokens which describe the regions in the input image that the VQA model attended to. Crucially, we determine this similarity by exploiting the text-image matching capabilities of the underlying VQA model. Our framework does not require any training and allows the drop-in replacement of different guiding sources (e.g. attribution instead of attention maps), or language models. We evaluate this novel task on textual explanation datasets for VQA, giving state-of-the-art performances for the zero-shot setting on GQA-REX and VQA-X. Our code is available at: https://github.com/ExplainableML/ZS-A2T. | 翻訳日:2023-11-10 16:46:57 公開日:2023-11-08 |
# MLに基づくキーワード抽出と検証のための科学テキストの自動アノテーション Automated Annotation of Scientific Texts for ML-based Keyphrase Extraction and Validation ( http://arxiv.org/abs/2311.05042v1 ) ライセンス: Link先を確認 | Oluwamayowa O. Amusat, Harshad Hegde, Christopher J. Mungall, Anna Giannakou, Neil P. Byers, Dan Gunter, Kjiersten Fagnan and Lavanya Ramakrishnan | (参考訳) 先進的なオミクス技術や施設は、毎日大量の貴重なデータを生成するが、研究者が効果的に発見し、検索するのに必要となるメタデータを欠いていることが多い。
メタデータの欠如は、これらのデータセットの利用に重大な課題をもたらす。
機械学習ベースのメタデータ抽出技術は、科学的データセットに効果的な検索を可能にするのに必要なメタデータを注釈付けするための潜在的に有効なアプローチとして登場した。
テキストラベリングは通常手動で行われるが、機械抽出メタデータの検証において重要な役割を果たす。
しかし, 手動ラベリングは時間を要するため, 科学的革新の過程を加速させるためには, 自動テキストラベリング技術を開発する必要がある。
この必要性は、歴史的にメタデータのキュレーションや金標準テキストマイニングデータセットの作成に関してあまり注目されていない環境ゲノム学やマイクロバイオーム科学といった分野において特に緊急である。
本稿では,未ラベルテキストに対するml生成メタデータの検証のための2つの自動ラベリング手法を提案し,環境ゲノム学への応用について述べる。
本手法は,未ラベルテキストと科学領域に関する既存の情報を活用する2つの新しい手法の可能性を示す。
最初のテクニックは、出版や提案など、同じ研究研究に関連するさまざまなタイプのデータソース間の関係を利用する。
第2のテクニックはドメイン固有の制御された語彙やオントロジを利用する。
本稿では,これらの手法をML生成メタデータ検証に適用する。
提案手法は,MLキーワード抽出アルゴリズムで提案したテキストに適合するラベルの最大44%のラベルを,ラベル付きテキストの汎用テキストラベルと高特定テキストラベルの両方を生成することができることを示す。 Advanced omics technologies and facilities generate a wealth of valuable data daily; however, the data often lacks the essential metadata required for researchers to find and search them effectively. The lack of metadata poses a significant challenge in the utilization of these datasets. Machine learning-based metadata extraction techniques have emerged as a potentially viable approach to automatically annotating scientific datasets with the metadata necessary for enabling effective search. Text labeling, usually performed manually, plays a crucial role in validating machine-extracted metadata. However, manual labeling is time-consuming; thus, there is an need to develop automated text labeling techniques in order to accelerate the process of scientific innovation. This need is particularly urgent in fields such as environmental genomics and microbiome science, which have historically received less attention in terms of metadata curation and creation of gold-standard text mining datasets. In this paper, we present two novel automated text labeling approaches for the validation of ML-generated metadata for unlabeled texts, with specific applications in environmental genomics. Our techniques show the potential of two new ways to leverage existing information about the unlabeled texts and the scientific domain. The first technique exploits relationships between different types of data sources related to the same research study, such as publications and proposals. The second technique takes advantage of domain-specific controlled vocabularies or ontologies. In this paper, we detail applying these approaches for ML-generated metadata validation. Our results show that the proposed label assignment approaches can generate both generic and highly-specific text labels for the unlabeled texts, with up to 44% of the labels matching with those suggested by a ML keyword extraction algorithm. | 翻訳日:2023-11-10 16:46:35 公開日:2023-11-08 |
# 効率的な映像特異的ポーズ推定のための能動伝達学習 Active Transfer Learning for Efficient Video-Specific Human Pose Estimation ( http://arxiv.org/abs/2311.05041v1 ) ライセンス: Link先を確認 | Hiromu Taketsugu and Norimichi Ukita | (参考訳) ヒューマン・ポース(HP)推定は幅広い応用のために活発に研究されている。
しかし、大規模なデータセットで事前トレーニングされた推定子でさえ、トレーニングとテストデータの間のドメインギャップのため、満足いく処理を行えない場合がある。
そこで本研究では,能動学習(AL)と伝達学習(TL)を組み合わせて,HP推定器を個々のビデオ領域に効率よく適応させる手法を提案する。
効率的な学習のために 我々のアプローチは
(i)推定ヒートマップの時間変化に基づく推定の不確かさと
(ii) 推定フルボディHPの非自然性。
これらの定量化基準は最先端の代表性基準と効果的に組み合わせられ、効率的なhp推定学習のために不確実で多様なサンプルを選択する。
さらに,既存のアクティブ・トランスファー・ラーニング(ATL)手法を再考し,リトレーニング手法と停止基準(SC)に関する新しいアイデアを紹介した。
実験の結果,本手法は学習効率を高め,比較手法を上回った。
私たちのコードは、https://github.com/ImIntheMiddle/VATL4Pose-WACV2024で公開されています。 Human Pose (HP) estimation is actively researched because of its wide range of applications. However, even estimators pre-trained on large datasets may not perform satisfactorily due to a domain gap between the training and test data. To address this issue, we present our approach combining Active Learning (AL) and Transfer Learning (TL) to adapt HP estimators to individual video domains efficiently. For efficient learning, our approach quantifies (i) the estimation uncertainty based on the temporal changes in the estimated heatmaps and (ii) the unnaturalness in the estimated full-body HPs. These quantified criteria are then effectively combined with the state-of-the-art representativeness criterion to select uncertain and diverse samples for efficient HP estimator learning. Furthermore, we reconsider the existing Active Transfer Learning (ATL) method to introduce novel ideas related to the retraining methods and Stopping Criteria (SC). Experimental results demonstrate that our method enhances learning efficiency and outperforms comparative methods. Our code is publicly available at: https://github.com/ImIntheMiddle/VATL4Pose-WACV2024 | 翻訳日:2023-11-10 16:46:09 公開日:2023-11-08 |
# 汎用プログラミングによるパフォーマンスポータビリティへのアプローチ An approach to performance portability through generic programming ( http://arxiv.org/abs/2311.05038v1 ) ライセンス: Link先を確認 | Andreas Hadjigeorgiou, Christodoulos Stylianou, Michele Weiland, Dirk Jacob Verschuur, Jacob Finkenrath | (参考訳) 高性能コンピューティングにおけるハードウェアの多様性の拡大は、科学ソフトウェア開発に膨大な複雑さをもたらす。
保守可能なソフトウェアを書こうとする開発者には2つの選択肢がある。
1) 内部でポータビリティを扱ういわゆるデータローカリティ抽象化を使用すると、パフォーマンス-生産性がトレードオフとなる。
このような抽象化は通常、ライブラリ、ドメイン固有言語、ランタイムシステムの形式で行われる。
2) パフォーマンス、生産性、ポータビリティがソフトウェア設計の対象となる汎用プログラミングを使用する。
第二の方向では、C++のテンプレートメタプログラミングに基づく高レベルな汎用アルゴリズムに低レベルおよび冗長なプログラミングツールを統合できる設計アプローチについて記述する。
これにより、CPUやGPUといったホストデバイスコンピュータアーキテクチャをターゲットにしたパフォーマンス対応アプリケーションの開発が可能になる。
適切な設計により、ジェネリックアルゴリズムを新しいハードウェアに拡張することは、コードの他の部分と独立して開発できる、明確に定義された手順となる。
これにより、HPCのハードウェアの多様化期間において、科学ソフトウェアは保守性と効率が向上する。
概念実証として,Intel Xeon Gold 6248 CPU,Nvidia Tesla V100 GPU,AMD MI100 GPUの屋上モデル解析を用いて,音響波動方程式の有限差モデルアルゴリズムを開発し,ベンチマークを行った。 The expanding hardware diversity in high performance computing adds enormous complexity to scientific software development. Developers who aim to write maintainable software have two options: 1) To use a so-called data locality abstraction that handles portability internally, thereby, performance-productivity becomes a trade off. Such abstractions usually come in the form of libraries, domain-specific languages, and run-time systems. 2) To use generic programming where performance, productivity and portability are subject to software design. In the direction of the second, this work describes a design approach that allows the integration of low-level and verbose programming tools into high-level generic algorithms based on template meta-programming in C++. This enables the development of performance-portable applications targeting host-device computer architectures, such as CPUs and GPUs. With a suitable design in place, the extensibility of generic algorithms to new hardware becomes a well defined procedure that can be developed in isolation from other parts of the code. That allows scientific software to be maintainable and efficient in a period of diversifying hardware in HPC. As proof of concept, a finite-difference modelling algorithm for the acoustic wave equation is developed and benchmarked using roofline model analysis on Intel Xeon Gold 6248 CPU, Nvidia Tesla V100 GPU, and AMD MI100 GPU. | 翻訳日:2023-11-10 16:45:53 公開日:2023-11-08 |
# 分散およびセキュアロギングのための組み込みプラットフォームパターン Embedded Platform Patterns for Distributed and Secure Logging ( http://arxiv.org/abs/2311.05037v1 ) ライセンス: Link先を確認 | Fikret Basic, Christian Steger, Robert Kofler | (参考訳) 現代的な組み込みシステムの出現により、プロセスとしてのロギングは診断や分析サービスでますます普及している。
伝統的に、ログされたデータの保存と管理は、通常、メインのロジックコンポーネントと一緒に1つのエンティティの一部として保持される。
ネットワーク接続を実装するシステムでは、このアクティビティは通常リモートデバイス上で処理される。
しかし、生産コストが要求されるため、多くの組み込みデバイスでは、リモート接続を有効にすることが制限要因だと考えられている。
設計コンセプトフェーズにおいて、どのようにデータを抽出し、組込みプラットフォームで処理するかを決定する必要があるベンダーに重要な課題が提示される。
一般的には、ロギングメモリモジュールを別々のユニットとして扱うことが望ましい。
データ漏洩は膨大なプライバシーと財務損失につながる可能性があるため、これらのデバイスは異なるシステム上で適切なセキュリティと検証を行う必要がある。
本稿では,2つのパターンについて述べる。
まず、モジュールとインターフェースの責任分離の観点からフレキシブルなロギング操作設計を可能にするパターン。
第二に、制約された組み込みデバイスの利用中にセキュアなロギングプロセスを設計するためのパターン。
導入されたパターンは以下の条件を満たす。
i) 柔軟性、設計は、ロギングメモリモジュールを交換しやすくするチップベンダーとは独立している。
(ii) 自己充足性、各ロギングコントローラは分散トポロジにおいて独立したエンティティとして維持される。
三 専用のセキュリティモジュールを使用することにより、正当性、機密性及び完全性を提供することにより、セキュリティ With the advent of modern embedded systems, logging as a process is becoming more and more prevalent for diagnostic and analytic services. Traditionally, storage and managing of the logged data are generally kept as a part of one entity together with the main logic components. In systems that implement network connections, this activity is usually handled over a remote device. However, enabling remote connection is still considered a limiting factor for many embedded devices due to the demanding production cost. A significant challenge is presented to vendors who need to decide how the data will be extracted and handled for an embedded platform during the design concept phase. It is generally desirable that logging memory modules are able to be addressed as separate units. These devices need to be appropriately secured and verifiable on a different system since data compromise can lead to enormous privacy and even financial losses. In this paper, we present two patterns. First, a pattern that allows flexible logging operation design in terms of module and interface responsibility separation. Second, a pattern for the design of secure logging processes during the utilization of constrained embedded devices. The introduced patterns fulfil the following conditions: (i) flexibility, design is independent of the chip vendors making the logging memory modules easily replaceable, (ii) self-sufficiency, every logging controller is maintained as a separate entity in a decentralized topology, (iii) security, through providing authenticity, confidentiality, and integrity by means of using a dedicated security module. | 翻訳日:2023-11-10 16:45:34 公開日:2023-11-08 |
# わずかに注釈付き3次元医用画像からの伝達学習 Transfer learning from a sparsely annotated dataset of 3D medical images ( http://arxiv.org/abs/2311.05032v1 ) ライセンス: Link先を確認 | Gabriel Efrain Humpire-Mamani, Colin Jacobs, Mathias Prokop, Bram van Ginneken, Nikolas Lessmann | (参考訳) 転送学習は、大きなデータセットから事前学習されたモデル機能を活用して、さまざまなタスクのために新しいモデルをトレーニングする際に時間とリソースを節約し、パフォーマンスを向上させる。
医用画像領域に大規模なデータセットがないため、ある医用画像モデルから他の医用画像モデルへの学習の転送は広く研究されていない。
本研究では, 臓器分割のための深部畳み込みニューラルネットワークの性能向上のための伝達学習の活用について検討した。
ベースセグメンテーションモデル(3d u-net)は、大きくてスパースなアノテートされたデータセットでトレーニングされ、完全にアノテートされたデータセットが利用可能な4つの新しいダウンストリームセグメンテーションタスクの転送学習に使用された。
トレーニングセットサイズの影響を分析し,不足したデータをシミュレートした。
その結果、小さなデータセットが利用可能になった場合、ベースモデルからの転送学習は有益であることが示され、パフォーマンスが大幅に向上した。
微調整による転送学習は,スクラッチから学習した実験よりも最大0.129 (+28\%) diceスコアを上昇させ,23実験では平均0.029 diceスコアを新たなセグメンテーションタスクで向上させた。
また,CTスキャンを用いたクロスモーダルトランスファー学習が有用であった。
本研究は, トランスファー・ラーニングがアノテーションの効率を向上し, 医療画像における正確な臓器分割のアクセシビリティを向上させる可能性を示し, 最終的には患者ケアの改善に繋がることを示す。
ネットワークの定義と重みを公開して、他のユーザや研究者に利益をもたらしました。 Transfer learning leverages pre-trained model features from a large dataset to save time and resources when training new models for various tasks, potentially enhancing performance. Due to the lack of large datasets in the medical imaging domain, transfer learning from one medical imaging model to other medical imaging models has not been widely explored. This study explores the use of transfer learning to improve the performance of deep convolutional neural networks for organ segmentation in medical imaging. A base segmentation model (3D U-Net) was trained on a large and sparsely annotated dataset; its weights were used for transfer learning on four new down-stream segmentation tasks for which a fully annotated dataset was available. We analyzed the training set size's influence to simulate scarce data. The results showed that transfer learning from the base model was beneficial when small datasets were available, providing significant performance improvements; where fine-tuning the base model is more beneficial than updating all the network weights with vanilla transfer learning. Transfer learning with fine-tuning increased the performance by up to 0.129 (+28\%) Dice score than experiments trained from scratch, and on average 23 experiments increased the performance by 0.029 Dice score in the new segmentation tasks. The study also showed that cross-modality transfer learning using CT scans was beneficial. The findings of this study demonstrate the potential of transfer learning to improve the efficiency of annotation and increase the accessibility of accurate organ segmentation in medical imaging, ultimately leading to improved patient care. We made the network definition and weights publicly available to benefit other users and researchers. | 翻訳日:2023-11-10 16:45:16 公開日:2023-11-08 |
# s$^3$ad:果樹園における半教師付き小型リンゴ検出 S$^3$AD: Semi-supervised Small Apple Detection in Orchard Environments ( http://arxiv.org/abs/2311.05029v1 ) ライセンス: Link先を確認 | Robert Johanson and Christian Wilms and Ole Johannsen and Simone Frintrop | (参考訳) 作物検出は、自動収量推定や果物の摘みなどの精密農業用途に不可欠である。
しかし、果樹園環境におけるリンゴ検出などの作物検出は、大規模なデータセットが不足し、画像中の作物の相対的サイズが小さいため、依然として困難である。
本研究では,リンゴ検出タスクを半教師付きで再構築することで,これらの課題に対処する。
この目的のために私たちは、105のラベル付き画像と14,667のappleインスタンスと4,440のラベル付き画像からなる大規模で高解像度なデータセットを提供する。
また、このデータセットを利用して、文脈的注意と選択的タイリングに基づく半教師付き小型リンゴ検出システムs$^3$adを提案し、計算オーバーヘッドを制限しながら、小型リンゴの挑戦的な検出を改善する。
我々はMADとMSUデータセットを広範囲に評価し、S$^3$ADは、いくつかの小さなオブジェクト検出システムを含む、強力な完全教師付きベースラインよりも14.9$%高い性能を示した。
さらに,我々のデータセットw.r.t.appleプロパティの詳細なアノテーションを利用して,相対的なサイズや咬合レベルが各種システムに与える影響を分析し,現在の課題を定量化する。 Crop detection is integral for precision agriculture applications such as automated yield estimation or fruit picking. However, crop detection, e.g., apple detection in orchard environments remains challenging due to a lack of large-scale datasets and the small relative size of the crops in the image. In this work, we address these challenges by reformulating the apple detection task in a semi-supervised manner. To this end, we provide the large, high-resolution dataset MAD comprising 105 labeled images with 14,667 annotated apple instances and 4,440 unlabeled images. Utilizing this dataset, we also propose a novel Semi-Supervised Small Apple Detection system S$^3$AD based on contextual attention and selective tiling to improve the challenging detection of small apples, while limiting the computational overhead. We conduct an extensive evaluation on MAD and the MSU dataset, showing that S$^3$AD substantially outperforms strong fully-supervised baselines, including several small object detection systems, by up to $14.9\%$. Additionally, we exploit the detailed annotations of our dataset w.r.t. apple properties to analyze the influence of relative size or level of occlusion on the results of various systems, quantifying current challenges. | 翻訳日:2023-11-10 16:44:46 公開日:2023-11-08 |
# 不正確な勾配を持つ無バイアス運動性ランゲヴィンモンテカルロ Unbiased Kinetic Langevin Monte Carlo with Inexact Gradients ( http://arxiv.org/abs/2311.05025v1 ) ライセンス: Link先を確認 | Neil K. Chada, Benedict Leimkuhler, Daniel Paulin, Peter A. Whalley | (参考訳) 本稿では,高度な分割法と高次勾配近似を併用した速度論的ランゲヴィンダイナミクスに基づくベイズ的後進手段の非バイアス手法を提案する。
マルチレベルモンテカルロ法ではマルコフ連鎖を異なる離散化レベルで結合することでメトロポリス補正を回避する。
理論解析により,提案する推定器は偏りがなく,有限分散に達し,中心極限定理を満たすことが示された。
ウォームスタートを想定せずに、$d$次元のリプシッツ関数の期待値を$\mathcal{o}(d^{1/4}\epsilon^{-2})$で推定する精度$\epsilon>0$を達成することができる。
近似的勾配と確率的勾配の両方を用いて類似した境界を示し、本手法の計算コストはデータセットのサイズと対数的にスケールすることを示した。
提案手法は,MNISTデータセット上の多項回帰問題と,サッカースコアに対するポアソン回帰モデルを用いて検証する。
実験の結果, 有効試料当たりの勾配評価の数は, 不正確な勾配を用いても次元に依存しないことがわかった。
積分布に対して、次元非依存な分散境界を与える。
その結果,我々が提示する偏りのないアルゴリズムは,'gold-standard' ランダム化ハミルトニアンモンテカルロよりもはるかに効率的であることが判明した。 We present an unbiased method for Bayesian posterior means based on kinetic Langevin dynamics that combines advanced splitting methods with enhanced gradient approximations. Our approach avoids Metropolis correction by coupling Markov chains at different discretization levels in a multilevel Monte Carlo approach. Theoretical analysis demonstrates that our proposed estimator is unbiased, attains finite variance, and satisfies a central limit theorem. It can achieve accuracy $\epsilon>0$ for estimating expectations of Lipschitz functions in $d$ dimensions with $\mathcal{O}(d^{1/4}\epsilon^{-2})$ expected gradient evaluations, without assuming warm start. We exhibit similar bounds using both approximate and stochastic gradients, and our method's computational cost is shown to scale logarithmically with the size of the dataset. The proposed method is tested using a multinomial regression problem on the MNIST dataset and a Poisson regression model for soccer scores. Experiments indicate that the number of gradient evaluations per effective sample is independent of dimension, even when using inexact gradients. For product distributions, we give dimension-independent variance bounds. Our results demonstrate that the unbiased algorithm we present can be much more efficient than the ``gold-standard" randomized Hamiltonian Monte Carlo. | 翻訳日:2023-11-10 16:44:24 公開日:2023-11-08 |
# グラスホッパー模型における対称性破れの起源 Origin of Symmetry Breaking in the Grasshopper Model ( http://arxiv.org/abs/2311.05023v1 ) ライセンス: Link先を確認 | David Llamas, Jaron Kent-Dobias, Kun Chen, Adrian Kent, Olga Goulko | (参考訳) もともと(goulko & kent 2017 proc. r. soc. a 473, 20170494)で導入された平面グラスホッパー問題は、基底状態が回転対称性を破る長距離等方性相互作用を持つモデルの顕著な例である。
本研究では,この対称性の破れの性質を,次元の重要性を重視して解析し,説明する。
興味深いことに、回転対称性は2次元問題の非等方性コグホイールレジームに対応する小さなジャンプのために3次元で回復される。
元のシステムの対称性をn次元で再現する簡易モデルについて考察する。
2次元のグラスホッパーモデルでは、ディスクの最適摂動に対する定量的な予測が得られる。
解析結果は数値シミュレーションにより確認した。 The planar grasshopper problem, originally introduced in (Goulko & Kent 2017 Proc. R. Soc. A 473, 20170494), is a striking example of a model with long-range isotropic interactions whose ground states break rotational symmetry. In this work we analyze and explain the nature of this symmetry breaking with emphasis on the importance of dimensionality. Interestingly, rotational symmetry is recovered in three dimensions for small jumps, which correspond to the non-isotropic cogwheel regime of the two-dimensional problem. We discuss simplified models that reproduce the symmetry properties of the original system in N dimensions. For the full grasshopper model in two dimensions we obtain quantitative predictions for optimal perturbations of the disk. Our analytical results are confirmed by numerical simulations. | 翻訳日:2023-11-10 16:43:59 公開日:2023-11-08 |
# 大腸内視鏡画像における大腸深度推定のためのシェーディング形状学習のためのリアルな合成データベースの利用 Leveraging a realistic synthetic database to learn Shape-from-Shading for estimating the colon depth in colonoscopy images ( http://arxiv.org/abs/2311.05021v1 ) ライセンス: Link先を確認 | Josu\'e Ruano, Mart\'in G\'omez, Eduardo Romero, Antoine Manzanera | (参考訳) 大腸内視鏡は大腸癌と直腸癌を早期に診断し,悪性腫瘍の診断に有用である。
しかし、臓器の外観の変動が高く、大腸壁と興味のある構造の両方が複雑な形状であることから、この探検は困難である。
臨床実習における視覚・知覚能力の習得は,腸深度を適切に推定することによって技術的限界を緩和する。
本研究は,単眼大腸内視鏡ビデオから大腸深さマップを推定する新しい手法を提案する。
生成された深度マップは、現実的な合成データベースから学んだように、光源に対する大腸壁の陰影変化から推定される。
簡単に言うと、従来の畳み込みニューラルネットワークアーキテクチャをスクラッチから訓練して深さマップを推定し、エッジや曲率の推定誤差を最小限にするカスタム損失関数により、haustral foldsやpolypsのシャープな深さ推定を改善する。
このネットワークは、248,400フレーム(47ビデオ)のピクセルレベルで奥行きを注釈したカスタム合成大腸内視鏡データベースで訓練された。
このコレクションは、映像の5つのサブセットを徐々に高いレベルの視覚的複雑度で理解している。
合成データベースによる深さ推定の精度は95.65%、平均rmseは0.451cmに達したが、実データベースを用いた定性評価では一貫性のある深さ推定が示され、専門家の胃腸学者によって視覚的に評価された。
最後に、パブリック合成データベースを用いた別の最先端手法と、他の5つの最先端手法による画像群における比較結果に関して、競合性能を達成した。 Colonoscopy is the choice procedure to diagnose colon and rectum cancer, from early detection of small precancerous lesions (polyps), to confirmation of malign masses. However, the high variability of the organ appearance and the complex shape of both the colon wall and structures of interest make this exploration difficult. Learned visuospatial and perceptual abilities mitigate technical limitations in clinical practice by proper estimation of the intestinal depth. This work introduces a novel methodology to estimate colon depth maps in single frames from monocular colonoscopy videos. The generated depth map is inferred from the shading variation of the colon wall with respect to the light source, as learned from a realistic synthetic database. Briefly, a classic convolutional neural network architecture is trained from scratch to estimate the depth map, improving sharp depth estimations in haustral folds and polyps by a custom loss function that minimizes the estimation error in edges and curvatures. The network was trained by a custom synthetic colonoscopy database herein constructed and released, composed of 248,400 frames (47 videos), with depth annotations at the level of pixels. This collection comprehends 5 subsets of videos with progressively higher levels of visual complexity. Evaluation of the depth estimation with the synthetic database reached a threshold accuracy of 95.65%, and a mean-RMSE of 0.451 cm, while a qualitative assessment with a real database showed consistent depth estimations, visually evaluated by the expert gastroenterologist coauthoring this paper. Finally, the method achieved competitive performance with respect to another state-of-the-art method using a public synthetic database and comparable results in a set of images with other five state-of-the-art methods. | 翻訳日:2023-11-10 16:43:46 公開日:2023-11-08 |
# 最初の悲劇、Parse: 大規模言語モデルの新時代における歴史の繰り返し First Tragedy, then Parse: History Repeats Itself in the New Era of Large Language Models ( http://arxiv.org/abs/2311.05020v1 ) ライセンス: Link先を確認 | Naomi Saphra, Eve Fleisig, Kyunghyun Cho, Adam Lopez | (参考訳) 多くのNLP研究者は、ChatGPTや他の大規模言語モデル(LLM)に基づくシステムの成功によって、現実的な危機を経験している。
この分野に対する私たちの理解に破壊的な変化が生じた後、何が残るのか?
歴史的レンズを用いて、2005年に機械翻訳のための大きな$n$-gramモデルで始まったLLMの最初の時代からのガイダンスを求める。
まず,NLP研究者がLSMが上昇する地域で有意義な貢献を継続できる常緑的問題を特定する。
これらの教訓の中で,スケールの可用性と重要性を形作る上でのハードウェアの進歩の優位性や,自動・人両方の品質評価の急激な課題について論じる。
我々は、スケールの格差は過渡的であり、研究者はそれらを減らすことができる、と論じている。ハードウェアよりもむしろデータは、多くの有意義なアプリケーションにとって依然としてボトルネックであり、実際の使用によって得られる有意義な評価は、まだオープンな問題であり、投機的なアプローチの余地がある。 Many NLP researchers are experiencing an existential crisis triggered by the astonishing success of ChatGPT and other systems based on large language models (LLMs). After such a disruptive change to our understanding of the field, what is left to do? Taking a historical lens, we look for guidance from the first era of LLMs, which began in 2005 with large $n$-gram models for machine translation. We identify durable lessons from the first era, and more importantly, we identify evergreen problems where NLP researchers can continue to make meaningful contributions in areas where LLMs are ascendant. Among these lessons, we discuss the primacy of hardware advancement in shaping the availability and importance of scale, as well as the urgent challenge of quality evaluation, both automated and human. We argue that disparities in scale are transient and that researchers can work to reduce them; that data, rather than hardware, is still a bottleneck for many meaningful applications; that meaningful evaluation informed by actual use is still an open problem; and that there is still room for speculative approaches. | 翻訳日:2023-11-10 16:43:15 公開日:2023-11-08 |
# DEMASQ: ChatGPTのワードスミスを解き放つ DEMASQ: Unmasking the ChatGPT Wordsmith ( http://arxiv.org/abs/2311.05019v1 ) ライセンス: Link先を確認 | Kavita Kumari and Alessandro Pegoraro and Hossein Fereidooni and Ahmad-Reza Sadeghi | (参考訳) ChatGPTや他の大規模言語モデル(LLMs)の潜在的な誤用は、偽情報の拡散、盗作、学術的不正、不正行為に関する懸念を引き起こしている。
その結果、AI生成コンテンツと人間生成コンテンツの区別が興味深い研究トピックとして浮上した。
しかし、現在のテキスト検出手法は精度が低く、特定のタスクやドメインに限定されることが多く、chatgptによって生成されたコンテンツの識別には不十分である。
本稿では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
我々の手法は2つの重要な要素に対処する。
(i)人文・機械制作コンテンツに見られる文章構成の異なる偏り、及び
(ii)従来の検出方法を回避するために人間が行った変更。
DEMASQはエネルギーに基づく検出モデルであり、新しい側面を含む。
(i)入力テキスト埋め込みと出力ラベルの相互依存を捉えるためのドップラー効果に触発された最適化
(II)多様な摂動を生成するための説明可能なAI技術の使用。
検知器の評価のために,ChatGPTとヒトの両方からのプロンプトを混合したベンチマークデータセットを作成し,医療,オープンQ&A,ファイナンス,wiki,Redditなどの領域を含む。
評価の結果,demasq は chatgpt が生成するコンテンツの識別精度が向上した。 The potential misuse of ChatGPT and other Large Language Models (LLMs) has raised concerns regarding the dissemination of false information, plagiarism, academic dishonesty, and fraudulent activities. Consequently, distinguishing between AI-generated and human-generated content has emerged as an intriguing research topic. However, current text detection methods lack precision and are often restricted to specific tasks or domains, making them inadequate for identifying content generated by ChatGPT. In this paper, we propose an effective ChatGPT detector named DEMASQ, which accurately identifies ChatGPT-generated content. Our method addresses two critical factors: (i) the distinct biases in text composition observed in human- and machine-generated content and (ii) the alterations made by humans to evade previous detection methods. DEMASQ is an energy-based detection model that incorporates novel aspects, such as (i) optimization inspired by the Doppler effect to capture the interdependence between input text embeddings and output labels, and (ii) the use of explainable AI techniques to generate diverse perturbations. To evaluate our detector, we create a benchmark dataset comprising a mixture of prompts from both ChatGPT and humans, encompassing domains such as medical, open Q&A, finance, wiki, and Reddit. Our evaluation demonstrates that DEMASQ achieves high accuracy in identifying content generated by ChatGPT. | 翻訳日:2023-11-10 16:42:54 公開日:2023-11-08 |
# 情報偽装の効果的なパラフレージングに向けて Towards Effective Paraphrasing for Information Disguise ( http://arxiv.org/abs/2311.05018v1 ) ライセンス: Link先を確認 | Anmol Agarwal, Shrey Gupta, Vamshi Bonagiri, Manas Gaur, Joseph Reagle, Ponnurangam Kumaraguru | (参考訳) 自然言語処理(NLP)における計算倫理の一分野であるID(Information Disguise)は,インターネット上での著者のポストの非合意使用を防止するために,テキストパラフレーズのベストプラクティスに関心を持っている。
idの研究は、著者のオンラインコミュニケーションが機密ドメイン(例えばメンタルヘルス)に関連する場合に重要になる。
長年にわたり、研究者はAIベースの自動単語スピナー(SpinRewriter、WordAIなど)をパラフレーズコンテンツに利用してきた。
しかし、これらのツールがIDの目的を満足することができないのは、そのパラフレーズ付きコンテンツが検索エンジンで検索する際にもソースに繋がるからである。
サーチエンジンやそのプロキシ,ニューラルレトリバー(NeurIR)モデルにおけるIDのパラフレーズ化手法の有効性を判断するための先行研究は限られている。
そこで本研究では,著者の投稿から与えられた文に対してパラフレージングの方向に反復的な摂動を行い,その文が検索された場合のニューロワールシステムの探索機構を混乱させようとする枠組みを提案する。
我々の実験では、公開コンテンツのソースとしてsubreddit 'r/AmItheAsshole'、検索エンジンのNeurIRシステムベースのプロキシとしてDense Passage Retrieverが使われている。
本研究では,パープレキシティスコアを用いた新しいフレーズインポータンスランキング法を提案し,ビーム探索による多レベル句置換法を提案する。
我々のマルチフレーズ置換方式は82%の時間で文を分解することに成功し、研究者が公開する前に機密コンテンツを効果的に偽装できるようにするための重要な一歩を踏み出した。
このアプローチのコードもリリースしています。 Information Disguise (ID), a part of computational ethics in Natural Language Processing (NLP), is concerned with best practices of textual paraphrasing to prevent the non-consensual use of authors' posts on the Internet. Research on ID becomes important when authors' written online communication pertains to sensitive domains, e.g., mental health. Over time, researchers have utilized AI-based automated word spinners (e.g., SpinRewriter, WordAI) for paraphrasing content. However, these tools fail to satisfy the purpose of ID as their paraphrased content still leads to the source when queried on search engines. There is limited prior work on judging the effectiveness of paraphrasing methods for ID on search engines or their proxies, neural retriever (NeurIR) models. We propose a framework where, for a given sentence from an author's post, we perform iterative perturbation on the sentence in the direction of paraphrasing with an attempt to confuse the search mechanism of a NeurIR system when the sentence is queried on it. Our experiments involve the subreddit 'r/AmItheAsshole' as the source of public content and Dense Passage Retriever as a NeurIR system-based proxy for search engines. Our work introduces a novel method of phrase-importance rankings using perplexity scores and involves multi-level phrase substitutions via beam search. Our multi-phrase substitution scheme succeeds in disguising sentences 82% of the time and hence takes an essential step towards enabling researchers to disguise sensitive content effectively before making it public. We also release the code of our approach. | 翻訳日:2023-11-10 16:42:34 公開日:2023-11-08 |
# Rust for Embedded Systems - 現状,課題,オープンな問題 Rust for Embedded Systems: Current State, Challenges and Open Problems ( http://arxiv.org/abs/2311.05063v1 ) ライセンス: Link先を確認 | Ayushi Sharma, Shashank Sharma, Santiago Torres-Arias, Aravind Machiry | (参考訳) 組み込みソフトウェアは医療機器や自動運転車などの安全クリティカルなシステムで使用されており、セキュリティの脆弱性を含むソフトウェアの欠陥が深刻な結果をもたらす。
ほとんどの組み込みコードベースは安全でない言語、特にC/C++で開発されており、メモリ安全性の脆弱性が取り除かれている。
このような脆弱性を避けるため、パフォーマンスの高いメモリセーフなシステム言語であるRUSTは組み込みソフトウェアを開発する上で最適な選択肢を提供する。
RUSTの相互運用性により、既存のCコードベース上でRUSTアプリケーションを開発できる。
それにもかかわらず、最もリソースの多い組織でさえ、C/C++で組み込みソフトウェアを開発し続けている。
本稿では,組込みシステムにおけるrustの利用の現状と課題を体系的に理解する最初の研究を行う。
私たちの研究は3つの研究課題にまたがっている。
さまざまなカテゴリにまたがる2,836のRUST組込みソフトウェアと5つの静的アプリケーションセキュリティテスト(SAST)ツールのデータセットを収集しました。
私たちは225人の開発者を対象に,データセットの系統的分析と調査を実施しました。
既存のRUSTソフトウェアサポートが不十分であること、SASTツールがRUST組み込みソフトウェアの特定の機能に対応できないこと、そして既存のRUSTソフトウェアにおける高度な型の導入が、相互運用可能なコードのエンジニアリングを困難にしていることを発見した。
さらに、組み込みシステム開発にrustを使用する開発者が直面するさまざまな課題も見つけました。 Embedded software is used in safety-critical systems such as medical devices and autonomous vehicles, where software defects, including security vulnerabilities, have severe consequences. Most embedded codebases are developed in unsafe languages, specifically C/C++, and are riddled with memory safety vulnerabilities. To prevent such vulnerabilities, RUST, a performant memory-safe systems language, provides an optimal choice for developing embedded software. RUST interoperability enables developing RUST applications on top of existing C codebases. Despite this, even the most resourceful organizations continue to develop embedded software in C/C++. This paper performs the first systematic study to holistically understand the current state and challenges of using RUST for embedded systems. Our study is organized across three research questions. We collected a dataset of 2,836 RUST embedded software spanning various categories and 5 Static Application Security Testing ( SAST) tools. We performed a systematic analysis of our dataset and surveys with 225 developers to investigate our research questions. We found that existing RUST software support is inadequate, SAST tools cannot handle certain features of RUST embedded software, resulting in failures, and the prevalence of advanced types in existing RUST software makes it challenging to engineer interoperable code. In addition, we found various challenges faced by developers in using RUST for embedded systems development. | 翻訳日:2023-11-10 16:31:45 公開日:2023-11-08 |
# 低次元学習ダイナミクスによる過パラメータ深層モデルの効率的な圧縮 Efficient Compression of Overparameterized Deep Models through Low-Dimensional Learning Dynamics ( http://arxiv.org/abs/2311.05061v1 ) ライセンス: Link先を確認 | Soo Min Kwon, Zekai Zhang, Dogyoon Song, Laura Balzano, Qing Qu | (参考訳) オーバーパラメータモデルは、さまざまな機械学習タスクを解決する強力なツールであることが証明されている。
しかし、過パラメータ化はしばしば計算とメモリのコストを大幅に増加させ、訓練には膨大なリソースを必要とする。
本研究は,過パラメータ化深層ネットワークの学習力学を研究することにより,この複雑性を低減することを目的とする。
学習力学を広範に研究することにより、様々なアーキテクチャの重み行列が低次元構造を示すことを明らかにした。
この発見は、トレーニングを小さな部分空間に縮小することで、ネットワークを圧縮できることを意味する。
我々はディープ・リニア・モデルを研究することによってディープ・ネットワークを圧縮する原理的な手法を開発する。
深部線形モデルの主成分は漸進的だが小さな部分空間内に収まることを実証し、これらの知見を用いて中間層の幅を小さくすることで深部線形ネットワークを圧縮する。
注目すべきは、特定の初期化の選択により、圧縮されたネットワークは元のネットワークよりも高速に収束し、勾配降下の繰り返しを通してより小さな回復誤差が生じることである。
我々は,深層行列分解問題に焦点をあてた理論を開発し,深層行列センシングに関する経験的評価を行うことで,この観測を実証する。
最後に,我々の圧縮モデルが深い非線形モデルの有用性をいかに高めるかを示す。
全体として,我々の圧縮技術はモデル品質を損なうことなく,トレーニングプロセスを2倍以上に高速化する。 Overparameterized models have proven to be powerful tools for solving various machine learning tasks. However, overparameterization often leads to a substantial increase in computational and memory costs, which in turn requires extensive resources to train. In this work, we aim to reduce this complexity by studying the learning dynamics of overparameterized deep networks. By extensively studying its learning dynamics, we unveil that the weight matrices of various architectures exhibit a low-dimensional structure. This finding implies that we can compress the networks by reducing the training to a small subspace. We take a step in developing a principled approach for compressing deep networks by studying deep linear models. We demonstrate that the principal components of deep linear models are fitted incrementally but within a small subspace, and use these insights to compress deep linear networks by decreasing the width of its intermediate layers. Remarkably, we observe that with a particular choice of initialization, the compressed network converges faster than the original network, consistently yielding smaller recovery errors throughout all iterations of gradient descent. We substantiate this observation by developing a theory focused on the deep matrix factorization problem, and by conducting empirical evaluations on deep matrix sensing. Finally, we demonstrate how our compressed model can enhance the utility of deep nonlinear models. Overall, we observe that our compression technique accelerates the training process by more than 2x, without compromising model quality. | 翻訳日:2023-11-10 16:31:22 公開日:2023-11-08 |
# 並列収縮量子固有解法からの励起状態の量子シミュレーション Quantum simulation of excited states from parallel contracted quantum eigensolvers ( http://arxiv.org/abs/2311.05058v1 ) ライセンス: Link先を確認 | Carlos L. Benavides-Riveros, Yuchen Wang, Samuel Warren and David A. Mazziotti | (参考訳) 分子と固体の励起状態特性の計算は、量子コンピュータの最も重要な短期的応用の1つである。
現在の励起状態量子アルゴリズムの多くは、回路アーキテクチャ、量子アドバンテージの具体的利用、あるいは結果品質で異なるが、一般的な特徴はシュル=オディンガー方程式の根源である。
しかし、固有値方程式を収縮(あるいは投影)することで、より効率的な戦略を短期量子デバイス向けに設計することができる。
ここでは、混合量子状態に対するレイリー・リッツ変分原理と組み合わせることで、基底状態縮約量子固有解法(cqe)を一般化し、任意の数の量子固有状態を同時に計算できることを示す。
本稿では,その拡張性など,元の基底状態バージョンの特徴の多くを継承しつつ,励起状態計算を行う2つの励起状態(反エルミタン)CQEを紹介する。
このアプローチを紹介するために,いくつかのモデルおよび化学ハミルトニアンを研究し,異なる実装の性能について検討した。 Computing excited-state properties of molecules and solids is considered one of the most important near-term applications of quantum computers. While many of the current excited-state quantum algorithms differ in circuit architecture, specific exploitation of quantum advantage, or result quality, one common feature is their rooting in the Schr\"odinger equation. However, through contracting (or projecting) the eigenvalue equation, more efficient strategies can be designed for near-term quantum devices. Here we demonstrate that when combined with the Rayleigh-Ritz variational principle for mixed quantum states, the ground-state contracted quantum eigensolver (CQE) can be generalized to compute any number of quantum eigenstates simultaneously. We introduce two excited-state (anti-Hermitian) CQEs that perform the excited-state calculation while inheriting many of the remarkable features of the original ground-state version of the algorithm, such as its scalability. To showcase our approach, we study several model and chemical Hamiltonians and investigate the performance of different implementations. | 翻訳日:2023-11-10 16:30:57 公開日:2023-11-08 |
# 幾何キャリブレーションDRO:自由エネルギー含意によるオーバープシミズム Geometry-Calibrated DRO: Combating Over-Pessimism with Free Energy Implications ( http://arxiv.org/abs/2311.05054v1 ) ライセンス: Link先を確認 | Jiashuo Liu, Jiayun Wu, Tianyu Wang, Hao Zou, Bo Li, Peng Cui | (参考訳) 平均リスクを最小化する機械学習アルゴリズムは、分布シフトの影響を受けやすい。
分散ロバスト最適化(DRO)は不確実性セット内の最悪のリスクを最適化することでこの問題に対処する。
しかし、DROは過ペシミズムに悩まされ、信頼性の低い予測、パラメータ推定の低さ、一般化の低さにつながる。
本研究では,過ペシミズムの根本原因を理論的に解析する。
ノイズの影響を軽減するため、DROのキャリブレーション項にデータジオメトリを組み込むことで、新しい回帰法であるGeometry-Calibrated DRO(GCDRO)を導出する。
我々は統計物理学における我々のリスク目標とヘルムホルツ自由エネルギーの関係を確立し、この自由エネルギーに基づくリスクは標準dro法に拡張できる。
ワッサーシュタイン空間の勾配流を利用して,境界誤差比を持つ近似ミニマックス最適化アルゴリズムを開発し,提案手法がノイズのあるサンプル効果を緩和する方法を解明する。
総合実験により、従来のDRO法よりもGCDROの方が優れていることが確認された。 Machine learning algorithms minimizing average risk are susceptible to distributional shifts. Distributionally Robust Optimization (DRO) addresses this issue by optimizing the worst-case risk within an uncertainty set. However, DRO suffers from over-pessimism, leading to low-confidence predictions, poor parameter estimations as well as poor generalization. In this work, we conduct a theoretical analysis of a probable root cause of over-pessimism: excessive focus on noisy samples. To alleviate the impact of noise, we incorporate data geometry into calibration terms in DRO, resulting in our novel Geometry-Calibrated DRO (GCDRO) for regression. We establish the connection between our risk objective and the Helmholtz free energy in statistical physics, and this free-energy-based risk can extend to standard DRO methods. Leveraging gradient flow in Wasserstein space, we develop an approximate minimax optimization algorithm with a bounded error ratio and elucidate how our approach mitigates noisy sample effects. Comprehensive experiments confirm GCDRO's superiority over conventional DRO methods. | 翻訳日:2023-11-10 16:30:37 公開日:2023-11-08 |
# ABSAPT 2022のディープラーニングブラジル: ポルトガルのトランスフォーマーアンサンブルアプローチ Deep Learning Brasil at ABSAPT 2022: Portuguese Transformer Ensemble Approaches ( http://arxiv.org/abs/2311.05051v1 ) ライセンス: Link先を確認 | Juliana Resplande Santanna Gomes, Eduardo Augusto Santos Garcia, Adalberto Ferreira Barbosa Junior, Ruan Chaves Rodrigues, Diogo Fernandes Costa Silva, Dyonnatan Ferreira Maia, N\'adia F\'elix Felipe da Silva, Arlindo Rodrigues Galv\~ao Filho and Anderson da Silva Soares | (参考訳) アスペクトベース感性分析(Aspect-based Sentiment Analysis、ABSA)は、アスペクトと呼ばれるすべてのエンティティの個人の感情極性を文で分類することを目的とするタスクである。
タスクは2つのサブタスクから構成される: アスペクト項抽出(ATE)、文中のすべてのアスペクト項の識別、およびセンチメント指向抽出(SOE)、文とそのアスペクト項が与えられた場合、そのタスクは各アスペクト項(正、負、中性)の感情極性を決定することである。
本稿では,IberleF 2022におけるAspect-Based Sentiment Analysis in Portuguese (ABSAPT) 2022への参加について述べる。
両サブタスクで最新の結果が得られるような,最高のパフォーマンスシステムを提案しました。 Aspect-based Sentiment Analysis (ABSA) is a task whose objective is to classify the individual sentiment polarity of all entities, called aspects, in a sentence. The task is composed of two subtasks: Aspect Term Extraction (ATE), identify all aspect terms in a sentence; and Sentiment Orientation Extraction (SOE), given a sentence and its aspect terms, the task is to determine the sentiment polarity of each aspect term (positive, negative or neutral). This article presents we present our participation in Aspect-Based Sentiment Analysis in Portuguese (ABSAPT) 2022 at IberLEF 2022. We submitted the best performing systems, achieving new state-of-the-art results on both subtasks. | 翻訳日:2023-11-10 16:30:17 公開日:2023-11-08 |
# トレーサブルトークン埋め込みを用いた逐次データの量子生成モデリング Quantum Generative Modeling of Sequential Data with Trainable Token Embedding ( http://arxiv.org/abs/2311.05050v1 ) ライセンス: Link先を確認 | Wanda Hou, Li Miao, Yi-Zhuang You | (参考訳) 生成モデルは、データの基礎となる確率分布を学習することを目的とした機械学習モデルのクラスである。
識別モデルとは異なり、生成モデルはデータ固有の構造をキャプチャーすることに集中し、元のデータに似た新しいサンプルを生成する。
量子物理学を用いて確率分布をモデル化する可能性を完全に活用するために、ボルンマシンとして知られる量子インスパイアされた生成モデルは、古典的および量子的データを行列積状態(MPS)フレームワーク上で学習する大きな進歩を示した。
抽出可能なログライク性,自己回帰性,マスクサンプリングをサポートし,教師なし学習タスクにおいて優れた性能を示す。
しかし、現在の研究の多くはMPSの表現力の向上に重点を置いており、それぞれのトークンを直接対応するテンソルインデックスで埋め込んでいる。
本研究では,MPSを同時に使用可能なトレーニング可能な量子計測演算子への埋め込み法を一般化する。
学習可能な組込みと組み合わせることで、生まれた機械はより良いパフォーマンスを示し、データセットからより深い相関関係を学べることを示しました。 Generative models are a class of machine learning models that aim to learn the underlying probability distribution of data. Unlike discriminative models, generative models focus on capturing the data's inherent structure, allowing them to generate new samples that resemble the original data. To fully exploit the potential of modeling probability distributions using quantum physics, a quantum-inspired generative model known as the Born machines have shown great advancements in learning classical and quantum data over matrix product state(MPS) framework. The Born machines support tractable log-likelihood, autoregressive and mask sampling, and have shown outstanding performance in various unsupervised learning tasks. However, much of the current research has been centered on improving the expressive power of MPS, predominantly embedding each token directly by a corresponding tensor index. In this study, we generalize the embedding method into trainable quantum measurement operators that can be simultaneously honed with MPS. Our study indicated that combined with trainable embedding, Born machines can exhibit better performance and learn deeper correlations from the dataset. | 翻訳日:2023-11-10 16:30:03 公開日:2023-11-08 |
# DeepLearningBrasil@LT-EDI-2023:ソーシャルメディアテキストにおける抑うつ検出のためのディープラーニング技術の探索 DeepLearningBrasil@LT-EDI-2023: Exploring Deep Learning Techniques for Detecting Depression in Social Media Text ( http://arxiv.org/abs/2311.05047v1 ) ライセンス: Link先を確認 | Eduardo Garcia, Juliana Gomes, Adalberto Barbosa J\'unior, Cardeque Borges, N\'adia da Silva | (参考訳) 本稿では,DepSign-LT-EDI@RANLP-2023の共有タスクにおける第1位を確保し,47.0%のマクロF1スコアと2.4%のメリットを達成した,私たちのチームであるDeepLearningBrasilの戦略を概説する。
課題は、ソーシャルメディアのテキストを「抑うつしない」、「緩やかに抑うつしている」、「常に抑うつしている」という3つの異なるレベルの抑うつに分類することであった。
ロベルタとデベルタのモデルの力を活用し、これらのデータをredditデータセットに事前トレーニングし、特にメンタルヘルス関連のredditコミュニティ(reddit)から収集し、ニュアンス化されたメンタルヘルスの談話に対する理解を深めた。
長文データに対処するために,開始点と終了点に焦点をあててコンテンツの本質を保ったトランケーション手法を用いた。
このモデルでは, サンプル重みを損失に組み込むことにより, 不均衡データに対して頑健であった。
クロスバリデーションとアンサンブル技術は、我々のkフォールドトレーニングモデルを組み合わせるために使われ、最適なソリューションを提供する。
付随するコードは透明性とさらなる開発のために利用できる。 In this paper, we delineate the strategy employed by our team, DeepLearningBrasil, which secured us the first place in the shared task DepSign-LT-EDI@RANLP-2023, achieving a 47.0% Macro F1-Score and a notable 2.4% advantage. The task was to classify social media texts into three distinct levels of depression - "not depressed," "moderately depressed," and "severely depressed." Leveraging the power of the RoBERTa and DeBERTa models, we further pre-trained them on a collected Reddit dataset, specifically curated from mental health-related Reddit's communities (Subreddits), leading to an enhanced understanding of nuanced mental health discourse. To address lengthy textual data, we used truncation techniques that retained the essence of the content by focusing on its beginnings and endings. Our model was robust against unbalanced data by incorporating sample weights into the loss. Cross-validation and ensemble techniques were then employed to combine our k-fold trained models, delivering an optimal solution. The accompanying code is made available for transparency and further development. | 翻訳日:2023-11-10 16:29:43 公開日:2023-11-08 |
# Neuroformer:脳データのためのマルチモーダルおよびマルチタスク生成準備 Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data ( http://arxiv.org/abs/2311.00136v3 ) ライセンス: Link先を確認 | Antonis Antoniades, Yiyi Yu, Joseph Canzano, William Wang, Spencer LaVere Smith | (参考訳) 最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータを自己回帰時空間生成問題に再編成した。
neuroformer(ニューロフォーマー)は、システムの神経科学におけるデータの複雑さを扱うために特別に設計されたマルチモーダル、マルチタスク生成前訓練トランスフォーマー(gpt)モデルである。
機能サイズと線形にスケールし、任意の数のモダリティを処理でき、振る舞いの予測のような下流タスクに適応できる。
最初にシミュレーションデータセットでニューロフォーマーを訓練したところ、シミュレーションされた神経回路の活動を正確に予測しただけでなく、方向を含む基礎となる神経回路接続を内在的に推測した。
神経反応をデコードするために事前訓練されたとき、モデルはほんの数ショットの微調整でマウスの振る舞いを予測し、モデルが明示的に監督することなく、神経表現自身から直接それを行う方法を学習し始めることを示唆した。
我々は,神経反応と行動に関する共同トレーニングが,モデルが非教師的方法で行動表現と神経表現を関連付ける能力を高めることを示すために,アブレーション研究を使用した。
これらの結果は、ニューロフォーマーが神経データセットとその創発的特性を分析し、脳に関連するモデルや仮説の発達を知らせることができることを示している。 State-of-the-art systems neuroscience experiments yield large-scale multimodal data, and these data sets require new tools for analysis. Inspired by the success of large pretrained models in vision and language domains, we reframe the analysis of large-scale, cellular-resolution neuronal spiking data into an autoregressive spatiotemporal generation problem. Neuroformer is a multimodal, multitask generative pretrained transformer (GPT) model that is specifically designed to handle the intricacies of data in systems neuroscience. It scales linearly with feature size, can process an arbitrary number of modalities, and is adaptable to downstream tasks, such as predicting behavior. We first trained Neuroformer on simulated datasets, and found that it both accurately predicted simulated neuronal circuit activity, and also intrinsically inferred the underlying neural circuit connectivity, including direction. When pretrained to decode neural responses, the model predicted the behavior of a mouse with only few-shot fine-tuning, suggesting that the model begins learning how to do so directly from the neural representations themselves, without any explicit supervision. We used an ablation study to show that joint training on neuronal responses and behavior boosted performance, highlighting the model's ability to associate behavioral and neural representations in an unsupervised manner. These findings show that Neuroformer can analyze neural datasets and their emergent properties, informing the development of models and hypotheses associated with the brain. | 翻訳日:2023-11-10 12:09:36 公開日:2023-11-08 |
# ロバストカーネル密度推定を用いたロバスト変圧器の設計 Designing Robust Transformers using Robust Kernel Density Estimation ( http://arxiv.org/abs/2210.05794v3 ) ライセンス: Link先を確認 | Xing Han and Tongzheng Ren and Tan Minh Nguyen and Khai Nguyen and Joydeep Ghosh and Nhat Ho | (参考訳) トランスフォーマーアーキテクチャの最近の進歩は、さまざまなドメインにわたるさまざまなタスクで経験的な成功を収めた。
しかし、既存の研究は主に予測精度と計算コストに重点を置いており、汚染されたサンプルに対する堅牢性など他の実践的な問題も考慮していない。
Nguyenらによる最近の研究 (2022) により、トランスフォーマーアーキテクチャの中心である自己アテンション機構は、カーネル密度推定(KDE)に基づく非パラメトリック推定器として見ることができることが示されている。
これは、データ汚染の問題を緩和するために、堅牢なカーネル密度推定手法のセットを活用する動機となっている。
具体的には、様々なトランスフォーマーアーキテクチャに組み込むことのできる一連の自己着脱機構を導入し、各メソッドの特殊特性について論じる。
次に、言語モデリングおよび画像分類タスクに関する広範な実証研究を行う。
提案手法は,クリーンデータセット上での競合結果を維持しつつ,複数のシナリオで堅牢な性能を示す。 Recent advances in Transformer architectures have empowered their empirical success in a variety of tasks across different domains. However, existing works mainly focus on predictive accuracy and computational cost, without considering other practical issues, such as robustness to contaminated samples. Recent work by Nguyen et al., (2022) has shown that the self-attention mechanism, which is the center of the Transformer architecture, can be viewed as a non-parametric estimator based on kernel density estimation (KDE). This motivates us to leverage a set of robust kernel density estimation methods for alleviating the issue of data contamination. Specifically, we introduce a series of self-attention mechanisms that can be incorporated into different Transformer architectures and discuss the special properties of each method. We then perform extensive empirical studies on language modeling and image classification tasks. Our methods demonstrate robust performance in multiple scenarios while maintaining competitive results on clean datasets. | 翻訳日:2023-11-09 20:55:41 公開日:2023-11-08 |
# CCMB:中国の大規模クロスモーダルベンチマーク CCMB: A Large-scale Chinese Cross-modal Benchmark ( http://arxiv.org/abs/2205.03860v6 ) ライセンス: Link先を確認 | Chunyu Xie, Heng Cai, Jincheng Li, Fanjing Kong, Xiaoyu Wu, Jianfei Song, Henrique Morimitsu, Lin Yao, Dexin Wang, Xiangzheng Zhang, Dawei Leng, Baochang Zhang, Xiangyang Ji, Yafeng Deng | (参考訳) 大規模データセット上での視覚言語事前学習(VLP)は、さまざまな下流タスクで顕著なパフォーマンスを示している。
英語コーパスによる多くのベンチマークとは対照的に、大規模な事前学習データセットと中国語コーパスによる下流データセットはほとんど探索されていない。
本研究では,現在最大規模の公開事前学習データセットであるZeroと,ダウンストリームタスクのための5つの人手による微調整データセットを含む,大規模で高品質な中国のクロスモーダルベンチマークであるCCMBを構築した。
zeroには7億5000万のテキスト記述とペアリングされた2億5000万の画像が含まれており、また5つの微調整データセットのうち2つは、現在中国のクロスモーダルダウンストリームタスクで最大である。
また, CCMBとともにR2D2というVLPフレームワークを開発し, 強力な視覚言語表現を学習するための事前学習+ランク付け戦略と, 学習能力を高めるための双方向蒸留法(ターゲット誘導蒸留, 特徴誘導蒸留)を適用した。
ZeroとR2D2 VLPフレームワークを用いて、画像テキスト検索、画像テキストマッチング、画像キャプション、テキスト・ツー・イメージ生成、ゼロショット画像分類を含む5つのタスクから、12のダウンストリームデータセットの最先端性能を実現する。
データセット、モデル、コードはhttps://github.com/yuxie11/r2d2で入手できる。 Vision-language pre-training (VLP) on large-scale datasets has shown premier performance on various downstream tasks. In contrast to plenty of available benchmarks with English corpus, large-scale pre-training datasets and downstream datasets with Chinese corpus remain largely unexplored. In this work, we build a large-scale high-quality Chinese Cross-Modal Benchmark named CCMB for the research community, which contains the currently largest public pre-training dataset Zero and five human-annotated fine-tuning datasets for downstream tasks. Zero contains 250 million images paired with 750 million text descriptions, plus two of the five fine-tuning datasets are also currently the largest ones for Chinese cross-modal downstream tasks. Along with the CCMB, we also develop a VLP framework named R2D2, applying a pre-Ranking + Ranking strategy to learn powerful vision-language representations and a two-way distillation method (i.e., target-guided Distillation and feature-guided Distillation) to further enhance the learning capability. With the Zero and the R2D2 VLP framework, we achieve state-of-the-art performance on twelve downstream datasets from five broad categories of tasks including image-text retrieval, image-text matching, image caption, text-to-image generation, and zero-shot image classification. The datasets, models, and codes are available at https://github.com/yuxie11/R2D2 | 翻訳日:2023-11-09 20:55:25 公開日:2023-11-08 |
# 計算シミュレーションのための患者画像から全心メッシュ生成を学習する Learning Whole Heart Mesh Generation From Patient Images For Computational Simulations ( http://arxiv.org/abs/2203.10517v2 ) ライセンス: Link先を確認 | Fanwei Kong, Shawn Shadden | (参考訳) 患者固有の心臓モデリングは、医療画像から得られた心臓のジオメトリーと生体物理シミュレーションを組み合わせて、心臓機能の様々な側面を予測する。
しかし、患者画像データから心臓のシミュレーションに適したモデルを生成するには、しばしば複雑な手順と重要な人間の努力が必要となる。
医用画像から心臓のシミュレーションに適したモデルを構築するための高速かつ自動化されたディープラーニング手法を提案する。
このアプローチは、心臓テンプレート全体の変形ハンドルの小さなセットを変形させることで、3d患者画像からのメッシュを構築する。
3次元CTとMRデータの両方において,本手法は心のシミュレーションに適したメッシュ構築における先行手法より一貫して優れ,心全体の再構築に有望な精度を達成する。
時系列CTデータを用いて評価すると, 従来の方法よりも解剖学的, 時間的整合性のあるジオメトリが得られ, 心臓血流シミュレーションのモデリング要求を満足するジオメトリが得られた。
私たちのソースコードとトレーニング済みネットワークは、https://github.com/fkong7/heartdeformnetsで利用可能です。 Patient-specific cardiac modeling combines geometries of the heart derived from medical images and biophysical simulations to predict various aspects of cardiac function. However, generating simulation-suitable models of the heart from patient image data often requires complicated procedures and significant human effort. We present a fast and automated deep-learning method to construct simulation-suitable models of the heart from medical images. The approach constructs meshes from 3D patient images by learning to deform a small set of deformation handles on a whole heart template. For both 3D CT and MR data, this method achieves promising accuracy for whole heart reconstruction, consistently outperforming prior methods in constructing simulation-suitable meshes of the heart. When evaluated on time-series CT data, this method produced more anatomically and temporally consistent geometries than prior methods, and was able to produce geometries that better satisfy modeling requirements for cardiac flow simulations. Our source code and pretrained networks are available at https://github.com/fkong7/HeartDeformNets. | 翻訳日:2023-11-09 20:54:31 公開日:2023-11-08 |
# sandplay画像における分割意味検出 Split Semantic Detection in Sandplay Images ( http://arxiv.org/abs/2203.00907v3 ) ライセンス: Link先を確認 | Xiaokun Feng, Xiaotang Chen, Jian Jia, Kaiqi Huang | (参考訳) サンドプレイイメージ(サンドプレイイメージ、英: sandplay image)は、重要な精神分析キャリアとして、顧客が砂の物体(例えば、砂、川、人格、動物、植生、建物など)を選択し配置する視覚シーンである。
クライアントの内部世界を投影するものとして、クライアントの主観的な心理状態を反映した高レベルな意味情報を含んでいるが、これは客観的な基本的な意味(例えば、オブジェクトの名前、属性、バウンディングボックスなど)のみを含む共通の自然画像シーンとは異なる。
本研究では,多くの感情的・人格的問題に関連する典型的な心理的意味論であるスプリット(split)を研究目標とし,時間とコストのかかる手動分析プロセスを置き換える自動検出モデルを提案する。
これを実現するために,視覚問題に意味判断問題を投影する分布地図生成法と,分割意味論の表現を良好に表現できる特徴次元縮小抽出アルゴリズムを考案する。
さらに、各クライアントから1つのサンプルを収集し、5人のセラピストに各サンプルにラベルを付けることで、大きなデータコストを持つサンドプレイデータセットを構築しました。
実験の結果,提案手法の有効性が示された。 Sandplay image, as an important psychoanalysis carrier, is a visual scene constructed by the client selecting and placing sand objects (e.g., sand, river, human figures, animals, vegetation, buildings, etc.). As the projection of the client's inner world, it contains high-level semantic information reflecting the client's subjective psychological states, which is different from the common natural image scene that only contains the objective basic semantics (e.g., object's name, attribute, bounding box, etc.). In this work, we take "split" which is a typical psychological semantics related to many emotional and personality problems as the research goal, and we propose an automatic detection model, which can replace the time-consuming and expensive manual analysis process. To achieve that, we design a distribution map generation method projecting the semantic judgment problem into a visual problem, and a feature dimensionality reduction and extraction algorithm which can provide a good representation of split semantics. Besides, we built a sandplay datasets by collecting one sample from each client and inviting 5 therapists to label each sample, which has a large data cost. Experimental results demonstrated the effectiveness of our proposed method. | 翻訳日:2023-11-09 20:54:13 公開日:2023-11-08 |
# データ分裂:単一のデータポイントを分割する Data fission: splitting a single data point ( http://arxiv.org/abs/2112.11079v8 ) ライセンス: Link先を確認 | James Leiner, Boyan Duan, Larry Wasserman, Aaditya Ramdas | (参考訳) 未知のパラメータを持つ既知の族において、ある分布からランダムベクトル $x$ を観測すると仮定する。
いずれの場合、$x$を2つの部分に分けて$f(x)$と$g(x)$に分割することは可能で、どちらの部分も$x$をそれ自体で再構築するには十分ではありませんが、どちらも$x$を完全に回収することができ、$(f(x),g(x))$のジョイントディストリビューションは扱いやすいのでしょうか?
例えば、$X=(X_1,\dots,X_n)$と$P$が積分布であれば、任意の$m<n$に対して、サンプルを$f(X)=(X_1,\dots,X_m)$と$g(X)=(X_{m+1},\dots,X_n)$に分割することができる。
Rasines and Young (2022) は、ガウス分布データに対する有限標本および非ガウス加法モデルに対する漸近的に選択後の推論を可能にする加法的ガウス雑音による$X$のランダム化を通じて、このタスクを達成する代替ルートを提供する。
本稿では,ベイズ推論からアイデアを借用して,データ分割の連続的類似物と見なすことのできる(相対論的)解を得る,有限サンプルの分割を実現するためのより一般的な手法を提案する。
我々は、データ分割、データ彫刻、p値マスキングに代わる方法として、メソッドデータフィッションと呼ぶ。
トレンドフィルタリングやその他の回帰問題に対するポストセレクション推論など,いくつかのプロトタイプアプリケーション上での手法を例示する。 Suppose we observe a random vector $X$ from some distribution $P$ in a known family with unknown parameters. We ask the following question: when is it possible to split $X$ into two parts $f(X)$ and $g(X)$ such that neither part is sufficient to reconstruct $X$ by itself, but both together can recover $X$ fully, and the joint distribution of $(f(X),g(X))$ is tractable? As one example, if $X=(X_1,\dots,X_n)$ and $P$ is a product distribution, then for any $m<n$, we can split the sample to define $f(X)=(X_1,\dots,X_m)$ and $g(X)=(X_{m+1},\dots,X_n)$. Rasines and Young (2022) offers an alternative route of accomplishing this task through randomization of $X$ with additive Gaussian noise which enables post-selection inference in finite samples for Gaussian distributed data and asymptotically for non-Gaussian additive models. In this paper, we offer a more general methodology for achieving such a split in finite samples by borrowing ideas from Bayesian inference to yield a (frequentist) solution that can be viewed as a continuous analog of data splitting. We call our method data fission, as an alternative to data splitting, data carving and p-value masking. We exemplify the method on a few prototypical applications, such as post-selection inference for trend filtering and other regression problems. | 翻訳日:2023-11-09 20:53:52 公開日:2023-11-08 |
# ニューラルNLIにおける自然論理推論の分解 Decomposing Natural Logic Inferences in Neural NLI ( http://arxiv.org/abs/2112.08289v2 ) ライセンス: Link先を確認 | Julia Rozanova, Deborah Ferreira, Marco Valentino, Mokanrarangan Thayaparan, Andre Freitas | (参考訳) ニューラルNLIモデルとその推論戦略の解釈に関心を寄せ、これらのモデルが自然論理の中心となる重要な意味的特徴(単調性と概念包摂性)を捉えているかどうかを調査する。
下向き単調な文脈における妥当な推論を正しく特定することは、否定範囲や一般化量化器といった言語現象を仮定して、NLIのパフォーマンスの揺らぎとして知られている。
この難しさを理解するため,我々は,文脈の性質としてモノトニック性を強調し,意思決定プロセスに中間の文脈埋め込みにおいて,モデルがモノトニック性情報を取得する程度を検討する。
調査パラダイムの最近の進歩をふまえて,様々なモデルにまたがる単調性特徴の比較を行った。
ベンチマークで高いスコアを得るNLIモデルの表現において、単調性情報は顕著に弱く、微調整戦略に基づくこれらのモデルに対する以前の改良は、より強力な単調性機能を導入し、課題セットの性能を改善した。 In the interest of interpreting neural NLI models and their reasoning strategies, we carry out a systematic probing study which investigates whether these models capture the crucial semantic features central to natural logic: monotonicity and concept inclusion. Correctly identifying valid inferences in downward-monotone contexts is a known stumbling block for NLI performance, subsuming linguistic phenomena such as negation scope and generalized quantifiers. To understand this difficulty, we emphasize monotonicity as a property of a context and examine the extent to which models capture monotonicity information in the contextual embeddings which are intermediate to their decision making process. Drawing on the recent advancement of the probing paradigm, we compare the presence of monotonicity features across various models. We find that monotonicity information is notably weak in the representations of popular NLI models which achieve high scores on benchmarks, and observe that previous improvements to these models based on fine-tuning strategies have introduced stronger monotonicity features together with their improved performance on challenge sets. | 翻訳日:2023-11-09 20:53:16 公開日:2023-11-08 |
# 平滑な粒子流体力学を用いた物理情報機械学習:ラグランジアン乱流モデルの階層化 Physics informed machine learning with Smoothed Particle Hydrodynamics: Hierarchy of reduced Lagrangian models of turbulence ( http://arxiv.org/abs/2110.13311v7 ) ライセンス: Link先を確認 | Michael Woodward, Yifeng Tian, Criston Hyett, Chris Fryer, Daniel Livescu, Mikhail Stepanov, Michael Chertkov | (参考訳) 発達した乱流の効率的で正確で一般化可能な縮小秩序モデルの構築は大きな課題である。
本論文は,乱流に対するパラメータ化還元ラグランジアンモデルの階層化によってこの問題にアプローチし,Smoothed Particledynamicdynamics (SPH) による物理構造強化の効果と,ニューラルネットワーク(NN) を普遍関数近似器として利用することによる影響を考察する。
ラグランジアン加速作用素のニューラルネットワーク(NN)パラメータ化から始めると、モデルのこの階層は徐々に弱い圧縮性とパラメータ化のSPHフレームワークを取り入れ、ガリレオ、回転、変換不変性などの物理対称性を強制する。
この階層内では、学習可能なSPHシミュレータの柔軟性を高めるために、2つの新しいパラメータ化平滑化カーネルが開発された。
各モデルに対して、勾配に基づく最適化を用いて最小限の損失関数を実験し、自動微分 (AD) と感度解析 (SA) を用いて勾配の効率的な計算を求める。
階層内の各モデルは,(1)弱圧縮性sphを用いた検証セット,(2)直接数値シミュレーション(dns)による高忠実度セットという,週次圧縮性等方性乱流(hit)に関連する2つのデータセットで訓練される。
数値的な証拠は、より多くのSPH構造を符号化することで、異なる乱流マッハ数や時間シフトへの一般化性が向上し、新しいパラメータ化平滑化カーネルを含むと、解決スケールでのSPHの精度が向上することを示している。 Building efficient, accurate and generalizable reduced order models of developed turbulence remains a major challenge. This manuscript approaches this problem by developing a hierarchy of parameterized reduced Lagrangian models for turbulent flows, and investigates the effects of enforcing physical structure through Smoothed Particle Hydrodynamics (SPH) versus relying on neural networks (NN)s as universal function approximators. Starting from Neural Network (NN) parameterizations of a Lagrangian acceleration operator, this hierarchy of models gradually incorporates a weakly compressible and parameterized SPH framework, which enforces physical symmetries, such as Galilean, rotational and translational invariances. Within this hierarchy, two new parameterized smoothing kernels are developed in order to increase the flexibility of the learn-able SPH simulators. For each model we experiment with different loss functions which are minimized using gradient based optimization, where efficient computations of gradients are obtained by using Automatic Differentiation (AD) and Sensitivity Analysis (SA). Each model within the hierarchy is trained on two data sets associated with weekly compressible Homogeneous Isotropic Turbulence (HIT): (1) a validation set using weakly compressible SPH; and (2) a high fidelity set from Direct Numerical Simulations (DNS). Numerical evidence shows that encoding more SPH structure improves generalizability to different turbulent Mach numbers and time shifts, and that including the novel parameterized smoothing kernels improves the accuracy of SPH at the resolved scales. | 翻訳日:2023-11-09 20:52:57 公開日:2023-11-08 |
# 混合量子ビット状態の最小誤差弁別に対する幾何学的ブロッホベクトル解 Geometric Bloch Vector Solution to Minimum Error Discriminations of Mixed Qubit States ( http://arxiv.org/abs/2108.12299v5 ) ライセンス: Link先を確認 | Mahdi Rouhbakhsh N. and Seyed Arash Ghoreishi | (参考訳) 混合量子ビット状態の最小誤差(ME)判別を幾何学的手法を用いて検討する。
正の演算子値測度(POVM)を解析し、ラグランジュ演算子$\Gamma$を導入することにより、混合量子ビット状態に対して$\Gamma$を求める4段階構造命令を開発する。
提案手法は,4つの量子ビット状態に対する新しい結果を含む2,3,4つの混合量子ビット状態に対する最適解を網羅する。
最適解を構成するための幾何ベースのPOVMクラスと非分解不能なサブセットを導入し、任意の a priori 確率を持つ混合量子ビット状態に対して、最小エラー判別の一般的な問題に対する全ての可能な解を見つけることができる。 We investigate minimum-error (ME) discrimination for mixed qubit states using a geometric approach. By analyzing positive operator-valued measure (POVM) solutions and introducing Lagrange operator $\Gamma$, we develop a four-step structured instruction to find $\Gamma$ for $N$ mixed qubit states. Our method covers optimal solutions for two, three, and four mixed qubit states, including a novel result for four qubit states. We introduce geometric-based POVM classes and non-decomposable subsets for constructing optimal solutions, enabling us to find all possible answers for the general problem of minimum-error discrimination for $N$ mixed qubit states with arbitrary a priori probabilities. | 翻訳日:2023-11-09 20:52:26 公開日:2023-11-08 |
# RoFormer: ロータリーポジション埋め込みを備えた拡張トランス RoFormer: Enhanced Transformer with Rotary Position Embedding ( http://arxiv.org/abs/2104.09864v5 ) ライセンス: Link先を確認 | Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu | (参考訳) 近年,トランスアーキテクチャにおいて位置符号化が有効であることが示されている。
シーケンスの異なる位置にある要素間の依存性モデリングのための貴重な監視を可能にする。
本稿ではまず,トランスフォーマーに基づく言語モデルの学習過程に位置情報を統合する様々な手法について検討する。
そこで本研究では,位置情報を効果的に活用するRotary Position Embedding(RoPE)を提案する。
具体的には、RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
特に、RoPEは、シーケンス長の柔軟性、相対距離の増大に伴うトークン間の依存性の減衰、相対位置エンコーディングによる線形自己アテンションの装備など、貴重な特性を実現する。
最後に,様々な長文分類ベンチマークデータセットにおけるロータリー位置埋め込みによる拡張トランスの評価を行った。
我々の実験は、その代替案を一貫して克服していることを示している。
さらに,実験結果を説明するための理論的解析を行った。
RoFormerはすでにHuggingfaceに統合されている。 \url{https://huggingface.co/docs/transformers/model_doc/roformer}。 Position encoding recently has shown effective in the transformer architecture. It enables valuable supervision for dependency modeling between elements at different positions of the sequence. In this paper, we first investigate various methods to integrate positional information into the learning process of transformer-based language models. Then, we propose a novel method named Rotary Position Embedding(RoPE) to effectively leverage the positional information. Specifically, the proposed RoPE encodes the absolute position with a rotation matrix and meanwhile incorporates the explicit relative position dependency in self-attention formulation. Notably, RoPE enables valuable properties, including the flexibility of sequence length, decaying inter-token dependency with increasing relative distances, and the capability of equipping the linear self-attention with relative position encoding. Finally, we evaluate the enhanced transformer with rotary position embedding, also called RoFormer, on various long text classification benchmark datasets. Our experiments show that it consistently overcomes its alternatives. Furthermore, we provide a theoretical analysis to explain some experimental results. RoFormer is already integrated into Huggingface: \url{https://huggingface.co/docs/transformers/model_doc/roformer}. | 翻訳日:2023-11-09 20:51:45 公開日:2023-11-08 |
# 機械学習モデルからの認定データ除去 Certified Data Removal from Machine Learning Models ( http://arxiv.org/abs/1911.03030v6 ) ライセンス: Link先を確認 | Chuan Guo, Tom Goldstein, Awni Hannun, Laurens van der Maaten | (参考訳) 優れたデータスチュワードは、データ所有者の要求でデータを削除する必要がある。
これにより、トレーニングデータに関する情報を暗黙的に格納するトレーニングされた機械学習モデルが、このような削除要求の影響を受けるべきかどうか、という疑問が提起される。
機械学習モデルからデータを"削除"することは可能か?
データを削除したモデルと、最初にデータを観測しなかったモデルとを区別できないという非常に強力な理論的保証である。
線形分類器の認証削除機構を開発し,この機構を実践する学習環境を実証的に学習する。 Good data stewardship requires removal of data at the request of the data's owner. This raises the question if and how a trained machine-learning model, which implicitly stores information about its training data, should be affected by such a removal request. Is it possible to "remove" data from a machine-learning model? We study this problem by defining certified removal: a very strong theoretical guarantee that a model from which data is removed cannot be distinguished from a model that never observed the data to begin with. We develop a certified-removal mechanism for linear classifiers and empirically study learning settings in which this mechanism is practical. | 翻訳日:2023-11-09 20:50:51 公開日:2023-11-08 |
# 量子アニールを用いた学習因子化機械推薦システムの開発 Implementation of Trained Factorization Machine Recommendation System on Quantum Annealer ( http://arxiv.org/abs/2210.12953v2 ) ライセンス: Link先を確認 | Chen-Yu Liu, Hsin-Yu Wang, Pei-Yen Liao, Ching-Jui Lai, Min-Hsiu Hsieh | (参考訳) 因子化マシン(FM)は、サイド情報を組み込んで性能を向上させるため、推奨システムを構築するのに最もよく使われるモデルである。
しかし、訓練されたFMを持つユーザに対してアイテム提案を作成するのに時間を要する。
ランタイムは$O((N_m \log N_m)^2)$で、$N_m$はデータセットの項目数である。
この問題に対処するために、FMと組み合わせて量子アニーリング(QA)計算を適用する2次非制約バイナリ最適化(QUBO)方式を提案する。
従来の手法と比較して、このハイブリッドアルゴリズムは良いユーザ提案を見つけるのに2次的なスピードアップよりも高速である。
次に、D-Waveアニーラーの実例を実験することにより、現在のNISQハードウェア上での計算上の優位性を実証する。 Factorization Machine (FM) is the most commonly used model to build a recommendation system since it can incorporate side information to improve performance. However, producing item suggestions for a given user with a trained FM is time-consuming. It requires a run-time of $O((N_m \log N_m)^2)$, where $N_m$ is the number of items in the dataset. To address this problem, we propose a quadratic unconstrained binary optimization (QUBO) scheme to combine with FM and apply quantum annealing (QA) computation. Compared to classical methods, this hybrid algorithm provides a faster than quadratic speedup in finding good user suggestions. We then demonstrate the aforementioned computational advantage on current NISQ hardware by experimenting with a real example on a D-Wave annealer. | 翻訳日:2023-11-09 20:43:27 公開日:2023-11-08 |
# モデル更新のタイミング:制約付きモデルベース強化学習 When to Update Your Model: Constrained Model-based Reinforcement Learning ( http://arxiv.org/abs/2210.08349v4 ) ライセンス: Link先を確認 | Tianying Ji, Yu Luo, Fuchun Sun, Mingxuan Jing, Fengxiang He, Wenbing Huang | (参考訳) 単調な改善が保証されたモデルベースRL(MBRL)アルゴリズムの設計と解析は、主にポリシー最適化とモデル学習の相互依存のために困難である。
既存の差分境界は一般的にモデルシフトの影響を無視し、対応するアルゴリズムは劇的なモデル更新によって性能を低下させる傾向がある。
本稿ではまず,MBRLの非劣化性能保証のための,新規で汎用的な理論スキームを提案する。
我々のフォローアップによる境界は、モデルシフトとパフォーマンス改善の関係を明らかにする。
これらの発見は、MBRLの単調性を保証するために制約付き下界最適化問題を定式化することを奨励する。
さらなる例では、動的に変動する数の探索からの学習モデルが結果のリターンに恩恵をもたらすことを示します。
これらの分析により,モデル更新のタイミングを柔軟に決定するイベントトリガー機構を導入することで,CMLO(Constrained Model-shift Lower-bound Optimization)を提案する。
実験により、CMLOは他の最先端の手法を超越し、様々なポリシー最適化手法が採用されている場合に向上することが示された。 Designing and analyzing model-based RL (MBRL) algorithms with guaranteed monotonic improvement has been challenging, mainly due to the interdependence between policy optimization and model learning. Existing discrepancy bounds generally ignore the impacts of model shifts, and their corresponding algorithms are prone to degrade performance by drastic model updating. In this work, we first propose a novel and general theoretical scheme for a non-decreasing performance guarantee of MBRL. Our follow-up derived bounds reveal the relationship between model shifts and performance improvement. These discoveries encourage us to formulate a constrained lower-bound optimization problem to permit the monotonicity of MBRL. A further example demonstrates that learning models from a dynamically-varying number of explorations benefit the eventual returns. Motivated by these analyses, we design a simple but effective algorithm CMLO (Constrained Model-shift Lower-bound Optimization), by introducing an event-triggered mechanism that flexibly determines when to update the model. Experiments show that CMLO surpasses other state-of-the-art methods and produces a boost when various policy optimization methods are employed. | 翻訳日:2023-11-09 20:42:45 公開日:2023-11-08 |
# 高速ブラックボックス変分推定のための共同制御変分法 Joint control variate for faster black-box variational inference ( http://arxiv.org/abs/2210.07290v3 ) ライセンス: Link先を確認 | Xi Wang, Tomas Geffner, Justin Domke | (参考訳) ブラックボックスの変分推論性能は、高ばらつきの勾配推定器の使用によって妨げられることがある。
このばらつきは、データサブサンプリングとモンテカルロサンプリングの2つのランダム性源から生じる。
既存の制御はモンテカルロノイズにのみ対応し、インクリメンタル勾配法は典型的にはデータサブサンプリングにのみ対応するが、新しい「ジョイント」制御は両ノイズ源からのばらつきを共同で低減する。
これにより勾配分散が大幅に減少し、いくつかのアプリケーションで最適化が高速化される。 Black-box variational inference performance is sometimes hindered by the use of gradient estimators with high variance. This variance comes from two sources of randomness: Data subsampling and Monte Carlo sampling. While existing control variates only address Monte Carlo noise, and incremental gradient methods typically only address data subsampling, we propose a new "joint" control variate that jointly reduces variance from both sources of noise. This significantly reduces gradient variance, leading to faster optimization in several applications. | 翻訳日:2023-11-09 20:42:26 公開日:2023-11-08 |
# 人間の実験から不規則な物体を詰め込む過程を学習するロボット Robotic Learning the Sequence of Packing Irregular Objects from Human Demonstrations ( http://arxiv.org/abs/2210.01645v2 ) ライセンス: Link先を確認 | Andr\'e Santos, Nuno Ferreira Duarte, Atabak Dehban, Jos\'e Santos-Victor | (参考訳) 我々は、食料品などの不規則な物でロボットビンを梱包するという課題に取り組む。
これらのオブジェクトの多様な物理的特性とそれらの配置と操作を管理する複雑な制約を考えると、事前にプログラムされた戦略を採用することは不可能になる。
我々のアプローチは、暗黙のタスク知識と戦略を抽出し、安全な物体の位置決め、空間の効率的な利用、そして人間-ロボットの信頼を高める人間のような行動を生み出すために、専門家によるデモンストレーションから直接学習することである。
我々は、マルコフ連鎖を学習するために人間のデモに頼り、与えられたアイテムのオブジェクトパッキングシーケンスを予測し、それを人間のパフォーマンスと比較する。
実験の結果,このモデルは,人間が生成したシーケンスよりも頻度が高いと分類するシーケンス予測を生成することにより,ヒトのパフォーマンスを上回っていることがわかった。
提案したVRプラットフォームであるBoxEDを用いて人体デモを収集した。実世界のオブジェクトをシミュレートするボックスパッケージ環境であり、ロボットに教える目的で、高速で合理化されたデータ収集のシナリオである。
43名の参加者から,合計263箱にスーパーのようなオブジェクトを詰め込み,4644個のオブジェクト操作を行った。
私たちのVRプラットフォームは、新しいシナリオやオブジェクトに簡単に適応することができ、データセットとともに、https://github.com/andrejfsantos4/BoxEDで公開されています。 We tackle the challenge of robotic bin packing with irregular objects, such as groceries. Given the diverse physical attributes of these objects and the complex constraints governing their placement and manipulation, employing preprogrammed strategies becomes unfeasible. Our approach is to learn directly from expert demonstrations in order to extract implicit task knowledge and strategies to ensure safe object positioning, efficient use of space, and the generation of human-like behaviors that enhance human-robot trust. We rely on human demonstrations to learn a Markov chain for predicting the object packing sequence for a given set of items and then compare it with human performance. Our experimental results show that the model outperforms human performance by generating sequence predictions that humans classify as human-like more frequently than human-generated sequences. The human demonstrations were collected using our proposed VR platform, BoxED, which is a box packaging environment for simulating real-world objects and scenarios for fast and streamlined data collection with the purpose of teaching robots. We collected data from 43 participants packing a total of 263 boxes with supermarket-like objects, yielding 4644 object manipulations. Our VR platform can be easily adapted to new scenarios and objects, and is publicly available, alongside our dataset, at https://github.com/andrejfsantos4/BoxED. | 翻訳日:2023-11-09 20:42:16 公開日:2023-11-08 |
# 樹木における相関検出の統計的限界 Statistical limits of correlation detection in trees ( http://arxiv.org/abs/2209.13723v2 ) ライセンス: Link先を確認 | Luca Ganassali, Laurent Massouli\'e, Guilhem Semerjian | (参考訳) 本稿では、2つの観測された木$(t,t')$が独立に、あるいは相関関係にある関節分布からサンプリングされるかどうかをテストする問題に対処する。
この問題は木における相関検出と呼ばれ、2つの相関ランダムグラフに対するグラフアライメントの研究において重要な役割を果たしている。
グラフアライメントによってモチベーションされた片側テスト,すなわち,木深の限界におけるI型誤差と非消滅力を有するテストの存在条件について検討する。
平均 $\lambda>0$ と相関パラメータ $s \in (0,1)$ のポアソン子と相関したガルトン・ワットソンモデルに対して、大きな次数制限の位相遷移を $s = \sqrt{\alpha}$ で同定する。
すなわち、そのようなテストが$s \leq \sqrt{\alpha}$ に対して存在せず、$s > \sqrt{\alpha}$, for $\lambda$ が十分大きいとき、そのようなテストが存在することが証明される。
この結果はスパース系におけるグラフアライメント問題(平均ノード次数$O(1))と、ガナサリら(2021年)、ピッコリら(2021年)で研究されたMPAlign法の性能に新たな光を当て、特に相関パラメータ$s>\sqrt{\alpha}$の平均ノード次数$\lambda$が十分大きいことを証明するPiccioli et al.(2021年)の予想を証明した。
副生成物として、ポアソン-ガルトン-ワトソン測度に対する新しい直交多項式の族を同定する。
これらの多項式はグラフアライメントの範囲を超えて、グラフ、木、分岐プロセスを含む様々な問題に対して独立した関心を持つかもしれない。 In this paper we address the problem of testing whether two observed trees $(t,t')$ are sampled either independently or from a joint distribution under which they are correlated. This problem, which we refer to as correlation detection in trees, plays a key role in the study of graph alignment for two correlated random graphs. Motivated by graph alignment, we investigate the conditions of existence of one-sided tests, i.e. tests which have vanishing type I error and non-vanishing power in the limit of large tree depth. For the correlated Galton-Watson model with Poisson offspring of mean $\lambda>0$ and correlation parameter $s \in (0,1)$, we identify a phase transition in the limit of large degrees at $s = \sqrt{\alpha}$, where $\alpha \sim 0.3383$ is Otter's constant. Namely, we prove that no such test exists for $s \leq \sqrt{\alpha}$, and that such a test exists whenever $s > \sqrt{\alpha}$, for $\lambda$ large enough. This result sheds new light on the graph alignment problem in the sparse regime (with $O(1)$ average node degrees) and on the performance of the MPAlign method studied in Ganassali et al. (2021), Piccioli et al. (2021), proving in particular the conjecture of Piccioli et al. (2021) that MPAlign succeeds in the partial recovery task for correlation parameter $s>\sqrt{\alpha}$ provided the average node degree $\lambda$ is large enough. As a byproduct, we identify a new family of orthogonal polynomials for the Poisson-Galton-Watson measure which enjoy remarkable properties. These polynomials may be of independent interest for a variety of problems involving graphs, trees or branching processes, beyond the scope of graph alignment. | 翻訳日:2023-11-09 20:41:49 公開日:2023-11-08 |
# ロボット3Dシーン理解のための大規模(ビジュアル)言語モデルの活用 Leveraging Large (Visual) Language Models for Robot 3D Scene Understanding ( http://arxiv.org/abs/2209.05629v2 ) ライセンス: Link先を確認 | William Chen, Siyi Hu, Rajat Talak, Luca Carlone | (参考訳) 抽象的セマンティック3Dシーン理解はロボット工学において重要な問題である。
ロボットは、平均的な人間の家や場所に関する常識的な知識をいまだに欠いているため、シーン理解のための常識を与えるために、事前学習言語モデルを用いて検討する。
言語のみ(ゼロショット、埋め込みベース、構造化言語)や視覚と言語(ゼロショット、微調整)を利用する広い範囲のシーン分類パラダイムを紹介し比較する。
両カテゴリの最良のアプローチは、純視覚およびグラフ分類器の性能を超越した、$\sim 70\%$室の分類精度が得られる。
また,そのような手法は,言語の使用による顕著な一般化と伝達能力を示す。 Abstract semantic 3D scene understanding is a problem of critical importance in robotics. As robots still lack the common-sense knowledge about household objects and locations of an average human, we investigate the use of pre-trained language models to impart common sense for scene understanding. We introduce and compare a wide range of scene classification paradigms that leverage language only (zero-shot, embedding-based, and structured-language) or vision and language (zero-shot and fine-tuned). We find that the best approaches in both categories yield $\sim 70\%$ room classification accuracy, exceeding the performance of pure-vision and graph classifiers. We also find such methods demonstrate notable generalization and transfer capabilities stemming from their use of language. | 翻訳日:2023-11-09 20:41:05 公開日:2023-11-08 |
# 周期駆動非相互多体スピン系における予熱 Prethermalization in periodically-driven nonreciprocal many-body spin systems ( http://arxiv.org/abs/2208.09005v3 ) ライセンス: Link先を確認 | Adam J. McRoberts, Hongzheng Zhao, Roderich Moessner, and Marin Bukov | (参考訳) 相互作用するカオス的古典スピン系の時間周期的非相互力学の新しいクラスを解析し、その運動方程式は保守的(位相空間体積保存)であるがシンプレクティック構造を持たない。
結果として、系の力学は時間依存ハミルトニアンから導出することはできない。
高周波限界では、磁化ダイナミクスは長寿命の準安定台地を特徴とし、駆動周波数の4番目のパワーで持続時間を制御する。
しかし、効果的なハミルトニアンが存在しないため、系が進化する前熱状態は標準アンサンブルの枠組みでは理解できない。
そこで本研究では, スピンが開放的かつ非散逸なサブシステムを構成する補助自由度を用いたハミルトニアン拡張を提案する。
これにより、逆周波数において主次に破れるシンプレクティック性を示す効果的な運動方程式を摂動的に導出することができる。
したがって、周期駆動系の高周波限界で観測される熱前力学の概念を非相反系に拡張する。 We analyze a new class of time-periodic nonreciprocal dynamics in interacting chaotic classical spin systems, whose equations of motion are conservative (phase-space-volume-preserving) yet possess no symplectic structure. As a result, the dynamics of the system cannot be derived from any time-dependent Hamiltonian. In the high-frequency limit, we find that the magnetization dynamics features a long-lived metastable plateau, whose duration is controlled by the fourth power of the drive frequency. However, due to the lack of an effective Hamiltonian, the prethermal state the system evolves into cannot be understood within the framework of the canonical ensemble. We propose a Hamiltonian extension of the system using auxiliary degrees of freedom, in which the original spins constitute an open yet nondissipative subsystem. This allows us to perturbatively derive effective equations of motion that manifestly display symplecticity breaking at leading order in the inverse frequency. We thus extend the notion of prethermal dynamics, observed in the high-frequency limit of periodically-driven systems, to nonreciprocal systems. | 翻訳日:2023-11-09 20:40:51 公開日:2023-11-08 |
# 統計的仮説テストプログラムのための音響的および相対的完全信奉論理 Sound and Relatively Complete Belief Hoare Logic for Statistical Hypothesis Testing Programs ( http://arxiv.org/abs/2208.07074v3 ) ライセンス: Link先を確認 | Yusuke Kawamoto, Tetsuya Sato, Kohei Suenaga | (参考訳) 本稿では,統計的推論の要件を形式的に記述し,プログラムが統計的手法を適切に利用するかどうかを確認するための新しい手法を提案する。
具体的には,仮説検定によって得られた統計的信念を形式化・推論するために,信念ホーア論理(bhl)を定義する。
このプログラム論理は、仮説テストのためのクリプキモデルに対して健全で比較的完全である。
本稿では,BHLが仮説テストの実践的問題に対する推論に有用であることを実例で示す。
本稿では,仮説検定による統計的信念獲得における先行的信念の重要性を明らかにし,プログラム論理内外における統計的推論の正当化の全体像について考察する。 We propose a new approach to formally describing the requirement for statistical inference and checking whether a program uses the statistical method appropriately. Specifically, we define belief Hoare logic (BHL) for formalizing and reasoning about the statistical beliefs acquired via hypothesis testing. This program logic is sound and relatively complete with respect to a Kripke model for hypothesis tests. We demonstrate by examples that BHL is useful for reasoning about practical issues in hypothesis testing. In our framework, we clarify the importance of prior beliefs in acquiring statistical beliefs through hypothesis testing, and discuss the whole picture of the justification of statistical inference inside and outside the program logic. | 翻訳日:2023-11-09 20:40:33 公開日:2023-11-08 |
# Causal Scoring:効果推定、効果順序付け、効果分類のためのフレームワーク Causal Scoring: A Framework for Effect Estimation, Effect Ordering, and Effect Classification ( http://arxiv.org/abs/2206.12532v3 ) ライセンス: Link先を確認 | Carlos Fern\'andez-Lor\'ia and Jorge Lor\'ia | (参考訳) 本稿では,意思決定の文脈におけるフレーム因果推定の新しい手法として因果スコアを導入する。
因果スコアは因果効果についての洞察を提供することで意思決定を支援するスコアの推定を伴います。
本稿では,これらのスコアの因果的解釈として,エフェクト推定(EE),エフェクト順序付け(EO),エフェクト分類(EC)の3つを挙げる。
EE解釈では、因果スコアは効果そのものを表す。
eoの解釈は、スコアが効果の大きさの代理となり、因果効果に基づいて個人の分類が可能になることを暗示している。
EC解釈は、事前定義されたしきい値を用いて、個人をハイエフェクトとローエフェクトのカテゴリに分類することができる。
本稿では,2つの重要な結果から,これら代替因果解釈(EOとEC)の価値を実証する。
まず,統計的モデリングと目的因果解釈の整合により,因果推定の精度が向上することを示す。
第二に、より柔軟な因果解釈がより幅広いデータ生成プロセスで可能であることを確立し、それらの妥当性を評価する条件を提案する。
本稿では,広告,医療,教育など多種多様な分野の事例を通して,様々な文脈における統計的推定の柔軟な因果解釈の推論をいかに促進するかを示す。
この例は、確立された見積もり、代理的な結果に対する効果推定、そして潜在的な因果的なスコアとしての非因果的な量についての予測を含む。 This paper introduces causal scoring as a novel approach to frame causal estimation in the context of decision making. Causal scoring entails the estimation of scores that support decision making by providing insights into causal effects. We present three valuable causal interpretations of these scores: effect estimation (EE), effect ordering (EO), and effect classification (EC). In the EE interpretation, the causal score represents the effect itself. The EO interpretation implies that the score can serve as a proxy for the magnitude of the effect, enabling the sorting of individuals based on their causal effects. The EC interpretation enables the classification of individuals into high- and low-effect categories using a predefined threshold. We demonstrate the value of these alternative causal interpretations (EO and EC) through two key results. First, we show that aligning the statistical modeling with the desired causal interpretation improves the accuracy of causal estimation. Second, we establish that more flexible causal interpretations are plausible in a wider range of data-generating processes and propose conditions to assess their validity. We showcase the practical utility of the causal scoring framework through examples in diverse fields such as advertising, healthcare, and education, illustrating how it facilitates reasoning about flexible causal interpretations of statistical estimates in various contexts. The examples encompass confounded estimates, effect estimates on surrogate outcomes, and even predictions about non-causal quantities as potential causal scores. | 翻訳日:2023-11-09 20:40:21 公開日:2023-11-08 |
# protoclip: 原型的コントラスト言語イメージの事前学習 ProtoCLIP: Prototypical Contrastive Language Image Pretraining ( http://arxiv.org/abs/2206.10996v3 ) ライセンス: Link先を確認 | Delong Chen, Zhao Wu, Fan Liu, Zaiquan Yang, Huaxi Huang, Ying Tan, and Erjin Zhou | (参考訳) Contrastive Language Image Pretraining (CLIP) は、学習された表現を様々な下流タスクにうまく転送できるため、広く注目を集めている。
クリップモデルのトレーニングプロセスでは、インフォデンス目標が正の画像テキストペアを調整し、負のペアを分離する。
InfoNCEの目的は、ランダムに出現したモーダルアンカーを介して、間接的に意味的に類似した表現をグループ化する。
そこで本研究では,その効率を高め,モダリティギャップに対する堅牢性を高めることにより,そのようなグループ化を促進するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
具体的には、ProtoCLIPは画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
さらに、表現群を表現アライメントから切り離すためにPBT(Prototypeal Back Translation)を提案し、その結果、大きなモダリティギャップの下で意味のある表現を効果的に学習する。
PBTはまた、より豊富な事前言語知識を持つ外部教師を導入することもできる。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
コンセプトキャプションでProtoCLIPをトレーニングし、+5.81%イメージネット線形探索の改善と+2.01%イメージネットゼロショット分類の改善を達成した。
より大きなYFCC-15Mデータセットでは、ProtoCLIPはCLIPのパフォーマンスを33%のトレーニング時間で一致させる。
コードはhttps://github.com/megvii-research/protoclipで入手できる。 Contrastive Language Image Pretraining (CLIP) has received widespread attention, since its learned representations can be transferred well to various downstream tasks. During the training process of the CLIP model, the InfoNCE objective aligns positive image-text pairs and separates negative ones. We show an underlying representation grouping effect during this process: the InfoNCE objective indirectly groups semantically similar representations together via randomly emerged within-modal anchors. Based on this understanding, in this paper, Prototypical Contrastive Language Image Pretraining (ProtoCLIP) is introduced to enhance such grouping by boosting its efficiency and increasing its robustness against the modality gap. Specifically, ProtoCLIP sets up prototype-level discrimination between image and text spaces, which efficiently transfers higher-level structural knowledge. Further, Prototypical Back Translation (PBT) is proposed to decouple representation grouping from representation alignment, resulting in effective learning of meaningful representations under large modality gap. The PBT also enables us to introduce additional external teachers with richer prior language knowledge. ProtoCLIP is trained with an online episodic training strategy, which makes it can be scaled up to unlimited amounts of data. We train our ProtoCLIP on Conceptual Captions and achieved an +5.81% ImageNet linear probing improvement and an +2.01% ImageNet zero-shot classification improvement. On the larger YFCC-15M dataset, ProtoCLIP matches the performance of CLIP with 33% of training time. Codes are available at https://github.com/megvii-research/protoclip. | 翻訳日:2023-11-09 20:39:56 公開日:2023-11-08 |
# SATによるコレクション付きJavaライブラリの振る舞いモデル抽出 SAT-Based Extraction of Behavioural Models for Java Libraries with Collections ( http://arxiv.org/abs/2205.15270v2 ) ライセンス: Link先を確認 | Larisa Safina and Simon Bliudze | (参考訳) 振る舞いモデルは、ソフトウェア検証、テスト、監視、公開などのための貴重なツールです。
しかし、ソフトウェア開発者によって提供されることは滅多になく、ソースまたはコンパイルされたコードから抽出しなければならない。
Javaプログラムのコンテキストでは、振る舞いモデルを構築するための多くのアプローチが存在する。
これらのアプローチのほとんどは、コンパイルされたバイトコードの分析に依存します。
代わりに、我々はJavaソースコードから有限状態マシン(FSM)の形式で振る舞いモデルを取り出して、取得したFSMがソフトウェア開発者によって容易に理解され、必要に応じて、アノテーションの形で、元のソースコードに更新または統合されることを保証することを検討している。
現代のソフトウェアシステムは巨大で、外部ライブラリに依存し、環境と対話する。
したがって、有用な振る舞いモデルを抽出するには抽象化が必要です。
本稿では,ライブラリAPIをモデル化するFSMの抽出に着目し,この問題に対する最初のアプローチを提案する。
我々は、コレクションの使用を伴うjavaコードの解析にフォーカスしています。
そこで我々は,Boolean述語パターンを用いて,コレクション操作の操作意味を符号化する。
これらのパターンは、API実装メソッドのソースコードの分析に基づいてインスタンス化され、可能なFSM遷移のエンコーディングを形成する。
SATソルバは、これらの遷移の有効性条件(ガード)を決定するために使用される。 Behavioural models are a valuable tool for software verification, testing, monitoring, publishing etc. However, they are rarely provided by the software developers and have to be extracted either from the source or from the compiled code. In the context of Java programs, a number of approaches exist for building behavioural models. Most of these approaches rely on the analysis of the compiled bytecode. Instead, we are looking to extract behavioural models in the form of Finite State Machines (FSMs) from the Java source code to ensure that the obtained FSMs can be easily understood by the software developers and, if necessary, updated or integrated into the original source code, e.g. in the form of annotations. Modern software systems are huge, rely on external libraries and interact with their environment. Hence, extracting useful behavioural models requires abstraction. In this paper, we present an initial approach to this problem by focusing on the extraction of FSMs modelling library APIs. We focus on the analysis of Java code involving the use of collections. To this end, we encode the operational semantics of collection operations using patterns of Boolean predicates. These patterns are instantiated based on the analysis of the source code of API implementation methods to form an encoding of the possible FSM transitions. A SAT solver is then used to determine the enabledness conditions (guards) of these transitions. | 翻訳日:2023-11-09 20:38:59 公開日:2023-11-08 |
# 核融合による弱教師付き物体検出と幻覚深度からの先行 Boosting Weakly Supervised Object Detection using Fusion and Priors from Hallucinated Depth ( http://arxiv.org/abs/2303.10937v2 ) ライセンス: Link先を確認 | Cagri Gungor and Adriana Kovashka | (参考訳) 様々なタスクに対する近年の注目と深度調査にもかかわらず、弱い監督対象検出(WSOD)に対する探索されていないモダリティである。
深度情報の統合によるWSODの性能向上のための増幅器手法を提案する。
提案手法は, アノテーションの追加や計算コストの増大を伴わずに, マルチインスタンス学習に基づく任意のWSOD手法に適用可能である。
提案手法では, 単眼深度推定手法を用いて幻覚深度情報を取得し, コントラスト損失と融合を用いて, シームズWSODネットワークに組み込む。
言語コンテキストと深さの関係を解析することにより、関心の対象を含む可能性のある境界ボックスの提案を特定するために、深さを計算します。
これらの深さ優先は、擬似基底ボックスのリストを更新するか、ボックス毎の予測の信頼性を調整するために使用される。
提案手法は,COCO,PASCAL VOC,Conceptual Captions,Clipart1k,Watercolor2k,Comic2kの6つのデータセットに対して,最新の2つのWSOD法上に実装し,性能の大幅な向上を示す。 Despite recent attention and exploration of depth for various tasks, it is still an unexplored modality for weakly-supervised object detection (WSOD). We propose an amplifier method for enhancing the performance of WSOD by integrating depth information. Our approach can be applied to any WSOD method based on multiple-instance learning, without necessitating additional annotations or inducing large computational expenses. Our proposed method employs a monocular depth estimation technique to obtain hallucinated depth information, which is then incorporated into a Siamese WSOD network using contrastive loss and fusion. By analyzing the relationship between language context and depth, we calculate depth priors to identify the bounding box proposals that may contain an object of interest. These depth priors are then utilized to update the list of pseudo ground-truth boxes, or adjust the confidence of per-box predictions. Our proposed method is evaluated on six datasets (COCO, PASCAL VOC, Conceptual Captions, Clipart1k, Watercolor2k, and Comic2k) by implementing it on top of two state-of-the-art WSOD methods, and we demonstrate a substantial enhancement in performance. | 翻訳日:2023-11-09 20:30:50 公開日:2023-11-08 |
# MarioGPT: 大規模言語モデルによるオープンソースのText2Level生成 MarioGPT: Open-Ended Text2Level Generation through Large Language Models ( http://arxiv.org/abs/2302.05981v3 ) ライセンス: Link先を確認 | Shyam Sudhakaran, Miguel Gonz\'alez-Duque, Claire Glanois, Matthias Freiberger, Elias Najarro, Sebastian Risi | (参考訳) 手続き型コンテンツ生成(PCG)は、複雑で多様な環境を自動生成する技術である。
しかし、PCGメソッドでコンテンツを生成することは多くの場合簡単であるが、特定の意図や制約を反映した意味のあるコンテンツを生成することは困難である。
さらに、多くのPCGアルゴリズムは、オープンな方法でコンテンツを生成する能力に欠ける。
最近、Large Language Models (LLMs) は多くの多様なドメインで驚くほど効果的であることが示されている。
これらの訓練されたLSMは微調整され、情報を再利用し、新しいタスクのトレーニングを加速することができる。
ここではスーパーマリオブラザーズレベルにおいて、タイルベースのゲームレベルを生成するために訓練された微調整GPT2モデルであるMarioGPTを紹介する。
MarioGPTは多様なレベルを生成できるだけでなく、制御可能なレベル生成のためにテキストをプロンプトできるため、現在のPCG技術における重要な課題の1つに対処できる。
我々の知る限り、MarioGPTは最初のテキスト・ツー・レベルモデルであり、新しい検索と組み合わせることで、様々なプレイスタイルのダイナミックス(プレイヤーパス)を持つ多様なレベルの生成と、ますます多様なコンテンツのオープンな発見を可能にする。
コードはhttps://github.com/shyamsn97/mario-gpt。 Procedural Content Generation (PCG) is a technique to generate complex and diverse environments in an automated way. However, while generating content with PCG methods is often straightforward, generating meaningful content that reflects specific intentions and constraints remains challenging. Furthermore, many PCG algorithms lack the ability to generate content in an open-ended manner. Recently, Large Language Models (LLMs) have shown to be incredibly effective in many diverse domains. These trained LLMs can be fine-tuned, re-using information and accelerating training for new tasks. Here, we introduce MarioGPT, a fine-tuned GPT2 model trained to generate tile-based game levels, in our case Super Mario Bros levels. MarioGPT can not only generate diverse levels, but can be text-prompted for controllable level generation, addressing one of the key challenges of current PCG techniques. As far as we know, MarioGPT is the first text-to-level model and combined with novelty search it enables the generation of diverse levels with varying play-style dynamics (i.e. player paths) and the open-ended discovery of an increasingly diverse range of content. Code available at https://github.com/shyamsn97/mario-gpt. | 翻訳日:2023-11-09 20:30:27 公開日:2023-11-08 |
# クープマン演算子学習のためのシャープスペクトル速度 Sharp Spectral Rates for Koopman Operator Learning ( http://arxiv.org/abs/2302.02004v4 ) ライセンス: Link先を確認 | Vladimir Kostic, Karim Lounici, Pietro Novelli, Massimiliano Pontil | (参考訳) 非線形力学系は、関連するクープマン作用素(英語版)(koopman operator)によって手軽に記述され、その作用は系の全ての可観測性が経時的に進化する。
クープマン作用素の学習とデータからのスペクトル分解は多くのアルゴリズムによって実現されている。
本研究では、クープマン固有値と固有関数に対する非漸近学習境界を初めて提示する。
我々は、ランゲヴィン力学の重要な例を含む時間反転不変確率力学系に焦点をあてる。
本研究では,拡張動的モード分解(EDMD)とReduceed Rank Regression(RRR)の2つの人気推定器を解析した。
我々の結果は、作用素ノルム誤差に対する新しい {minimax} 推定境界について批判的にヒンジし、これは独立な関心を持つかもしれない。
我々のスペクトル学習境界は、演算子ノルム誤差の同時制御と推定固有関数の新たな計量歪み関数によって駆動される。
この境界は、EDMDとRRRの両方に類似したばらつきがあることを示しているが、EDMDは学習速度に有害な大きなバイアスに悩まされている。
その結果,経験的によく知られた固有値の散発的出現に新たな光を当てた。
数値実験は、実際的な境界の意味を例証する。 Nonlinear dynamical systems can be handily described by the associated Koopman operator, whose action evolves every observable of the system forward in time. Learning the Koopman operator and its spectral decomposition from data is enabled by a number of algorithms. In this work we present for the first time non-asymptotic learning bounds for the Koopman eigenvalues and eigenfunctions. We focus on time-reversal-invariant stochastic dynamical systems, including the important example of Langevin dynamics. We analyze two popular estimators: Extended Dynamic Mode Decomposition (EDMD) and Reduced Rank Regression (RRR). Our results critically hinge on novel {minimax} estimation bounds for the operator norm error, that may be of independent interest. Our spectral learning bounds are driven by the simultaneous control of the operator norm error and a novel metric distortion functional of the estimated eigenfunctions. The bounds indicates that both EDMD and RRR have similar variance, but EDMD suffers from a larger bias which might be detrimental to its learning rate. Our results shed new light on the emergence of spurious eigenvalues, an issue which is well known empirically. Numerical experiments illustrate the implications of the bounds in practice. | 翻訳日:2023-11-09 20:30:06 公開日:2023-11-08 |
# 確率的政策勾配法:漁業非退化政策におけるサンプル複素性の改善 Stochastic Policy Gradient Methods: Improved Sample Complexity for Fisher-non-degenerate Policies ( http://arxiv.org/abs/2302.01734v2 ) ライセンス: Link先を確認 | Ilyas Fatkhullin and Anas Barakat and Anastasia Kireeva and Niao He | (参考訳) 近年,政策勾配法(PG法)の実証的成功により,理論基盤の発達が促進された。
効率的な確率的pg型アルゴリズムの設計に向けられた膨大な努力にもかかわらず、世界的最適方針への収束の理解は依然として限られている。
本研究では,連続状態動作空間の場合に対処可能な,フィッシャー非退化パラメータ化ポリシーの一般クラスに対するグローバル収束保証を改良した。
まず,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,大域的な$\varepsilon$-optimal Policyを求めるために,この手法のサンプル複雑性を$\tilde{\mathcal{O}}(\varepsilon^{-2.5})$とする。
以前知られていた$\tilde{\mathcal{O}}(\varepsilon^{-3})$複雑さよりも改善されているため、このアルゴリズムは重要サンプリングや2階情報の使用を必要とせず、イテレーション毎に1つの軌道のみをサンプリングする。
第二に、この複雑さをさらに改善するために、Hessian-Aided Recursive Policy Gradient ((N)-HARPG) アルゴリズムを Hessian-vector product に基づく補正で拡張することにより、$\tilde{ \mathcal{\mathcal{O}} }(\varepsilon^{-2})$ となる。
興味深いことに、どちらのアルゴリズムも$である。
(i) 単純で簡単に実装できる: シングルループ、大きなトラジェクトリとサンプルのバッチをイテレーション毎に2つのトラジェクトリで必要としない。
(ii)$計算量とメモリ効率:各イテレーションで高価なサブルーチンを必要とせず、パラメータの次元で線形にメモリを実装することができる。 Recently, the impressive empirical success of policy gradient (PG) methods has catalyzed the development of their theoretical foundations. Despite the huge efforts directed at the design of efficient stochastic PG-type algorithms, the understanding of their convergence to a globally optimal policy is still limited. In this work, we develop improved global convergence guarantees for a general class of Fisher-non-degenerate parameterized policies which allows to address the case of continuous state action spaces. First, we propose a Normalized Policy Gradient method with Implicit Gradient Transport (N-PG-IGT) and derive a $\tilde{\mathcal{O}}(\varepsilon^{-2.5})$ sample complexity of this method for finding a global $\varepsilon$-optimal policy. Improving over the previously known $\tilde{\mathcal{O}}(\varepsilon^{-3})$ complexity, this algorithm does not require the use of importance sampling or second-order information and samples only one trajectory per iteration. Second, we further improve this complexity to $\tilde{ \mathcal{\mathcal{O}} }(\varepsilon^{-2})$ by considering a Hessian-Aided Recursive Policy Gradient ((N)-HARPG) algorithm enhanced with a correction based on a Hessian-vector product. Interestingly, both algorithms are $(i)$ simple and easy to implement: single-loop, do not require large batches of trajectories and sample at most two trajectories per iteration; $(ii)$ computationally and memory efficient: they do not require expensive subroutines at each iteration and can be implemented with memory linear in the dimension of parameters. | 翻訳日:2023-11-09 20:29:45 公開日:2023-11-08 |
# 高エネルギー物理のための可逆エネルギーベース確率モデル Versatile Energy-Based Probabilistic Models for High Energy Physics ( http://arxiv.org/abs/2302.00695v4 ) ライセンス: Link先を確認 | Taoli Cheng, Aaron Courville | (参考訳) 古典的な生成的モデリングアプローチとして、エネルギーベースのモデルはエネルギー関数の形での柔軟性の自然な利点を持つ。
近年,コンピュータビジョンや自然言語処理における高次元データモデリングにおいて,エネルギーモデルが大きな成功を収めている。
これらの進歩に伴い,大型ハドロン衝突型加速器における高エネルギー物理現象の多目的エネルギーベース確率モデルを構築した。
このフレームワークは強力な生成モデルに基づいており、高次の粒子間相互作用を記述する。
異なるエンコーディングアーキテクチャに適合し、暗黙的な生成に基づいている。
応用面では、物理シミュレーションのための強力なパラメータ化イベントジェネレータ、スプリアス相関のない一般的な異常信号検出器、粒子識別のための拡張イベント分類器として機能する。 As a classical generative modeling approach, energy-based models have the natural advantage of flexibility in the form of the energy function. Recently, energy-based models have achieved great success in modeling high-dimensional data in computer vision and natural language processing. In line with these advancements, we build a multi-purpose energy-based probabilistic model for High Energy Physics events at the Large Hadron Collider. This framework builds on a powerful generative model and describes higher-order inter-particle interactions. It suits different encoding architectures and builds on implicit generation. As for applicational aspects, it can serve as a powerful parameterized event generator for physics simulation, a generic anomalous signal detector free from spurious correlations, and an augmented event classifier for particle identification. | 翻訳日:2023-11-09 20:29:12 公開日:2023-11-08 |
# マルチラベル画像分類のための識別器非教師なし領域適応 Discriminator-free Unsupervised Domain Adaptation for Multi-label Image Classification ( http://arxiv.org/abs/2301.10611v3 ) ライセンス: Link先を確認 | Indel Pal Singh, Enjie Ghorbel, Anis Kacem, Arunkumar Rathinam and Djamila Aouada | (参考訳) 本稿では、DDA-MLICと呼ばれるマルチラベル画像分類(MLIC)のための識別器のない非教師付きドメイン適応(UDA)を提案する。
近年,MLIC の文脈において,敵対的 UDA 手法を導入する試みが行われている。
しかし、追加の判別子サブネットに依存するこれらのメソッドは、1つの大きな欠点を示している。
ドメイン不変の特徴の学習は、分類と識別タスクが分離されるため、タスク固有の識別力を傷つける可能性がある。
そこで本研究では,タスク固有分類器から直接推論される新たな逆批判を導入することで,この問題を克服することを提案する。
具体的には、2成分ガウス混合モデル(GMM)を2つのクラスタを区別するために、ソースとターゲット予測に装着する。
これにより各成分に対してガウス分布を抽出できる。
結果のガウス分布は、フレシェ距離に基づいて逆損失を定式化するために用いられる。
提案手法は3種類の異なる領域シフトをカバーする複数のマルチラベル画像データセット上で評価される。
その結果,DDA-MLICは,パラメータの少ない精度で既存の最先端手法よりも優れていた。
コードはgithub.com/cvi2snt/DDA-MLICで公開されている。 In this paper, a discriminator-free adversarial-based Unsupervised Domain Adaptation (UDA) for Multi-Label Image Classification (MLIC) referred to as DDA-MLIC is proposed. Recently, some attempts have been made for introducing adversarial-based UDA methods in the context of MLIC. However, these methods which rely on an additional discriminator subnet present one major shortcoming. The learning of domain-invariant features may harm their task-specific discriminative power, since the classification and discrimination tasks are decoupled. Herein, we propose to overcome this issue by introducing a novel adversarial critic that is directly deduced from the task-specific classifier. Specifically, a two-component Gaussian Mixture Model (GMM) is fitted on the source and target predictions in order to distinguish between two clusters. This allows extracting a Gaussian distribution for each component. The resulting Gaussian distributions are then used for formulating an adversarial loss based on a Frechet distance. The proposed method is evaluated on several multi-label image datasets covering three different types of domain shift. The obtained results demonstrate that DDA-MLIC outperforms existing state-of-the-art methods in terms of precision while requiring a lower number of parameters. The code is publicly available at github.com/cvi2snt/DDA-MLIC. | 翻訳日:2023-11-09 20:29:01 公開日:2023-11-08 |
# NP完全頂点色問題に対する量子フェーシビリティラベリング Quantum Feasibility Labeling for NP-complete Vertex Coloring Problem ( http://arxiv.org/abs/2301.01589v2 ) ライセンス: Link先を確認 | Junpeng Zhan | (参考訳) 多くの重要な科学と工学の問題は、コンピュータ科学と数学において重要なNP完全問題に変換できる。
現在、既存の古典アルゴリズムや量子アルゴリズムではこれらの問題を多項式時間で解くことはできない。
そこで本稿では,np完全問題である頂点彩色問題に対して,すべての可能な解をラベル付けする量子化可能性ラベリング(qfl)アルゴリズムを提案する。
QFLアルゴリズムは、頂点色問題を、良い要素と悪い要素がラベル付けされた非構造化データベースの探索問題に変換する。
最近提案された変分量子探索(vqs)アルゴリズムは、非構造化データベースから良い要素を見つけるのに最大26キュービットの回路深度で指数関数的な高速化を達成することが証明された。
ラベルと関連する可能な解を入力として、VQSは頂点色問題に対するすべての実現可能な解を見つけることができる。
QFLが要求する量子ビット数と回路深さは、頂点の数、エッジの数、頂点色問題の色数の多項式関数である。
我々は、QFLをIBM Qiskitシミュレータ上で実装し、4色の4頂点3エッジカラー問題を解決する。 Many important science and engineering problems can be converted into NP-complete problems which are of significant importance in computer science and mathematics. Currently, neither existing classical nor quantum algorithms can solve these problems in polynomial time. To address this difficulty, this paper proposes a quantum feasibility labeling (QFL) algorithm to label all possible solutions to the vertex coloring problem, which is a well-known NP-complete problem. The QFL algorithm converts the vertex coloring problem into the problem of searching an unstructured database where good and bad elements are labeled. The recently proposed variational quantum search (VQS) algorithm was demonstrated to achieve an exponential speedup, in circuit depth, up to 26 qubits in finding good element(s) from an unstructured database. Using the labels and the associated possible solutions as input, the VQS can find all feasible solutions to the vertex coloring problem. The number of qubits and the circuit depth required by the QFL each is a polynomial function of the number of vertices, the number of edges, and the number of colors of a vertex coloring problem. We have implemented the QFL on an IBM Qiskit simulator to solve a 4-colorable 4-vertex 3-edge coloring problem. | 翻訳日:2023-11-09 20:28:44 公開日:2023-11-08 |
# 脳と言語モデルにおける言語特性の協調処理 Joint processing of linguistic properties in brains and language models ( http://arxiv.org/abs/2212.08094v2 ) ライセンス: Link先を確認 | Subba Reddy Oota, Manish Gupta, Mariya Toneva | (参考訳) 言語モデルは、複雑な言語刺激を受ける被験者の脳記録を予測するのに非常に効果的であることが示されている。
このアライメントをより深く理解するには、人間の脳による言語情報の詳細な処理と言語モデルとの対応を理解することが重要である。
本研究では,言語モデル表現における特定の言語特性に関する情報を排除し,参加者が物語を聴きながら得られたfMRI脳波記録とのアライメントにどのように影響するかを観察する。
言語特性(表層,統語論,意味論)について検討し,各言語特性の除去によって脳のアライメントが著しく低下することを確認した。
具体的には,モデル層間における脳アライメントの傾向において,構文的特性(トップ成分とツリー深さ)が最も大きいことが判明した。
これらの知見は、脳と言語モデルのアライメントにおける特定の言語情報の役割を明確に示し、両方のシステムにおける統合情報処理をマッピングするための新しい道を開く。
コードを公開しています [https://github.com/subbareddy248/linguistic-properties-brain-alignment]。 Language models have been shown to be very effective in predicting brain recordings of subjects experiencing complex language stimuli. For a deeper understanding of this alignment, it is important to understand the correspondence between the detailed processing of linguistic information by the human brain versus language models. We investigate this correspondence via a direct approach, in which we eliminate information related to specific linguistic properties in the language model representations and observe how this intervention affects the alignment with fMRI brain recordings obtained while participants listened to a story. We investigate a range of linguistic properties (surface, syntactic, and semantic) and find that the elimination of each one results in a significant decrease in brain alignment. Specifically, we find that syntactic properties (i.e. Top Constituents and Tree Depth) have the largest effect on the trend of brain alignment across model layers. These findings provide clear evidence for the role of specific linguistic information in the alignment between brain and language models, and open new avenues for mapping the joint information processing in both systems. We make the code publicly available [https://github.com/subbareddy248/linguistic-properties-brain-alignment]. | 翻訳日:2023-11-09 20:28:25 公開日:2023-11-08 |
# ゼロパディングをもつ完全畳み込みニューラルネットワークの普遍近似特性 Universal Approximation Property of Fully Convolutional Neural Networks with Zero Padding ( http://arxiv.org/abs/2211.09983v2 ) ライセンス: Link先を確認 | Geonho Hwang, Myungjoo Kang | (参考訳) 畳み込みニューラルネットワーク(CNN)は、ディープラーニングにおいて最も顕著なニューラルネットワークアーキテクチャの1つである。
広く採用されているにもかかわらず、我々の普遍近似特性の理解は、その複雑な性質のために制限されてきた。
CNNは本質的にテンソル-テンソルマッピングとして機能し、入力データの空間構造を保存する。
しかし、完全な畳み込みニューラルネットワークの普遍的な近似特性を任意の連続テンソル-テンソル関数として研究している。
本研究では,ゼロパディングを利用する場合,入力値と出力値の両方が同じ空間形状を示す場合,cnnが任意の連続関数を近似できることを実証する。
さらに、近似に必要なニューラルネットワークの最小深さを決定し、その最適性を推定する。
また、深い狭いCNNがテンソル-テンソル関数としてUAPを持っていることを検証する。
この結果は幅広い活性化機能を含み、我々の研究は全次元のCNNをカバーしている。 The Convolutional Neural Network (CNN) is one of the most prominent neural network architectures in deep learning. Despite its widespread adoption, our understanding of its universal approximation properties has been limited due to its intricate nature. CNNs inherently function as tensor-to-tensor mappings, preserving the spatial structure of input data. However, limited research has explored the universal approximation properties of fully convolutional neural networks as arbitrary continuous tensor-to-tensor functions. In this study, we demonstrate that CNNs, when utilizing zero padding, can approximate arbitrary continuous functions in cases where both the input and output values exhibit the same spatial shape. Additionally, we determine the minimum depth of the neural network required for approximation and substantiate its optimality. We also verify that deep, narrow CNNs possess the UAP as tensor-to-tensor functions. The results encompass a wide range of activation functions, and our research covers CNNs of all dimensions. | 翻訳日:2023-11-09 20:27:45 公開日:2023-11-08 |
# 予算を意識した効率的な学習のためのニューラルネットワークの部分バイナリ化 Partial Binarization of Neural Networks for Budget-Aware Efficient Learning ( http://arxiv.org/abs/2211.06739v2 ) ライセンス: Link先を確認 | Udbhav Bamba, Neeraj Anand, Saksham Aggarwal, Dilip K. Prasad, Deepak K. Gupta | (参考訳) バイナリ化はニューラルネットワークの強力な圧縮技術であり、FLOPを著しく削減するが、しばしばモデルの性能が大幅に低下する。
この問題に対処するために,部分バイナリ化手法が開発されているが,単一ネットワークにおけるバイナリパラメータと全精度パラメータを混合する体系的なアプローチはいまだに不足している。
本稿では,部分バイナリ化の制御手法を提案し,予算付きバイナリニューラルネットワーク(b2nn)をmixbin戦略で構築する。
この方法では、バイナリコンポーネントと全精度コンポーネントの混合を最適化し、ネットワークの分数を明示的に選択することが可能である。
実験の結果,MixBinを用いて作成したB2NNは,ImageNet-1Kデータセット上で,ランダム検索や反復探索,最先端層選択の手法よりも最大3%優れていた。
また,B2NNは極端FLOP予算で約23%,オブジェクトトラッキングでは最大12.4%の相対的改善を達成し,構造化プルーニングベースラインを約23%上回る性能を示した。
さらに、MixBinによって開発されたB2NNはデータセット間で転送可能であることを示す。 Binarization is a powerful compression technique for neural networks, significantly reducing FLOPs, but often results in a significant drop in model performance. To address this issue, partial binarization techniques have been developed, but a systematic approach to mixing binary and full-precision parameters in a single network is still lacking. In this paper, we propose a controlled approach to partial binarization, creating a budgeted binary neural network (B2NN) with our MixBin strategy. This method optimizes the mixing of binary and full-precision components, allowing for explicit selection of the fraction of the network to remain binary. Our experiments show that B2NNs created using MixBin outperform those from random or iterative searches and state-of-the-art layer selection methods by up to 3% on the ImageNet-1K dataset. We also show that B2NNs outperform the structured pruning baseline by approximately 23% at the extreme FLOP budget of 15%, and perform well in object tracking, with up to a 12.4% relative improvement over other baselines. Additionally, we demonstrate that B2NNs developed by MixBin can be transferred across datasets, with some cases showing improved performance over directly applying MixBin on the downstream data. | 翻訳日:2023-11-09 20:27:33 公開日:2023-11-08 |
# 線形幅ニューラルネットワークのスペクトル進化と不変性 Spectral Evolution and Invariance in Linear-width Neural Networks ( http://arxiv.org/abs/2211.06506v2 ) ライセンス: Link先を確認 | Zhichao Wang, Andrew Engel, Anand Sarwate, Ioana Dumitriu, Tony Chiang | (参考訳) サンプルサイズがネットワーク幅に漸近的に比例する線形幅フィードフォワードニューラルネットワークのスペクトル特性について検討した。
実験により, この高次元状態における重みのスペクトルは, 勾配降下による学習速度の訓練で不変であることを示し, この観測の理論的正当性を示し, 共役カーネルとニューラルタンジェントカーネルの両方に対するバルクスペクトルの不変性を証明した。
学習率の小さい確率的勾配降下訓練において,同様の特徴を示す。
学習率が大きい場合には、対応する固有ベクトルがトレーニングデータ構造に整列した外れ値の出現を示す。
また, 適応勾配トレーニングの結果, テスト誤差の低減と特徴学習が出現すると, 重み行列とカーネル行列の両方が重くテール挙動を示すことが示された。
重い尾がよりよく一般化できる理由を説明するための簡単な例が提供される。
我々は、異なるトレーニング戦略を用いて、2層ニューラルネットワークから不変バルク、スパイク、重み付き分布などの異なるスペクトル特性を示し、特徴学習と相関する。
従来のニューラルネットワークを実世界のデータでトレーニングする際にも、アナログ現象が現れる。
トレーニング中のスペクトルの進化を監視することは、トレーニングのダイナミクスや特徴学習を理解するための重要なステップである。 We investigate the spectral properties of linear-width feed-forward neural networks, where the sample size is asymptotically proportional to network width. Empirically, we show that the spectra of weight in this high dimensional regime are invariant when trained by gradient descent for small constant learning rates; we provide a theoretical justification for this observation and prove the invariance of the bulk spectra for both conjugate and neural tangent kernels. We demonstrate similar characteristics when training with stochastic gradient descent with small learning rates. When the learning rate is large, we exhibit the emergence of an outlier whose corresponding eigenvector is aligned with the training data structure. We also show that after adaptive gradient training, where a lower test error and feature learning emerge, both weight and kernel matrices exhibit heavy tail behavior. Simple examples are provided to explain when heavy tails can have better generalizations. We exhibit different spectral properties such as invariant bulk, spike, and heavy-tailed distribution from a two-layer neural network using different training strategies, and then correlate them to the feature learning. Analogous phenomena also appear when we train conventional neural networks with real-world data. We conclude that monitoring the evolution of the spectra during training is an essential step toward understanding the training dynamics and feature learning. | 翻訳日:2023-11-09 20:27:10 公開日:2023-11-08 |
# 変分分類 Variational Classification ( http://arxiv.org/abs/2305.10406v3 ) ライセンス: Link先を確認 | Shehzaad Dhuliawala, Mrinmaya Sachan, Carl Allen | (参考訳) 本稿では,ニューラルネットワークソフトマックス分類器の新しい確率論的解釈を提供する潜在変数モデルを提案する。
分類モデルの訓練に使用されるクロスエントロピー損失を一般化する変分オートエンコーダの訓練に使用されるエビデンス下限(elbo)と同様、モデルの訓練のための変分目標を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 正確なラベル予測に必要な分布と, 実際に見出された経験的分布との間には, 潜在的な矛盾が明らかとなった。
このような矛盾を緩和し、既成のsoftmax分類器の暗黙の仮定に代えて、選択された潜在分布を促進するための変動目標を補強する。
全体として、広く使われているソフトマックス分類の内部動作に関する新たな理論的知見を提供する。
画像とテキストの分類データセットに対する実証的な評価により, 提案手法は分類精度を維持しつつ, 変形した潜在空間はキャリブレーション, 対向ロバスト性, 分散シフトに対する堅牢性, サンプル効率などの分類器の他の望ましい特性を改善していることがわかった。 We present a latent variable model for classification that provides a novel probabilistic interpretation of neural network softmax classifiers. We derive a variational objective to train the model, analogous to the evidence lower bound (ELBO) used to train variational auto-encoders, that generalises the cross-entropy loss used to train classification models. Treating inputs to the softmax layer as samples of a latent variable, our abstracted perspective reveals a potential inconsistency between their anticipated distribution, required for accurate label predictions to be output, and the empirical distribution found in practice. We augment the variational objective to mitigate such inconsistency and encourage a chosen latent distribution, instead of the implicit assumption in off-the-shelf softmax classifiers. Overall, we provide new theoretical insight into the inner workings of widely-used softmax classification. Empirical evaluation on image and text classification datasets demonstrates that our proposed approach, variational classification, maintains classification accuracy while the reshaped latent space improves other desirable properties of a classifier, such as calibration, adversarial robustness, robustness to distribution shift and sample efficiency useful in low data settings. | 翻訳日:2023-11-09 20:18:44 公開日:2023-11-08 |
# 自動車追従モデルの検討 A Review on Car-Following Model ( http://arxiv.org/abs/2304.07143v2 ) ライセンス: Link先を確認 | Tianya Zhang, Peter J. Jin, Alexandre Bayen, Ph.D., Benedetto Piccoli | (参考訳) 車追従(cf)モデルは交通シミュレーションのコアコンポーネントであり、先進運転支援システム(adas)を備えた多くの量産車に搭載されている。
cf挙動の研究により, 車両間相互作用の基礎過程によって引き起こされる異なるマクロ現象の発生源を同定できる。
cf行動制御モデルは交通工学、物理学、認知科学、機械学習、強化学習など様々な分野を包含している。
本稿では,各CFモデル間の相違点,相補点,重複点を,その基礎となる論理と原理に従って概説する。
我々は,理論に基づくキネマティックモデル,刺激応答モデル,クルーズ制御モデルから,データ駆動型行動クローニング(BC)やImitation Learning(IL)に至るまで,代表的なアルゴリズムを概説し,その強みと限界を概説した。
このレビューでは、様々な原則で概念化されたcfモデルを分類し、膨大な文献を総合的な枠組みで要約する。 The car-following (CF) model is the core component for traffic simulations and has been built-in in many production vehicles with Advanced Driving Assistance Systems (ADAS). Research of CF behavior allows us to identify the sources of different macro phenomena induced by the basic process of pairwise vehicle interaction. The CF behavior and control model encompasses various fields, such as traffic engineering, physics, cognitive science, machine learning, and reinforcement learning. This paper provides a comprehensive survey highlighting differences, complementarities, and overlaps among various CF models according to their underlying logic and principles. We reviewed representative algorithms, ranging from the theory-based kinematic models, stimulus-response models, and cruise control models to data-driven Behavior Cloning (BC) and Imitation Learning (IL) and outlined their strengths and limitations. This review categorizes CF models that are conceptualized in varying principles and summarize the vast literature with a holistic framework. | 翻訳日:2023-11-09 20:18:03 公開日:2023-11-08 |
# W状態に対する量子リピータ Quantum Repeater for W states ( http://arxiv.org/abs/2304.06757v2 ) ライセンス: Link先を確認 | Jorge Miguel-Ramiro, Ferran Riera-S\`abat, Wolfgang D\"ur | (参考訳) W状態は様々な量子情報処理のための貴重な資源であり、それを生成するプロトコルが提案され実装されている。
本稿では,多対数オーバーヘッドを持つ2次元三角量子ネットワークにおいて,任意の距離にわたって3量子ビットw状態を効率的に分散する量子リピータプロトコルを提案する。
リピータプロトコルは、確率的絡み合いを3ビットW状態の3つのコピーと1つの長距離3ビットW状態に置き換えることと、改良された絡み合い浄化プロトコルを組み合わせる。
後者の方が性能が向上するだけでなく、従来のアプローチに比べて浄化体制が拡大していることを示している。
リピータプロトコルでは,不完全なチャネルや状態準備,ノイズの多い操作によるエラーを処理できることを示し,エラーしきい値,実現可能な忠実度,オーバーヘッドを解析する。 W states are a valuable resource for various quantum information tasks, and several protocols to generate them have been proposed and implemented. We introduce a quantum repeater protocol to efficiently distribute three-qubit W states over arbitrary distances in a 2D triangular quantum network with polylogarithmic overhead, thereby enabling these applications between remote parties. The repeater protocol combines two ingredients that we establish: probabilistic entanglement swapping with three copies of three-qubit W states to a single long-distance three-qubit W state, and an improved entanglement purification protocol. The latter not only shows a better performance, but also an enlarged purification regime as compared to previous approaches. We show that the repeater protocol allows one to deal with errors resulting from imperfect channels or state preparation, and noisy operations, and we analyze error thresholds, achievable fidelities and overheads. | 翻訳日:2023-11-09 20:17:44 公開日:2023-11-08 |
# 単一画像とオブジェクトマップからの3DoFローカライゼーション:フラットランド問題とデータセット 3DoF Localization from a Single Image and an Object Map: the Flatlandia Problem and Dataset ( http://arxiv.org/abs/2304.06373v4 ) ライセンス: Link先を確認 | Matteo Toso, Matteo Taiana, Stuart James and Alessio Del Bue | (参考訳) 効率的な視覚的ローカライゼーションは、自律エージェントの大規模展開や拡張現実など、多くのアプリケーションにとって不可欠である。
従来の視覚的ローカライゼーションは、顕著な精度を達成する一方で、シーンの広範囲な3Dモデルや、ジオローカライズされた画像の大規模なコレクションに依存している。
対照的に、人間は非常に抽象的な2dマップを使い、はっきりと識別できるランドマークの場所を使っている。
これに基づいて、2次元抽象地図上の局所化を探求する最近の研究の成功に基づき、新しい視覚的局所化課題であるFlatlandiaを提案する。
flatlandiaでは,マップ内の既知の空間レイアウトに対して検出された共通オブジェクトのレイアウトを比較することにより,視覚的クエリをローカライズできるかどうかを検討する。
課題を異なる精度で2つのタスクとして定式化し,問題とその限界について検討し,それぞれについて初期ベースラインモデルを提案し,最先端の6dof法と3dof法と比較する。
コードとデータセットはgithub.com/IIT-PAVIS/Flatlandiaで公開されている。 Efficient visual localization is crucial to many applications, such as large-scale deployment of autonomous agents and augmented reality. Traditional visual localization, while achieving remarkable accuracy, relies on extensive 3D models of the scene or large collections of geolocalized images, which are often inefficient to store and to scale to novel environments. In contrast, humans orient themselves using very abstract 2D maps, using the location of clearly identifiable landmarks. Drawing on this and on the success of recent works that explored localization on 2D abstract maps, we propose Flatlandia, a novel visual localization challenge. With Flatlandia, we investigate whether it is possible to localize a visual query by comparing the layout of its common objects detected against the known spatial layout of objects in the map. We formalize the challenge as two tasks at different levels of accuracy to investigate the problem and its possible limitations; for each, we propose initial baseline models and compare them against state-of-the-art 6DoF and 3DoF methods. Code and dataset are publicly available at github.com/IIT-PAVIS/Flatlandia. | 翻訳日:2023-11-09 20:17:27 公開日:2023-11-08 |
# FetMRQC:胎児脳MRIにおける自動品質制御 FetMRQC: Automated Quality Control for fetal brain MRI ( http://arxiv.org/abs/2304.05879v2 ) ライセンス: Link先を確認 | Thomas Sanchez, Oscar Esteban, Yvan Gomez, Elisenda Eixarch and Meritxell Bach Cuadra | (参考訳) 品質管理(qc)は,神経画像研究の信頼性を保証する上で重要視されてきた。
特に胎児脳MRIでは、大きめで予測不可能な胎児の動きが、取得した画像に実質的なアーティファクトをもたらす可能性がある。
胎児の脳質評価のための既存の方法は、 \textit{slice}レベルで動作し、画像の品質の包括的な画像を得ることができず、それは \textit{entire} 脳の容積を見ることでのみ達成できる。
本研究では、胎児脳MRIに合わせた自動画像品質評価のための機械学習フレームワークであるFetMRQCを提案する。
2つの異なる機関で取得された1000以上の低解像度スタックのマニュアル評価に基づいて、FetMRQCは既存の品質指標と比較して、解釈可能でデータ効率が良い領域外を一般化できることを示した。
また、胎児脳画像の品質評価を容易にし、最適化するための手動品質評価ツールもリリースした。
私たちのツールは、モデルを生成、トレーニング、評価するすべてのコードとともに、https://github.com/Medical-Image-Analysis-Laboratory/fetal_brain_qc/で利用可能です。 Quality control (QC) has long been considered essential to guarantee the reliability of neuroimaging studies. It is particularly important for fetal brain MRI, where large and unpredictable fetal motion can lead to substantial artifacts in the acquired images. Existing methods for fetal brain quality assessment operate at the \textit{slice} level, and fail to get a comprehensive picture of the quality of an image, that can only be achieved by looking at the \textit{entire} brain volume. In this work, we propose FetMRQC, a machine learning framework for automated image quality assessment tailored to fetal brain MRI, which extracts an ensemble of quality metrics that are then used to predict experts' ratings. Based on the manual ratings of more than 1000 low-resolution stacks acquired across two different institutions, we show that, compared with existing quality metrics, FetMRQC is able to generalize out-of-domain, while being interpretable and data efficient. We also release a novel manual quality rating tool designed to facilitate and optimize quality rating of fetal brain images. Our tool, along with all the code to generate, train and evaluate the model is available at https://github.com/Medical-Image-Analysis-Laboratory/fetal_brain_qc/ . | 翻訳日:2023-11-09 20:17:05 公開日:2023-11-08 |
# ビュー整合テキストから3d生成のための2次元拡散のデバイアススコアとプロンプト Debiasing Scores and Prompts of 2D Diffusion for View-consistent Text-to-3D Generation ( http://arxiv.org/abs/2303.15413v4 ) ライセンス: Link先を確認 | Susung Hong, Donghoon Ahn, Seungryong Kim | (参考訳) 既存の有望なテキストから3D生成技術は、しばしば不整合性の問題に遭遇する。
最も注目すべき問題の1つは、オブジェクトの最も標準的なビュー(\textit{e.g})であるJanus問題である。
顔や頭)が他の見方に現れる。
本研究では,2次元拡散モデルの埋め込みバイアスであるビューの不整合問題の主な原因を,スコア蒸留テキストから3次元生成のための既存のフレームワークを探索する。
これらの知見に基づき、ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。
スコアデバイアスと呼ばれる最初のアプローチは、2次元拡散モデルによって推定されるスコアをカットし、最適化プロセスを通じて徐々に切り下げ値を増やすことです。
我々の2つ目のアプローチは、プロンプトデバイアスと呼ばれ、言語モデルを用いてユーザプロンプトとビュープロンプトの相反する単語を特定し、ビュープロンプトとオブジェクトの表示方向の相違を調整する。
提案手法は,2次元拡散モデルに対する忠実性と,オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現することにより,生成した3次元オブジェクトのリアリズムを向上させることを実証した。
プロジェクトのページは~\url{https://susunghong.github.io/debiased-score-distillation-sampling/}で閲覧できます。 Existing score-distilling text-to-3D generation techniques, despite their considerable promise, often encounter the view inconsistency problem. One of the most notable issues is the Janus problem, where the most canonical view of an object (\textit{e.g}., face or head) appears in other views. In this work, we explore existing frameworks for score-distilling text-to-3D generation and identify the main causes of the view inconsistency problem -- the embedded bias of 2D diffusion models. Based on these findings, we propose two approaches to debias the score-distillation frameworks for view-consistent text-to-3D generation. Our first approach, called score debiasing, involves cutting off the score estimated by 2D diffusion models and gradually increasing the truncation value throughout the optimization process. Our second approach, called prompt debiasing, identifies conflicting words between user prompts and view prompts using a language model, and adjusts the discrepancy between view prompts and the viewing direction of an object. Our experimental results show that our methods improve the realism of the generated 3D objects by significantly reducing artifacts and achieve a good trade-off between faithfulness to the 2D diffusion models and 3D consistency with little overhead. Our project page is available at~\url{https://susunghong.github.io/Debiased-Score-Distillation-Sampling/}. | 翻訳日:2023-11-09 20:16:42 公開日:2023-11-08 |
# 共振器光に結合した吊り鏡の量子状態-振り子と回転モードのウィナーフィルタ解析 Quantum state of a suspended mirror coupled to cavity light -- Wiener filter analysis of the pendulum and rotational modes ( http://arxiv.org/abs/2303.04511v2 ) ライセンス: Link先を確認 | Tomoya Shichijo, Nobuyuki Matsumoto, Akira Matsumura, Daisuke Miki, Yuuki Sugiyama, Kazuhiro Yamamoto | (参考訳) Weenerフィルタを用いた連続測定およびフィードバック制御により,光学懸濁鏡の量子状態を検討した。
我々は、懸濁鏡の2モード理論が振り子モードと回転モードで記述された量子状態に与える影響に焦点を当てる。
これは、ビームの内部摩擦やミラーの有限サイズ効果を含む低周波状態のキャビティ光に結合されたビームモデルに由来する。
2モード理論のためのワイナーフィルタを構築し,ワイナーフィルタ解析を用いて条件付き共分散行列の評価を行い,量子状態を予測する。
その結果, 多重モード解析は量子圧縮状態の生成に重要な役割を果たすことが示された。
また,ワイナーフィルタ解析におけるフーリエ空間の範囲を選択することで,一モード解析がよい近似となる可能性も指摘した。 We investigated the quantum state of an optomechanical suspended mirror under continuous measurement and feedback control using Wiener filtering. We focus on the impact of the two-mode theory of suspended mirror on the quantum state, which is described by the pendulum and rotational modes. It is derived from the beam model coupled to the cavity light in the low-frequency regime, including the internal friction of the beam and the finite size effect of the mirror. We constructed a Wiener filter for the two-mode theory and predicted the quantum state by evaluating the conditional covariance matrix using Wiener filter analysis. The results demonstrate that multimode analysis may play an important role in generating the quantum squeezed state. We also point out the possibility that one-mode analysis can be a good approximation by choosing the range of the Fourier space in the Wiener filter analysis. | 翻訳日:2023-11-09 20:15:13 公開日:2023-11-08 |
# DiffusioNeRF: Denoising Diffusion Modelを用いた正則化ニューラルラジアンス場 DiffusioNeRF: Regularizing Neural Radiance Fields with Denoising Diffusion Models ( http://arxiv.org/abs/2302.12231v3 ) ライセンス: Link先を確認 | Jamie Wynn, Daniyar Turmukhambetov | (参考訳) 良好な条件下では、ニューラルレージアンス場(NeRF)は、新しいビュー合成タスクにおいて印象的な結果を示している。
NeRFは、トレーニングビューとシーンの異なるレンダリングとの光度差を最小限にして、シーンの色と密度場を学習する。
十分な一連のビューからトレーニングされたNeRFは、任意のカメラ位置から新しいビューを生成することができる。
しかし、シーンの幾何学とカラーフィールドは厳しい制約下にあり、特に少ない入力ビューでトレーニングされた場合、アーティファクトにつながる可能性がある。
この問題を軽減するために,ddm(denoising diffusion model)を用いて,風景形状と色彩の先行学習を行う。
我々のDDMは、合成HypersimデータセットのRGBDパッチに基づいて訓練されており、色と深さの確率分布の対数勾配を予測できる。
これらのrgbdパッチプリエントの対数勾配は,シーンの形状や色を規則化するのに役立つ。
nerfトレーニング中、ランダムなrgbdパッチがレンダリングされ、ログ類似度の推定勾配が色と密度フィールドに再伝播される。
最も関連するデータセットであるllffの評価は、学習済みの事前学習によって再構成された幾何学の質が向上し、新しい視点への一般化が改善されたことを示している。
DTUの評価では、NeRF法で再現性が改善された。 Under good conditions, Neural Radiance Fields (NeRFs) have shown impressive results on novel view synthesis tasks. NeRFs learn a scene's color and density fields by minimizing the photometric discrepancy between training views and differentiable renderings of the scene. Once trained from a sufficient set of views, NeRFs can generate novel views from arbitrary camera positions. However, the scene geometry and color fields are severely under-constrained, which can lead to artifacts, especially when trained with few input views. To alleviate this problem we learn a prior over scene geometry and color, using a denoising diffusion model (DDM). Our DDM is trained on RGBD patches of the synthetic Hypersim dataset and can be used to predict the gradient of the logarithm of a joint probability distribution of color and depth patches. We show that, these gradients of logarithms of RGBD patch priors serve to regularize geometry and color of a scene. During NeRF training, random RGBD patches are rendered and the estimated gradient of the log-likelihood is backpropagated to the color and density fields. Evaluations on LLFF, the most relevant dataset, show that our learned prior achieves improved quality in the reconstructed geometry and improved generalization to novel views. Evaluations on DTU show improved reconstruction quality among NeRF methods. | 翻訳日:2023-11-09 20:14:59 公開日:2023-11-08 |
# 対称分布に対するモーメントのないロバスト平均推定 Robust Mean Estimation Without Moments for Symmetric Distributions ( http://arxiv.org/abs/2302.10844v2 ) ライセンス: Link先を確認 | Gleb Novikov, David Steurer, Stefan Tiegel | (参考訳) モーメント仮定なしで平均パラメータや位置パラメータを頑健に推定する問題について検討する。
対称分布の大きいクラスでは、ガウス設定の場合と同じ誤差を効率的に達成できることを示す。
本研究では, 任意の対称一次元分布, 積コーシー分布, 楕円分布の積について検討した。
既知の散乱(共分散)行列を持つ積の分布や楕円分布について、$\varepsilon$-corruptedサンプルが与えられた場合、少なくとも1-\delta$はその位置を誤差$O(\varepsilon \sqrt{\log(1/\varepsilon)})$を使用すると$$\tfrac{d\log(d) + \log(1/\delta)}{\varepsilon^2 \log(1/\varepsilon)}$サンプルで推定できることを示す。
この結果はガウス分布と既知の SQ の下界($\log(d)$ factor まで)の最もよく知られた保証と一致する。
未知散乱(共分散)行列を持つ楕円分布に対して,この最適誤差に接近する効率的なアルゴリズムの列を提案する。
具体的には、すべての$k \in \mathbb{N}$に対して、時間とサンプルを使用した推定器を設計し、エラーを$O(\varepsilon^{1-\frac{1}{2k}})$とする。
これは、最大$k$の確定可能な有界モーメントを仮定した場合のエラーと実行時間の保証と一致する。
未知の共分散に対しては、$o(\sqrt{\varepsilon})$のそのような誤差境界は(一般)ガウス分布では知られていない。
我々のアルゴリズムはよく知られたフィルタリング技術の一般化に基づいている。
この機械をハマーロス方式の手法と組み合わせて、初期ノイズよりも優しく振る舞う騒音を投影する方法について述べる。
さらに,最初の瞬間のない分布においても,sos証明を用いてアルゴリズムによる保証を得る方法を示す。
このアプローチは将来の作業で他のアプリケーションを見つける可能性があると考えています。 We study the problem of robustly estimating the mean or location parameter without moment assumptions. We show that for a large class of symmetric distributions, the same error as in the Gaussian setting can be achieved efficiently. The distributions we study include products of arbitrary symmetric one-dimensional distributions, such as product Cauchy distributions, as well as elliptical distributions. For product distributions and elliptical distributions with known scatter (covariance) matrix, we show that given an $\varepsilon$-corrupted sample, we can with probability at least $1-\delta$ estimate its location up to error $O(\varepsilon \sqrt{\log(1/\varepsilon)})$ using $\tfrac{d\log(d) + \log(1/\delta)}{\varepsilon^2 \log(1/\varepsilon)}$ samples. This result matches the best-known guarantees for the Gaussian distribution and known SQ lower bounds (up to the $\log(d)$ factor). For elliptical distributions with unknown scatter (covariance) matrix, we propose a sequence of efficient algorithms that approaches this optimal error. Specifically, for every $k \in \mathbb{N}$, we design an estimator using time and samples $\tilde{O}({d^k})$ achieving error $O(\varepsilon^{1-\frac{1}{2k}})$. This matches the error and running time guarantees when assuming certifiably bounded moments of order up to $k$. For unknown covariance, such error bounds of $o(\sqrt{\varepsilon})$ are not even known for (general) sub-Gaussian distributions. Our algorithms are based on a generalization of the well-known filtering technique. We show how this machinery can be combined with Huber-loss-based techniques to work with projections of the noise that behave more nicely than the initial noise. Moreover, we show how SoS proofs can be used to obtain algorithmic guarantees even for distributions without a first moment. We believe that this approach may find other applications in future works. | 翻訳日:2023-11-09 20:14:35 公開日:2023-11-08 |
# パフォーマンス改善型コード編集の学習 Learning Performance-Improving Code Edits ( http://arxiv.org/abs/2302.07867v4 ) ライセンス: Link先を確認 | Alexander Shypula, Aman Madaan, Yimeng Zeng, Uri Alon, Jacob Gardner, Milad Hashemi, Graham Neubig, Parthasarathy Ranganathan, Osbert Bastani, Amir Yazdanbakhsh | (参考訳) ムーアの法則が消滅すると、プログラム性能の最適化がソフトウェア研究の大きな焦点となっている。
しかし、コードのセマンティクスを理解するのが難しいため、APIやアルゴリズムの変更といったハイレベルな最適化はいまだ解明されていない。
同時に、事前訓練された大規模言語モデル(LLM)は、幅広いプログラミングタスクを解く強力な能力を示している。
そこで我々は,LLMを高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、77k以上の競合c++プログラミングサブミットペアを持つ人間プログラマによるパフォーマンス改善編集のデータセットを、広範囲なユニットテストとともに収集する。
主な課題は、コモディティなハードウェアのパフォーマンスを測定することの大幅な変動であり、それによって「改善」が加速する可能性がある。
プログラム最適化の影響を分離し, 確実に評価するために, gem5 フルシステムシミュレータ, 学術・産業におけるデファクトシミュレータをベースとした環境を設計する。
次に,コード最適化のための多種多様な適応戦略を提案する。プロンプトには,検索に基づく少数ショットプロンプトとチェーン・オブ・シンクレットが含まれ,微調整には,自己再生に基づく性能条件付き生成と合成データ拡張を含む。
これらの技術の組み合わせにより、CodeLlama-13Bでは平均5.65X、GPT-3.5では6.86Xのスピードアップが達成され、人間の最高性能(4.06X)を上回った。
提案するパフォーマンスコンディショニング生成は,特に性能向上と最適化プログラム数の増加に有効であることがわかった。 With the waning of Moore's law, optimizing program performance has become a major focus of software research. However, high-level optimizations such as API and algorithm changes remain elusive due to the difficulty of understanding the semantics of code. Simultaneously, pretrained large language models (LLMs) have demonstrated strong capabilities at solving a wide range of programming tasks. To that end, we introduce a framework for adapting LLMs to high-level program optimization. First, we curate a dataset of performance-improving edits made by human programmers of over 77K competitive C++ programming submission pairs, accompanied by extensive unit tests. A major challenge is the significant variability of measuring performance on commodity hardware, which can lead to spurious "improvements". To isolate and reliably evaluate the impact of program optimizations, we design an environment based on the gem5 full system simulator, the de facto simulator used in academia and industry. Next, we propose a broad range of adaptation strategies for code optimization; for prompting, these include retrieval-based few-shot prompting and chain-of-thought, and for finetuning, these include performance-conditioned generation and synthetic data augmentation based on self-play. A combination of these techniques achieves an average speedup of 5.65X on CodeLlama-13B and 6.86X on GPT-3.5, surpassing the best human performance (4.06X). We find our proposed performance-conditioned generation is particularly effective at improving performance as well as increasing the fraction of optimized programs. | 翻訳日:2023-11-09 20:13:53 公開日:2023-11-08 |
# バッチ正規化によるゼロショット異常検出 Zero-Shot Anomaly Detection via Batch Normalization ( http://arxiv.org/abs/2302.07849v4 ) ライセンス: Link先を確認 | Aodong Li, Chen Qiu, Marius Kloft, Padhraic Smyth, Maja Rudolph, Stephan Mandt | (参考訳) 異常検出(AD)は多くの安全クリティカルなアプリケーション領域において重要な役割を果たす。
異常検知器を正常なデータ分布にドリフトさせるという課題は、特に「新しい正規」のためのトレーニングデータが得られない場合は、ゼロショットAD技術の開発に繋がる。
本稿では,ゼロショットバッチレベルのADに対して,適応中心表現(ACR)と呼ばれるシンプルで効果的な手法を提案する。
本手法では, バッチ正規化と組み合わせて, 深部SVDD(Deep SVDD)などの深部異常検出装置を訓練することにより, 未知のADタスクに対するゼロショット自動一般化を実現する。
この単純なレシピ、バッチ正規化とメタトレーニングは、非常に効果的で多用途なツールです。
実験結果は,表形式のデータに対する最初のゼロショットAD結果を示し,特殊領域の画像データに対するゼロショット異常検出とセグメンテーションにおいて既存手法より優れていることを示す。
コードはhttps://github.com/aodongli/zero-shot-ad-via-batch-normにある。 Anomaly detection (AD) plays a crucial role in many safety-critical application domains. The challenge of adapting an anomaly detector to drift in the normal data distribution, especially when no training data is available for the "new normal," has led to the development of zero-shot AD techniques. In this paper, we propose a simple yet effective method called Adaptive Centered Representations (ACR) for zero-shot batch-level AD. Our approach trains off-the-shelf deep anomaly detectors (such as deep SVDD) to adapt to a set of inter-related training data distributions in combination with batch normalization, enabling automatic zero-shot generalization for unseen AD tasks. This simple recipe, batch normalization plus meta-training, is a highly effective and versatile tool. Our theoretical results guarantee the zero-shot generalization for unseen AD tasks; our empirical results demonstrate the first zero-shot AD results for tabular data and outperform existing methods in zero-shot anomaly detection and segmentation on image data from specialized domains. Code is at https://github.com/aodongli/zero-shot-ad-via-batch-norm | 翻訳日:2023-11-09 20:13:27 公開日:2023-11-08 |
# AVeriTeC: Webによる実世界のクレーム検証のためのデータセット AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from the Web ( http://arxiv.org/abs/2305.13117v3 ) ライセンス: Link先を確認 | Michael Schlichtkrull, Zhijiang Guo, Andreas Vlachos | (参考訳) 既存のファクトチェック用のデータセットには、人工的なクレームへの依存、証拠のアノテーションの欠如、中間的推論、クレーム後に公開された証拠など、かなりの制限がある。
本稿では,50の異なる組織によるファクトチェックをカバーする実世界の4,568件の新しいデータセットであるAVeriTeCを紹介する。
それぞれの主張には、オンラインで入手可能な証拠が支持する質問と回答のペアと、証拠が合わさって評決を生成する方法を説明する文書的正当化が注釈されている。
多段階のアノテーションプロセスを通じて、文脈依存、証拠不足、時間的漏洩などの一般的な落とし穴を避け、評決で$\kappa=0.619$という実質的なアノテーション間合意に達する。
我々は,オープンウェブに対する質問回答のステップを通じて,クレームを検証するためのベースラインと評価手法を開発した。 Existing datasets for automated fact-checking have substantial limitations, such as relying on artificial claims, lacking annotations for evidence and intermediate reasoning, or including evidence published after the claim. In this paper we introduce AVeriTeC, a new dataset of 4,568 real-world claims covering fact-checks by 50 different organizations. Each claim is annotated with question-answer pairs supported by evidence available online, as well as textual justifications explaining how the evidence combines to produce a verdict. Through a multi-round annotation process, we avoid common pitfalls including context dependence, evidence insufficiency, and temporal leakage, and reach a substantial inter-annotator agreement of $\kappa=0.619$ on verdicts. We develop a baseline as well as an evaluation scheme for verifying claims through several question-answering steps against the open web. | 翻訳日:2023-11-09 20:04:53 公開日:2023-11-08 |
# 関連知識を用いた品質評価の文脈化 Contextualizing Argument Quality Assessment with Relevant Knowledge ( http://arxiv.org/abs/2305.12280v2 ) ライセンス: Link先を確認 | Darshan Deshpande, Zhivar Sourati, Filip Ilievski, Fred Morstatter | (参考訳) 議論の質の自動評価は、誤った情報とターゲット音声に重大な意味を持つ課題として認識されている。
実世界の引数は文脈に密着しているが、既存の計算手法は、それらの品質を独立して分析し、その正確性と一般化性に影響を与える。
本稿では,関連知識による文脈化に基づく議論品質評価手法であるSPARKを提案する。
私たちは、大きな言語モデルを利用してフィードバックを提供し、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論したりする4つの拡張を考案します。
SPARKはデュアルエンコーダトランスフォーマーアーキテクチャを使用して、元の引数とその拡張を共同で検討できるようにする。
ドメイン内設定とゼロショット設定の両方の実験では、SPARKは複数のメトリクスで既存の技術よりも一貫して優れています。 Automatic assessment of the quality of arguments has been recognized as a challenging task with significant implications for misinformation and targeted speech. While real-world arguments are tightly anchored in context, existing computational methods analyze their quality in isolation, which affects their accuracy and generalizability. We propose SPARK: a novel method for scoring argument quality based on contextualization via relevant knowledge. We devise four augmentations that leverage large language models to provide feedback, infer hidden assumptions, supply a similar-quality argument, or give a counter-argument. SPARK uses a dual-encoder Transformer architecture to enable the original argument and its augmentation to be considered jointly. Our experiments in both in-domain and zero-shot setups show that SPARK consistently outperforms existing techniques across multiple metrics. | 翻訳日:2023-11-09 20:04:20 公開日:2023-11-08 |
# フェデレーションモデル:大規模モデルのプライバシ保護と協調学習 Federated Foundation Models: Privacy-Preserving and Collaborative Learning for Large Models ( http://arxiv.org/abs/2305.11414v2 ) ライセンス: Link先を確認 | Sixing Yu, J. Pablo Mu\~noz, Ali Jannesari | (参考訳) LLaMA、BERT、GPT、ViT、CLIPといったファンデーションモデル(FM)は、事前トレーニングに大量のデータを活用する能力によって、幅広いアプリケーションで顕著な成功を収めている。
しかし、FMを最適化するには、機密データにアクセスし、プライバシー上の懸念を高め、多くのドメインで適用性を制限する必要がある。
本稿では,FMとFederated Learning(FL)の利点を組み合わせたFFM(Federated Foundation Models)パラダイムを提案する。
我々は,FMの寿命にFLを組み込むことの潜在的なメリットと課題について論じ,事前学習,微調整,応用について論じる。
FFMの事前トレーニング、FFMの微調整、フェデレートされたプロンプトチューニングなど、FFMの将来的な研究の道程を概説し、データのプライバシーを確保しつつ、よりパーソナライズされたコンテキスト対応モデルの開発を可能にする。
さらに,データソースに近い新たに生成されたプライベートデータを用いてFMを最適化する可能性を高めるため,FFMにおける連続的・長期学習の可能性を検討する。
提案するffmの概念は,大規模言語モデルをプライバシ保護方法でトレーニングするためのフレキシブルでスケーラブルなフレームワークを提供する。 Foundation Models (FMs), such as LLaMA, BERT, GPT, ViT, and CLIP, have demonstrated remarkable success in a wide range of applications, driven by their ability to leverage vast amounts of data for pre-training. However, optimizing FMs often requires access to sensitive data, raising privacy concerns and limiting their applicability in many domains. In this paper, we propose the Federated Foundation Models (FFMs) paradigm, which combines the benefits of FMs and Federated Learning (FL) to enable privacy-preserving and collaborative learning across multiple end-users. We discuss the potential benefits and challenges of integrating FL into the lifespan of FMs, covering pre-training, fine-tuning, and application. We further outline potential future research avenues in FFM, including FFM pre-training, FFM fine-tuning, and federated prompt tuning, which allow the development of more personalized and context-aware models while ensuring data privacy. Moreover, we explore the possibility of continual/lifelong learning in FFMs, as increased computational power at the edge may unlock the potential for optimizing FMs using newly generated private data close to the data source. The proposed FFM concepts offer a flexible and scalable framework for training large language models in a privacy-preserving manner, setting the stage for subsequent advancements in both FM training and federated learning. | 翻訳日:2023-11-09 20:03:32 公開日:2023-11-08 |
# 人間の行動ベンチマーク:大規模言語モデルにおける数値マグニチュード比較効果 Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models ( http://arxiv.org/abs/2305.10782v3 ) ライセンス: Link先を確認 | Raj Sanjay Shah, Vijay Marupudi, Reba Koenen, Khushi Bhardwaj, Sashank Varma | (参考訳) 大規模言語モデル(llm)は、テキストに浸透する数を微分的に表現しない。
対照的に、神経科学研究は数と単語の異なる神経表現を同定した。
本研究では,LLMが行動レンズから数の大きさ(例えば,その4 < 5$)をどれだけよく捉えているかを検討する。
LLMの表現能力に関する先行研究は、人間レベルの性能、例えば標準ベンチマークで高い総合的精度を示すかどうかを評価する。
LLMの数値表現は、一般的に距離、サイズ、比例効果を示す人間の言語利用者の数値表現とどの程度近いのか?
我々は、数語と数字の埋め込みモデル間の類似性を人間の応答時間にマップするためにリンク仮説に依存する。
結果は、人間の脳でこれらの表現を直接サポートする神経回路がないにもかかわらず、異なるアーキテクチャの言語モデルにまたがる驚くほど人間らしい表現を明らかにした。
本研究は、行動ベンチマークを用いたLCMの理解の有用性を示し、LCMの数値表現とその認知的妥当性に関する今後の研究の道を示す。 Large Language Models (LLMs) do not differentially represent numbers, which are pervasive in text. In contrast, neuroscience research has identified distinct neural representations for numbers and words. In this work, we investigate how well popular LLMs capture the magnitudes of numbers (e.g., that $4 < 5$) from a behavioral lens. Prior research on the representational capabilities of LLMs evaluates whether they show human-level performance, for instance, high overall accuracy on standard benchmarks. Here, we ask a different question, one inspired by cognitive science: How closely do the number representations of LLMscorrespond to those of human language users, who typically demonstrate the distance, size, and ratio effects? We depend on a linking hypothesis to map the similarities among the model embeddings of number words and digits to human response times. The results reveal surprisingly human-like representations across language models of different architectures, despite the absence of the neural circuitry that directly supports these representations in the human brain. This research shows the utility of understanding LLMs using behavioral benchmarks and points the way to future work on the number representations of LLMs and their cognitive plausibility. | 翻訳日:2023-11-09 20:02:33 公開日:2023-11-08 |
# GNN学習評価の不確実性:コミュニティ検出のための一貫性ベンチマークの重要性 Uncertainty in GNN Learning Evaluations: The Importance of a Consistent Benchmark for Community Detection ( http://arxiv.org/abs/2305.06026v4 ) ライセンス: Link先を確認 | William Leeney, Ryan McConville | (参考訳) グラフニューラルネットワーク(gnns)は、グラフの接続性と特徴情報空間の2次元性をエンコードする能力により、クラスタ化されたノードの教師なしのコミュニティ検出を改善した。
潜在コミュニティを特定することは、ソーシャルネットワークからゲノム学まで、多くの実用的な応用がある。
この課題におけるGNNの評価に影響を及ぼす様々な決定が原因で、現在の現実世界のパフォーマンスのベンチマークは混乱している。
そこで我々は,共通評価プロトコルを確立するためのフレームワークを提案する。
プロトコルの有無の違いを示すことによって、モチベーションと正当化を行います。
Wランダムネス係数(W Randomness Coefficient)は、アルゴリズムランキングの一貫性を評価し、ランダム性の存在下で結果の信頼性を定量化する指標である。
また,同じ評価基準に従うことで,本課題において報告された手法の性能と有意な差が生じる可能性があるが,より完全な評価と手法の比較が可能となる。 Graph Neural Networks (GNNs) have improved unsupervised community detection of clustered nodes due to their ability to encode the dual dimensionality of the connectivity and feature information spaces of graphs. Identifying the latent communities has many practical applications from social networks to genomics. Current benchmarks of real world performance are confusing due to the variety of decisions influencing the evaluation of GNNs at this task. To address this, we propose a framework to establish a common evaluation protocol. We motivate and justify it by demonstrating the differences with and without the protocol. The W Randomness Coefficient is a metric proposed for assessing the consistency of algorithm rankings to quantify the reliability of results under the presence of randomness. We find that by ensuring the same evaluation criteria is followed, there may be significant differences from the reported performance of methods at this task, but a more complete evaluation and comparison of methods is possible. | 翻訳日:2023-11-09 20:02:14 公開日:2023-11-08 |
# ビジュアルリッチドキュメントのためのテーブル検出データセットの再検討 Revisiting Table Detection Datasets for Visually Rich Documents ( http://arxiv.org/abs/2305.04833v2 ) ライセンス: Link先を確認 | Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir | (参考訳) テーブル検出は,電子文書の増加に伴い,視覚的にリッチな文書理解の基本的な課題となっている。
しかし、関連する研究で広く使われている一般的な公開データセットには、ノイズや一貫性のないサンプル、限られたトレーニングサンプル、限られたデータソースなど、固有の制限がある。
これらの制限により、これらのデータセットはモデル性能の評価に信頼性がなく、実際のモデルのキャパシティを反映できない。
そこで本研究では,いくつかのオープンデータセットを高品質なアノテーションで再検討し,ノイズを特定し,クリーン化するとともに,これらのデータセットのアノテーション定義を調整して,オープンテーブルと呼ばれるより大きなデータセットをマージする。
さらに、データソースを充実させるために、オープンデータセットにはほとんど現れないユニークなサンプルを含む異なるドメインである、情報通信技術(ict)コモディティのpdfファイルを用いた新しいict-tdデータセットを提案する。
データセットのラベル品質を保証するため、ドメインエキスパートのガイダンスに従ってデータセットを手動で注釈付けしました。
提案されたデータセットは困難であり、ビジネスコンテキストにおける実際のケースのサンプルとなり得る。
我々は様々な最先端オブジェクト検出モデルを用いて強力なベースラインを構築した。
実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。
提案する Open-Tables と ICT-TD は,高品質で一貫したアノテーションにより,より信頼性の高いモデル評価を行うことができる。
さらに、クロスドメイン設定にも適しています。
実験の結果,クリーン化されたOpen-Tablesデータセットでトレーニングしたベンチマークモデルでは,ノイズの多いOpen-Tablesでトレーニングしたベンチマークモデルよりも0.6\%-2.6\%高い重み付き平均F1が得られることがわかった。
データセットは公開されています。 Table Detection has become a fundamental task for visually rich document understanding with the surging number of electronic documents. However, popular public datasets widely used in related studies have inherent limitations, including noisy and inconsistent samples, limited training samples, and limited data sources. These limitations make these datasets unreliable to evaluate the model performance and cannot reflect the actual capacity of models. Therefore, this study revisits some open datasets with high-quality annotations, identifies and cleans the noise, and aligns the annotation definitions of these datasets to merge a larger dataset, termed Open-Tables. Moreover, to enrich the data sources, we propose a new ICT-TD dataset using the PDF files of Information and Communication Technologies (ICT) commodities, a different domain containing unique samples that hardly appear in open datasets. To ensure the label quality of the dataset, we annotated the dataset manually following the guidance of a domain expert. The proposed dataset is challenging and can be a sample of actual cases in the business context. We built strong baselines using various state-of-the-art object detection models. Our experimental results show that the domain differences among existing open datasets are minor despite having different data sources. Our proposed Open-Tables and ICT-TD can provide a more reliable evaluation for models because of their high quality and consistent annotations. Besides, they are more suitable for cross-domain settings. Our experimental results show that in the cross-domain setting, benchmark models trained with cleaned Open-Tables dataset can achieve 0.6\%-2.6\% higher weighted average F1 than the corresponding ones trained with the noisy version of Open-Tables, demonstrating the reliability of the proposed datasets. The datasets are public available. | 翻訳日:2023-11-09 20:01:59 公開日:2023-11-08 |
# 1次元フェルミ・ハバードモデルの量子シミュレーションを$\mathrm{Z}_2$格子ゲージ理論として Quantum simulation of the 1D Fermi-Hubbard model as a $\mathrm{Z}_2$ lattice-gauge theory ( http://arxiv.org/abs/2305.04648v4 ) ライセンス: Link先を確認 | Uliana E. Khodaeva, Dmitry L. Kovrizhin, and Johannes Knolle | (参考訳) フェルミ・ハバードモデル(Fermi-Hubbard model)は、強相関量子多体系の物理学における中心的なパラダイムの1つである。
本稿では,現在のNISQ量子コンピュータの実装に適した1次元Fermi-Hubbardモデルの,$\mathrm{Z}_2$ grid gauge theory (LGT)表現に基づく量子回路アルゴリズムを提案する。
LGTの記述の中には、ハミルトニアンと通勤する多くの局所保存量が存在する。
本稿では,これらの保存法則を用いて効率的な誤り軽減手法を提案する。
後者は、ノイズ量子シミュレータのための状態のポスト選択に基づいている。
LGTの記述は、Jordan-Wigner (JW) ベースのアプローチに比べて深い量子回路を必要とするが、我々のエラー訂正プロトコルは、ノイズの多い量子シミュレータ上での標準 JW 実装と同等の結果をもたらす。 The Fermi-Hubbard model is one of the central paradigms in the physics of strongly-correlated quantum many-body systems. Here we propose a quantum circuit algorithm based on the $\mathrm{Z}_2$ lattice gauge theory (LGT) representation of the one-dimensional Fermi-Hubbard model, which is suitable for implementation on current NISQ quantum computers. Within the LGT description there is an extensive number of local conserved quantities commuting with the Hamiltonian. We show how these conservation laws can be used to implement an efficient error-mitigation scheme. The latter is based on a post-selection of states for noisy quantum simulators. While the LGT description requires a deeper quantum-circuit compared to a Jordan-Wigner (JW) based approach, remarkably, we find that our error-correction protocol leads to results being on-par with a standard JW implementation on noisy quantum simulators. | 翻訳日:2023-11-09 20:01:30 公開日:2023-11-08 |
# 透かしを用いたAI生成コンテンツの検出 Evading Watermark based Detection of AI-Generated Content ( http://arxiv.org/abs/2305.03807v5 ) ライセンス: Link先を確認 | Zhengyuan Jiang, Jinghuai Zhang, Neil Zhenqiang Gong | (参考訳) 生成可能なAIモデルは、極めて現実的なコンテンツを生成することができ、情報の信頼性に対する課題が増大する。
この課題に対処するために、透かしを利用してAI生成コンテンツを検出する。
具体的には、リリース前にAI生成コンテンツに透かしを埋め込む。
類似の透かしをデコードできれば、コンテンツはAI生成として検出される。
本研究では,このような透かしに基づくAI生成コンテンツ検出の堅牢性に関する系統的研究を行う。
AI生成画像に焦点を当てる。
本研究は,視覚品質を維持したまま検出を回避できるような,人間に知覚できない小さな摂動を加えることで,後処理が可能なことを示す。
理論的にも経験的にも攻撃の有効性を示す。
さらに,検出を回避するために,AI生成画像の摂動をはるかに小さくし,JPEG圧縮やガウスアンボケ,明度/コントラストといった一般的な後処理方法よりも視覚的品質を向上する。
我々の研究は、既存の透かしに基づくAI生成コンテンツの検出が不十分であることを示し、新しい方法の緊急性を強調している。
私たちのコードは、https://github.com/zhengyuan-jiang/WEvade.comで公開されています。 A generative AI model can generate extremely realistic-looking content, posing growing challenges to the authenticity of information. To address the challenges, watermark has been leveraged to detect AI-generated content. Specifically, a watermark is embedded into an AI-generated content before it is released. A content is detected as AI-generated if a similar watermark can be decoded from it. In this work, we perform a systematic study on the robustness of such watermark-based AI-generated content detection. We focus on AI-generated images. Our work shows that an attacker can post-process a watermarked image via adding a small, human-imperceptible perturbation to it, such that the post-processed image evades detection while maintaining its visual quality. We show the effectiveness of our attack both theoretically and empirically. Moreover, to evade detection, our adversarial post-processing method adds much smaller perturbations to AI-generated images and thus better maintain their visual quality than existing popular post-processing methods such as JPEG compression, Gaussian blur, and Brightness/Contrast. Our work shows the insufficiency of existing watermark-based detection of AI-generated content, highlighting the urgent needs of new methods. Our code is publicly available: https://github.com/zhengyuan-jiang/WEvade. | 翻訳日:2023-11-09 20:01:13 公開日:2023-11-08 |
# ファクトチェックの自動生成物の意図的利用:なぜ、どのように、誰が The Intended Uses of Automated Fact-Checking Artefacts: Why, How and Who ( http://arxiv.org/abs/2304.14238v2 ) ライセンス: Link先を確認 | Michael Schlichtkrull, Nedjma Ousidhoum, Andreas Vlachos | (参考訳) 自動ファクトチェックは、ファクトチェックやソーシャルメディアの消費者、その他の利害関係者が誤情報と戦うために使用できる疫学的なツールとしてしばしば提示される。
それにもかかわらず、どのようにして議論する論文はほとんどない。
本論文は,高度に刺激された100の論文を分析し,目的とする使用,すなわち手段,目的,利害関係者に関する認識的要素を注釈する。
これらの側面を除外する物語は一般的であり、多くの論文は一貫性のない手段と目的を提案しており、提案戦略の実現可能性には経験的な裏付けがほとんどない。
この曖昧さは、過度に評価し、批判を制限し、ステークホルダーのフィードバックを妨げ、テクノロジーが目標に達するのを積極的に妨げていると我々は主張する。
そこで本研究では,ファクトチェックアーティファクトの使用について考えることや書くことを推奨する。 Automated fact-checking is often presented as an epistemic tool that fact-checkers, social media consumers, and other stakeholders can use to fight misinformation. Nevertheless, few papers thoroughly discuss how. We document this by analysing 100 highly-cited papers, and annotating epistemic elements related to intended use, i.e., means, ends, and stakeholders. We find that narratives leaving out some of these aspects are common, that many papers propose inconsistent means and ends, and that the feasibility of suggested strategies rarely has empirical backing. We argue that this vagueness actively hinders the technology from reaching its goals, as it encourages overclaiming, limits criticism, and prevents stakeholder feedback. Accordingly, we provide several recommendations for thinking and writing about the use of fact-checking artefacts. | 翻訳日:2023-11-09 20:00:53 公開日:2023-11-08 |
# 開分散光学系における自発パラメトリックダウン変換の非摂動理論 Non-perturbative theory of spontaneous parametric down-conversion in open and dispersive optical systems ( http://arxiv.org/abs/2306.00781v3 ) ライセンス: Link先を確認 | Aleksa Krsti\'c, Frank Setzpfandt and Sina Saravi | (参考訳) 任意の損失と分散量を持つ非線形光学構造における高ゲインレジームの自発的パラメトリックダウンコンバージョンを記述できる,グリーン関数量子化法に基づく非摂動的定式化法を開発した。
この形式主義は、圧縮光発生、非線形性に基づく量子センシング、非線形相互作用を介するハイブリッド量子システムなどの量子技術応用における任意の複素および/またはオープンナノ構造非線形光学系の記述と設計の方法を開く。
例えば、高利得状態において、未検出光子と統合量子分光のシナリオを数値的に検討し、システムの性能における新たな利得依存効果を明らかにする。 We develop a non-perturbative formulation based on the Green-function quantization method, that can describe spontaneous parametric down-conversion in the high-gain regime in nonlinear optical structures with arbitrary amount of loss and dispersion. This formalism opens the way for description and design of arbitrary complex and/or open nanostructured nonlinear optical systems in quantum technology applications, such as squeezed-light generation, nonlinearity-based quantum sensing, and hybrid quantum systems mediated by nonlinear interactions. As an example case, we numerically investigate the scenario of integrated quantum spectroscopy with undetected photons, in the high-gain regime, and uncover novel gain-dependent effects in the performance of the system. | 翻訳日:2023-11-09 19:52:39 公開日:2023-11-08 |
# 分解的思考連鎖: 文脈内フィルタリングと学習による構成性 Dissecting Chain-of-Thought: Compositionality through In-Context Filtering and Learning ( http://arxiv.org/abs/2305.18869v2 ) ライセンス: Link先を確認 | Yingcong Li, Kartik Sreenivasan, Angeliki Giannou, Dimitris Papailiopoulos, Samet Oymak | (参考訳) CoT(Chain-of-Thought)は、言語モデルが複雑な推論タスクを単純なステップに分解することで処理できるようにする手法である。
その成功にもかかわらず、CoTの基盤となる力学はまだ完全には理解されていない。
そこで本研究では, コンテクスト内コンテクスト変換におけるCoTの影響について検討し, 多層パーセプトロン(MLP)の一般的な構成関数群について検討した。
この設定では,CoTの成功は,構成関数のコンテキスト内学習を,構成関数の各ステップに関連するデータに着目し,フィルタリングすることと,単一ステップ合成関数のコンテキスト内学習の2つの相に分解することに起因する。
実験的および理論的証拠により、CoTがコンテキスト内学習(ICL)のサンプル複雑性を著しく低減し、非CoT手法が抱える複雑な関数の学習を容易にすることを示す。
さらに、注意機構を介してCoTに必要なデータフィルタリングを行う追加レイヤを単に組み込むことで、トランスフォーマーがバニラ・イン・コンテキスト学習からCoTで構成関数をマスターする方法を説明する。
これらのテスト時間の利点に加えて、cotは複雑な関数を表現するためのショートカットを学習し、フィルタリングがこのプロセスで重要な役割を果たすことで、事前トレーニングを加速する。
これらの知見は総合的にCoTの力学に関する洞察を与え、複雑な推論タスクにおけるCoTの役割についてさらなる研究を促している。 Chain-of-thought (CoT) is a method that enables language models to handle complex reasoning tasks by decomposing them into simpler steps. Despite its success, the underlying mechanics of CoT are not yet fully understood. In an attempt to shed light on this, our study investigates the impact of CoT on the ability of transformers to in-context learn a simple to study, yet general family of compositional functions: multi-layer perceptrons (MLPs). In this setting, we find that the success of CoT can be attributed to breaking down in-context learning of a compositional function into two distinct phases: focusing on and filtering data related to each step of the composition and in-context learning the single-step composition function. Through both experimental and theoretical evidence, we demonstrate how CoT significantly reduces the sample complexity of in-context learning (ICL) and facilitates the learning of complex functions that non-CoT methods struggle with. Furthermore, we illustrate how transformers can transition from vanilla in-context learning to mastering a compositional function with CoT by simply incorporating additional layers that perform the necessary data-filtering for CoT via the attention mechanism. In addition to these test-time benefits, we show CoT helps accelerate pretraining by learning shortcuts to represent complex functions and filtering plays an important role in this process. These findings collectively provide insights into the mechanics of CoT, inviting further investigation of its role in complex reasoning tasks. | 翻訳日:2023-11-09 19:52:04 公開日:2023-11-08 |
# Actis: 厳格なローカルUnion-Findデコーダ Actis: A Strictly Local Union-Find Decoder ( http://arxiv.org/abs/2305.18534v4 ) ライセンス: Link先を確認 | Tim Chan, Simon C. Benjamin | (参考訳) フォールトトレラント量子コンピューティングは、エラー訂正に必要なデコードを実行するために古典的なハードウェアを必要とする。
ユニオン・フィールド・デコーダは最も優れた候補の1つである。
これは、近距離のステップを通じてデータ構造の成長とマージを伴い、非常に有機的な特徴を持ち、これは自然に近距離のリンクを持つ単純なプロセッサの格子を用いた実現の可能性を示している。
このように計算負荷は、ほぼ理想的並列性で分散することができる。
ここでは、この厳密な(部分的な)局所性が初めて実践的であることを示し、最悪の場合のランタイム $\mathcal o(d^3)$ と、表面コード距離 $d$ で平均実行時サブクアドドラティックを持つ。
提案するアーキテクチャを単純化する新しいパリティ計算方式を採用し,回路レベルの雑音に対して最適化した。
ローカル実現を長距離リンクで拡張したものと比較する。後者はもちろん高速ですが、ローカルな非同期ロジックは違いを無効にする可能性があることに注意してください。 Fault-tolerant quantum computing requires classical hardware to perform the decoding necessary for error correction. The Union-Find decoder is one of the best candidates for this. It has remarkably organic characteristics, involving the growth and merger of data structures through nearest-neighbour steps; this naturally suggests the possibility of its realisation using a lattice of simple processors with nearest-neighbour links. In this way the computational load can be distributed with near-ideal parallelism. Here we show for the first time that this strict (rather than partial) locality is practical, with a worst-case runtime $\mathcal O(d^3)$ and mean runtime subquadratic in the surface code distance $d$. A novel parity-calculation scheme is employed which can simplify previously proposed architectures, and our approach is optimised for circuit-level noise. We compare our local realisation with one augmented by long-range links; while the latter is of course faster, we note that local asynchronous logic could negate the difference. | 翻訳日:2023-11-09 19:51:23 公開日:2023-11-08 |
# ソーシャルメディアにおけるエンゲージメント,ユーザ満足度,分断コンテンツの増幅 Engagement, User Satisfaction, and the Amplification of Divisive Content on Social Media ( http://arxiv.org/abs/2305.16941v3 ) ライセンス: Link先を確認 | Smitha Milli, Micah Carroll, Yike Wang, Sashrika Pandey, Sebastian Zhao, Anca D. Dragan | (参考訳) 事前登録されたランダム化実験では、twitterのエンゲージメントベースのランキングアルゴリズムが感情的にチャージされ、グループ外で敵対的なコンテンツを増幅し、感情的な分極に寄与することを発見した。
さらに,このアルゴリズムが閲覧したいものを表示するという主張を批判的に検討し,ユーザが選択した政治ツイートを好まないことを発見した。
最後に,ユーザの嗜好に基づいてコンテンツをランク付けする代替手法を提案するとともに,怒り,パルチザン,外集団の敵対的コンテンツの減少に加えて,エコーチャンバーの強化の可能性についても考察する。
この証拠は、エンゲージメント、ユーザの選好、社会政治的な結果のバランスをとる、より微妙なコンテンツランキングアプローチの必要性を強調している。 In a pre-registered randomized experiment, we found that, relative to a reverse-chronological baseline, Twitter's engagement-based ranking algorithm may amplify emotionally charged, out-group hostile content and contribute to affective polarization. Furthermore, we critically examine the claim that the algorithm shows users what they want to see, discovering that users do not prefer the political tweets selected by the algorithm. Finally, we explore the implications of an alternative approach to ranking content based on users' stated preferences and find a reduction in angry, partisan, and out-group hostile content but also a potential reinforcement of echo chambers. The evidence underscores the necessity for a more nuanced approach to content ranking that balances engagement, users' stated preferences, and sociopolitical outcomes. | 翻訳日:2023-11-09 19:50:38 公開日:2023-11-08 |
# CAILA: 合成ゼロショット学習のための概念認識型層内アダプタ CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2305.16681v2 ) ライセンス: Link先を確認 | Zhaoheng Zheng, Haidong Zhu and Ram Nevatia | (参考訳) 本稿では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の問題について検討する。
近年の研究者は、CLIPのような大規模ビジョンランゲージ事前訓練(VLP)モデルの適用に重点を置いている。
しかし、これらの方法は事前訓練されたモデルをブラックボックスとして扱い、クリップ内のレイヤー間の意味概念をマイニングしないプリ・アンド・ポスト・クリップ操作に焦点を当てている。
我々は,各クリップエンコーダ層に対して,大規模言語モデルにおいて有効なパラメータ効率の高い手法である,アーキテクチャを深く掘り下げてアダプタを挿入することを提案する。
さらに,アダプタに概念認識を持たせることで,"object","attribute","composition"の概念固有の特徴を抽出することができる。
提案手法は,MIT-States, C-GQA, UT-Zappos, VAW-CZSLの4つの一般的なCZSLデータセットを用いて評価し, 既存の手法と比較して, 最先端の性能を示す。 In this paper, we study the problem of Compositional Zero-Shot Learning (CZSL), which is to recognize novel attribute-object combinations with pre-existing concepts. Recent researchers focus on applying large-scale Vision-Language Pre-trained (VLP) models like CLIP with strong generalization ability. However, these methods treat the pre-trained model as a black box and focus on pre- and post-CLIP operations, which do not inherently mine the semantic concept between the layers inside CLIP. We propose to dive deep into the architecture and insert adapters, a parameter-efficient technique proven to be effective among large language models, into each CLIP encoder layer. We further equip adapters with concept awareness so that concept-specific features of "object", "attribute", and "composition" can be extracted. We assess our method on four popular CZSL datasets, MIT-States, C-GQA, UT-Zappos, and VAW-CZSL, which shows state-of-the-art performance compared to existing methods on all of them. | 翻訳日:2023-11-09 19:50:23 公開日:2023-11-08 |
# 拡張サンプルによる混合システムにおけるサンプル効率的な強化学習とその待ち行列ネットワークへの応用 Sample Efficient Reinforcement Learning in Mixed Systems through Augmented Samples and Its Applications to Queueing Networks ( http://arxiv.org/abs/2305.16483v2 ) ライセンス: Link先を確認 | Honghao Wei, Xin Liu, Weina Wang, Lei Ying | (参考訳) 本稿では,2種類の状態を持つシステムを含む強化学習問題(確率的および擬確率的)について考察する。
このようなシステムでは、確率状態は確率遷移核に従い、擬確率状態の遷移は確率状態/遷移から決定論的である。
本稿では,製造システム,通信ネットワーク,待ち行列ネットワークなど,様々な用途で広く利用されている混合システムについて述べる。
拡張データサンプルを生成することで学習を高速化する,効率的なRL法を提案する。
提案アルゴリズムはデータ駆動型であり,実データと増補データの両方からポリシーを学習する。
この方法は、データセットが確率状態の十分なカバレッジしか持たないように、サンプルの複雑さを減らし、学習を大幅に改善する。
そこで,Fitted Q Iteration (FQI) を用いて提案手法のサンプル複雑性を解析し,その最適性ギャップが$\tilde{\mathcal{O}}(\sqrt{{1}/{n}}+\sqrt{{1}/{m}})として減少することを示した。
拡張サンプルがなければ、擬似確率状態のデータカバレッジが不十分なため、最適性ギャップは$\tilde{\mathcal{O}}(1)$である。
複数の待ち行列ネットワークアプリケーションに対する実験結果から,提案手法が深いQ-ラーニングと深いポリシー勾配の両方において学習を著しく加速することを確認した。 This paper considers a class of reinforcement learning problems, which involve systems with two types of states: stochastic and pseudo-stochastic. In such systems, stochastic states follow a stochastic transition kernel while the transitions of pseudo-stochastic states are deterministic given the stochastic states/transitions. We refer to such systems as mixed systems, which are widely used in various applications, including manufacturing systems, communication networks, and queueing networks. We propose a sample efficient RL method that accelerates learning by generating augmented data samples. The proposed algorithm is data-driven and learns the policy from data samples from both real and augmented samples. This method significantly improves learning by reducing the sample complexity such that the dataset only needs to have sufficient coverage of the stochastic states. We analyze the sample complexity of the proposed method under Fitted Q Iteration (FQI) and demonstrate that the optimality gap decreases as $\tilde{\mathcal{O}}(\sqrt{{1}/{n}}+\sqrt{{1}/{m}}),$ where $n$ is the number of real samples and $m$ is the number of augmented samples per real sample. It is important to note that without augmented samples, the optimality gap is $\tilde{\mathcal{O}}(1)$ due to insufficient data coverage of the pseudo-stochastic states. Our experimental results on multiple queueing network applications confirm that the proposed method indeed significantly accelerates learning in both deep Q-learning and deep policy gradient. | 翻訳日:2023-11-09 19:50:03 公開日:2023-11-08 |
# マルチフュージョン:多言語多モード画像生成のための事前学習モデル MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal Image Generation ( http://arxiv.org/abs/2305.15296v2 ) ライセンス: Link先を確認 | Marco Bellagente, Manuel Brack, Hannah Teufel, Felix Friedrich, Bj\"orn Deiseroth, Constantin Eichenberg, Andrew Dai, Robert Baldock, Souradeep Nanda, Koen Oostermeijer, Andres Felipe Cruz-Salinas, Patrick Schramowski, Kristian Kersting, Samuel Weinbach | (参考訳) 最近のtext-to-image diffusion models(dm)の人気は、ユーザに提供する直感的なインターフェースに起因している。
意図された生成は自然言語で表現でき、モデルはテキストプロンプトの忠実な解釈を生成する。
しかし、複雑なアイデアやニュアンスをテキストだけで表現することは困難である。
画像生成を容易にするために,複数のモダリティや言語を任意にインターリーブした入力で複雑でニュアンスな概念を表現できるMultiFusionを提案する。
mutlifusionは事前トレーニングされたモデルを活用し、それらを結合システムに統合することで、スクラッチから広範なトレーニングの必要性を回避する。
実験結果は,個々のモジュールから下流モデルへの効率的な機能移行を実証する。
特に、すべての独立したコンポーネントの融合により、画像生成モジュールは単一の言語でモノモダルデータのみを訓練しているにもかかわらず、多言語、インターリーブされたマルチモーダル入力を利用することができる。 The recent popularity of text-to-image diffusion models (DM) can largely be attributed to the intuitive interface they provide to users. The intended generation can be expressed in natural language, with the model producing faithful interpretations of text prompts. However, expressing complex or nuanced ideas in text alone can be difficult. To ease image generation, we propose MultiFusion that allows one to express complex and nuanced concepts with arbitrarily interleaved inputs of multiple modalities and languages. MutliFusion leverages pre-trained models and aligns them for integration into a cohesive system, thereby avoiding the need for extensive training from scratch. Our experimental results demonstrate the efficient transfer of capabilities from individual modules to the downstream model. Specifically, the fusion of all independent components allows the image generation module to utilize multilingual, interleaved multimodal inputs despite being trained solely on monomodal data in a single language. | 翻訳日:2023-11-09 19:49:06 公開日:2023-11-08 |
# dot製品による階層型クラスタリングによる隠れ木構造回復 Hierarchical clustering with dot products recovers hidden tree structure ( http://arxiv.org/abs/2305.15022v2 ) ライセンス: Link先を確認 | Annie Gray, Alexander Modell, Patrick Rubin-Delanchy, Nick Whiteley | (参考訳) 本稿では,高度に確立された凝集クラスタリングアルゴリズムについて,階層構造の復元に焦点をあてた新しい視点を提案する。
我々は、例えば最小距離またはクラスタ内分散ではなく、最大平均ドット積でクラスタをマージする、標準アルゴリズムの単純な変種を推奨する。
このアルゴリズムによって出力される木は、汎用的確率的グラフィカルモデルの下で、データ内の生成階層構造のボナfide推定を提供する。
重要な技術的革新は、このモデルにおける階層的情報がどのようにしてデータから復元できる木幾何に変換されるかを理解し、サンプルサイズとデータ次元を同時に増やすことの利点を特徴付けることである。
UPGMAやWardの手法,HDBSCANといった既存手法よりも,実データの方が優れた木回復性能を示す。 In this paper we offer a new perspective on the well established agglomerative clustering algorithm, focusing on recovery of hierarchical structure. We recommend a simple variant of the standard algorithm, in which clusters are merged by maximum average dot product and not, for example, by minimum distance or within-cluster variance. We demonstrate that the tree output by this algorithm provides a bona fide estimate of generative hierarchical structure in data, under a generic probabilistic graphical model. The key technical innovations are to understand how hierarchical information in this model translates into tree geometry which can be recovered from data, and to characterise the benefits of simultaneously growing sample size and data dimension. We demonstrate superior tree recovery performance with real data over existing approaches such as UPGMA, Ward's method, and HDBSCAN. | 翻訳日:2023-11-09 19:48:47 公開日:2023-11-08 |
# ウェーブレット領域への属性の一般化によるモデル決定の信頼性の評価 Assessment of the Reliablity of a Model's Decision by Generalizing Attribution to the Wavelet Domain ( http://arxiv.org/abs/2305.14979v4 ) ライセンス: Link先を確認 | Gabriel Kasmi and Laurent Dubus and Yves-Marie Saint Drenan and Philippe Blanc | (参考訳) ニューラルネットワークはコンピュータビジョンにおいて顕著な性能を示しているが、そのブラックボックスの性質から、多くの科学および技術分野への展開は困難である。
科学者や実践者は、意思決定の信頼性、すなわちモデルが関連する特徴に依存しているかどうか、そしてそれらの特徴が画像の腐敗に対して堅牢であるかどうかを同時に知る必要がある。
既存の属性法は、画像領域の重要な領域を強調することで、人間の理解可能な説明を提供することを目的としている。
このギャップを埋めるために、ウェーブレット変換を用いた画素領域から空間スケール領域への属性の一般化であるWavelet sCale Attribution Method (WCAM)を導入する。
ウェーブレット領域の属性は、モデルがどのスケールに焦点を当てているかを明らかにし、決定が信頼できるかどうかを評価することができる。
コードはここでアクセスできます。 \url{https://github.com/gabrielkasmi/spectral-attribution}。 Neural networks have shown remarkable performance in computer vision, but their deployment in numerous scientific and technical fields is challenging due to their black-box nature. Scientists and practitioners need to evaluate the reliability of a decision, i.e., to know simultaneously if a model relies on the relevant features and whether these features are robust to image corruptions. Existing attribution methods aim to provide human-understandable explanations by highlighting important regions in the image domain, but fail to fully characterize a decision process's reliability. To bridge this gap, we introduce the Wavelet sCale Attribution Method (WCAM), a generalization of attribution from the pixel domain to the space-scale domain using wavelet transforms. Attribution in the wavelet domain reveals where and on what scales the model focuses, thus enabling us to assess whether a decision is reliable. Our code is accessible here: \url{https://github.com/gabrielkasmi/spectral-attribution}. | 翻訳日:2023-11-09 19:48:33 公開日:2023-11-08 |
# 微細変換器を用いたNLPモデルのロバスト性について On Robustness of Finetuned Transformer-based NLP Models ( http://arxiv.org/abs/2305.14453v2 ) ライセンス: Link先を確認 | Pavan Kalyan Reddy Neerudu, Subba Reddy Oota, Mounika Marreddy, Venkateswara Rao Kagita, Manish Gupta | (参考訳) BERT、GPT-2、T5といったトランスフォーマーベースの事前訓練モデルは、多くの自然言語処理(NLP)タスクのために微調整されており、非常に効果的であることが示されている。
しかし、微調整をしながら、事前学習されたチェックポイントに関して、これらのモデル内のレイヤにまたがる変化は未検討である。
さらに、これらのモデルは入力テキストの摂動に対してどれほど堅牢か?
モデルが微調整されたNLPタスクによって、ロバスト性は異なるのか?
いくつかのNLPタスクのために微調整されたBERTのロバスト性の研究は存在するが、エンコーダのみ、デコーダのみ、およびエンコーダ-デコーダモデル間のロバスト性を比較する厳密な研究はない。
本稿では,CKAとSTIRの2つの指標を用いて,事前訓練された言語モデルと微調整された言語モデル間の変化を特徴付ける。
さらに,3つの言語モデル (BERT, GPT-2, T5) の強靭性について,ジェネラル言語理解評価 (GLUE) ベンチマークと,要約,自由形式生成,質問生成などの生成タスクを8つの異なるテキスト摂動で比較した。
GPT-2表現はBERTやT5よりも複数の入力摂動に対して堅牢である。
モデルは大きな堅牢性を示すが、名詞や動詞、変化する文字が最も影響を受けやすい。
全体として、この研究は、入力を渡す際に留意すべき、人気のあるTransformerベースのモデルの摂動固有の弱点に関する貴重な洞察を提供する。
コードとモデルを公開しています [https://github.com/PavanNeerudu/Robustness-of-Transformers-models]。 Transformer-based pretrained models like BERT, GPT-2 and T5 have been finetuned for a large number of natural language processing (NLP) tasks, and have been shown to be very effective. However, while finetuning, what changes across layers in these models with respect to pretrained checkpoints is under-studied. Further, how robust are these models to perturbations in input text? Does the robustness vary depending on the NLP task for which the models have been finetuned? While there exists some work on studying the robustness of BERT finetuned for a few NLP tasks, there is no rigorous study that compares this robustness across encoder only, decoder only and encoder-decoder models. In this paper, we characterize changes between pretrained and finetuned language model representations across layers using two metrics: CKA and STIR. Further, we study the robustness of three language models (BERT, GPT-2 and T5) with eight different text perturbations on classification tasks from the General Language Understanding Evaluation (GLUE) benchmark, and generation tasks like summarization, free-form generation and question generation. GPT-2 representations are more robust than BERT and T5 across multiple types of input perturbation. Although models exhibit good robustness broadly, dropping nouns, verbs or changing characters are the most impactful. Overall, this study provides valuable insights into perturbation-specific weaknesses of popular Transformer-based models, which should be kept in mind when passing inputs. We make the code and models publicly available [https://github.com/PavanNeerudu/Robustness-of-Transformers-models]. | 翻訳日:2023-11-09 19:47:47 公開日:2023-11-08 |
# 大規模言語モデルのための透かし統合のための3つのれんが Three Bricks to Consolidate Watermarks for Large Language Models ( http://arxiv.org/abs/2308.00113v2 ) ライセンス: Link先を確認 | Pierre Fernandez, Antoine Chaffin, Karim Tit, Vivien Chappelier, Teddy Furon | (参考訳) 生成テキストと自然テキストの区別はますます困難になっている。
この文脈では、ウォーターマーキングは、生成されたテキストを特定のモデルに割り当てるための有望なテクニックとして現れる。
サンプリング生成プロセスを変更して、生成した出力に目に見えない痕跡を残すことで、後続の検出を容易にする。
本研究は,3つの理論的および経験的考察に基づいて,大規模言語モデルの透かしを統合する。
まず、低い偽陽性率(10$^{\text{-6}}$未満)でも有効であるような、堅牢な理論的保証を提供する新しい統計テストを導入する。
第2に,自然言語処理の分野における古典的なベンチマークを用いたウォーターマークの有効性を比較し,実世界への適用可能性について考察する。
第3に,LLMへのアクセスが可能なシナリオとマルチビット透かしの高度な検出手法を開発した。 The task of discerning between generated and natural texts is increasingly challenging. In this context, watermarking emerges as a promising technique for ascribing generated text to a specific model. It alters the sampling generation process so as to leave an invisible trace in the generated output, facilitating later detection. This research consolidates watermarks for large language models based on three theoretical and empirical considerations. First, we introduce new statistical tests that offer robust theoretical guarantees which remain valid even at low false-positive rates (less than 10$^{\text{-6}}$). Second, we compare the effectiveness of watermarks using classical benchmarks in the field of natural language processing, gaining insights into their real-world applicability. Third, we develop advanced detection schemes for scenarios where access to the LLM is available, as well as multi-bit watermarking. | 翻訳日:2023-11-09 19:40:34 公開日:2023-11-08 |
# 非推移ゲームのためのポリシー空間の多様性 Policy Space Diversity for Non-Transitive Games ( http://arxiv.org/abs/2306.16884v2 ) ライセンス: Link先を確認 | Jian Yao, Weiming Liu, Haobo Fu, Yaodong Yang, Stephen McAleer, Qiang Fu, Wei Yang | (参考訳) Policy-Space Response Oracles (PSRO) はマルチエージェント非推移ゲームにおいて Nash Equilibrium (NE) を近似するための強力なアルゴリズムフレームワークである。
これまで多くの研究がpsroの政策多様性を推進してきた。
既存の多様性指標の大きな弱点は、より多様性のある(多様性指標による)人口が必ずしも(私たちが論文で証明したように)NEに対するより良い近似を意味するとは限らないことである。
この問題を緩和するため,我々は,neへの近似性が向上する新しい多様性指標を提案する。
一方, 状態-作用サンプルのみを用いて, 多様性指標を最適化するための実用的, 適正な手法を開発した。
多様性の正則化をPSROの最適応答解に組み込むことで、PSROの新たな変種であるポリシー空間多様性PSRO(PSD-PSRO)を得る。
PSD-PSROの収束特性について述べる。
実証的な実験により、psd-psroは最先端のpsroよりも悪用可能なポリシーを多く作り出すのに効果的であることが示されている。 Policy-Space Response Oracles (PSRO) is an influential algorithm framework for approximating a Nash Equilibrium (NE) in multi-agent non-transitive games. Many previous studies have been trying to promote policy diversity in PSRO. A major weakness in existing diversity metrics is that a more diverse (according to their diversity metrics) population does not necessarily mean (as we proved in the paper) a better approximation to a NE. To alleviate this problem, we propose a new diversity metric, the improvement of which guarantees a better approximation to a NE. Meanwhile, we develop a practical and well-justified method to optimize our diversity metric using only state-action samples. By incorporating our diversity regularization into the best response solving in PSRO, we obtain a new PSRO variant, Policy Space Diversity PSRO (PSD-PSRO). We present the convergence property of PSD-PSRO. Empirically, extensive experiments on various games demonstrate that PSD-PSRO is more effective in producing significantly less exploitable policies than state-of-the-art PSRO variants. | 翻訳日:2023-11-09 19:40:21 公開日:2023-11-08 |
# 勾配最適化法によるカーネルリッジ回帰の解法 Solving Kernel Ridge Regression with Gradient-Based Optimization Methods ( http://arxiv.org/abs/2306.16838v3 ) ライセンス: Link先を確認 | Oskar Allerbo | (参考訳) カーネルリッジ回帰 (kernel ridge regression, krr) は、データでは非線形であるがパラメータでは線形である線形リッジ回帰の一般化である。
本稿では,krrの目的関数の等価な定式化について紹介し,リッジペナルティ以外のペナルティの使用と,勾配降下の観点からカーネルリッジ回帰の研究を両立させる。
連続時間の観点からは、勾配降下による核回帰(カーネル勾配流、kgf)を解くための閉形式解を導出し、krrとkgfの差を理論的に拘束し、後者については早期停止によって正規化が得られる。
リッジペナルティをそれぞれ$\ell_1$と$\ell_\infty$のペナルティに置き換えることでKRRを一般化し、KGFとKRRの類似性、$\ell_1$の正則化と前段階回帰(座標降下)、$\ell_\infty$の正則化と符号勾配勾配が同様の解経路に従うという事実を用いる。
したがって、近位勾配降下に基づく計算量の多いアルゴリズムの必要性を緩和することができる。
理論的および経験的に、$\ell_1$ と $\ell_\infty$ のペナルティと対応する勾配に基づく最適化アルゴリズムがそれぞれスパースおよびロバストなカーネル回帰解を生成する方法を示す。 Kernel ridge regression, KRR, is a generalization of linear ridge regression that is non-linear in the data, but linear in the parameters. Here, we introduce an equivalent formulation of the objective function of KRR, opening up both for using penalties other than the ridge penalty and for studying kernel ridge regression from the perspective of gradient descent. Using a continuous-time perspective, we derive a closed-form solution for solving kernel regression with gradient descent, something we refer to as kernel gradient flow, KGF, and theoretically bound the differences between KRR and KGF, where, for the latter, regularization is obtained through early stopping. We also generalize KRR by replacing the ridge penalty with the $\ell_1$ and $\ell_\infty$ penalties, respectively, and use the fact that analogous to the similarities between KGF and KRR, $\ell_1$ regularization and forward stagewise regression (also known as coordinate descent), and $\ell_\infty$ regularization and sign gradient descent, follow similar solution paths. We can thus alleviate the need for computationally heavy algorithms based on proximal gradient descent. We show theoretically and empirically how the $\ell_1$ and $\ell_\infty$ penalties, and the corresponding gradient-based optimization algorithms, produce sparse and robust kernel regression solutions, respectively. | 翻訳日:2023-11-09 19:40:01 公開日:2023-11-08 |
# 時間差動の固有部分空間と強化学習における価値近似の改善 Eigensubspace of Temporal-Difference Dynamics and How It Improves Value Approximation in Reinforcement Learning ( http://arxiv.org/abs/2306.16750v2 ) ライセンス: Link先を確認 | Qiang He and Tianyi Zhou and Meng Fang and Setareh Maghsudi | (参考訳) 深部強化学習(RL)のための新しい値近似法,すなわち固有部分空間正規化批判(ERC)を提案する。
ERCは、マルコフ決定プロセス(MDP)に関連する遷移カーネルの1-固有部分空間で定義される経路に従う、時間差分法(TD)法におけるQ値近似誤差のダイナミクスの解析によって動機付けられる。
これは、以前のdeep rlアプローチで使われていないtd学習の基本特性を明らかにする。
ercでは、1-固有部分空間に傾向を持つ近似誤差を導く正則化器を提案し、より効率的で安定な値近似経路を導出する。
さらに、理論的にERC法の収束を証明した。
さらに、理論的解析と実験により、ERCは値関数の分散を効果的に減少させることを示した。
DMControlベンチマークの26のタスクのうち、ERCは20の最先端メソッドよりも優れています。
さらに、Q値近似と分散還元において大きな利点を示す。
私たちのコードはhttps://sites.google.com/view/erc-ecml23/で利用可能です。 We propose a novel value approximation method, namely Eigensubspace Regularized Critic (ERC) for deep reinforcement learning (RL). ERC is motivated by an analysis of the dynamics of Q-value approximation error in the Temporal-Difference (TD) method, which follows a path defined by the 1-eigensubspace of the transition kernel associated with the Markov Decision Process (MDP). It reveals a fundamental property of TD learning that has remained unused in previous deep RL approaches. In ERC, we propose a regularizer that guides the approximation error tending towards the 1-eigensubspace, resulting in a more efficient and stable path of value approximation. Moreover, we theoretically prove the convergence of the ERC method. Besides, theoretical analysis and experiments demonstrate that ERC effectively reduces the variance of value functions. Among 26 tasks in the DMControl benchmark, ERC outperforms state-of-the-art methods for 20. Besides, it shows significant advantages in Q-value approximation and variance reduction. Our code is available at https://sites.google.com/view/erc-ecml23/. | 翻訳日:2023-11-09 19:39:31 公開日:2023-11-08 |
# ディープフェイク検出の公平性向上 Improving Fairness in Deepfake Detection ( http://arxiv.org/abs/2306.16635v3 ) ライセンス: Link先を確認 | Yan Ju, Shu Hu, Shan Jia, George H. Chen, Siwei Lyu | (参考訳) 近年、効果的なディープフェイク検出器が開発されているにもかかわらず、近年の研究では、これらの検出器の訓練に使用されるデータのバイアスが、異なる人種や性別における検出精度の差をもたらすことが示されている。
これにより、異なるグループが不当に標的にされ、検出から除外され、検出されていないディープフェイクが世論を操り、ディープフェイク検出モデルにおける信頼を損なうことができる。
既存の研究では、ディープフェイク検出の公平性を評価することに重点を置いているが、アルゴリズムレベルでディープフェイク検出の公平性を高める方法が開発されていない。
本研究では,人口統計情報(人種や性別の注釈など)が利用可能な設定と,この情報が存在しない場合の両方を扱う新たな損失関数を提案することで,ディープフェイク検出の公平性を改善する最初の試みを行う。
基本的に、両方のアプローチは、既存の多くのディープフェイク検出器を公正を奨励するものに変換するのに使うことができる。
4つのdeepfakeデータセットと5つのdeepfake検出器に関する広範な実験は、deepfake検出フェアネスを改善するためのアプローチの有効性と柔軟性を示しています。
私たちのコードはhttps://github.com/littlejuyan/df_fairnessで利用可能です。 Despite the development of effective deepfake detectors in recent years, recent studies have demonstrated that biases in the data used to train these detectors can lead to disparities in detection accuracy across different races and genders. This can result in different groups being unfairly targeted or excluded from detection, allowing undetected deepfakes to manipulate public opinion and erode trust in a deepfake detection model. While existing studies have focused on evaluating fairness of deepfake detectors, to the best of our knowledge, no method has been developed to encourage fairness in deepfake detection at the algorithm level. In this work, we make the first attempt to improve deepfake detection fairness by proposing novel loss functions that handle both the setting where demographic information (eg, annotations of race and gender) is available as well as the case where this information is absent. Fundamentally, both approaches can be used to convert many existing deepfake detectors into ones that encourages fairness. Extensive experiments on four deepfake datasets and five deepfake detectors demonstrate the effectiveness and flexibility of our approach in improving deepfake detection fairness. Our code is available at https://github.com/littlejuyan/DF_Fairness. | 翻訳日:2023-11-09 19:39:15 公開日:2023-11-08 |
# 回帰のための事前学習課題の多様性と非ベイズ的文脈学習の出現 Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression ( http://arxiv.org/abs/2306.15063v2 ) ライセンス: Link先を確認 | Allan Ravent\'os, Mansheej Paul, Feng Chen, Surya Ganguli | (参考訳) 事前訓練されたトランスフォーマーは、インコンテキスト学習(ICL: In-context Learning)の顕著な能力を示す。
ICLは基本的に$\textit{new}$タスクを解決できますか?
そこで本研究では,プリトレーニングデータセットにおけるタスクの多様性を変えつつ,線形回帰におけるiclの性能について検討する。
ICLの出現に対する$\textit{task diversity threshold}$を実証的に示す。
このしきい値以下では、事前訓練されたトランスフォーマーは、未認識の回帰タスクを解くことができず、代わりに$\textit{non-diverse pretraining task distribution}$ をプリエントとしてベイズ推定器のように振る舞う。
このしきい値を超えて、トランスフォーマーは、この推定器を大きく上回る;その振舞いはリッジ回帰のそれと一致し、プリトレーニング中に見えないものを含む$\textit{all tasks}$以前のガウス式に対応する。
したがって、タスクの多様性がしきい値よりも大きいデータで事前トレーニングすると、transformers $\textit{can}$はコンテキスト内の基本的な新しいタスクを最適に解決する。
重要なのは、この機能がベイズ最適推定器から逸脱し、事前訓練分布を前とすることである。
本研究はまた、iclの出現において、正規化、モデル容量、タスク構造およびアンダースコアが、データおよびモデルスケールと並行して、タスク多様性の重要な役割を具体例で検討する。
コードはhttps://github.com/mansheej/icl-task-diversityで入手できる。 Pretrained transformers exhibit the remarkable ability of in-context learning (ICL): they can learn tasks from just a few examples provided in the prompt without updating any weights. This raises a foundational question: can ICL solve fundamentally $\textit{new}$ tasks that are very different from those seen during pretraining? To probe this question, we examine ICL's performance on linear regression while varying the diversity of tasks in the pretraining dataset. We empirically demonstrate a $\textit{task diversity threshold}$ for the emergence of ICL. Below this threshold, the pretrained transformer cannot solve unseen regression tasks, instead behaving like a Bayesian estimator with the $\textit{non-diverse pretraining task distribution}$ as the prior. Beyond this threshold, the transformer significantly outperforms this estimator; its behavior aligns with that of ridge regression, corresponding to a Gaussian prior over $\textit{all tasks}$, including those not seen during pretraining. Thus, when pretrained on data with task diversity greater than the threshold, transformers $\textit{can}$ optimally solve fundamentally new tasks in-context. Importantly, this capability hinges on it deviating from the Bayes optimal estimator with the pretraining distribution as the prior. This study also explores the effect of regularization, model capacity and task structure and underscores, in a concrete example, the critical role of task diversity, alongside data and model scale, in the emergence of ICL. Code is available at https://github.com/mansheej/icl-task-diversity. | 翻訳日:2023-11-09 19:38:55 公開日:2023-11-08 |
# さらなるPAC-Bayes境界:有界損失、一般的な尾の挙動による損失、時効性 More PAC-Bayes bounds: From bounded losses, to losses with general tail behaviors, to anytime-validity ( http://arxiv.org/abs/2306.12214v2 ) ライセンス: Link先を確認 | Borja Rodr\'iguez-G\'alvez, Ragnar Thobaben, Mikael Skoglund | (参考訳) 本稿では,異なる種類の損失に対する新しい高確率PAC-Bayes境界を提案する。
まず、有界範囲の損失に対して、すべてのパラメータ値に対して一様に保持されるカトーニ境界の強化版を復元する。
これは、以前の文献の限界よりも解釈可能で密接な、新しい速い速度と混合率の境界をもたらす。
特に、高速速度境界はシーガー-ラングフォード境界と同値である。
次に,損失の累積生成関数が有界なときのPAC-Bayes Chernoffアナログと,損失の第2モーメントが有界なときの有界という2つの新しいパラメータフリー境界を導入する。
これらの2つの境界は、「確率」パラメータ最適化問題に対する事象の空間の離散化に基づく新しい手法を用いて得られる。
このテクニックは、パラメータ空間上のグリッド上で最適化する以前のアプローチよりもシンプルで汎用的です。
最後に,既存の任意の境界に適用可能な単純な手法を用いて,これまでのすべての結果をanytime-valid境界まで拡張する。 In this paper, we present new high-probability PAC-Bayes bounds for different types of losses. Firstly, for losses with a bounded range, we recover a strengthened version of Catoni's bound that holds uniformly for all parameter values. This leads to new fast rate and mixed rate bounds that are interpretable and tighter than previous bounds in the literature. In particular, the fast rate bound is equivalent to the Seeger--Langford bound. Secondly, for losses with more general tail behaviors, we introduce two new parameter-free bounds: a PAC-Bayes Chernoff analogue when the loss' cumulative generating function is bounded, and a bound when the loss' second moment is bounded. These two bounds are obtained using a new technique based on a discretization of the space of possible events for the "in probability" parameter optimization problem. This technique is both simpler and more general than previous approaches optimizing over a grid on the parameters' space. Finally, we extend all previous results to anytime-valid bounds using a simple technique applicable to any existing bound. | 翻訳日:2023-11-09 19:38:04 公開日:2023-11-08 |
# 視覚言語モデルを用いたテキストプロンプタブル手術機器のセグメンテーション Text Promptable Surgical Instrument Segmentation with Vision-Language Models ( http://arxiv.org/abs/2306.09244v3 ) ライセンス: Link先を確認 | Zijian Zhou, Oluwatosin Alabi, Meng Wei, Tom Vercauteren, Miaojing Shi | (参考訳) 本稿では,低侵襲手術における手術器具の多様性と分化に関わる課題を克服するために,新しいテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
課題をテキストとして再定義することで,手術器具のよりきめ細やかな理解と,新たな機器タイプへの適応性を実現する。
近年の視覚言語モデルの進歩に触発されて,プリトレーニングされた画像とテキストエンコーダをモデルバックボーンとして活用し,注意と畳み込みに基づくセンセーション予測のためのテキストプロンプト可能なマスクデコーダを設計した。
本モデルでは,手術器具毎に複数のテキストプロンプトを併用し,新たなプロンプト機構によりセグメンテーション性能が向上した。
さらに,画像特徴理解とセグメンテーション精度を向上させるためのハードインスツルメンテーション領域強化モジュールを提案する。
いくつかの手術器具セグメンテーションデータセットに対する大規模な実験は、我々のモデルの優れた性能と有望な一般化能力を示している。
我々の知る限り、これは外科用機器セグメンテーションへの迅速なアプローチの最初の実装であり、ロボットアシスト手術の分野での実用化に有意義な可能性を秘めている。
コードはhttps://github.com/franciszzj/tp-sisで入手できる。 In this paper, we propose a novel text promptable surgical instrument segmentation approach to overcome challenges associated with diversity and differentiation of surgical instruments in minimally invasive surgeries. We redefine the task as text promptable, thereby enabling a more nuanced comprehension of surgical instruments and adaptability to new instrument types. Inspired by recent advancements in vision-language models, we leverage pretrained image and text encoders as our model backbone and design a text promptable mask decoder consisting of attention- and convolution-based prompting schemes for surgical instrument segmentation prediction. Our model leverages multiple text prompts for each surgical instrument through a new mixture of prompts mechanism, resulting in enhanced segmentation performance. Additionally, we introduce a hard instrument area reinforcement module to improve image feature comprehension and segmentation precision. Extensive experiments on several surgical instrument segmentation datasets demonstrate our model's superior performance and promising generalization capability. To our knowledge, this is the first implementation of a promptable approach to surgical instrument segmentation, offering significant potential for practical application in the field of robotic-assisted surgery. Code is available at https://github.com/franciszzj/TP-SIS. | 翻訳日:2023-11-09 19:37:43 公開日:2023-11-08 |
# TopP&R: 生成モデルの忠実度と多様性を評価するロバスト支援推定手法 TopP&R: Robust Support Estimation Approach for Evaluating Fidelity and Diversity in Generative Models ( http://arxiv.org/abs/2306.08013v4 ) ライセンス: Link先を確認 | Pum Jun Kim, Yoojin Jang, Jisu Kim, Jaejun Yoo | (参考訳) 本稿では,厳密な支持推定のためのトポロジカルおよび統計的処理を導入することにより,生成モデルに対する堅牢で信頼性の高い評価指標を提案する。
inception score (is), frechet inception distance (fid), and the variants of precision and recall (p&r)といった既存のメトリクスは、サンプル機能から推定されるサポートに大きく依存している。
しかし、評価の質が全く依存しているにもかかわらず、それらの評価の信頼性は真剣に議論されていない(そして見落としている)。
本稿では,位相的および統計的に重要な特徴のみをある程度の信頼度で保持し,サポートを推定するための体系的アプローチとして,位相的精度とリコール(topp&r,「topper」と発音する)を提案する。
これにより、TopP&Rはノイズの多い機能に対して強固になるだけでなく、統計的一貫性も提供する。
理論および実験結果から,TopP&Rは試料の真の変化傾向を正確に把握しつつ,非独立かつ同一に分布する(Non-IID)摂動に対して堅牢であることが示された。
我々の知る限りでは、これはサポートの堅牢な見積もりに焦点を当てた最初の評価基準であり、ノイズ下での統計的一貫性を提供する。 We propose a robust and reliable evaluation metric for generative models by introducing topological and statistical treatments for rigorous support estimation. Existing metrics, such as Inception Score (IS), Frechet Inception Distance (FID), and the variants of Precision and Recall (P&R), heavily rely on supports that are estimated from sample features. However, the reliability of their estimation has not been seriously discussed (and overlooked) even though the quality of the evaluation entirely depends on it. In this paper, we propose Topological Precision and Recall (TopP&R, pronounced 'topper'), which provides a systematic approach to estimating supports, retaining only topologically and statistically important features with a certain level of confidence. This not only makes TopP&R strong for noisy features, but also provides statistical consistency. Our theoretical and experimental results show that TopP&R is robust to outliers and non-independent and identically distributed (Non-IID) perturbations, while accurately capturing the true trend of change in samples. To the best of our knowledge, this is the first evaluation metric focused on the robust estimation of the support and provides its statistical consistency under noise. | 翻訳日:2023-11-09 19:37:19 公開日:2023-11-08 |
# Image Captionersはスケーラブルな視覚学習ツール Image Captioners Are Scalable Vision Learners Too ( http://arxiv.org/abs/2306.07915v2 ) ライセンス: Link先を確認 | Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer | (参考訳) webからのイメージテキストペアでのコントラストプリトレーニングは、ビジョンバックボーン、特に大規模マルチモーダルモデルのコンテキストにおいて、最も一般的な大規模プリトレーニング戦略の1つです。
同時に、この種のデータに対する画像キャプションは、一般的に、劣等な事前訓練戦略とみなされる。
本稿では,この2つの事前学習戦略を公正に比較し,学習データ,計算量,モデル容量を慎重にマッチングする。
分類タスクにおいて、キャプションは、視覚と言語タスクでそれらを上回りながら、コントラスト的に事前学習されたエンコーダと競合する視覚エンコーダを生成します。
さらに,モデルアーキテクチャとスケール,および事前学習データが表現品質に与える影響を解析し,これらの軸に沿ってキャプションが同等かそれ以上のスケーリング行動を示すことを見出した。
その結果,画像の字幕化は従来考えられていたよりも強力な事前学習戦略であることが示唆された。 Contrastive pretraining on image-text pairs from the web is one of the most popular large-scale pretraining strategies for vision backbones, especially in the context of large multimodal models. At the same time, image captioning on this type of data is commonly considered an inferior pretraining strategy. In this paper, we perform a fair comparison of these two pretraining strategies, carefully matching training data, compute, and model capacity. Using a standard encoder-decoder transformer, we find that captioning alone is surprisingly effective: on classification tasks, captioning produces vision encoders competitive with contrastively pretrained encoders, while surpassing them on vision & language tasks. We further analyze the effect of the model architecture and scale, as well as the pretraining data on the representation quality, and find that captioning exhibits the same or better scaling behavior along these axes. Overall our results show that plain image captioning is a more powerful pretraining strategy than was previously believed. | 翻訳日:2023-11-09 19:36:54 公開日:2023-11-08 |
# 量子ハミルトニアン予測のための効率的かつ等価なグラフネットワーク Efficient and Equivariant Graph Networks for Predicting Quantum Hamiltonian ( http://arxiv.org/abs/2306.04922v2 ) ライセンス: Link先を確認 | Haiyang Yu, Zhao Xu, Xiaofeng Qian, Xiaoning Qian, Shuiwang Ji | (参考訳) 量子化学や凝縮体物理学で用いられるハミルトニアン行列の予測について考察する。
効率と等価性は重要だが、相反する要素がある。
本研究では,効率と等価性を実現するSE(3)-同変ネットワークQHNetを提案する。
我々のキーとなる進歩はQHNetアーキテクチャの革新的な設計であり、基礎となる対称性に従うだけでなく、テンソル製品の数を92%削減できる。
さらに、QHNetは、より多くの原子タイプが関与する場合、チャネル次元の指数的な成長を防ぐ。
4つの分子系を含むMD17データセットで実験を行った。
実験の結果,我々のQHNetは最先端の手法と同等の性能を極めて高速に達成できることがわかった。
さらに、当社のQHNetは、その合理化アーキテクチャのため、メモリ消費量を50%削減しています。
私たちのコードはAIRSライブラリ(\url{https://github.com/divelab/AIRS})の一部として公開されています。 We consider the prediction of the Hamiltonian matrix, which finds use in quantum chemistry and condensed matter physics. Efficiency and equivariance are two important, but conflicting factors. In this work, we propose a SE(3)-equivariant network, named QHNet, that achieves efficiency and equivariance. Our key advance lies at the innovative design of QHNet architecture, which not only obeys the underlying symmetries, but also enables the reduction of number of tensor products by 92\%. In addition, QHNet prevents the exponential growth of channel dimension when more atom types are involved. We perform experiments on MD17 datasets, including four molecular systems. Experimental results show that our QHNet can achieve comparable performance to the state of the art methods at a significantly faster speed. Besides, our QHNet consumes 50\% less memory due to its streamlined architecture. Our code is publicly available as part of the AIRS library (\url{https://github.com/divelab/AIRS}). | 翻訳日:2023-11-09 19:36:35 公開日:2023-11-08 |
# 言語モデルを用いた認定推論 Certified Deductive Reasoning with Language Models ( http://arxiv.org/abs/2306.04031v2 ) ライセンス: Link先を確認 | Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman | (参考訳) 言語モデルは複雑なタスクでステップバイステップの推論を行う場合、高い精度を達成することが多い。
しかし、たとえ正解に達したとしても、その理性はしばしば論理的に無音または矛盾する。
自己改善のためのモデル生成推論の微調整など、信頼できる推論トレースが必要な場合、これは大きな問題です。
これらの問題に対処するために、我々は、状態制約とインクリメンタル制約を使って生成をガイドする言語モデルのためのツールのクラス「emph{guides}」を紹介した。
ガイドはモデルによって呼び出され、ツールから与えられた有効なステートメントのセットに自身の生成を制約することができる。
モデルの選択は、ガイドの状態を変えることができる。
論理的推論のための一般的なシステムをガイドとして使う方法を示し,それを「textsc{LogicGuide}」と呼ぶ。
自然言語における推論問題を考えると、モデルは \textsc{logicguide} の仮定を定式化し、ステップバイステップの推論が正しいことを保証できる。
PrOntoQA、ProofWriter、Syllogismのデータセットでの実験では、 \textsc{LogicGuide}はGPT-3、GPT-3.5 Turbo、LLaMAのパフォーマンスを著しく向上させ(精度は最大35倍に向上する)、また \emph{content effect} -- 望ましくない前提と推論の間の干渉を劇的に低減する。
次に, GPT-3.5 Turbo と LLaMA のブートストラップについて, 独自の推論トレースを用いて検討する。
認定された自己生成推論のみをトレーニングすることで、モデルは自己改善し、自身の幻覚から学ぶことを避けることができる。
さらに、ブートストラップされたモデルは、推論時の形式化に依存しなくても、現実の困難な推論データセットであるReClor上で大幅に向上する。 Language models often achieve higher accuracy when reasoning step-by-step in complex tasks. However, even when arriving at a correct final answer, their rationales are often logically unsound or inconsistent. This is a major issue when reliable reasoning traces are needed, such when fine-tuning on model-generated reasoning for self-improvement. To tackle these issues, we introduce a class of tools for language models called \emph{guides}, that use state and incremental constraints to guide generation. A guide can be invoked by the model to constrain its own generation to a set of valid statements given by the tool. In turn, the model's choices can change the guide's state. We show how a general system for logical reasoning can be used as a guide, which we call \textsc{LogicGuide}. Given a reasoning problem in natural language, a model can formalize its assumptions for \textsc{LogicGuide} and guarantee that its step-by-step reasoning is sound. In experiments on PrOntoQA, ProofWriter and Syllogism Validity datasets, \textsc{LogicGuide} significantly improves the performance of GPT-3, GPT-3.5 Turbo and LLaMA (accuracy gains up to 35\%), while drastically reducing \emph{content effects} -- the interference between unwanted prior assumptions and reasoning, which humans and language models suffer from. We then explore bootstrapping GPT-3.5 Turbo and LLaMA using their own reasoning traces. We find that LogicGuide is critical: by training only on certified self-generated reasoning, models can self-improve, avoiding learning from their own hallucinations. Moreover, bootstrapped models enjoy significant boosts on ReClor, a challenging real-world reasoning dataset, even when not relying on formalization at inference time. | 翻訳日:2023-11-09 19:36:20 公開日:2023-11-08 |
# オフライン強化学習における生存意識 Survival Instinct in Offline Reinforcement Learning ( http://arxiv.org/abs/2306.03286v2 ) ライセンス: Link先を確認 | Anqi Li, Dipendra Misra, Andrey Kolobov, Ching-An Cheng | (参考訳) オフライン強化学習(RL)アルゴリズムの挙動に関する新しい観察結果を示す。多くのベンチマークデータセットにおいて、オフラインRLは、至るところでゼロであるものや真の報酬の負であるものなど、"間違った"報酬ラベルでトレーニングされた場合でも、良好なパフォーマンスと安全なポリシーを生成できる。
この現象はオフラインrlの戻り最大化目標では容易に説明できない。
さらに、オフラインrlには、報酬設計に敏感であることが知られているオンラインrlに特徴的な堅牢さの度合いを与えている。
この驚くべきロバスト性は、オフラインRLアルゴリズムにおける悲観的概念と、一般的なデータ収集手法におけるある種の暗黙的バイアスとの相互作用に起因することを実証する。
この研究で証明されたように、悲観主義はエージェントを「生存本能(survival instinct)」、すなわち長期的なデータサポートに留まらせるインセンティブで内包し、限られたデータカバレッジと偏りのあるデータカバレッジはサバイバルポリシーのセットをさらに制限する。
形式的には、真の報酬すら含まない報酬クラスが与えられた場合、オフラインのRLがクラス内の報酬からほぼ最適で安全なポリシーを学ぶことができるトレーニングデータ配布の条件を特定します。
我々は、既存のオフラインRLベンチマークの結果を解釈し、将来の結果を作成する際に、生存本能を考慮するべきであると論じる。
我々の経験的および理論的結果は、エージェントが不完全な報酬を伴う望ましい行動を学ぶために、不完全なデータカバレッジを意図的にバイアスするRLの新しいパラダイムを提案する。 We present a novel observation about the behavior of offline reinforcement learning (RL) algorithms: on many benchmark datasets, offline RL can produce well-performing and safe policies even when trained with "wrong" reward labels, such as those that are zero everywhere or are negatives of the true rewards. This phenomenon cannot be easily explained by offline RL's return maximization objective. Moreover, it gives offline RL a degree of robustness that is uncharacteristic of its online RL counterparts, which are known to be sensitive to reward design. We demonstrate that this surprising robustness property is attributable to an interplay between the notion of pessimism in offline RL algorithms and certain implicit biases in common data collection practices. As we prove in this work, pessimism endows the agent with a "survival instinct", i.e., an incentive to stay within the data support in the long term, while the limited and biased data coverage further constrains the set of survival policies. Formally, given a reward class -- which may not even contain the true reward -- we identify conditions on the training data distribution that enable offline RL to learn a near-optimal and safe policy from any reward within the class. We argue that the survival instinct should be taken into account when interpreting results from existing offline RL benchmarks and when creating future ones. Our empirical and theoretical results suggest a new paradigm for RL, whereby an agent is nudged to learn a desirable behavior with imperfect reward but purposely biased data coverage. | 翻訳日:2023-11-09 19:35:43 公開日:2023-11-08 |
# 深部補強学習によるモリス水迷路の航法戦略の検討 Investigating Navigation Strategies in the Morris Water Maze through Deep Reinforcement Learning ( http://arxiv.org/abs/2306.01066v2 ) ライセンス: Link先を確認 | Andrew Liu, Alla Borisyuk | (参考訳) ナビゲーションは、動物と人間の長い研究の歴史を持つ複雑な技術である。
本研究では,モリス水迷路を2次元でシミュレートし,深層強化学習エージェントを訓練する。
ナビゲーション戦略の自動分類を行い, 人工エージェントが使用する戦略の分布を解析し, 実験データと比較し, 人間やげっ歯類に見られるような学習動態を示す。
環境特異的な補助タスクを開発し,その有用性に影響を与える要因を検討する。
我々は、最も有益なタスクは、実際のエージェントの使用がより生物学的に可能であることを示唆する。
最後に,人工エージェントニューラルネットワークの活性化における内部表現の開発について検討する。
これらの表現はマウスの脳にある場所細胞や頭部指向細胞に似ており、それらの存在は人工エージェントが採用するナビゲーション戦略と相関している。 Navigation is a complex skill with a long history of research in animals and humans. In this work, we simulate the Morris Water Maze in 2D to train deep reinforcement learning agents. We perform automatic classification of navigation strategies, analyze the distribution of strategies used by artificial agents, and compare them with experimental data to show similar learning dynamics as those seen in humans and rodents. We develop environment-specific auxiliary tasks and examine factors affecting their usefulness. We suggest that the most beneficial tasks are potentially more biologically feasible for real agents to use. Lastly, we explore the development of internal representations in the activations of artificial agent neural networks. These representations resemble place cells and head-direction cells found in mouse brains, and their presence has correlation to the navigation strategies that artificial agents employ. | 翻訳日:2023-11-09 19:35:14 公開日:2023-11-08 |
# LoopTune: 強化学習によるテンソル計算の最適化 LoopTune: Optimizing Tensor Computations with Reinforcement Learning ( http://arxiv.org/abs/2309.01825v3 ) ライセンス: Link先を確認 | Dejan Grubisic, Bram Wasti, Chris Cummins, John Mellor-Crummey, Aleksandar Zlateski | (参考訳) 高度なコンパイラ技術は、機械学習アプリケーションが新しいハードウェア上で実行できるようにするのに不可欠であるが、従来のコンパイラはパフォーマンスを提供できず、人気のあるオートチューニングは長い検索時間を持ち、エキスパート最適化ライブラリは持続不可能なコストをもたらす。
そこで我々は,CPUの深層学習モデルにおけるテンソル計算を最適化する深層学習コンパイラであるLoopTuneを開発した。
looptuneは、超高速軽量コードジェネレータloopnestを使用してハードウェア固有の最適化を実行しながら、テンソルトラバース順序を最適化する。
新しいグラフベースの表現とアクション空間により、looptuneはloopnestを3.2倍スピードアップし、tvmより2.8倍速く、metascheduleより2.8倍速く、autotvmより1.08倍高速で、ハンドチューニングされたライブラリnumpyのレベルで一貫して実行します。
さらに、LoopTuneは数秒でコードをチューニングする。 Advanced compiler technology is crucial for enabling machine learning applications to run on novel hardware, but traditional compilers fail to deliver performance, popular auto-tuners have long search times and expert-optimized libraries introduce unsustainable costs. To address this, we developed LoopTune, a deep reinforcement learning compiler that optimizes tensor computations in deep learning models for the CPU. LoopTune optimizes tensor traversal order while using the ultra-fast lightweight code generator LoopNest to perform hardware-specific optimizations. With a novel graph-based representation and action space, LoopTune speeds up LoopNest by 3.2x, generating an order of magnitude faster code than TVM, 2.8x faster than MetaSchedule, and 1.08x faster than AutoTVM, consistently performing at the level of the hand-tuned library Numpy. Moreover, LoopTune tunes code in order of seconds. | 翻訳日:2023-11-09 19:26:54 公開日:2023-11-08 |
# 離散トークンからマルチバンド拡散を用いた高忠実度オーディオへ From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion ( http://arxiv.org/abs/2308.02560v2 ) ライセンス: Link先を確認 | Robin San Roman and Yossi Adi and Antoine Deleforge and Romain Serizel and Gabriel Synnaeve and Alexandre D\'efossez | (参考訳) 深層生成モデルは、様々な種類の表現(メルスペクトル、メル周波数ケプストラル係数(MFCC)など)で条件付けられた高忠実なオーディオを生成することができる。
近年、そのようなモデルは、高度に圧縮された表現に基づく音声波形の合成に使われている。
このような手法は印象的な結果をもたらすが、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
別のモデリング手法は拡散モデルを使用することである。
しかし、これらは主に音声ボコーダ(メルスペクトログラムの条件付け)として使われ、比較的低いサンプリングレートの信号を生成する。
本研究では,低ビットの離散表現から任意の種類のオーディオモダリティ(音声,音楽,環境音など)を生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
等価ビットレートでは、提案手法は知覚品質の観点から最先端の生成技術より優れる。
トレーニングと評価コード、オーディオサンプルはfacebookresearch/audiocraft Githubのページで公開されている。 Deep generative models can generate high-fidelity audio conditioned on various types of representations (e.g., mel-spectrograms, Mel-frequency Cepstral Coefficients (MFCC)). Recently, such models have been used to synthesize audio waveforms conditioned on highly compressed representations. Although such methods produce impressive results, they are prone to generate audible artifacts when the conditioning is flawed or imperfect. An alternative modeling approach is to use diffusion models. However, these have mainly been used as speech vocoders (i.e., conditioned on mel-spectrograms) or generating relatively low sampling rate signals. In this work, we propose a high-fidelity multi-band diffusion-based framework that generates any type of audio modality (e.g., speech, music, environmental sounds) from low-bitrate discrete representations. At equal bit rate, the proposed approach outperforms state-of-the-art generative techniques in terms of perceptual quality. Training and, evaluation code, along with audio samples, are available on the facebookresearch/audiocraft Github page. | 翻訳日:2023-11-09 19:26:34 公開日:2023-11-08 |
# JD広告検索におけるマルチエキスパート知識凝縮を用いたクエリ分類の改善に向けて Towards Better Query Classification with Multi-Expert Knowledge Condensation in JD Ads Search ( http://arxiv.org/abs/2308.01098v2 ) ライセンス: Link先を確認 | Kun-Peng Ning, Ming Pang, Zheng Fang, Xue Jiang, Xi-Wei Zhao, Chang-Ping Peng, Zhan-Gang Lin, Jing-He Hu, Jing-Ping Shao | (参考訳) 検索クエリ分類は、ユーザの意図を理解する効果的な方法であり、実際のオンライン広告システムにおいて非常に重要である。
低レイテンシを確保するために、浅いモデル(例えばFastText)が効率的なオンライン推論に広く使われている。
しかし、fasttextモデルの表現能力は不十分であり、特に低頻度クエリや尾付きカテゴリでは分類性能が低下する。
より深く複雑なモデル(bertなど)を使用することは効果的なソリューションだが、オンライン推論の遅延が増加し、計算コストが高くなる。
したがって、推論効率と分類性能の両方をジャグリングする方法は明らかに極めて重要である。
本稿では,この課題を克服するために,オンライン高速テキストモデルの厳密な低レイテンシ制約下での分類性能を向上させるための,単純かつ効果的な知識蒸留フレームワークである知識凝縮(kc)を提案する。
具体的には、より関連性の高いデータを取得するために、オフラインのBERTモデルをトレーニングすることを提案する。
強力なセマンティック表現から恩恵を受けることで、過去のデータに公開されていない関連性の高いラベルがトレーニングセットに追加され、FastTextモデルのトレーニングが改善される。
さらに, 関係データのマイニング能力の向上を図るため, 分散分散多元学習戦略を提案する。
異なるデータ分布から複数のbertモデルをトレーニングすることで、それぞれ、ハイ、ミドル、低周波の検索クエリでパフォーマンスが向上する。
マルチディストリビューションからのモデルアンサンブルにより、その検索能力はより強力になる。
我々はこのフレームワークの2つのバージョンをJD検索にデプロイし、オフライン実験と複数のデータセットからのオンラインA/Bテストの両方で提案手法の有効性を検証した。 Search query classification, as an effective way to understand user intents, is of great importance in real-world online ads systems. To ensure a lower latency, a shallow model (e.g. FastText) is widely used for efficient online inference. However, the representation ability of the FastText model is insufficient, resulting in poor classification performance, especially on some low-frequency queries and tailed categories. Using a deeper and more complex model (e.g. BERT) is an effective solution, but it will cause a higher online inference latency and more expensive computing costs. Thus, how to juggle both inference efficiency and classification performance is obviously of great practical importance. To overcome this challenge, in this paper, we propose knowledge condensation (KC), a simple yet effective knowledge distillation framework to boost the classification performance of the online FastText model under strict low latency constraints. Specifically, we propose to train an offline BERT model to retrieve more potentially relevant data. Benefiting from its powerful semantic representation, more relevant labels not exposed in the historical data will be added into the training set for better FastText model training. Moreover, a novel distribution-diverse multi-expert learning strategy is proposed to further improve the mining ability of relevant data. By training multiple BERT models from different data distributions, it can respectively perform better at high, middle, and low-frequency search queries. The model ensemble from multi-distribution makes its retrieval ability more powerful. We have deployed two versions of this framework in JD search, and both offline experiments and online A/B testing from multiple datasets have validated the effectiveness of the proposed approach. | 翻訳日:2023-11-09 19:26:08 公開日:2023-11-08 |
# ポイントアノテーション確率マップを用いた高密度物体カウントにおけるアノテーション配置の許容 Tolerating Annotation Displacement in Dense Object Counting via Point Annotation Probability Map ( http://arxiv.org/abs/2308.00530v2 ) ライセンス: Link先を確認 | Yuehai Chen, Jing Yang, Badong Chen, Hua Gang, Shaoyi Du | (参考訳) 混雑したシーンでオブジェクトを数えることは、コンピュータビジョンにとって課題である。
現在のディープラーニングに基づくアプローチは、しばしばガウス密度回帰問題として定式化する。
このようなブルートフォース回帰は有効ではあるが、人間のアノテーションプロセスから生じるアノテーションの変位を適切に考慮せず、異なる分布に繋がる可能性がある。
我々は、高密度オブジェクトカウントタスクにおけるアノテーションの変位を考慮することは有益であると推測する。
アノテーションの変位に対する強い堅牢性を得るために、調整可能な帯域幅と形状パラメータを持つ一般化ガウス分布(GGD)関数を利用して学習目標点アノテーション確率マップ、PAPMを形成する。
具体的には,まず手書きのPAPM法(HD-PAPM)を提案し,GGDに基づく関数を設計し,アノテーションの変位を許容する。
エンドツーエンドのトレーニングでは、ハンドデザインのPAPMは特定のネットワークやデータセットに最適ではないかもしれない。
適応学習型PAPM法(AL-PAPM)を提案する。
アノテーションの変位に対するロバスト性を改善するため,GGDに基づく効率的な輸送コスト関数を設計する。
提案したPAPMは他の手法と統合できる。
また,PAPMとP2PNetを組み合わせることで,P2P-PAPMを形成する。
これにより、P2PNetのアノテーション変位に対する堅牢性も向上する。
大規模な実験により提案手法の優位性を示した。 Counting objects in crowded scenes remains a challenge to computer vision. The current deep learning based approach often formulate it as a Gaussian density regression problem. Such a brute-force regression, though effective, may not consider the annotation displacement properly which arises from the human annotation process and may lead to different distributions. We conjecture that it would be beneficial to consider the annotation displacement in the dense object counting task. To obtain strong robustness against annotation displacement, generalized Gaussian distribution (GGD) function with a tunable bandwidth and shape parameter is exploited to form the learning target point annotation probability map, PAPM. Specifically, we first present a hand-designed PAPM method (HD-PAPM), in which we design a function based on GGD to tolerate the annotation displacement. For end-to-end training, the hand-designed PAPM may not be optimal for the particular network and dataset. An adaptively learned PAPM method (AL-PAPM) is proposed. To improve the robustness to annotation displacement, we design an effective transport cost function based on GGD. The proposed PAPM is capable of integration with other methods. We also combine PAPM with P2PNet through modifying the matching cost matrix, forming P2P-PAPM. This could also improve the robustness to annotation displacement of P2PNet. Extensive experiments show the superiority of our proposed methods. | 翻訳日:2023-11-09 19:25:40 公開日:2023-11-08 |
# マクロ量子同期効果 Macroscopic quantum synchronization effects ( http://arxiv.org/abs/2307.15613v2 ) ライセンス: Link先を確認 | Tobias Nadolny, Christoph Bruder | (参考訳) 理論上、全対全結合量子リミットサイクル発振器のネットワークで発生するマクロ量子同期効果を記述する。
この結合は、大域位相コヒーレンスの存在によって示される同期への移行を引き起こす。
発振器の微視的量子特性は, 巨視的大規模ネットワークにおける同期挙動を定性的に形成することを示す。
具体的には、古典振動子には期待できない集合同期の遮断をもたらす。
さらに、マクロアンサンブルは、2つの結合量子振動子のレベルに存在しない創発的挙動を示す。 We theoretically describe macroscopic quantum synchronization effects occurring in a network of all-to-all coupled quantum limit-cycle oscillators. The coupling causes a transition to synchronization as indicated by the presence of global phase coherence. We demonstrate that the microscopic quantum properties of the oscillators qualitatively shape the synchronization behavior in a macroscopically large network. Specifically, they result in a blockade of collective synchronization that is not expected for classical oscillators. Additionally, the macroscopic ensemble shows emergent behavior not present at the level of two coupled quantum oscillators. | 翻訳日:2023-11-09 19:25:21 公開日:2023-11-08 |
# データセット辞書学習によるwasserstein空間におけるマルチソースドメイン適応 Multi-Source Domain Adaptation through Dataset Dictionary Learning in Wasserstein Space ( http://arxiv.org/abs/2307.14953v3 ) ライセンス: Link先を確認 | Eduardo Fernandes Montesuma, Fred Ngol\`e Mboula, Antoine Souloumiac | (参考訳) 本稿では、複数のラベル付きソースドメインからラベルなしターゲットドメインへの知識転送時のデータ分散シフトを軽減することを目的としたマルチソースドメイン適応(MSDA)の解決を目指す。
本稿では,辞書学習と最適トランスポートに基づく新しいmsdaフレームワークを提案する。
我々はMSDAの各ドメインを経験的分布と解釈する。
したがって、各領域を経験的分布である辞書原子のwasserstein barycenterとして表現する。
ミニバッチによる学習のための新しいアルゴリズムDaDiLを提案する。
(i)原子分布
(ii) 偏心座標の行列。
対象ドメインのラベル付きサンプルを再構成したDaDil-Rと,原子分布から学習した分類器のアンサンブルに基づくDaDiL-Eの2つの新しい手法を提案する。
この手法をcaltech-office,office 31,crwuの3つのベンチマークで評価し,従来の最先端技術を3.15%,2.29%,7.71%の分類性能で改善した。
最後に、学習した原子のワッサーシュタイン殻の補間によって、ターゲット領域に一般化可能なデータが得られることを示す。 This paper seeks to solve Multi-Source Domain Adaptation (MSDA), which aims to mitigate data distribution shifts when transferring knowledge from multiple labeled source domains to an unlabeled target domain. We propose a novel MSDA framework based on dictionary learning and optimal transport. We interpret each domain in MSDA as an empirical distribution. As such, we express each domain as a Wasserstein barycenter of dictionary atoms, which are empirical distributions. We propose a novel algorithm, DaDiL, for learning via mini-batches: (i) atom distributions; (ii) a matrix of barycentric coordinates. Based on our dictionary, we propose two novel methods for MSDA: DaDil-R, based on the reconstruction of labeled samples in the target domain, and DaDiL-E, based on the ensembling of classifiers learned on atom distributions. We evaluate our methods in 3 benchmarks: Caltech-Office, Office 31, and CRWU, where we improved previous state-of-the-art by 3.15%, 2.29%, and 7.71% in classification performance. Finally, we show that interpolations in the Wasserstein hull of learned atoms provide data that can generalize to the target domain. | 翻訳日:2023-11-09 19:25:15 公開日:2023-11-08 |
# 作らない偽物:正確な3d顔再建のための条件付き顔生成 Fake It Without Making It: Conditioned Face Generation for Accurate 3D Face Reconstruction ( http://arxiv.org/abs/2307.13639v2 ) ライセンス: Link先を確認 | Will Rowan, Patrik Huber, Nick Pears, Andrew Keeling | (参考訳) 2d画像からの正確な3d顔再構成は、医療、セキュリティ、クリエイティブ産業に応用できるテクノロジーである。
しかし、現在の最先端の手法は、非常に限られた3Dデータによる教師付きトレーニングか、2D画像データによる自己監督型トレーニングに依存している。
このギャップを埋めるために,250Kのフォトリアリスティック画像とそれに対応する形状パラメータと深度マップの大規模な合成データセットを生成する手法をSynthFaceと呼ぶ。
人間の顔のFLAME 3D Morphable Model(3DMM)から採取した深度マップ上での安定拡散条件により,人種と性別のバランスがとれるようにデザインされた多様な形状の顔画像を生成することができる。
さらに,3次元の監視や手作業による3dアセット生成を必要とせずに,現在のベンチマークで競争力を発揮できる,深層ニューラルネットワークであるcontrolfaceを提案する。
SynthFaceの全データセットは公開時に公開される。 Accurate 3D face reconstruction from 2D images is an enabling technology with applications in healthcare, security, and creative industries. However, current state-of-the-art methods either rely on supervised training with very limited 3D data or self-supervised training with 2D image data. To bridge this gap, we present a method to generate a large-scale synthesised dataset of 250K photorealistic images and their corresponding shape parameters and depth maps, which we call SynthFace. Our synthesis method conditions Stable Diffusion on depth maps sampled from the FLAME 3D Morphable Model (3DMM) of the human face, allowing us to generate a diverse set of shape-consistent facial images that is designed to be balanced in race and gender. We further propose ControlFace, a deep neural network, trained on SynthFace, which achieves competitive performance on the NoW benchmark, without requiring 3D supervision or manual 3D asset creation. The complete SynthFace dataset will be made publicly available upon publication. | 翻訳日:2023-11-09 19:24:54 公開日:2023-11-08 |
# 効率的なビームツリー再帰 Efficient Beam Tree Recursion ( http://arxiv.org/abs/2307.10779v2 ) ライセンス: Link先を確認 | Jishnu Ray Chowdhury, Cornelia Caragea | (参考訳) Beam Tree Recursive Neural Network (BT-RvNN)は、最近、Gumbel Tree RvNNの単純な拡張として提案され、他のタスクで同等のパフォーマンスを維持しながら、ListOpsの最先端長一般化性能を達成することが示されている。
しかし、BT-RvNNは、その種類では最悪のものではないが、メモリ使用量では極端に高価である。
本稿では,BT-RvNNのメモリ使用量の主なボトルネックは,スコア機能と再帰的セル機能の絡み合いであることを示す。
我々は、このボトルネックを取り除き、メモリ使用をさらに単純化する戦略を提案する。
全体的に、BT-RvNNのメモリ使用量を10-16ドル倍に削減するだけでなく、他のタスクでも同様のパフォーマンスを維持しながら、ListOpsに新たな最先端技術を作成します。
さらに、bt-rvnnが生成する遅延木ノード表現を用いて、$f:\mathbb{r}^{n \times d} \rightarrow \mathbb{r}^{d}$を$f:\mathbb{r}^{n \times d} \rightarrow \mathbb{r}^{n \times d} \rightarrow \mathbb{r}^{n \times d}$という形の文エンコーダからbt-rvnnを変換する方法も提案する。
したがって、我々の提案はRvNNのさらなる拡張のための道を開くだけでなく、TransformersやStructured State Spaceモデルといった他の一般的なモデルと簡単に積み重ねたりインターフェースしたりできるディープラーニングツールキットの別のビルディングブロックとしてBT-RvNNを使用する方法を標準化する。 Beam Tree Recursive Neural Network (BT-RvNN) was recently proposed as a simple extension of Gumbel Tree RvNN and it was shown to achieve state-of-the-art length generalization performance in ListOps while maintaining comparable performance on other tasks. However, although not the worst in its kind, BT-RvNN can be still exorbitantly expensive in memory usage. In this paper, we identify the main bottleneck in BT-RvNN's memory usage to be the entanglement of the scorer function and the recursive cell function. We propose strategies to remove this bottleneck and further simplify its memory usage. Overall, our strategies not only reduce the memory usage of BT-RvNN by $10$-$16$ times but also create a new state-of-the-art in ListOps while maintaining similar performance in other tasks. In addition, we also propose a strategy to utilize the induced latent-tree node representations produced by BT-RvNN to turn BT-RvNN from a sentence encoder of the form $f:\mathbb{R}^{n \times d} \rightarrow \mathbb{R}^{d}$ into a sequence contextualizer of the form $f:\mathbb{R}^{n \times d} \rightarrow \mathbb{R}^{n \times d}$. Thus, our proposals not only open up a path for further scalability of RvNNs but also standardize a way to use BT-RvNNs as another building block in the deep learning toolkit that can be easily stacked or interfaced with other popular models such as Transformers and Structured State Space models. | 翻訳日:2023-11-09 19:24:35 公開日:2023-11-08 |
# Spuriosityは分類器を殺さなかった:不変量予測を使って不純物特徴を識別する Spuriosity Didn't Kill the Classifier: Using Invariant Predictions to Harness Spurious Features ( http://arxiv.org/abs/2307.09933v2 ) ライセンス: Link先を確認 | Cian Eastwood, Shashank Singh, Andrei Liviu Nicolicioiu, Marin Vlastelica, Julius von K\"ugelgen, Bernhard Sch\"olkopf | (参考訳) アウトオブディストリビューションデータの障害を回避するために、近年の研究では、ドメイン間でラベルが変化した"スプリア"や不安定な特徴を捨てて、ドメイン間の不変あるいは安定な関係を持つ特徴を抽出しようと試みている。
しかし、不安定な機能はしばしば補完的な情報を持ち、テストドメインで正しく使用すればパフォーマンスが向上する可能性がある。
本稿では,テストドメインラベルを使わずにこれを実現する方法を示す。
特に,安定な特徴に基づく擬似ラベルが,安定かつ不安定な特徴が条件付き独立であることから,それを行うための十分なガイダンスを提供することを示す。
この理論的な洞察に基づいて,我々は次のアルゴリズムであるstable feature boosting (sfb)を提案する。
一 安定かつ条件に依存しない不安定な特徴を区別する予測器の学習
(ii)安定特徴予測を用いて、テスト領域における不安定特徴予測を適応させる。
理論的には、SFBはテストドメインラベルなしで漸近的に最適な予測器を学習できることを示す。
実データおよび合成データに対するSFBの有効性を実証的に示す。 To avoid failures on out-of-distribution data, recent works have sought to extract features that have an invariant or stable relationship with the label across domains, discarding "spurious" or unstable features whose relationship with the label changes across domains. However, unstable features often carry complementary information that could boost performance if used correctly in the test domain. In this work, we show how this can be done without test-domain labels. In particular, we prove that pseudo-labels based on stable features provide sufficient guidance for doing so, provided that stable and unstable features are conditionally independent given the label. Based on this theoretical insight, we propose Stable Feature Boosting (SFB), an algorithm for: (i) learning a predictor that separates stable and conditionally-independent unstable features; and (ii) using the stable-feature predictions to adapt the unstable-feature predictions in the test domain. Theoretically, we prove that SFB can learn an asymptotically-optimal predictor without test-domain labels. Empirically, we demonstrate the effectiveness of SFB on real and synthetic data. | 翻訳日:2023-11-09 19:23:59 公開日:2023-11-08 |
# Pseudo-Boolean および Linear Integer 制約に対するSAT符号化の学習 Learning to Select SAT Encodings for Pseudo-Boolean and Linear Integer Constraints ( http://arxiv.org/abs/2307.09342v2 ) ライセンス: Link先を確認 | Felix Ulrich-Oltean, Peter Nightingale, James Alfred Walker | (参考訳) 多くの制約満足度と最適化問題は、Boolean Satisfiability problem (SAT) のインスタンスとしてエンコードすることで効果的に解決できる。
しかし、最も単純なタイプの制約でさえ、幅広い性能を持つ文献において多くのエンコーディングを持ち、与えられた問題インスタンスに対して適切なエンコーディングを選択する問題は簡単ではない。
本稿では,教師付き機械学習手法を用いて疑似booleanおよび線形制約に対する符号化選択の問題を検討する。
制約問題に対する標準的特徴集合を用いて符号化を効果的に選択することは可能であるが、擬似ボアおよび線形制約用に特別に設計された新しい特徴集合によりより良い性能が得られることを示す。
実際、見当たらない問題クラスのエンコーディングを選択すると良い結果が得られる。
結果は、同じ機能セットを使用する場合、AutoFolioと良好に比較されます。
最適なエンコーディングを選択するタスクに対するインスタンスの特徴の相対的重要性を論じ、機械学習手法のいくつかのバリエーションを比較した。 Many constraint satisfaction and optimisation problems can be solved effectively by encoding them as instances of the Boolean Satisfiability problem (SAT). However, even the simplest types of constraints have many encodings in the literature with widely varying performance, and the problem of selecting suitable encodings for a given problem instance is not trivial. We explore the problem of selecting encodings for pseudo-Boolean and linear constraints using a supervised machine learning approach. We show that it is possible to select encodings effectively using a standard set of features for constraint problems; however we obtain better performance with a new set of features specifically designed for the pseudo-Boolean and linear constraints. In fact, we achieve good results when selecting encodings for unseen problem classes. Our results compare favourably to AutoFolio when using the same feature set. We discuss the relative importance of instance features to the task of selecting the best encodings, and compare several variations of the machine learning method. | 翻訳日:2023-11-09 19:23:42 公開日:2023-11-08 |
# データフリー量子化のためのロバストネス誘導画像合成 Robustness-Guided Image Synthesis for Data-Free Quantization ( http://arxiv.org/abs/2310.03661v2 ) ライセンス: Link先を確認 | Jianhong Bai, Yuchen Yang, Huanpeng Chu, Hualiang Wang, Zuozhu Liu, Ruizhe Chen, Xiaoxuan He, Lianrui Mu, Chengfei Cai, Haoji Hu | (参考訳) 量子化はモデル圧縮の有望な方向として現れている。
近年,データフリーな量子化は,実際のトレーニングデータに代わるイメージを合成するプライバシー問題を回避するための有望な手法として広く研究されている。
既存の手法では、合成画像の信頼性を確保するために分類損失を用いる。
残念なことに、これらの画像が事前訓練されたモデルによってうまく分類されているとしても、それでも低セマンティクスと均質化の問題に苦しんでいる。
直感的には、これらの低セマンティクス画像は摂動に敏感であり、事前訓練されたモデルは、生成器が低セマンティクスのイメージを合成する際に一貫性のない出力を持つ傾向がある。
そこで本研究では,合成画像のセマンティクスを豊かにし,画像多様性を向上させるための簡易かつ効果的な手法であるロバストネス誘導画像合成(ris)を提案する。
具体的には、まず入力とモデル重みの摂動を導入し、次に摂動前後の機能および予測レベルでの不整合メトリクスを定義する。
2つのレベルでの一貫性の欠如に基づいて,合成画像の意味性を高めるためのロバスト性最適化目標を考案する。
さらに,ラベル空間に小さな相関関係を持つ画像の合成をジェネレータに強制することで,多様性を意識するアプローチも行う。
RISにより、データフリー量子化の様々な設定に対して最先端の性能を実現し、他のデータフリー圧縮タスクにも拡張できる。 Quantization has emerged as a promising direction for model compression. Recently, data-free quantization has been widely studied as a promising method to avoid privacy concerns, which synthesizes images as an alternative to real training data. Existing methods use classification loss to ensure the reliability of the synthesized images. Unfortunately, even if these images are well-classified by the pre-trained model, they still suffer from low semantics and homogenization issues. Intuitively, these low-semantic images are sensitive to perturbations, and the pre-trained model tends to have inconsistent output when the generator synthesizes an image with poor semantics. To this end, we propose Robustness-Guided Image Synthesis (RIS), a simple but effective method to enrich the semantics of synthetic images and improve image diversity, further boosting the performance of downstream data-free compression tasks. Concretely, we first introduce perturbations on input and model weight, then define the inconsistency metrics at feature and prediction levels before and after perturbations. On the basis of inconsistency on two levels, we design a robustness optimization objective to enhance the semantics of synthetic images. Moreover, we also make our approach diversity-aware by forcing the generator to synthesize images with small correlations in the label space. With RIS, we achieve state-of-the-art performance for various settings on data-free quantization and can be extended to other data-free compression tasks. | 翻訳日:2023-11-09 19:14:12 公開日:2023-11-08 |
# 思考連鎖推論は政策改善オペレーターである Chain-of-Thought Reasoning is a Policy Improvement Operator ( http://arxiv.org/abs/2309.08589v2 ) ライセンス: Link先を確認 | Hugh Zhang, David C. Parkes | (参考訳) 大きな言語モデルは、素晴らしい新機能で世界を驚かせた。
しかし、彼らは現在、大量の人為的なトレーニングデータに頼る代わりに、自分自身に新しいスキルを教える能力がない。
セクタ(チェイン・オブ・ソーシングによる自己教育)は、言語モデルがチェイン・オブ・ソーシングを使って新しいスキルを身につけることができるという概念実証です。
自己学習ループの間、SECToRはモデルの次のバージョンをトレーニングする前にチェーン・オブ・ソート・推論を使用して追加問題を解決するようモデルに求める。
このプロセスは、しばしば改善されたモデルをもたらし、再びチェーンオブソート推論で拡張すると、オリジナルのモデルよりもさらに難しい問題を解決し、自己学習ループを継続することができる。
セクタを通じて自律的に訓練された言語モデルは、6桁以下の数字のみからなる最初の教師付き微調整フェーズを超えて、基礎的な真理の例にアクセスせずに最長桁数を加算することを学ぶ。
私たちの中心的な仮説は、alphazero(silver et al., 2017)でモンテカルロ木探索が使われているのと同じように、チェーン・オブ・マインド推論が政策改善演算子として機能する、ということです。
この研究が、人間のデモを必要とせずに、言語モデルが自分自身を学べる新しい方向性に繋がることを期待しています。 Large language models have astounded the world with fascinating new capabilities. However, they currently lack the ability to teach themselves new skills, relying instead on large amounts of human-generated training data. We introduce SECToR (Self-Education via Chain-of-Thought Reasoning), a proof-of-concept demonstration that language models can teach themselves new skills using chain-of-thought reasoning. During the self-learning loop, SECToR asks models to solve addition problems using chain-of-thought reasoning before training the next version of the model to solve those same problems directly without using such reasoning. This process often results in an improved model which can, when again augmented with chain-of-thought reasoning, solve even harder problems than the original model, allowing the self-learning loop to continue. Language models trained via SECToR autonomously learn to add up to the longest-length-digit numbers without access to any ground truth examples beyond an initial supervised fine-tuning phase consisting only of numbers with 6 or fewer digits. Our central hypothesis is that chain-of-thought reasoning can act as a policy improvement operator, similarly to how Monte-Carlo Tree Search is used in AlphaZero (Silver et al., 2017). We hope that this research can lead to new directions in which language models can learn to teach themselves without the need for human demonstrations. | 翻訳日:2023-11-09 19:13:45 公開日:2023-11-08 |
# 多元ドメイン適応のためのフェデレーションデータセット辞書学習 Federated Dataset Dictionary Learning for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2309.07670v2 ) ライセンス: Link先を確認 | Fabiola Espinoza Castellon, Eduardo Fernandes Montesuma, Fred Ngol\`e Mboula, Aur\'elien Mayoue, Antoine Souloumiac, C\'edric Gouy-Pailler | (参考訳) 本稿では,クライアント間で分散シフトがあり,ラベルのないデータが存在する,フェデレートされたドメイン適応のためのアプローチを提案する。
提案するフレームワークであるFedDaDiLは、経験的分布の辞書学習を通じて得られた課題に取り組む。
我々の設定では、クライアントの分布は特定のドメインを表し、FedDaDiLは経験分布の連合辞書を集合的に訓練する。
特に,協調通信プロトコルとアグリゲーション操作を設計することにより,データセット辞書学習フレームワークを構築した。
選択されたプロトコルは、クライアントのデータをプライベートに保ち、中央集権的なプロトコルに比べて全体的なプライバシを向上させる。
実験により,本手法が対象領域のラベル付きデータの生成に有効であることを示す。
(i)カルテック事務所
(ii)tep、及び
(iii)CWRUベンチマーク。
さらに,本手法を,フェデレーションドメイン適応における集中型と他のベンチマークと比較した。 In this article, we propose an approach for federated domain adaptation, a setting where distributional shift exists among clients and some have unlabeled data. The proposed framework, FedDaDiL, tackles the resulting challenge through dictionary learning of empirical distributions. In our setting, clients' distributions represent particular domains, and FedDaDiL collectively trains a federated dictionary of empirical distributions. In particular, we build upon the Dataset Dictionary Learning framework by designing collaborative communication protocols and aggregation operations. The chosen protocols keep clients' data private, thus enhancing overall privacy compared to its centralized counterpart. We empirically demonstrate that our approach successfully generates labeled data on the target domain with extensive experiments on (i) Caltech-Office, (ii) TEP, and (iii) CWRU benchmarks. Furthermore, we compare our method to its centralized counterpart and other benchmarks in federated domain adaptation. | 翻訳日:2023-11-09 19:12:57 公開日:2023-11-08 |
# Rank2Tell: 共同重要度ランキングと推論のためのマルチモーダル運転データセット Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning ( http://arxiv.org/abs/2309.06597v2 ) ライセンス: Link先を確認 | Enna Sachdeva, Nakul Agarwal, Suhas Chundi, Sean Roelofs, Jiachen Li, Mykel Kochenderfer, Chiho Choi, Behzad Dariush | (参考訳) 商業用自動運転車(AV)や高度運転支援システム(ADAS)の普及は、乗客に対する信頼感と解釈性が重要であると認識される社会の受容に大きく依存している可能性がある。
一般的に、現代の自律システムソフトウェアはブラックボックス人工知能モデルに大きく依存しているため、この課題は難しい。
この目的に向けて,重要度をランク付けし,その重要性の理由を述べるマルチモーダルなego中心のデータセットであるrank2tellを提案する。
クローズドでオープンな様々な視覚的質問応答を用いて、複雑な交通シナリオにおいて、データセットは様々な重要なオブジェクトの様々な意味、空間的、時間的、関係的な属性の密接なアノテーションを提供する。
データセットの濃密なアノテーションとユニークな属性は、視覚的なシーン理解と関連する分野に取り組む研究者にとって貴重なリソースとなる。
さらに,共同重要度ランキングと自然言語キャプション生成のための共同モデルを導入し,データセットをベンチマークし,定量的評価により性能を示す。 The widespread adoption of commercial autonomous vehicles (AVs) and advanced driver assistance systems (ADAS) may largely depend on their acceptance by society, for which their perceived trustworthiness and interpretability to riders are crucial. In general, this task is challenging because modern autonomous systems software relies heavily on black-box artificial intelligence models. Towards this goal, this paper introduces a novel dataset, Rank2Tell, a multi-modal ego-centric dataset for Ranking the importance level and Telling the reason for the importance. Using various close and open-ended visual question answering, the dataset provides dense annotations of various semantic, spatial, temporal, and relational attributes of various important objects in complex traffic scenarios. The dense annotations and unique attributes of the dataset make it a valuable resource for researchers working on visual scene understanding and related fields. Furthermore, we introduce a joint model for joint importance level ranking and natural language captions generation to benchmark our dataset and demonstrate performance with quantitative evaluations. | 翻訳日:2023-11-09 19:12:30 公開日:2023-11-08 |
# 雑音・残響環境における学習型音声強調システムの一般化ギャップの評価 Assessing the Generalization Gap of Learning-Based Speech Enhancement Systems in Noisy and Reverberant Environments ( http://arxiv.org/abs/2309.06183v2 ) ライセンス: Link先を確認 | Philippe Gonzalez, Tommy Sonne Alstr{\o}m, Tobias May | (参考訳) 話者のスペクトル時間特性や干渉雑音,信号対雑音比(SNR),室内特性など,雑音と残響の混合音の音響的変動は,複数の要因に影響される。
訓練条件とテスト条件のミスマッチがシステムの性能を大幅に低下させるので、この大きな変動は学習ベースの音声強調システムにとって大きな課題となる。
目に見えない条件への一般化は、訓練中に使用するものと異なる新しい音声、雑音、バイノーラルルームインパルス応答(BRIR)データベースでシステムをテストすることで評価される。
しかし、音声強調作業の難しさはデータベース間で変化し、結果に大きな影響を及ぼす可能性がある。
本研究は,テスト条件に基づいてトレーニングされた参照モデルを用いて,テスト条件の難易度をプロキシとして使用できる一般化評価フレームワークを提案する。
これにより、新しいデータを扱う効果からタスクの難易度の変化の影響を取り除き、一般化ギャップ(generalization gap)と呼ばれる新しい一般化性能尺度を定義することができる。
一般化ギャップを正確に推定するために、複数の音声、ノイズ、brirデータベースをサイクリングし、クロスバリデーション方式で繰り返す。
提案手法を用いて、フィードフォワードニューラルネットワーク(FFNN)、Conv-TasNet、DCCRN、MANNERの一般化ポテンシャルを評価する。
すべてのモデルにおいて、高いノイズと部屋の一般化は複数のデータベースでトレーニングすることで達成できるが、パフォーマンスは音声ミスマッチで最も劣化する。
さらに,近年のモデルでは一致条件では性能が向上するが,不一致条件では性能が著しく低下し,FFNN方式よりも劣る可能性がある。 The acoustic variability of noisy and reverberant speech mixtures is influenced by multiple factors, such as the spectro-temporal characteristics of the target speaker and the interfering noise, the signal-to-noise ratio (SNR) and the room characteristics. This large variability poses a major challenge for learning-based speech enhancement systems, since a mismatch between the training and testing conditions can substantially reduce the performance of the system. Generalization to unseen conditions is typically assessed by testing the system with a new speech, noise or binaural room impulse response (BRIR) database different from the one used during training. However, the difficulty of the speech enhancement task can change across databases, which can substantially influence the results. The present study introduces a generalization assessment framework that uses a reference model trained on the test condition, such that it can be used as a proxy for the difficulty of the test condition. This allows to disentangle the effect of the change in task difficulty from the effect of dealing with new data, and thus to define a new measure of generalization performance termed the generalization gap. The procedure is repeated in a cross-validation fashion by cycling through multiple speech, noise, and BRIR databases to accurately estimate the generalization gap. The proposed framework is applied to evaluate the generalization potential of a feedforward neural network (FFNN), Conv-TasNet, DCCRN and MANNER. We find that for all models, the performance degrades the most in speech mismatches, while good noise and room generalization can be achieved by training on multiple databases. Moreover, while recent models show higher performance in matched conditions, their performance substantially decreases in mismatched conditions and can become inferior to that of the FFNN-based system. | 翻訳日:2023-11-09 19:12:10 公開日:2023-11-08 |
# 六方晶窒化ホウ素中における光アドレス単一スピンの室温ダイナミクス Room Temperature Dynamics of an Optically Addressable Single Spin in Hexagonal Boron Nitride ( http://arxiv.org/abs/2309.05604v2 ) ライセンス: Link先を確認 | Raj N. Patel, Rebecca E. K. Fishman, Tzu-Yung Huang, Jordan A. Gusdorff, David A. Fehr, David A. Hopper, S. Alex Breitweiser, Benjamin Porat, Michael E. Flatt\'e, Lee C. Bassett | (参考訳) 六方晶窒化ホウ素(h-bn)は、光学的に検出された電子スピンダイナミクスの証拠を示す純粋な単光子放出体を持つ。
しかし、これらの光学的に対応可能なスピンの電気的および化学的構造は不明であり、スピン-光学相互作用の性質は謎のままである。
ここでは、室温光検出磁気共鳴を示すh-BNの単一エミッタを特徴付けるために、時間領域光学およびマイクロ波実験を用いる。
動的シミュレーションを用いてモデル内の遷移速度を制約し、定量化し、スピン読み出しの信号対雑音比を最適化する光制御プロトコルを設計する。
これはh-bnにおけるスピン状態の量子制御への必要ステップである。 Hexagonal boron nitride (h-BN) hosts pure single-photon emitters that have shown evidence of optically detected electronic spin dynamics. However, the electrical and chemical structure of these optically addressable spins is unknown, and the nature of their spin-optical interactions remains mysterious. Here, we use time-domain optical and microwave experiments to characterize a single emitter in h-BN exhibiting room temperature optically detected magnetic resonance. Using dynamical simulations, we constrain and quantify transition rates in the model, and we design optical control protocols that optimize the signal-to-noise ratio for spin readout. This constitutes a necessary step towards quantum control of spin states in h-BN. | 翻訳日:2023-11-09 19:11:40 公開日:2023-11-08 |
# ToddlerBERTa:文法学習と言語理解のためのBabyBERTaの爆発 ToddlerBERTa: Exploiting BabyBERTa for Grammar Learning and Language Understanding ( http://arxiv.org/abs/2308.16336v2 ) ライセンス: Link先を確認 | Omer Veysel Cagatan | (参考訳) 本稿では,BabyBERTaのような言語モデルであるToddlerBERTaについて紹介する。
BLiMP, SuperGLUE, MSGS, およびBabyLMチャレンジからのサプリメントのベンチマークから, より小さなモデルでは特定のタスクに優れるが, 大きなモデルでは大きなデータでよく機能することがわかった。
より小さなデータセットでのトレーニングにもかかわらず、ToddlerBERTaは、最先端のRoBERTaベースに対抗して、賞賛できるパフォーマンスを示している。
このモデルは、単一文事前学習であっても、堅牢な言語理解を示し、より広い文脈情報を活用するベースラインと競合する。
我々の研究は、ハイパーパラメータの選択とデータ利用に関する洞察を提供し、言語モデルの進歩に寄与します。 We present ToddlerBERTa, a BabyBERTa-like language model, exploring its capabilities through five different models with varied hyperparameters. Evaluating on BLiMP, SuperGLUE, MSGS, and a Supplement benchmark from the BabyLM challenge, we find that smaller models can excel in specific tasks, while larger models perform well with substantial data. Despite training on a smaller dataset, ToddlerBERTa demonstrates commendable performance, rivalling the state-of-the-art RoBERTa-base. The model showcases robust language understanding, even with single-sentence pretraining, and competes with baselines that leverage broader contextual information. Our work provides insights into hyperparameter choices, and data utilization, contributing to the advancement of language models. | 翻訳日:2023-11-09 19:11:28 公開日:2023-11-08 |
# 反復近似アンセストラルサンプリングによる変分オートエンコーダの条件サンプリング Conditional Sampling of Variational Autoencoders via Iterated Approximate Ancestral Sampling ( http://arxiv.org/abs/2308.09078v2 ) ライセンス: Link先を確認 | Vaidotas Simkus and Michael U. Gutmann | (参考訳) 変分オートエンコーダ(vaes)の条件付きサンプリングは、データインプテーションの欠如など様々なアプリケーションで必要とされるが、計算上は難解である。
漸近的に正確な条件サンプリングの原則はMetropolis-within-Gibbs (MWG)である。
しかし,vaesが構造的潜在空間(一般に望まれる性質)を学習する傾向が,mwgサンプラーを目標分布から遠ざからせる可能性があることを観察した。
本稿では,vaesの文脈における落とし穴を体系的に概説し,これらの落とし穴に対処する2つの手法を提案し,一連のサンプリングタスクにおける提案手法の性能向上を実証する。 Conditional sampling of variational autoencoders (VAEs) is needed in various applications, such as missing data imputation, but is computationally intractable. A principled choice for asymptotically exact conditional sampling is Metropolis-within-Gibbs (MWG). However, we observe that the tendency of VAEs to learn a structured latent space, a commonly desired property, can cause the MWG sampler to get "stuck" far from the target distribution. This paper mitigates the limitations of MWG: we systematically outline the pitfalls in the context of VAEs, propose two original methods that address these pitfalls, and demonstrate an improved performance of the proposed methods on a set of sampling tasks. | 翻訳日:2023-11-09 19:11:15 公開日:2023-11-08 |
# 三元重み生成言語モデルのためのトークンスケールロジット蒸留 Token-Scaled Logit Distillation for Ternary Weight Generative Language Models ( http://arxiv.org/abs/2308.06744v2 ) ライセンス: Link先を確認 | Minsoo Kim, Sihwa Lee, Janghwan Lee, Sukjin Hong, Du-Seong Chang, Wonyong Sung, Jungwook Choi | (参考訳) ジェネレーティブ言語モデル(GLM)は、テキスト生成、理解、推論といったタスクにおいて素晴らしいパフォーマンスを示している。
しかし、大きなモデルサイズは実用的なデプロイメントに課題をもたらします。
この問題を解決するため,QAT(Quantization-Aware Training)が普及している。
しかし, 生成モデルに対する現在のQAT法では, 精度が著しく低下している。
本稿では, GLMを対象とした新しい知識蒸留法を提案する。
本手法はトークンスケールドロジット蒸留法と呼ばれ,教師モデルや基礎的真理から優れた学習を提供する。
本研究は,複合度が1.0未満の大規模glmの3次重み量子化・アウェアトレーニングを初めて評価し,常識qaや算術推論,自然言語理解などのタスクにおける精度の向上を実現する。
私たちのコードはhttps://github.com/aiha-lab/tsldで利用可能です。 Generative Language Models (GLMs) have shown impressive performance in tasks such as text generation, understanding, and reasoning. However, the large model size poses challenges for practical deployment. To solve this problem, Quantization-Aware Training (QAT) has become increasingly popular. However, current QAT methods for generative models have resulted in a noticeable loss of accuracy. To counteract this issue, we propose a novel knowledge distillation method specifically designed for GLMs. Our method, called token-scaled logit distillation, prevents overfitting and provides superior learning from the teacher model and ground truth. This research marks the first evaluation of ternary weight quantization-aware training of large-scale GLMs with less than 1.0 degradation in perplexity and achieves enhanced accuracy in tasks like common-sense QA and arithmetic reasoning as well as natural language understanding. Our code is available at https://github.com/aiha-lab/TSLD. | 翻訳日:2023-11-09 19:11:00 公開日:2023-11-08 |
# 量子計測理論における正準占有状態(マクロ)のエントロピー Entropy of the Canonical Occupancy (Macro) State in the Quantum Measurement Theory ( http://arxiv.org/abs/2308.04472v4 ) ライセンス: Link先を確認 | Arnaldo Spalvieri | (参考訳) 任意の数の非相互作用ボソンからなる平衡における系の占有数の確率分布は、環境と関心の体系の結合である「ユニバース」から環境を追跡することによって得られる。
この論文で示された最初の新しい結果は、宇宙のベイズ的先行が多項分布であるとき、興味を持つ系の限界が多項分布であるということである。
この自己整合性は、ベイズ・マルチノミカルアプローチのコヒーレンスを明らかにする。
論文で示された2つ目の新しい結果は、宇宙がボソニック固有状態にあるとき、興味のある系の分布は多変量超幾何分布であるということである。
正準典型性の原理から予想されるように、宇宙のボソンの数が無限大になる傾向にあるとき、多変量超幾何分布は多項分布に傾向する。
3つ目の新しい結果は、元の定式化を無効にし、ボソニック系の標準的典型性の原理を再構成し、それを「宇宙の純粋な状態」から「宇宙のすべてのボソニック固有状態」へと狭めることである。
さらに, 熱力学的エントロピーの古典的解析において生じる矛盾を解消し, ボゾン系の物理的エントロピーと占有数のシャノンエントロピーを同定することを提案する。
最後に、多項分布のエントロピーと多変量超幾何学分布のエントロピーとの情報理論的不等式を利用して、情報理論のベイズ主義と統計力学の経験主義の両方を共通の「情報力学」の枠組みに統合する。 The probability distribution of the occupancy numbers of a system at the equilibrium composed by an arbitrary number of non-interacting bosons is obtained by tracing out the environment from the "universe", that is the union of environment and system of interest. The first new result presented in the paper is that, when the Bayesian prior of the universe is the multinomial distribution, also the marginal of the system of interest is the multinomial distribution. This self-consistency reveals the coherence of the Bayesian-multinomial approach. The second new result presented in the paper is that, when the universe is in a bosonic eigenstate, the distribution of the system of interest is the multivariate hypergeometric distribution. As expected from the principle of canonical typicality, when the number of bosons of the universe tends to infinity, the multivariate hypergeometric distribution tends to the multinomial distribution. The third new result is that, having disproved the original formulation, we reformulate the principle of canonical typicality for bosonic systems, narrowing it from {\em ...every pure state of the universe} to {\em ...every bosonic eigenstate of the universe}. Furthermore, the paper proposes to identify the physical entropy of the bosonic system with the Shannon entropy of the occupancy numbers, fixing certain contradictions that arise in the classical analysis of thermodynamic entropy. Finally, by leveraging an information-theoretic inequality between the entropy of the multinomial distribution and the entropy of the multivariate hypergeometric distribution, both the Bayesianism of information theory and the empiricism of statistical mechanics are integrated into a common "infomechanical" framework. | 翻訳日:2023-11-09 19:10:26 公開日:2023-11-08 |
# ソフトウェア開発ライフサイクルのシミュレーション:ウォーターフォールモデル Simulating the Software Development Lifecycle: The Waterfall Model ( http://arxiv.org/abs/2308.03940v2 ) ライセンス: Link先を確認 | Antonios Saravanos (1), Mathew X. Curinga (2) ((1) New York University, (2) MIXI Institute for STEM and the Imagination, Adelphi University) | (参考訳) 本研究は,ウォーターフォールモデルを適用したシミュレーションベースの手法を用いて,ソフトウェアプロジェクトや個々のフェーズ完了時間の見積を行う。
さらに、最適なリソースレベルから生じる潜在的な効率の問題も指摘します。
我々はPythonの離散イベントシミュレーションフレームワークであるSimPyを用いて,ソフトウェア開発ライフサイクルシミュレーションを実装した。
私たちのモデルは、ソフトウェアハウスのコンテキスト内で、異なるサイズの100のプロジェクトで実行されます。
ひとつは、リソースの初期セットに基づく洞察を提供し、リソースボトルネックの存在、特に実装フェーズでプログラマが不足していることを明らかにする。
2つ目のシナリオは、ステップワイズアルゴリズムを用いて識別されたゼロウェイト時間を達成するリソースのレベルを使用する。
この結果は、ソフトウェア開発プロジェクトの実験と計画のための安全かつ効果的な方法としてシミュレーションを使うことの利点を示している。
このようなシミュレーションによって、ソフトウェア開発プロジェクトの管理担当者は、フェーズやプロジェクトの完了時間に関する正確な証拠ベースの予測や、リソースとの相互作用の探求が可能になる。 This study employs a simulation-based approach, adapting the waterfall model, to provide estimates for software project and individual phase completion times. Additionally, it pinpoints potential efficiency issues stemming from suboptimal resource levels. We implement our software development lifecycle simulation using SimPy, a Python discrete-event simulation framework. Our model is executed within the context of a software house on 100 projects of varying sizes examining two scenarios. The first, provides insight based on an initial set of resources, which reveals the presence of resource bottlenecks, particularly a shortage of programmers for the implementation phase. The second scenario uses a level of resources that would achieve zero-wait time, identified using a stepwise algorithm. The findings illustrate the advantage of using simulation as a safe and effective way to experiment and plan for software development projects. Such simulations allow those managing software development projects to make accurate, evidence-based projections as to phase and project completion times as well as explore the interplay with resources. | 翻訳日:2023-11-09 19:09:54 公開日:2023-11-08 |
# 量子アルゴリズムによるAgnostic Learningのためのニアクアドラティックサンプル複雑度低減 A Near-Quadratic Sample Complexity Reduction for Agnostic Learning via Quantum Algorithms ( http://arxiv.org/abs/2310.15576v4 ) ライセンス: Link先を確認 | Daniel Z. Zanger | (参考訳) 量子アルゴリズムを用いて、精度 $\epsilon,0<\epsilon<1/4$ と信頼 $1-\delta,0<\delta <1,$ の新しいサンプル複雑性上界$O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ ($\epsilon^{-1}$ のポリ対数係数まで)を一般の無知学習モデルに対して得られる。
これは漸近順序 $\theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2}) の対応するサンプル複雑性を、有限濃度の仮説集合とともに無依存学習問題に対する古典的(非量子)アルゴリズムによって達成可能であることが文献で知られている(例えば arunachalam と de wolf (2018) を参照)。
したがって、一般的な無依存学習の場合、我々が達成する学習速度の量子スピードアップは、(多対数因子まで)$\epsilon^{-1}$で二次的である。 Using quantum algorithms, we obtain, for accuracy $\epsilon,0<\epsilon<1/4$ and confidence $1-\delta,0<\delta <1,$ a new sample complexity upper bound of $O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ (up to a polylogarithmic factor in $\epsilon^{-1}$) for a general agnostic learning model, provided the hypothesis class is of finite cardinality. This greatly improves upon a corresponding sample complexity of asymptotic order $\Theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2})$ known in the literature to be attainable by means of classical (non-quantum) algorithms for an agnostic learning problem also with hypothesis set of finite cardinality (see, for example, Arunachalam and de Wolf (2018) and the classical statistical learning theory references cited there). Thus, for general agnostic learning, the quantum speedup in the rate of learning that we achieve is quadratic in $\epsilon^{-1}$ (up to a polylogarithmic factor). | 翻訳日:2023-11-09 19:02:12 公開日:2023-11-08 |
# lgl-bci:運動画像に基づく脳-コンピュータインタフェースのための軽量幾何学習フレームワーク LGL-BCI: A Lightweight Geometric Learning Framework for Motor Imagery-Based Brain-Computer Interfaces ( http://arxiv.org/abs/2310.08051v2 ) ライセンス: Link先を確認 | Jianchao Lu, Yuzhe Tian, Yang Zhang, Jiaqi Ge, Quan Z. Sheng and Xi Zheng | (参考訳) Brain-Computer Interfaces (BCI) は、脳信号を使って外部デバイスと対話する基盤技術である。
進歩にもかかわらず、脳波(EEG)に基づく運動画像(MI)タスクは、より小さなモデルサイズとより高速な推論を必要とするため、振幅や位相変動、複雑な空間相関といった課題に直面している。
本研究では,非ユークリッド距離空間,特にSymmetric Positive Definite (SPD) Manifold空間における脳波処理にGeometric Deep Learning Frameworkを用いたLGL-BCIフレームワークを提案する。
LGL-BCIは、堅牢なEEGデータ表現を提供し、空間相関をキャプチャする。
本研究では,PSD行列の次元性を低減するための特徴分解アルゴリズムを用いたEEGチャネル選択法を提案する。
大規模な実験により、LGL-BCIの精度と効率は現在のソリューションよりも優れており、MI-BCIアプリケーションにおける幾何学的深層学習の可能性を強調している。
2つのパブリックなEEGデータセットと2つの現実世界のEEGデバイスで評価された効率は、パラメータが少なく(183.7Mと比較して64.9M)、最先端のソリューションの精度(82.54\%対62.22\%$)を大きく上回っている。 Brain-Computer Interfaces (BCIs) are a groundbreaking technology for interacting with external devices using brain signals. Despite advancements, electroencephalogram (EEG)-based Motor Imagery (MI) tasks face challenges like amplitude and phase variability, and complex spatial correlations, with a need for smaller model size and faster inference. This study introduces the LGL-BCI framework, employing a Geometric Deep Learning Framework for EEG processing in non-Euclidean metric spaces, particularly the Symmetric Positive Definite (SPD) Manifold space. LGL-BCI offers robust EEG data representation and captures spatial correlations. We propose an EEG channel selection solution via a feature decomposition algorithm to reduce SPD matrix dimensionality, with a lossless transformation boosting inference speed. Extensive experiments show LGL-BCI's superior accuracy and efficiency compared to current solutions, highlighting geometric deep learning's potential in MI-BCI applications. The efficiency, assessed on two public EEG datasets and two real-world EEG devices, significantly outperforms the state-of-the-art solution in accuracy ($82.54\%$ versus $62.22\%$) with fewer parameters (64.9M compared to 183.7M). | 翻訳日:2023-11-09 19:01:32 公開日:2023-11-08 |
# グリーンマシンとの超付加通信:絡みのない非局所性の実用的実証 Superadditive Communications with the Green Machine: A Practical Demonstration of Nonlocality without Entanglement ( http://arxiv.org/abs/2310.05889v2 ) ライセンス: Link先を確認 | Chaohan Cui, Jack Postlewaite, Babak N. Saif, Linran Fan, Saikat Guha | (参考訳) 光通信容量の究極のホールボ限界を達成するには、複数の変調シンボル上で集団量子測定を行うジョイント検出受信機が必要である。
このような超付加性 -- 物理的に実現可能なシンボル・バイ・シンボリック光学検出によって達成可能なよりも高い通信速度 -- は、エンタングルメントのない有名な非局所性の特別なケースであり、実際に実証されていない。この記事では、二相シフト・キー(bpsk)変調アダマール符号による超付加能力を達成するためのグリーンマシンの実用的な設計を提案する。
我々はこの受信機を構築し、受信機内の損失をバックアップした後、受信機が低受信光束方式のシンボルバイシンボル受信機を全て超えることを示す。
グリーンマシン受信機は、パルス位置変調(従来のディープスペースレーザー通信用変調フォーマット)と比較して送信ピーク電力要求を低減させるだけでなく、その自己参照位相により、他のbpsk互換受信機と比較して、例えば大気乱流やプラットフォーム振動といった位相ノイズに対する影響を受けないことを示した。 Achieving the ultimate Holevo limit of optical communications capacity requires a joint-detection receiver: a device that makes a collective quantum measurement over multiple modulated symbols. Such superadditivity -- a higher communication rate than that achievable by any physically realizable symbol-by-symbol optical detection -- is a special case of the celebrated nonlocality without entanglement and has yet to be demonstrated in practice. In this article, we propose a practical design of the Green Machine -- a joint-detection receiver that can attain superadditive capacity with a binary-phase-shift-keying (BPSK) modulated Hadamard code. We build this receiver and show that its capacity surpasses that of all practical symbol-by-symbol receivers in the low-received-photon-flux regime after backing out losses within our receiver. Our Green Machine receiver not only reduces the transmitter peak power requirement compared with the pulse-position modulation (the conventional modulation format used for deep space laser communications), but we show that its self-referenced phase also makes it more immune to phase noise, e.g., atmospheric turbulence or platform vibrations, by orders of magnitude compared with other BPSK-compatible receivers. | 翻訳日:2023-11-09 19:01:06 公開日:2023-11-08 |
# AvalonBench: AvalonをプレイするLLMの評価 AvalonBench: Evaluating LLMs Playing the Game of Avalon ( http://arxiv.org/abs/2310.05036v3 ) ライセンス: Link先を確認 | Jonathan Light and Min Cai and Sheng Shen and Ziniu Hu | (参考訳) 本稿では,Large Language Models (LLMs) Agentsが戦略的社会的推論ゲームであるResistence Avalonをプレイする可能性について検討する。
アバロンのプレイヤーは、動的に進化するゲームフェーズに基づいて情報的な決定を行うだけでなく、他のプレイヤーと騙し、推論し、交渉しなければならない議論を行う。
これらの特徴により、アバロンはLLMエージェントの意思決定能力と言語処理能力を研究するための魅力的なテストベッドとなる。
本稿では,マルチエージェントLLMエージェントの評価に適した総合ゲーム環境であるAvalonBenchを紹介する。
本ベンチマークでは,(1)アバロンのゲーム環境,(2)ルールベースのボットをベースラインとして,(3)各ロールに適したプロンプトを持つReActスタイルのLLMエージェントを組み込んだ。
特に、AvalonBenchに基づく評価では、明確な機能ギャップが強調されています。
例えば、chatgpt playing good-roleのようなモデルはルールベースのボットに対して22.2%の勝利率を獲得し、good-role botは同じ設定で38.2%の勝利率を達成している。
AvalonBenchは、より高度なLLM(セルフプレイング)やエージェントフレームワークを開発する上で、このようなゲーム環境の階層化複雑さを効果的にモデル化するための良いテストベッドになり得ると考えています。 In this paper, we explore the potential of Large Language Models (LLMs) Agents in playing the strategic social deduction game, Resistance Avalon. Players in Avalon are challenged not only to make informed decisions based on dynamically evolving game phases, but also to engage in discussions where they must deceive, deduce, and negotiate with other players. These characteristics make Avalon a compelling test-bed to study the decision-making and language-processing capabilities of LLM Agents. To facilitate research in this line, we introduce AvalonBench - a comprehensive game environment tailored for evaluating multi-agent LLM Agents. This benchmark incorporates: (1) a game environment for Avalon, (2) rule-based bots as baseline opponents, and (3) ReAct-style LLM agents with tailored prompts for each role. Notably, our evaluations based on AvalonBench highlight a clear capability gap. For instance, models like ChatGPT playing good-role got a win rate of 22.2% against rule-based bots playing evil, while good-role bot achieves 38.2% win rate in the same setting. We envision AvalonBench could be a good test-bed for developing more advanced LLMs (with self-playing) and agent frameworks that can effectively model the layered complexities of such game environments. | 翻訳日:2023-11-09 19:00:42 公開日:2023-11-08 |
# vlattack: 事前学習モデルによる視覚言語タスクに対するマルチモーダル攻撃 VLAttack: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models ( http://arxiv.org/abs/2310.04655v2 ) ライセンス: Link先を確認 | Ziyi Yin, Muchao Ye, Tianrong Zhang, Tianyu Du, Jinguo Zhu, Han Liu, Jinghui Chen, Ting Wang, Fenglong Ma | (参考訳) VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
しかし、そのようなモデルの敵対的堅牢性は十分に検討されていない。
既存のアプローチは主に、非現実的なホワイトボックス設定の下で敵の堅牢性を探究することに焦点を当てている。
本稿では,学習済みのVLモデルを用いて画像とテキストの摂動を創り出し,異なる下流タスクにおけるブラックボックスの微調整モデルに対処する,新たな実用的課題について検討する。
そこで本研究では,単一のモーダルレベルとマルチモーダルレベルの両方から画像とテキストの摂動を利用して,逆さまのサンプルを生成するvlattackを提案する。
単一モードレベルでは、画像摂動を学習して普遍表現を乱すブロックワイド類似性攻撃(BSA)戦略を提案する。
また,既存のテキスト攻撃戦略を採用し,画像モーダル攻撃とは無関係にテキストの摂動を生成する。
マルチモーダルレベルでは、単一のモーダルレベルからの出力から始まる逆画像とテキストのペアを定期的に更新する新しい反復的クロスサーチ攻撃法(ICSA)を設計する。
8つのデータセット上で6つのタスクに対して、広く使われている3つのVL事前訓練モデルを攻撃するための広範な実験を行う。
実験結果から,提案するVLAttackフレームワークは,最先端のベースラインと比較して全タスクにおける攻撃成功率が最も高く,事前訓練されたVLモデルの展開において重大な障害点があることが判明した。
コードはまもなくリリースされる予定だ。 Vision-Language (VL) pre-trained models have shown their superiority on many multimodal tasks. However, the adversarial robustness of such models has not been fully explored. Existing approaches mainly focus on exploring the adversarial robustness under the white-box setting, which is unrealistic. In this paper, we aim to investigate a new yet practical task to craft image and text perturbations using pre-trained VL models to attack black-box fine-tuned models on different downstream tasks. Towards this end, we propose VLAttack to generate adversarial samples by fusing perturbations of images and texts from both single-modal and multimodal levels. At the single-modal level, we propose a new block-wise similarity attack (BSA) strategy to learn image perturbations for disrupting universal representations. Besides, we adopt an existing text attack strategy to generate text perturbations independent of the image-modal attack. At the multimodal level, we design a novel iterative cross-search attack (ICSA) method to update adversarial image-text pairs periodically, starting with the outputs from the single-modal level. We conduct extensive experiments to attack three widely-used VL pretrained models for six tasks on eight datasets. Experimental results show that the proposed VLAttack framework achieves the highest attack success rates on all tasks compared with state-of-the-art baselines, which reveals a significant blind spot in the deployment of pre-trained VL models. Codes will be released soon. | 翻訳日:2023-11-09 19:00:17 公開日:2023-11-08 |
# 完全連結ReLU層の幾何学的構造 The Geometric Structure of Fully-Connected ReLU Layers ( http://arxiv.org/abs/2310.03482v2 ) ライセンス: Link先を確認 | Jonatan Vallin, Karl Larsson, Mats G. Larson | (参考訳) ニューラルネットワークにおいて,$d$次元の完全連結ReLU層の幾何学構造を定式化し,解釈する。
relu層のパラメータは入力領域の自然な分割を誘導し、分割の各セクタにおいてrelu層を著しく単純化することができる。
このことは、ReLU 活性化を伴う畳み込みネットワークの [doi:10.48550/arXiv. 1905.08922] の記述に従って、多面体円錐への射影として ReLU 層の幾何学的解釈をもたらす。
さらに、この構造は分割セクタと超平面との交点の前画像の簡易表現を容易にし、分類設定において決定境界を記述する際に有用である。
本研究では,1つのReLU層を隠蔽したフィードフォワードネットワークにおいて,そのようなネットワークが生成する決定境界の幾何学的複雑さに関する結果を提供するとともに,アフィン変換を変調することにより,ネットワークが$d$の異なる決定境界しか生成できないことを示す。
最後に、ネットワークにさらにレイヤを追加する効果について論じる。 We formalize and interpret the geometric structure of $d$-dimensional fully connected ReLU layers in neural networks. The parameters of a ReLU layer induce a natural partition of the input domain, such that the ReLU layer can be significantly simplified in each sector of the partition. This leads to a geometric interpretation of a ReLU layer as a projection onto a polyhedral cone followed by an affine transformation, in line with the description in [doi:10.48550/arXiv.1905.08922] for convolutional networks with ReLU activations. Further, this structure facilitates simplified expressions for preimages of the intersection between partition sectors and hyperplanes, which is useful when describing decision boundaries in a classification setting. We investigate this in detail for a feed-forward network with one hidden ReLU-layer, where we provide results on the geometric complexity of the decision boundary generated by such networks, as well as proving that modulo an affine transformation, such a network can only generate $d$ different decision boundaries. Finally, the effect of adding more layers to the network is discussed. | 翻訳日:2023-11-09 18:59:46 公開日:2023-11-08 |
# AnglE最適化テキスト埋め込み AnglE-optimized Text Embeddings ( http://arxiv.org/abs/2309.12871v6 ) ライセンス: Link先を確認 | Xianming Li, Jing Li | (参考訳) 高品質なテキスト埋め込みは、Large Language Model (LLM) アプリケーションにおいて重要なコンポーネントであるセマンティックテキスト類似性(STS)タスクの改善に重要である。
しかし、既存のテキスト埋め込みモデルが直面する共通の課題は、主に飽和ゾーンを持つ最適化目的におけるコサイン関数に依存することによる勾配の消失の問題である。
本稿では,AnglEと呼ばれる新しい角度最適化テキスト埋め込みモデルを提案する。
AnglEの中核となる考え方は、複素空間に角度最適化を導入することである。
この手法は、勾配を阻害し最適化を妨げうるコサイン関数における飽和域の悪影響を効果的に軽減する。
包括的なSTS評価を設定するために、既存の短文STSデータセットとGitHub Issuesから新たに収集された長文STSデータセットを試した。
さらに、ラベル付きデータに制限のあるドメイン固有のstsシナリオを検討し、アングルがllmアノテートデータとどのように連携するかを検討する。
短文STS、長文STS、ドメイン固有のSTSタスクなど、さまざまなタスクで大規模な実験が行われた。
その結果、AnglEはコサイン飽和ゾーンを無視したSOTA(State-of-the-art STS)モデルよりも優れていた。
これらの結果は、AnglEが高品質なテキスト埋め込みを生成する能力と、STSにおける角度最適化の有用性を示している。 High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS. | 翻訳日:2023-11-09 18:58:36 公開日:2023-11-08 |
# pvシステムのリモートセンシング画像取得におけるロバスト性を確実に向上できるか? Can We Reliably Improve the Robustness to Image Acquisition of Remote Sensing of PV Systems? ( http://arxiv.org/abs/2309.12214v2 ) ライセンス: Link先を確認 | Gabriel Kasmi and Laurent Dubus and Yves-Marie Saint-Drenan and Philippe Blanc | (参考訳) 太陽光発電(PV)エネルギーはエネルギーシステムの脱炭に不可欠である。
集中型データがないため、屋上PVの遠隔センシングは、屋根上に設置されたPVの進化を地域規模で監視する最良の選択肢である。
しかし、現在の技術は信頼性に欠けており、買収条件の変化に特に敏感である。
これを解決するために、宇宙スケール領域におけるモデルの予測を分解するウェーブレットスケール属性法(WCAM)を利用する。
WCAMは、PVモデルのどのスケールで表現するかを評価することができ、取得条件に対する堅牢性を改善する手法を導出するための洞察を与え、それによってディープラーニングシステムの信頼を高め、電気システムにおけるクリーンエネルギーの安全な統合を奨励する。 Photovoltaic (PV) energy is crucial for the decarbonization of energy systems. Due to the lack of centralized data, remote sensing of rooftop PV installations is the best option to monitor the evolution of the rooftop PV installed fleet at a regional scale. However, current techniques lack reliability and are notably sensitive to shifts in the acquisition conditions. To overcome this, we leverage the wavelet scale attribution method (WCAM), which decomposes a model's prediction in the space-scale domain. The WCAM enables us to assess on which scales the representation of a PV model rests and provides insights to derive methods that improve the robustness to acquisition conditions, thus increasing trust in deep learning systems to encourage their use for the safe integration of clean energy in electric systems. | 翻訳日:2023-11-09 18:58:13 公開日:2023-11-08 |
# BroadBEV:広視野鳥の視線マップ構築のための共同LiDARカメラフュージョン BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye View Map Construction ( http://arxiv.org/abs/2309.11119v4 ) ライセンス: Link先を確認 | Minsu Kim, Giseop Kim, Kyong Hwan Jin, Sunwook Choi | (参考訳) 最近のBird's Eye View(BEV)空間におけるセンサ融合は、3D検出やマップセグメンテーションといった様々なタスクでその有用性を示している。
しかし、この手法は、不正確なカメラBEV推定と、LiDAR点の間隔による遠方領域の認識に苦慮している。
本稿では,クロスモダリティの空間同期アプローチによる問題に対処する,broadbev(broadbev fusion)を提案する。
我々の戦略は、広視野認識のためのカメラBEV推定を強化し、同時に、全BEV空間におけるLiDARの空き度を向上することである。
そこで我々は,LiDAR BEV分布をカメラ深度分布に散乱させる点散乱法を提案する。
この手法は,カメラブランチの深度推定の学習を促進し,BEV空間における高密度カメラ特徴の正確な位置を誘導する。
空間的に同期した特徴間の効果的なBEV融合のために,LiDARとカメラBEVの自己注意重みを相互に適用するColFusionを提案する。
広汎な実験により、BroadBEVは目覚ましい性能向上を伴う広視野のBEV知覚を提供することが示された。 A recent sensor fusion in a Bird's Eye View (BEV) space has shown its utility in various tasks such as 3D detection, map segmentation, etc. However, the approach struggles with inaccurate camera BEV estimation, and a perception of distant areas due to the sparsity of LiDAR points. In this paper, we propose a broad BEV fusion (BroadBEV) that addresses the problems with a spatial synchronization approach of cross-modality. Our strategy aims to enhance camera BEV estimation for a broad-sighted perception while simultaneously improving the completion of LiDAR's sparsity in the entire BEV space. Toward that end, we devise Point-scattering that scatters LiDAR BEV distribution to camera depth distribution. The method boosts the learning of depth estimation of the camera branch and induces accurate location of dense camera features in BEV space. For an effective BEV fusion between the spatially synchronized features, we suggest ColFusion that applies self-attention weights of LiDAR and camera BEV features to each other. Our extensive experiments demonstrate that BroadBEV provides a broad-sighted BEV perception with remarkable performance gains. | 翻訳日:2023-11-09 18:57:59 公開日:2023-11-08 |
# PDFTriage:長い構造化ドキュメントに対する質問回答 PDFTriage: Question Answering over Long, Structured Documents ( http://arxiv.org/abs/2309.08872v2 ) ライセンス: Link先を確認 | Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, David Seunghyun Yoon, Ryan A. Rossi, Franck Dernoncourt | (参考訳) 大規模言語モデル(LLM)は、文書がLLMの小さなコンテキスト長に収まらない状況において、文書質問応答(QA)に問題がある。
この問題を克服するために、既存の作品の多くは文書から関連するコンテキストを取得し、それらを平易なテキストとして表現することに焦点を当てている。
しかし、PDF、Webページ、プレゼンテーションなどのドキュメントは、異なるページ、テーブル、セクションなどで自然に構造化されている。
このような構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザのメンタルモデルと矛盾する。
システムが文書にコンテキストを問い合わせる必要がある場合、この矛盾が前面に持ち込まれ、一見自明な質問がQAシステムに反映される。
構造化ドキュメントを扱う上でのこの根本的なギャップを埋めるため、pdftriageと呼ばれるアプローチを提案し、モデルが構造とコンテンツの両方に基づいてコンテキストを検索できるようにする。
本実験は,既存の検索拡張LPMが失敗する問題に対して,提案したPDFTriage-augmented Modelの有効性を示す。
そこで本研究では,文書QAのための10種類の質問タイプから,80以上の構造化文書に900以上の人間が生成した質問からなるベンチマークデータセットを作成した。
コードとデータセットは近いうちにGithubで公開される予定です。 Large Language Models (LLMs) have issues with document question answering (QA) in situations where the document is unable to fit in the small context length of an LLM. To overcome this issue, most existing works focus on retrieving the relevant context from the document, representing them as plain text. However, documents such as PDFs, web pages, and presentations are naturally structured with different pages, tables, sections, and so on. Representing such structured documents as plain text is incongruous with the user's mental model of these documents with rich structure. When a system has to query the document for context, this incongruity is brought to the fore, and seemingly trivial questions can trip up the QA system. To bridge this fundamental gap in handling structured documents, we propose an approach called PDFTriage that enables models to retrieve the context based on either structure or content. Our experiments demonstrate the effectiveness of the proposed PDFTriage-augmented models across several classes of questions where existing retrieval-augmented LLMs fail. To facilitate further research on this fundamental problem, we release our benchmark dataset consisting of 900+ human-generated questions over 80 structured documents from 10 different categories of question types for document QA. Our code and datasets will be released soon on Github. | 翻訳日:2023-11-09 18:57:37 公開日:2023-11-08 |
# CoCA: 微調整自由コンテキストウィンドウ拡張のためのCollinear Constrained Attentionを用いたハウジング位置埋め込み CoCA: Fusing position embedding with Collinear Constrained Attention for fine-tuning free context window extending ( http://arxiv.org/abs/2309.08646v2 ) ライセンス: Link先を確認 | Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li | (参考訳) 自己注意と位置埋め込みはTransformerベースのLLMの2つの重要なモジュールである。
それらの間の潜在的な関係は、特にコンテキストウィンドウの拡張に関して、十分に研究されていない。
本稿では,コリナー制約付き関係をヒューズRoPEと自己注意に導入し,それをコリナー拘束注意(CoCA)と呼ぶ。
cocaの計算量と空間的複雑性を分析し、元のトランスフォーマーベースのモデルと比較して最小のオーバーヘッドしか加えないと結論づけた。
我々は、CoCAの効率的な実装を提供し、Transformerベースのモデルに既存の位置埋め込みおよびアテンションモジュールをドロップインで置き換える。
実験により、CoCAはコンテキストウィンドウの拡張において異常によく機能することが示された。
例えば、512コンテキスト長でトレーニングされたCoCAベースのGPTモデルでは、コンテキストウィンドウを8Kまで拡張することができる。
これは、微調整なしで拡張される16倍以上のコンテキストウィンドウを示している。
私たちのコードはここでリリースされています。 Self-attention and position embedding are two key modules in Transformer based LLMs. The potential relationship among them are far from well studied, especially for context window extending. In this paper, we introduce collinear constrained relationship to fuse RoPE and self-attention, and name it as Collinear Constrained Attention (CoCA). We've analyzed the computational and spatial complexity of CoCA and have determined that it adds only minimal additional overhead compared to the original Transformer-based models. We provide an efficient implementation of CoCA, and make it drop-in replacement for any existing position embedding and attention modules in Transformer based models. Experiments show that CoCA performs extraordinary well on context window extending. For instance, a CoCA based GPT model trained with 512 context length can extend the context window up to 8K without perplexity diverging. This indicates more than 16x context window extending without any fine-tuning. Our code is released here: https://github.com/codefuse-ai/Collinear-Constrained-Attention | 翻訳日:2023-11-09 18:57:15 公開日:2023-11-08 |
# TextBind: 野生のマルチターンインターリーブマルチモーダルインストラクションフォロー TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild ( http://arxiv.org/abs/2309.08637v3 ) ライセンス: Link先を確認 | Huayang Li and Siheng Li and Deng Cai and Longyue Wang and Lemao Liu and Taro Watanabe and Yujiu Yang and Shuming Shi | (参考訳) 命令追従能力を持つ大規模言語モデルは、人工知能の分野に革命をもたらした。
これらのモデルは、自然言語インターフェイスを通じて様々な現実世界のタスクに取り組むための例外的な一般化性を示している。
しかし、その性能は高品質な模範データに大きく依存しており、入手が難しいことが多い。
この課題は、マルチモーダル命令のフォローに関してさらに悪化する。
マルチターンインターリーブ型マルチモーダル命令追従機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
本手法では,画像キャプチャペアのみを必要とし,言語モデルからマルチターンマルチモーダル命令応答会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
我々は,マルチモーダルインストラクションの分野における今後の研究を促進するために,データセット,モデル,デモをリリースする。 Large language models with instruction-following abilities have revolutionized the field of artificial intelligence. These models show exceptional generalizability to tackle various real-world tasks through their natural language interfaces. However, their performance heavily relies on high-quality exemplar data, which is often difficult to obtain. This challenge is further exacerbated when it comes to multimodal instruction following. We introduce TextBind, an almost annotation-free framework for empowering larger language models with the multi-turn interleaved multimodal instruction-following capabilities. Our approach requires only image-caption pairs and generates multi-turn multimodal instruction-response conversations from a language model. To accommodate interleaved image-text inputs and outputs, we devise MIM, a language model-centric architecture that seamlessly integrates image encoder and decoder models. We release our dataset, model, and demo to foster future research in the area of multimodal instruction following. | 翻訳日:2023-11-09 18:56:59 公開日:2023-11-08 |
# クローズドドラフトゲームにおける強化学習エージェントの解釈可能性、一般化可能性、記憶 Interpretability, Generalizability, and Memory of Reinforcement Learning Agents in Closed Drafting Games ( http://arxiv.org/abs/2310.20654v2 ) ライセンス: Link先を確認 | Ryan Rezai and Jason Wang | (参考訳) クローズド・ドラフト」または「ピック・アンド・パス」は、各ラウンドプレーヤーが手からカードや他のプレイ可能な要素を選択し、残りを次のプレイヤーに渡す人気ゲームメカニックである。
本稿では, モデルフリー強化学習(RL)アルゴリズムを学習するための第一原理的解釈可能性, 一般化可能性, メモリベンチマークを確立する。
特に「寿司囲碁!」と称されるクローズドドラフトゲームの人気ファミリーでは、最先端のパフォーマンスを実現しています。
我々は,訓練されたrlエージェントの戦略を解釈するために決定ルールを適合させ,これらを様々な人間のプレイヤーのランキング選好と比較し,この環境におけるrlエージェントの異なる性能の理解しやすい説明を求める。
試合中のカードの集合を基にした密接な関連ゲームとして表現できるため、様々なカードセットで訓練されたRLモデルの一般化性を定量化し、列車と評価ゲーム構成間の性能と設定距離のキーとなる傾向を定めている。
クローズドドラフトゲームにおいて、他のプレイヤーの手の明示的に計算可能な記憶を用いて、RLモデルが記憶を学習する能力を測定する。 Closed drafting or "pick and pass" is a popular game mechanic where each round players select a card or other playable element from their hand and pass the rest to the next player. In this paper, we establish first-principle interpretability, generalizability, and memory benchmarks for studying model-free reinforcement learning (RL) algorithms playing closed drafting games. Specifically in a popular family of closed drafting games called "Sushi Go Party!", in which we achieve state-of-the-art performance. We fit decision rules to interpret the strategy of trained RL agents and compare these to the ranking preferences of different types of human players, finding easily understandable explanations of the disparate performance of RL agents in this environment. As Sushi Go Party! can be expressed as a set of closely-related games based on the set of cards in play, we quantify the generalizability of RL models trained on various sets of cards, establishing key trends between performance and the set distance between the train and evaluation game configurations. Using the explicitly calculable memory of other player's hands in closed drafting games, we create measures of the ability of RL models to learn memory. | 翻訳日:2023-11-09 18:48:52 公開日:2023-11-08 |
# CNR演算に基づく量子近似最適化アルゴリズム A Quantum Approximate Optimization Algorithm Based on CNR Operations ( http://arxiv.org/abs/2310.17927v3 ) ライセンス: Link先を確認 | Da You Lv and An Min Wang | (参考訳) 本稿では、cnr(comparison and replacement)演算を導入し、組合せ最適化問題に対するcnr演算の次数$p$と次数量子ビット数$t$に依存する純粋量子近似アルゴリズムを構築する。
CNR演算は、対象関数レベルをレベル別に最適化した文字列を得る確率を上げることができる。
固定$n$の問題は、直接$p$の増加によってアルゴリズムの性能が向上する。
そして$t$は、CNRの正確性と信頼性を決定する。
理論的結果に対するアルゴリズムトレンドの実践的性能は、$t$が増加するにつれて向上する。
固定された$p$と$t$の場合、確率の散乱グラフの同じ適合曲線を持ち、弦を測り、取得する。
図示として,本アルゴリズムをガウス重み付きMAX-2-XORおよび2辺グラフに適用することを検討した。 This paper introduces the "comparison and replacement" (CNR) operation and constructs a pure quantum approximate algorithm which depends on the number of level $p$ and ancillary qubits number $t$ of CNR operations for combinatorial optimization problems. The CNR operations can lift the probability that we obtain a string well optimizing the object function level by level. For the problem with fixed $n$, the performance of the algorithm improves with the increase of $p$ directly. And $t$ determines the accuracy and reliability of CNR. The practical performance of algorithm trends to theoretical results as $t$ increases. For fixed $p$ and $t$, we have the identical fit curve of the scatter graph of probability with which we measure and obtain a string, which means that, for universal combinatorial optimization problems, the algorithm always works. As an illustration, we have studied the application of our algorithm in MAX-2-XOR and 2-edge graphs with Gaussian weight. | 翻訳日:2023-11-09 18:48:13 公開日:2023-11-08 |
# 物理インフォームドグラフ畳み込みネットワーク:複素幾何学の一般化フレームワークを目指して Physics-Informed Graph Convolutional Networks: Towards a generalized framework for complex geometries ( http://arxiv.org/abs/2310.14948v3 ) ライセンス: Link先を確認 | Marien Chenaud, Jos\'e Alves, Fr\'ed\'eric Magoul\`es | (参考訳) 9]とその物理情報ニューラルネットワーク(PINN)のセミナル研究以来、ディープラーニングモデルを用いた偏微分方程式(PDE)の解法に多くの取り組みがなされてきた。
しかし、複雑な3次元幾何学へのモデルの拡張や、そのようなアプローチが古典的数値解法とどのように結合できるかの研究など、いくつかの課題は残っている。
本研究では,偏微分方程式の解法として従来の数値計算手法で用いられるメッシュと,これらのアーキテクチャの類似性に基づいて,これらの問題に対するグラフニューラルネットワークの利用を正当化する。
複素幾何学における物理インフォームドフレームワークの問題点を証明した後、古典的数値解法と物理インフォームドフレームワークを組み合わせることで、PDE残差の計算において別の方法を提案する。
最後に,この手法の実装を提案し,不規則な幾何学上の3次元問題について検証する。 Since the seminal work of [9] and their Physics-Informed neural networks (PINNs), many efforts have been conducted towards solving partial differential equations (PDEs) with Deep Learning models. However, some challenges remain, for instance the extension of such models to complex three-dimensional geometries, and a study on how such approaches could be combined to classical numerical solvers. In this work, we justify the use of graph neural networks for these problems, based on the similarity between these architectures and the meshes used in traditional numerical techniques for solving partial differential equations. After proving an issue with the Physics-Informed framework for complex geometries, during the computation of PDE residuals, an alternative procedure is proposed, by combining classical numerical solvers and the Physics-Informed framework. Finally, we propose an implementation of this approach, that we test on a three-dimensional problem on an irregular geometry. | 翻訳日:2023-11-09 18:46:17 公開日:2023-11-08 |
# 非平衡温度測定のための強結合フェルミオンプローブ Strongly coupled fermionic probe for nonequilibrium thermometry ( http://arxiv.org/abs/2310.14655v2 ) ライセンス: Link先を確認 | Ricard Ravell Rodr\'iguez, Mohammad Mehboudi, Micha{\l} Horodecki, and Mart\'i Perarnau-Llobet | (参考訳) 温度$T$のフェミオン浴の試料に強く結合した単一フェルミオン熱測定プローブの量子フィッシャー情報(QFI)により定量された測定感度を特徴付ける。
試料との平衡に達する前にプローブを計測する非平衡プロトコルについては、非マルコフダイナミクスに起因する測定感度の新しい振る舞いを見出す。
まず、QFIは、平衡まで単調に成長するマルコフのケースとは対照的に、時間内に非常に非単調な振る舞いを示すので、非マルコフの回復はより高いQFIに到達するために活用できる。
第2に、QFIレートは有限の尋問時間$t^*$で最大化され、これはマルコフ極限で知られている解$t^* \rightarrow 0$とは対照的である [Quantum 6, 869 (2022)]。
最後に、プローブは数個のフェルミオンで構成されており、測定精度の異なる集団的強化について論じる。 We characterise the measurement sensitivity, quantified by the Quantum Fisher Information (QFI), of a single-fermionic thermometric probe strongly coupled to the sample of interest, a fermionic bath, at temperature $T$. For nonequilibrium protocols, in which the probe is measured before reaching equilibrium with the sample, we find new behaviour of the measurement sensitivity arising due to non-Markovian dynamics. First, we show that the QFI displays a highly non-monotonic behaviour in time, in contrast to the Markovian case where it grows monotonically until equilibrium, so that non-Markovian revivals can be exploited to reach a higher QFI. Second, the QFI rate is maximised at a finite interrogation time $t^*$, which we characterize, in contrast to the solution $t^* \rightarrow 0$ known in the Markovian limit [Quantum 6, 869 (2022)]. Finally, we consider probes make up of few fermions and discuss different collective enhancements in the measurement precision. | 翻訳日:2023-11-09 18:46:00 公開日:2023-11-08 |
# 量子ドットにおける超伝導量子ビットと吸収スペクトルのランダウ・ツェナー遷移速度 Landau-Zener transition rates of superconducting qubits and absorption spectrum in quantum dots ( http://arxiv.org/abs/2310.13058v2 ) ライセンス: Link先を確認 | Jorge G. Russo and Miguel Tierz | (参考訳) 新しい正確な公式は、ランダウ-ツェナー遷移率と量子ドットの吸収スペクトルを含む系に対して導かれる。
多くの新しい物理的影響が詳細に研究されている。 New exact formulas are derived for systems involving Landau-Zener transition rates and for absorption spectra in quantum dots. A number of novel physical implications are explored in detail. | 翻訳日:2023-11-09 18:45:39 公開日:2023-11-08 |
# AIフィードバックによる品質多様性 Quality-Diversity through AI Feedback ( http://arxiv.org/abs/2310.13032v3 ) ライセンス: Link先を確認 | Herbie Bradley, Andrew Dai, Hannah Teufel, Jenny Zhang, Koen Oostermeijer, Marco Bellagente, Jeff Clune, Kenneth Stanley, Gr\'egory Schott, Joel Lehman | (参考訳) 多くのテキスト生成問題では、ユーザーは単一の応答だけでなく、選択すべき高品質な出力の多様さを好む。
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化させることにより、このような結果を目指している。
しかしながら、クリエイティビティライティングのような質的ドメインへのqdの適用性は、品質と多様性の指標をアルゴリズムで指定する困難さによって制限されている。
興味深いことに、近年の言語モデル(LM)の発展により、AIフィードバックによるガイド検索が可能となり、テキストの質的な側面を評価するために自然言語でLMが促される。
この開発を活用して、AIフィードバック(QDAIF)による品質多様性を導入し、進化的アルゴリズムでは、変動を生成し、候補テキストの品質と多様性を評価する。
クリエイティブなライティングドメインで評価すると、qdaifは非qdコントロールよりも質の高いサンプルで指定された検索スペースをカバーできる。
さらに、QDAIFによる創造的テキストの人間評価は、AIと人間評価の合理的な一致を検証する。
これにより、AIフィードバックが創造的でオリジナルなソリューションをオープンに検索する可能性を強調し、多くのドメインやモダリティに一般化したレシピを提供する。
このようにして、QDAIFは、人間社会のイノベーション能力の根底にある中核的なスキルである、独立して探索、多様化、評価、改善が可能なAIシステムへのステップである。 In many text-generation problems, users may prefer not only a single response, but a diverse range of high-quality outputs from which to choose. Quality-diversity (QD) search algorithms aim at such outcomes, by continually improving and diversifying a population of candidates. However, the applicability of QD to qualitative domains, like creative writing, has been limited by the difficulty of algorithmically specifying measures of quality and diversity. Interestingly, recent developments in language models (LMs) have enabled guiding search through AI feedback, wherein LMs are prompted in natural language to evaluate qualitative aspects of text. Leveraging this development, we introduce Quality-Diversity through AI Feedback (QDAIF), wherein an evolutionary algorithm applies LMs to both generate variation and evaluate the quality and diversity of candidate text. When assessed on creative writing domains, QDAIF covers more of a specified search space with high-quality samples than do non-QD controls. Further, human evaluation of QDAIF-generated creative texts validates reasonable agreement between AI and human evaluation. Our results thus highlight the potential of AI feedback to guide open-ended search for creative and original solutions, providing a recipe that seemingly generalizes to many domains and modalities. In this way, QDAIF is a step towards AI systems that can independently search, diversify, evaluate, and improve, which are among the core skills underlying human society's capacity for innovation. | 翻訳日:2023-11-09 18:45:35 公開日:2023-11-08 |
# 偽情報コンバットのためのAI技術の実験:IDMOプロジェクト Experimenting AI Technologies for Disinformation Combat: the IDMO Project ( http://arxiv.org/abs/2310.11097v4 ) ライセンス: Link先を確認 | Lorenzo Canale, Alberto Messina | (参考訳) イタリアのデジタルメディア天文台(IDMO)プロジェクトは、偽情報や偽ニュースに対抗することに焦点を当てている。
本報告では,プロジェクトへのrai-critsからの貢献について概説する。
(i)試験技術のための新規データセットの作成
(ii)幅広い分析を容易にするためにpagella politica verdictsを分類する自動モデルの開発
(iii)フィーバーデータセットにおける例外的正確性を伴う文章の包含認識のための自動モデルの作成
4) GPT-4 を用いたテキスト・エントリメンの識別
(v)全国のイベントで偽ニュースに対する意識を高めるゲーム。 The Italian Digital Media Observatory (IDMO) project, part of a European initiative, focuses on countering disinformation and fake news. This report outlines contributions from Rai-CRITS to the project, including: (i) the creation of novel datasets for testing technologies (ii) development of an automatic model for categorizing Pagella Politica verdicts to facilitate broader analysis (iii) creation of an automatic model for recognizing textual entailment with exceptional accuracy on the FEVER dataset (iv) assessment using GPT-4 to identify textual entailmen (v) a game to raise awareness about fake news at national events. | 翻訳日:2023-11-09 18:45:12 公開日:2023-11-08 |
# 視覚アクティブ検索のための部分教師あり強化学習フレームワーク A Partially Supervised Reinforcement Learning Framework for Visual Active Search ( http://arxiv.org/abs/2310.09689v2 ) ライセンス: Link先を確認 | Anindya Sarkar, Nathan Jacobs, Yevgeniy Vorobeychik | (参考訳) ビジュアルアクティブサーチ(VAS)は,大規模な地理空間領域における関心領域を特定することを目的として,探索のガイドとして視覚的手がかりを用いたモデリングフレームワークとして提案されている。
その潜在的な用途は、希少な野生生物の密猟活動のホットスポットの特定、捜索と回収のシナリオ、武器、薬物、あるいは人々に対する違法な密輸の特定などである。
VASに対する最先端のアプローチには、エンドツーエンドの検索ポリシーを生成する深層強化学習(DRL)や、予測とカスタムアルゴリズムのアプローチを組み合わせた従来のアクティブ検索がある。
DRLフレームワークは、これらの領域において従来のアクティブ検索よりも大幅に優れていることが示されているが、そのエンドツーエンドの性質は、トレーニング中または実際の検索中において、教師付き情報を完全に活用するわけではない。
本稿では,DRLの長所と従来のアクティブ検索の長所を,タスク埋め込みと検索履歴に基づく関心領域の地理空間分布を生成する予測モジュールに分解することで組み合わせ,検索履歴を入力とし,検索分布を出力する探索モジュールを提案する。
そこで我々は,学習時間と意思決定時間の両方で得られた教師付き情報を効果的に活用できる新しいメタ学習手法を開発した。
提案した表現とメタラーニングのフレームワークは,いくつかの問題領域における視覚的能動探索において,その技術水準を大幅に上回っていることを示す。 Visual active search (VAS) has been proposed as a modeling framework in which visual cues are used to guide exploration, with the goal of identifying regions of interest in a large geospatial area. Its potential applications include identifying hot spots of rare wildlife poaching activity, search-and-rescue scenarios, identifying illegal trafficking of weapons, drugs, or people, and many others. State of the art approaches to VAS include applications of deep reinforcement learning (DRL), which yield end-to-end search policies, and traditional active search, which combines predictions with custom algorithmic approaches. While the DRL framework has been shown to greatly outperform traditional active search in such domains, its end-to-end nature does not make full use of supervised information attained either during training, or during actual search, a significant limitation if search tasks differ significantly from those in the training distribution. We propose an approach that combines the strength of both DRL and conventional active search by decomposing the search policy into a prediction module, which produces a geospatial distribution of regions of interest based on task embedding and search history, and a search module, which takes the predictions and search history as input and outputs the search distribution. We develop a novel meta-learning approach for jointly learning the resulting combined policy that can make effective use of supervised information obtained both at training and decision time. Our extensive experiments demonstrate that the proposed representation and meta-learning frameworks significantly outperform state of the art in visual active search on several problem domains. | 翻訳日:2023-11-09 18:45:03 公開日:2023-11-08 |
# 電子健康記録に対する質問応答:データセットとモデルのスコーピングレビュー Question Answering for Electronic Health Records: A Scoping Review of datasets and models ( http://arxiv.org/abs/2310.08759v2 ) ライセンス: Link先を確認 | Jayetri Bardhan, Kirk Roberts, Daisy Zhe Wang | (参考訳) 患者関連データの質問応答(qa)システムは、臨床医と患者の両方を助ける。
例えば、臨床医の意思決定を支援し、患者が自分の医療歴をよりよく理解できるようにする。
重要な患者データはElectronic Health Records(EHRs)に保存され、EHR QAが重要な研究領域となる。
EHR QAでは、患者の医療記録から回答を得る。
データ形式とモダリティの違いから、医療用ウェブサイトや科学論文を駆使して回答を得る他の医療用QAタスクとは大きく異なるため、EHR質問応答の研究が重要である。
本研究は, EHRに対するQAに関する既存研究の方法論的検討を目的としたものである。
我々は,2005年1月1日から2023年9月30日まで,Google Scholar, ACL Anthology, ACM Digital Library, PubMedの4つのデジタル資料を検索して,EHR QAに関する関連出版物を収集した。
本研究は4111論文を同定し, 包括的基準に基づく検診の結果, 計47論文が得られた。
47の論文のうち25の論文はEHR QAデータセットに関するもので、37の論文はEHR QAモデルに関するものだった。
EHRsのQAは比較的新規で未探索であることがわかった。
作品のほとんどがごく最近である。
また、EmrQAは、他の論文における引用と使用の両面で、最も人気のあるEHR QAデータセットであることがわかった。
さらに、これらのモデルで使用される評価指標とともに、EHR QAで使用される異なるモデルを特定した。 Question Answering (QA) systems on patient-related data can assist both clinicians and patients. They can, for example, assist clinicians in decision-making and enable patients to have a better understanding of their medical history. Significant amounts of patient data are stored in Electronic Health Records (EHRs), making EHR QA an important research area. In EHR QA, the answer is obtained from the medical record of the patient. Because of the differences in data format and modality, this differs greatly from other medical QA tasks that employ medical websites or scientific papers to retrieve answers, making it critical to research EHR question answering. This study aimed to provide a methodological review of existing works on QA over EHRs. We searched for articles from January 1st, 2005 to September 30th, 2023 in four digital sources including Google Scholar, ACL Anthology, ACM Digital Library, and PubMed to collect relevant publications on EHR QA. 4111 papers were identified for our study, and after screening based on our inclusion criteria, we obtained a total of 47 papers for further study. Out of the 47 papers, 25 papers were about EHR QA datasets, and 37 papers were about EHR QA models. It was observed that QA on EHRs is relatively new and unexplored. Most of the works are fairly recent. Also, it was observed that emrQA is by far the most popular EHR QA dataset, both in terms of citations and usage in other papers. Furthermore, we identified the different models used in EHR QA along with the evaluation metrics used for these models. | 翻訳日:2023-11-09 18:44:36 公開日:2023-11-08 |
# 放射線腫瘍学における自然言語処理技術の紹介と臨床応用のための枠組み An Introduction to Natural Language Processing Techniques and Framework for Clinical Implementation in Radiation Oncology ( http://arxiv.org/abs/2311.02205v2 ) ライセンス: Link先を確認 | Reza Khanmohammadi, Mohammad M. Ghassemi, Kyle Verdecchia, Ahmed I. Ghanem, Luo Bing, Indrin J. Chetty, Hassan Bagher-Ebadian, Farzan Siddiqui, Mohamed Elshaikh, Benjamin Movsas, Kundan Thind | (参考訳) 自然言語処理(NLP)は、電子健康記録(EHR)データを利用して診断および予後モデルを構築する医療人工知能(AI)システムを開発するための重要な技術である。
NLPは、構造化されていない臨床テキストをAIアルゴリズムに入力可能な構造化データに変換することができる。
トランスフォーマーアーキテクチャと大規模言語モデル(LLM)の出現は、エンティティ認識、関係抽出、文類似性、テキスト要約、質問応答などの様々な医療タスクにおいて、NLPの顕著な進歩をもたらした。
本稿では,現代NLPモデルを支える主要な技術革新と,放射線腫瘍学研究にLLMを用いる最先端NLPアプリケーションについて概説する。
しかし、これらのLSMは幻覚、偏見、倫理的違反など多くの誤りを起こしやすいため、臨床展開前に厳密な評価と検証が必要である。
そこで本研究では,臨床放射線オンコロジー導入前のNLPモデルの目的と臨床適合性,技術的パフォーマンス,バイアスと信頼,法的および倫理的含意,品質保証に基づく総合的な評価フレームワークを提案する。
本論は, 臨床放射線腫瘍学におけるNLPモデルの開発と利用に関心がある研究者や臨床医に対して, 指導と洞察を提供することを目的とする。 Natural Language Processing (NLP) is a key technique for developing Medical Artificial Intelligence (AI) systems that leverage Electronic Health Record (EHR) data to build diagnostic and prognostic models. NLP enables the conversion of unstructured clinical text into structured data that can be fed into AI algorithms. The emergence of the transformer architecture and large language models (LLMs) has led to remarkable advances in NLP for various healthcare tasks, such as entity recognition, relation extraction, sentence similarity, text summarization, and question answering. In this article, we review the major technical innovations that underpin modern NLP models and present state-of-the-art NLP applications that employ LLMs in radiation oncology research. However, these LLMs are prone to many errors such as hallucinations, biases, and ethical violations, which necessitate rigorous evaluation and validation before clinical deployment. As such, we propose a comprehensive framework for assessing the NLP models based on their purpose and clinical fit, technical performance, bias and trust, legal and ethical implications, and quality assurance, prior to implementation in clinical radiation oncology. Our article aims to provide guidance and insights for researchers and clinicians who are interested in developing and using NLP models in clinical radiation oncology. | 翻訳日:2023-11-09 18:35:58 公開日:2023-11-08 |
# FETV:オープンドメインテキスト・ビデオ・ジェネレーションの微粒化評価ベンチマーク FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation ( http://arxiv.org/abs/2311.01813v2 ) ライセンス: Link先を確認 | Yuanxin Liu, Lei Li, Shuhuai Ren, Rundong Gao, Shicheng Li, Sishuo Chen, Xu Sun, Lu Hou | (参考訳) 近年,open-domain text-to-video (t2v) 世代モデルが目覚ましい進歩を遂げている。
しかし, 有望な結果は生成したビデオの定性的なケースで主に示され, T2Vモデルの定量的評価は2つの重大な問題に直面している。
まず、既存の研究はテキストプロンプトの異なるカテゴリにおけるT2Vモデルのきめ細かい評価を欠いている。
一部のベンチマークはプロンプトを分類しているが、その分類は単一のアスペクトのみに焦点を当てるか、ビデオ生成における時間的情報を考慮しないかのどちらかである。
第二に、自動評価指標が人間の基準と一致しているかは不明である。
これらの問題に対処するために,テキスト・ビデオ生成のきめ細かい評価のためのベンチマークであるFETVを提案する。
FETVはマルチアスペクトであり、主要なコンテンツ、制御する属性、迅速な複雑さの3つの直交的な側面に基づいてプロンプトを分類する。
FETVはまた、ビデオ生成に適したいくつかの時間カテゴリーを導入している。
FETVに基づいて、4つの代表的T2Vモデルの総合的手動評価を行い、異なる側面から異なるカテゴリのプロンプトの長所と短所を明らかにする。
また,テストベッドとしてFETVを拡張し,自動T2V測定の信頼性を評価する。
FETVのマルチアスペクト分類は、異なるシナリオにおけるメトリクスの信頼性のきめ細かい分析を可能にする。
既存の自動メトリクス(例えば、CLIPScoreとFVD)は、人間の評価と相関が低い。
この問題に対処するために、CLIPScoreとFVDを改善するためのいくつかのソリューションを検討し、既存のメトリクスよりも人間との大きな相関を示す2つの自動メトリクスを開発した。
ベンチマークページ: https://github.com/llyx97/FETV。 Recently, open-domain text-to-video (T2V) generation models have made remarkable progress. However, the promising results are mainly shown by the qualitative cases of generated videos, while the quantitative evaluation of T2V models still faces two critical problems. Firstly, existing studies lack fine-grained evaluation of T2V models on different categories of text prompts. Although some benchmarks have categorized the prompts, their categorization either only focuses on a single aspect or fails to consider the temporal information in video generation. Secondly, it is unclear whether the automatic evaluation metrics are consistent with human standards. To address these problems, we propose FETV, a benchmark for Fine-grained Evaluation of Text-to-Video generation. FETV is multi-aspect, categorizing the prompts based on three orthogonal aspects: the major content, the attributes to control and the prompt complexity. FETV is also temporal-aware, which introduces several temporal categories tailored for video generation. Based on FETV, we conduct comprehensive manual evaluations of four representative T2V models, revealing their pros and cons on different categories of prompts from different aspects. We also extend FETV as a testbed to evaluate the reliability of automatic T2V metrics. The multi-aspect categorization of FETV enables fine-grained analysis of the metrics' reliability in different scenarios. We find that existing automatic metrics (e.g., CLIPScore and FVD) correlate poorly with human evaluation. To address this problem, we explore several solutions to improve CLIPScore and FVD, and develop two automatic metrics that exhibit significant higher correlation with humans than existing metrics. Benchmark page: https://github.com/llyx97/FETV. | 翻訳日:2023-11-09 18:35:36 公開日:2023-11-08 |
# 物理的拘束された機械学習からの電子励起状態 Electronic excited states from physically-constrained machine learning ( http://arxiv.org/abs/2311.00844v2 ) ライセンス: Link先を確認 | Edoardo Cignoni, Divya Suman, Jigyasa Nigam, Lorenzo Cupellini, Benedetta Mennucci, Michele Ceriotti | (参考訳) データ駆動技術は、物質の電子構造計算を置き換えるためにますます使われている。
この文脈では、機械学習(ML)が望ましい特性を予測するために直接適用されるべきなのか、それとも物理的に接地された操作と明示的に組み合わせるべきなのかが問題となる。
本稿では,有効ハミルトニアンの対称性に適合したmlモデルを用いて,量子力学的計算から電子励起を再現する統合モデリング手法の例を示す。
得られたモデルは、トレーニングされた分子よりもはるかに大きく複雑な分子を予測でき、最小原子中心基底に対応するパラメータ化を用いて、よく収束した計算の出力を間接的にターゲットすることで、劇的な計算の節約を可能にする。
これらの結果は、物理近似を用いたデータ駆動手法の相互運用のメリットを強調し、精度と計算効率に影響を与えることなくMLモデルの伝達性と解釈性を改善し、ML強化電子構造法を開発するための青写真を提供する。 Data-driven techniques are increasingly used to replace electronic-structure calculations of matter. In this context, a relevant question is whether machine learning (ML) should be applied directly to predict the desired properties or be combined explicitly with physically-grounded operations. We present an example of an integrated modeling approach, in which a symmetry-adapted ML model of an effective Hamiltonian is trained to reproduce electronic excitations from a quantum-mechanical calculation. The resulting model can make predictions for molecules that are much larger and more complex than those that it is trained on, and allows for dramatic computational savings by indirectly targeting the outputs of well-converged calculations while using a parameterization corresponding to a minimal atom-centered basis. These results emphasize the merits of intertwining data-driven techniques with physical approximations, improving the transferability and interpretability of ML models without affecting their accuracy and computational efficiency, and providing a blueprint for developing ML-augmented electronic-structure methods. | 翻訳日:2023-11-09 18:34:57 公開日:2023-11-08 |
# SDF4CHD : 先天性心不全を伴う心臓解剖の創成モデル SDF4CHD: Generative Modeling of Cardiac Anatomies with Congenital Heart Defects ( http://arxiv.org/abs/2311.00332v2 ) ライセンス: Link先を確認 | Fanwei Kong and Sascha Stocker and Perry S. Choi and Michael Ma and Daniel B. Ennis and Alison Marsden | (参考訳) 先天性心疾患(CHD)は、心臓血管構造異常のスペクトルを含み、個々の患者に対してカスタマイズされた治療計画を必要とすることが多い。
これらのユニークな心臓解剖の計算モデリングと分析は、診断と治療計画を改善し、最終的には改善する可能性がある。
深層学習 (DL) 法は, 正常心疾患患者の心臓分割とメッシュ構築を自動化し, 効率的な治療計画を可能にする可能性を実証している。
しかし、CHDは稀であり、そのようなDLモデルの訓練に十分な量の患者コホートを取得することは困難である。
心臓解剖の生成的モデリングは、仮想コホートの生成によってこのギャップを埋める可能性があるが、従来のアプローチは主に正常な解剖学のために設計されており、CHD患者で見られる重要なトポロジ的変化を容易に捉えることはできない。
そこで本研究では, 異なるchd型で観察される広いスペクトルの心臓解剖を捉え, 特定のchd型に対して特異なトポロジーを保った異なる形状の心臓解剖を合成する。
DLアプローチは,CHD型診断に基づく署名付き距離場(SDF)を用いて暗黙的にCHD型特異的異常を呈し,異なるタイプの解剖学的変動を簡便に捉え,有意な中間的CHD状態を示す。
形状特異的な変形を捉えるために, 可逆的変形を学習し, 学習したchd型特異的解剖を変形し, 患者特異的な形状を再構築する。
本手法は, 心筋セグメンテーションのための希少なCHDタイプの画像分割ペアを増強し, 計算シミュレーションのためのCHD心筋メッシュのコホートを生成する可能性を秘めている。 Congenital heart disease (CHD) encompasses a spectrum of cardiovascular structural abnormalities, often requiring customized treatment plans for individual patients. Computational modeling and analysis of these unique cardiac anatomies can improve diagnosis and treatment planning and may ultimately lead to improved outcomes. Deep learning (DL) methods have demonstrated the potential to enable efficient treatment planning by automating cardiac segmentation and mesh construction for patients with normal cardiac anatomies. However, CHDs are often rare, making it challenging to acquire sufficiently large patient cohorts for training such DL models. Generative modeling of cardiac anatomies has the potential to fill this gap via the generation of virtual cohorts; however, prior approaches were largely designed for normal anatomies and cannot readily capture the significant topological variations seen in CHD patients. Therefore, we propose a type- and shape-disentangled generative approach suitable to capture the wide spectrum of cardiac anatomies observed in different CHD types and synthesize differently shaped cardiac anatomies that preserve the unique topology for specific CHD types. Our DL approach represents generic whole heart anatomies with CHD type-specific abnormalities implicitly using signed distance fields (SDF) based on CHD type diagnosis, which conveniently captures divergent anatomical variations across different types and represents meaningful intermediate CHD states. To capture the shape-specific variations, we then learn invertible deformations to morph the learned CHD type-specific anatomies and reconstruct patient-specific shapes. Our approach has the potential to augment the image-segmentation pairs for rarer CHD types for cardiac segmentation and generate cohorts of CHD cardiac meshes for computational simulation. | 翻訳日:2023-11-09 18:34:40 公開日:2023-11-08 |
# 雑音グラフのメタ重み付けによるロバストグラフクラスタリング Robust Graph Clustering via Meta Weighting for Noisy Graphs ( http://arxiv.org/abs/2311.00322v2 ) ライセンス: Link先を確認 | Hyeonsoo Jo, Fanchen Bu, Kijung Shin | (参考訳) ノイズエッジに対して頑健にグラフに意味のあるクラスタを見つけるには?
グラフクラスタリング(つまり、ノードを類似したグループに分割する)は、さまざまな分野のアプリケーションを用いたグラフ分析における根本的な問題である。
近年の研究では、グラフニューラルネットワーク(GNN)に基づくアプローチがグラフクラスタリングに有望な結果をもたらすことが示されている。
しかし, ノイズエッジを持つグラフ上では, その性能が著しく低下することが観測された。
本稿では,GNNに基づくグラフクラスタリングのためのMetaGCを提案する。
MetaGCは分解可能なクラスタリング損失関数を採用しており、ノードペアに対する損失の総和として表現することができる。
各ノードペアに学習可能な重みを加え,メタ重み付けを用いてノードペアの重みを適応的に調整することにより,有意義なノードペアの重みが増大し,平均しないノード(ノイズエッジなど)の重みが減少する。
我々は,MetaGCが意図した重みを学習し,その結果,ノイズのレベルが異なる5つの実世界のグラフ上に,個別のデノナイジングスキームを備えている場合でも,最先端のGNNベースの競合よりも優れていることを示す。
私たちのコードとデータセットはhttps://github.com/hyeonsoojo/metagcで利用可能です。 How can we find meaningful clusters in a graph robustly against noise edges? Graph clustering (i.e., dividing nodes into groups of similar ones) is a fundamental problem in graph analysis with applications in various fields. Recent studies have demonstrated that graph neural network (GNN) based approaches yield promising results for graph clustering. However, we observe that their performance degenerates significantly on graphs with noise edges, which are prevalent in practice. In this work, we propose MetaGC for robust GNN-based graph clustering. MetaGC employs a decomposable clustering loss function, which can be rephrased as a sum of losses over node pairs. We add a learnable weight to each node pair, and MetaGC adaptively adjusts the weights of node pairs using meta-weighting so that the weights of meaningful node pairs increase and the weights of less-meaningful ones (e.g., noise edges) decrease. We show empirically that MetaGC learns weights as intended and consequently outperforms the state-of-the-art GNN-based competitors, even when they are equipped with separate denoising schemes, on five real-world graphs under varying levels of noise. Our code and datasets are available at https://github.com/HyeonsooJo/MetaGC. | 翻訳日:2023-11-09 18:34:07 公開日:2023-11-08 |
# 量子音響ドリューピークシフト Quantum-Acoustical Drude Peak Shift ( http://arxiv.org/abs/2310.19143v2 ) ライセンス: Link先を確認 | J. Keski-Rahkonen, X.-Y. Ouyang, S. Yuan, A.M. Graf, A. Aydin and E.J. Heller | (参考訳) 量子音響 - 最近開発された量子光学と平行なフレームワーク - は、実空間における電子-フォノン相互作用の非摂動的かつコヒーレントな処理を確立する。
量子音響的表現は、Fr\"ohlichモデル内の平らな視界に変位したDrudeピーク隠蔽が示され、光伝導度は遠赤外線範囲において有限周波最大値を示し、d.c.伝導度は抑制される。
本研究は, 異常金属や悪金属の高温吸収ピークの起源を解明し, 動的格子障害が系を非乾性行動へと導くことを明らかにした。 Quantum acoustics -- a recently developed framework parallel to quantum optics -- establishesa nonperturbative and coherent treatment of the electron-phonon interaction in real space. The quantum-acoustical representation reveals a displaced Drude peak hid ing in plain sight within the venerable Fr\"ohlich model: the optical conductivity exhibits a finite frequency maximum in the far-infrared range and the d.c. conductivity is suppressed. Our results elucidate the origin of the high-temperature absorption peaks in strange or bad metals, revealing that dynamical lattice disorder steers the system towards a non-Drude behavior | 翻訳日:2023-11-09 18:33:09 公開日:2023-11-08 |
# N-Critics: 批判の集まりを伴う大規模言語モデルの自己精製 N-Critics: Self-Refinement of Large Language Models with Ensemble of Critics ( http://arxiv.org/abs/2310.18679v2 ) ライセンス: Link先を確認 | Sajad Mousavi, Ricardo Luna Guti\'errez, Desik Rengarajan, Vineet Gundecha, Ashwin Ramesh Babu, Avisek Naug, Antonio Guillen, Soumyendu Sarkar | (参考訳) 本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。
この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
人間の行動からインスピレーションを得て、llmが複雑なトピックに対する理解を深めるために、しばしば自己回帰に関わり、他者からのインプットを求める人に見られる自己修正過程をエミュレートできるかどうかを探求する。
我々のアプローチはモデルに依存しないものであり、公正性、偏見、堅牢性に対処することで、信頼性を高めるために様々な領域に適用することができる。
我々はLSMの性能改善を継続的に観察し、毒性を低減し、事実の誤りを修正する。 We propose a self-correction mechanism for Large Language Models (LLMs) to mitigate issues such as toxicity and fact hallucination. This method involves refining model outputs through an ensemble of critics and the model's own feedback. Drawing inspiration from human behavior, we explore whether LLMs can emulate the self-correction process observed in humans who often engage in self-reflection and seek input from others to refine their understanding of complex topics. Our approach is model-agnostic and can be applied across various domains to enhance trustworthiness by addressing fairness, bias, and robustness concerns. We consistently observe performance improvements in LLMs for reducing toxicity and correcting factual errors. | 翻訳日:2023-11-09 18:32:35 公開日:2023-11-08 |
# 一般地理空間人工知能の基礎モデル Foundation Models for Generalist Geospatial Artificial Intelligence ( http://arxiv.org/abs/2310.18660v2 ) ライセンス: Link先を確認 | Johannes Jakubik, Sujit Roy, C. E. Phillips, Paolo Fraccaro, Denys Godwin, Bianca Zadrozny, Daniela Szwarcman, Carlos Gomes, Gabby Nyirjesy, Blair Edwards, Daiki Kimura, Naomi Simumba, Linsong Chu, S. Karthik Mukkavilli, Devyani Lambhate, Kamal Das, Ranjini Bangalore, Dario Oliveira, Michal Muszynski, Kumar Ankur, Muthukumaran Ramasubramanian, Iksha Gurung, Sam Khallaghi, Hanxi (Steve) Li, Michael Cecil, Maryam Ahmadi, Fatemeh Kordi, Hamed Alemohammad, Manil Maskey, Raghu Ganti, Kommy Weldemariam, Rahul Ramachandran | (参考訳) 高度に適応可能で再利用可能な人工知能(AI)モデルの開発における重要な進歩は、地球科学とリモートセンシングに大きな影響を与えると期待されている。
ファンデーションモデルは、セルフスーパービジョンを通じて大きなラベル付きデータセット上で事前トレーニングされ、小さなラベル付きデータセットでさまざまな下流タスクのために微調整される。
本稿では,広域空間データに基づく基礎モデルの効率的な事前学習と微調整のための第1種フレームワークを提案する。
我々は、この枠組みを利用して、harmonized landsat-sentinel 2 (hls)データセットから1tb以上のマルチスペクトル衛星画像に事前学習されたトランスフォーマティブベースの地理空間基礎モデルprithviを開発した。
本研究は,多時期雲間隙計算,洪水マッピング,山火事跡のセグメンテーション,多時期作物のセグメンテーションを含む基礎モデルに関する過去の研究で取り組まなかった,地球観測タスクに対する我々のフレームワークの有効性を実証するものである。
実験では,事前学習したモデルが,ランダム初期化重みの活用と比較して微調整過程を加速することを示した。
さらに、プレトレーニングされたプリスヴィは、構造的類似度指数において最大5pp(または5.7%)の条件付きGANモデルよりも優れた条件付きGANモデルとよく比較される。
最後に,地球観測の分野でラベル付きデータの可用性が限られているため,モデルを精錬するためのラベル付きデータの量を徐々に削減し,データの効率を評価するとともに,モデルの精度に影響を与えずにデータを大幅に低減できることを示す。
事前訓練された1億のパラメータモデルとそれに対応する微調整ワークフローが、Hugging Faceを通じて、グローバル地球科学コミュニティへのオープンソースコントリビューションとして公開された。 Significant progress in the development of highly adaptable and reusable Artificial Intelligence (AI) models is expected to have a significant impact on Earth science and remote sensing. Foundation models are pre-trained on large unlabeled datasets through self-supervision, and then fine-tuned for various downstream tasks with small labeled datasets. This paper introduces a first-of-a-kind framework for the efficient pre-training and fine-tuning of foundational models on extensive geospatial data. We have utilized this framework to create Prithvi, a transformer-based geospatial foundational model pre-trained on more than 1TB of multispectral satellite imagery from the Harmonized Landsat-Sentinel 2 (HLS) dataset. Our study demonstrates the efficacy of our framework in successfully fine-tuning Prithvi to a range of Earth observation tasks that have not been tackled by previous work on foundation models involving multi-temporal cloud gap imputation, flood mapping, wildfire scar segmentation, and multi-temporal crop segmentation. Our experiments show that the pre-trained model accelerates the fine-tuning process compared to leveraging randomly initialized weights. In addition, pre-trained Prithvi compares well against the state-of-the-art, e.g., outperforming a conditional GAN model in multi-temporal cloud imputation by up to 5pp (or 5.7%) in the structural similarity index. Finally, due to the limited availability of labeled data in the field of Earth observation, we gradually reduce the quantity of available labeled data for refining the model to evaluate data efficiency and demonstrate that data can be decreased significantly without affecting the model's accuracy. The pre-trained 100 million parameter model and corresponding fine-tuning workflows have been released publicly as open source contributions to the global Earth sciences community through Hugging Face. | 翻訳日:2023-11-09 18:32:22 公開日:2023-11-08 |
# 画像分類器ロバストネスのためのカスタマイズ可能な歪み付きベンチマーク生成フレームワーク Benchmark Generation Framework with Customizable Distortions for Image Classifier Robustness ( http://arxiv.org/abs/2310.18626v2 ) ライセンス: Link先を確認 | Soumyendu Sarkar, Ashwin Ramesh Babu, Sajad Mousavi, Zachariah Carmichael, Vineet Gundecha, Sahand Ghorbanpour, Ricardo Luna, Gutierrez Antonio Guillen, and Avisek Naug | (参考訳) 本稿では,画像分類モデルのロバスト性を評価するために,逆ベンチマークを生成する新しいフレームワークを提案する。
当社のフレームワークでは,画像に最適な歪みの種類をカスタマイズすることが可能で,デプロイメントに関連する歪みに対処する上で有効である。
このベンチマークは、様々な歪みレベルのデータセットを生成し、異なる画像分類器の堅牢性を評価する。
以上の結果から,ResNet-50,Inception-V3,VGG-16などの画像分類モデルを用いて,我々のフレームワークが生成した敵対的サンプルは,他のモデルに有効で転送可能であることが示された。
これらの失敗は、これらのモデルが最先端技術を用いて敵に再訓練されたとしても起こり、我々の敵のサンプルの一般化可能性を示す。
我々は,CIFAR-10 や ImageNet の最先端ベンチマーク手法と比較して,純$L_2$歪みの競争性能を向上するが,非自然的アーティファクトやカラーブリードを導入することなく,ガウスノイズなどの単純な歪みで,このような結果が得られることを示す。
これは、モデルベース強化学習(RL)エージェントと、モデルを摂動に敏感にするために画像の深い木探索を1段階の分析と動作に還元する技術によって実現されている。
複数のクラスに対して歪みの選択や分類確率しきい値の設定の柔軟性は,アルゴリズムによる監査に適している。 We present a novel framework for generating adversarial benchmarks to evaluate the robustness of image classification models. Our framework allows users to customize the types of distortions to be optimally applied to images, which helps address the specific distortions relevant to their deployment. The benchmark can generate datasets at various distortion levels to assess the robustness of different image classifiers. Our results show that the adversarial samples generated by our framework with any of the image classification models, like ResNet-50, Inception-V3, and VGG-16, are effective and transferable to other models causing them to fail. These failures happen even when these models are adversarially retrained using state-of-the-art techniques, demonstrating the generalizability of our adversarial samples. We achieve competitive performance in terms of net $L_2$ distortion compared to state-of-the-art benchmark techniques on CIFAR-10 and ImageNet; however, we demonstrate our framework achieves such results with simple distortions like Gaussian noise without introducing unnatural artifacts or color bleeds. This is made possible by a model-based reinforcement learning (RL) agent and a technique that reduces a deep tree search of the image for model sensitivity to perturbations, to a one-level analysis and action. The flexibility of choosing distortions and setting classification probability thresholds for multiple classes makes our framework suitable for algorithmic audits. | 翻訳日:2023-11-09 18:31:52 公開日:2023-11-08 |
# マルチモーダルデータの因果的絡み合い Causal disentanglement of multimodal data ( http://arxiv.org/abs/2310.18471v2 ) ライセンス: Link先を確認 | Elise Walker, Jonas A. Actor, Carianne Martinez, and Nathaniel Trask | (参考訳) 因果表現学習アルゴリズムは、原因と効果の解読可能な解釈を認めるデータの低次元表現を発見し、そのような解釈可能な表現を達成することは困難であるため、多くの因果学習アルゴリズムは、(線形)構造因果モデル、介入データ、弱い監督といった先行情報を示す要素を利用する。
残念ながら、探索的因果表現学習では、そのような要素や事前情報は利用できないか、保証されない。
あるいは、科学データセットは、しばしば複数のモーダル性または物理に基づく制約を持ち、そのような科学的マルチモーダルデータを使用することで、完全に教師なしの環境での絡み合いを改善することが示されている。
その結果,因果関係を持つ重要な特徴の発見にマルチモーダルデータと既知の物理を利用する因果表現学習アルゴリズム (causalPIMA) を導入した。
我々の革新的アルゴリズムは、新しい微分可能パラメトリゼーションを用いて、有向非巡回グラフ(DAG)と変分オートエンコーダの潜在空間を、単一の有界損失関数を導出して、エンドツーエンドの微分可能フレームワークで学習する。
我々は,潜伏空間上にガウス混合体を配置し,それぞれの混合体をDAGノードの結果と同一視し,因果関係を持つ特徴発見を可能にする。
本研究は, 合成および科学的データセットを用いて, 解析可能な因果構造を学習すると同時に, 教師なし環境において重要な特徴を同時に発見できることを実証した。 Causal representation learning algorithms discover lower-dimensional representations of data that admit a decipherable interpretation of cause and effect; as achieving such interpretable representations is challenging, many causal learning algorithms utilize elements indicating prior information, such as (linear) structural causal models, interventional data, or weak supervision. Unfortunately, in exploratory causal representation learning, such elements and prior information may not be available or warranted. Alternatively, scientific datasets often have multiple modalities or physics-based constraints, and the use of such scientific, multimodal data has been shown to improve disentanglement in fully unsupervised settings. Consequently, we introduce a causal representation learning algorithm (causalPIMA) that can use multimodal data and known physics to discover important features with causal relationships. Our innovative algorithm utilizes a new differentiable parametrization to learn a directed acyclic graph (DAG) together with a latent space of a variational autoencoder in an end-to-end differentiable framework via a single, tractable evidence lower bound loss function. We place a Gaussian mixture prior on the latent space and identify each of the mixtures with an outcome of the DAG nodes; this novel identification enables feature discovery with causal relationships. Tested against a synthetic and a scientific dataset, our results demonstrate the capability of learning an interpretable causal structure while simultaneously discovering key features in a fully unsupervised setting. | 翻訳日:2023-11-09 18:31:24 公開日:2023-11-08 |
# 逐次意思決定のための確率比信頼度セット Likelihood Ratio Confidence Sets for Sequential Decision Making ( http://arxiv.org/abs/2311.04402v1 ) ライセンス: Link先を確認 | Nicolas Emmenegger, Mojm\'ir Mutn\'y, Andreas Krause | (参考訳) 未知量の適応的不確実性推定は、逐次決定アルゴリズムの重要な要素である。
標準的なアプローチは問題依存の集中結果に依存しており、パラメータ化、ノイズファミリー、推定器の特定の組み合わせに限られている。
本稿では,確率に基づく推論の原理を再検討し,各アプリケーションシナリオにおいて特別な処理を必要とせずに,任意の時間有効信頼シーケンスを構築するための確率比を提案する。
本手法は, 精度の高い問題に対して特に適しており, 得られた集合は, 常に所定の範囲をモデルに依存しない方法で維持する。
集合のサイズは、確率比における推定子列の選択に依存する。
本稿では,オンライン凸最適化における最良推定器の選択方法と,フォロー・ザ・レギュラライズ・リーダなどのアルゴリズムとの関連について考察する。
推定器の初期の大きなバイアスに対処するために、RKHS関数クラスのようなパラメータでない設定での展開を開放する再重み付け方式を提案する。
本研究では,凸双対性とオンライン学習の知見を用いて,一般化線形モデルに対する確率比信頼度集合のサイズを非漸近的に解析する。
本稿では,様々な付加雑音分布を有する線形バンディット問題,サバイバル解析,バンディット法の実践的強度を示す。 Certifiable, adaptive uncertainty estimates for unknown quantities are an essential ingredient of sequential decision-making algorithms. Standard approaches rely on problem-dependent concentration results and are limited to a specific combination of parameterization, noise family, and estimator. In this paper, we revisit the likelihood-based inference principle and propose to use likelihood ratios to construct any-time valid confidence sequences without requiring specialized treatment in each application scenario. Our method is especially suitable for problems with well-specified likelihoods, and the resulting sets always maintain the prescribed coverage in a model-agnostic manner. The size of the sets depends on a choice of estimator sequence in the likelihood ratio. We discuss how to provably choose the best sequence of estimators and shed light on connections to online convex optimization with algorithms such as Follow-the-Regularized-Leader. To counteract the initially large bias of the estimators, we propose a reweighting scheme that also opens up deployment in non-parametric settings such as RKHS function classes. We provide a non-asymptotic analysis of the likelihood ratio confidence sets size for generalized linear models, using insights from convex duality and online learning. We showcase the practical strength of our method on generalized linear bandit problems, survival analysis, and bandits with various additive noise distributions. | 翻訳日:2023-11-09 17:45:19 公開日:2023-11-08 |
# ダブルポスト超電導キャビティに符号化されたデュアルレール量子ビットの消去検出 Erasure detection of a dual-rail qubit encoded in a double-post superconducting cavity ( http://arxiv.org/abs/2311.04423v1 ) ライセンス: Link先を確認 | Akshay Koottandavida, Ioannis Tsioutsios, Aikaterini Kargioti, Cassady R. Smith, Vidul R. Joshi, Wei Dai, James D. Teoh, Jacob C. Curtis, Luigi Frunzio, Robert J. Schoelkopf, Michel H. Devoret | (参考訳) 主に消去誤差を持つ量子ビットは、量子エラー補正(QEC)とフォールトトレラント量子コンピューティングの顕著な利点を示す。
消去検出を利用するデュアルレール符号化に基づく論理量子ビットは、最近超伝導回路アーキテクチャにおいて、結合トランスモンまたはキャビティで提案されている。
ここでは、コンパクトな2ポスト超伝導キャビティに符号化されたデュアルレール量子ビットを実装した。
補助トランスモンを用いて二重レール部分空間の消去検出を行う。
共同ウィグナートモグラフィーを行う新しい手法により,コード空間の挙動を特徴付ける。
これはキャビティモードとトランスモン間のクロスカー相互作用の修正に基づいている。
我々は,3.981+/-0.003(ms)-1の消去率と,符号空間内における残差の最大0.17(ms)-1を測定する。
このエラーレートの強い階層と、この新アーキテクチャのコンパクトでハードウェア効率のよい性質は、しきい値の強化とスケーリングの改善によるqecスキームの実現を約束している。 Qubits with predominantly erasure errors present distinctive advantages for quantum error correction(QEC) and fault tolerant quantum computing. Logical qubits based on dual-rail encoding that exploit erasure detection have been recently proposed in superconducting circuit architectures, either with coupled transmons or cavities. Here, we implement a dual-rail qubit encoded in a compact, double-post superconducting cavity. Using an auxiliary transmon, we perform erasure detection on the dual-rail subspace. We characterize the behaviour of the codespace by a novel method to perform joint-Wigner tomography. This is based on modifying the cross-Kerr interaction between the cavity modes and the transmon. We measure an erasure rate of 3.981 +/- 0.003 (ms)-1 and a residual dephasing error rate up to 0.17 (ms)-1 within the codespace. This strong hierarchy of error rates, together with the compact and hardware-efficient nature of this novel architecture, hold promise in realising QEC schemes with enhanced thresholds and improved scaling. | 翻訳日:2023-11-09 17:33:44 公開日:2023-11-08 |
# AI/ML加速器の評価:IPU、RDU、NVIDIA/AMD GPU Evaluating Emerging AI/ML Accelerators: IPU, RDU, and NVIDIA/AMD GPUs ( http://arxiv.org/abs/2311.04417v1 ) ライセンス: Link先を確認 | Hongwu Peng and Caiwen Ding and Tong Geng and Sutanay Choudhury and Kevin Barker and Ang Li | (参考訳) 人工知能(AI)と機械学習(ML)のアプリケーションは、複雑さと計算要求の増大に対処できる特別なハードウェアアクセラレータの開発を必要としている。
von Neumannモデルに基づく従来のコンピューティングアーキテクチャは、現代のAI/MLアルゴリズムの要求に圧倒され、Graphcore Intelligence Processing Unit (IPU)、Sambanova Reconfigurable Dataflow Unit (RDU)、GPUプラットフォームなどのアクセラレータの開発が急増している。
これらのハードウェアアクセラレータは、革新的なデータフローアーキテクチャと、AI/MLタスクのパフォーマンスとエネルギー効率の向上を約束するその他の設計最適化によって特徴付けられる。
この研究は、これらの商用AI/MLアクセラレータの予備的な評価と比較を提供し、その強みとユニークな能力を識別するために、ハードウェアおよびソフトウェア設計機能について検討する。
一般的なDNN演算子や他のAI/MLワークロードに対する一連のベンチマーク評価を行うことで、従来のプロセッサ設計よりもデータフローアーキテクチャの利点を明確化し、各プラットフォームのパフォーマンストレードオフに関する洞察を提供することを目指している。
この研究から得られた知見は、研究プロトタイプの設計と性能の期待に対する貴重な基準となり、AI/MLアプリケーションの進化を続ける状況に合わせた次世代ハードウェアアクセラレータの開発が促進される。
この分析を通じて、私たちは、現在の加速器技術のより広範な理解に貢献し、この分野における将来のイノベーションのためのガイダンスを提供することを目指しています。 The relentless advancement of artificial intelligence (AI) and machine learning (ML) applications necessitates the development of specialized hardware accelerators capable of handling the increasing complexity and computational demands. Traditional computing architectures, based on the von Neumann model, are being outstripped by the requirements of contemporary AI/ML algorithms, leading to a surge in the creation of accelerators like the Graphcore Intelligence Processing Unit (IPU), Sambanova Reconfigurable Dataflow Unit (RDU), and enhanced GPU platforms. These hardware accelerators are characterized by their innovative data-flow architectures and other design optimizations that promise to deliver superior performance and energy efficiency for AI/ML tasks. This research provides a preliminary evaluation and comparison of these commercial AI/ML accelerators, delving into their hardware and software design features to discern their strengths and unique capabilities. By conducting a series of benchmark evaluations on common DNN operators and other AI/ML workloads, we aim to illuminate the advantages of data-flow architectures over conventional processor designs and offer insights into the performance trade-offs of each platform. The findings from our study will serve as a valuable reference for the design and performance expectations of research prototypes, thereby facilitating the development of next-generation hardware accelerators tailored for the ever-evolving landscape of AI/ML applications. Through this analysis, we aspire to contribute to the broader understanding of current accelerator technologies and to provide guidance for future innovations in the field. | 翻訳日:2023-11-09 17:33:26 公開日:2023-11-08 |
# ビデオオブジェクトセグメンテーションにおけるアノテーションの学習 Learning the What and How of Annotation in Video Object Segmentation ( http://arxiv.org/abs/2311.04414v1 ) ライセンス: Link先を確認 | Thanos Delatolas, Vicky Kalogeiton, Dim P. Papadopoulos | (参考訳) ビデオオブジェクトセグメンテーション(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
VOSモデルのトレーニングには、手動でラベル付けされたトレーニングビデオが多数必要である。
オブジェクトをアノテートする方法のデファクトでは、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
しかし、このアノテーションプロセスは退屈で時間がかかります。
このアノテーションコストを削減するため,ビデオオブジェクトセグメンテーションのためのヒューマンインザループアノテーションフレームワークであるEVA-VOSを提案する。
従来のアプローチとは異なり、どのフレーム("What")をアノテーションにするか、どのアノテーションタイプ("How")を使うのかを反復的に予測するエージェントを導入します。
次に、アノテーションはVOSモジュールの更新に使用される選択されたフレームのみに注釈を付け、アノテーションの時間が大幅に向上する。
我々はMOSEとDAVISデータセットの実験を行い、次のように示す。
(a)EVA-VOSは、ビデオの標準的な注釈付け方法よりも3.5倍早く、人間の同意に近い精度のマスクにつながる。
b)我々のフレーム選択は最先端のパフォーマンスを達成する。
c) eva-vosは、他のすべてのメソッドやベースラインと比較して、アノテーション時間の観点から大きなパフォーマンス向上をもたらす。 Video Object Segmentation (VOS) is crucial for several applications, from video editing to video data generation. Training a VOS model requires an abundance of manually labeled training videos. The de-facto traditional way of annotating objects requires humans to draw detailed segmentation masks on the target objects at each video frame. This annotation process, however, is tedious and time-consuming. To reduce this annotation cost, in this paper, we propose EVA-VOS, a human-in-the-loop annotation framework for video object segmentation. Unlike the traditional approach, we introduce an agent that predicts iteratively both which frame ("What") to annotate and which annotation type ("How") to use. Then, the annotator annotates only the selected frame that is used to update a VOS module, leading to significant gains in annotation time. We conduct experiments on the MOSE and the DAVIS datasets and we show that: (a) EVA-VOS leads to masks with accuracy close to the human agreement 3.5x faster than the standard way of annotating videos; (b) our frame selection achieves state-of-the-art performance; (c) EVA-VOS yields significant performance gains in terms of annotation time compared to all other methods and baselines. | 翻訳日:2023-11-09 17:33:00 公開日:2023-11-08 |
# 解答集合プログラミングにおける人間の条件推論 Human Conditional Reasoning in Answer Set Programming ( http://arxiv.org/abs/2311.04412v1 ) ライセンス: Link先を確認 | Chiaki Sakama | (参考訳) 条件文P=>Q(PならQ)と各事実が与えられた場合、人間の推論では4種類の推論が観察される。
先行 (AA) が P から Q へ、後続 (AC) が Q から、後続 (DA) が -Q から、後続 (DC) が -Q から、後続 (DC) が -P から -Q を否定する。
AA と DC は論理的に有効であるが、AC と DA は論理的に無効であり、しばしば論理的誤りと呼ばれる。
それでも、人間はしばしば日常生活において実用的推論としてacやdaを実行する。
本稿では,応答集合プログラミングにおけるAC,DA,DC推論を実現する。
8種類の異なる補完が導入され、それらの意味論は回答集合によって与えられる。
認知心理学において、形式的性質を調査し、人間の推論課題を特徴付ける。
これらの完了は、AIの常識推論にも適用される。 Given a conditional sentence P=>Q (if P then Q) and respective facts, four different types of inferences are observed in human reasoning. Affirming the antecedent (AA) (or modus ponens) reasons Q from P; affirming the consequent (AC) reasons P from Q; denying the antecedent (DA) reasons -Q from -P; and denying the consequent (DC) (or modus tollens) reasons -P from -Q. Among them, AA and DC are logically valid, while AC and DA are logically invalid and often called logical fallacies. Nevertheless, humans often perform AC or DA as pragmatic inference in daily life. In this paper, we realize AC, DA and DC inferences in answer set programming. Eight different types of completion are introduced and their semantics are given by answer sets. We investigate formal properties and characterize human reasoning tasks in cognitive psychology. Those completions are also applied to commonsense reasoning in AI. | 翻訳日:2023-11-09 17:32:28 公開日:2023-11-08 |
# 量子アニーリングを用いたラムゼー数の境界計算に向けて Toward Computing Bounds for Ramsey Numbers Using Quantum Annealing ( http://arxiv.org/abs/2311.04405v1 ) ライセンス: Link先を確認 | Joel E. Pion and Susan M. Mniszewski | (参考訳) 量子アニールは、グラフ分割、コミュニティ検出、集中性、ルーティング問題など、組合せ最適化問題の解決と近似のための強力なツールである。
本稿では,組合せ数学研究問題の解法としての量子アニールの利用について検討する。
我々は,単色三角形問題とラムゼー数問題について考察する。
量子ハードウェア上では、2次非制約バイナリ最適化(QUBO)形式への変換が必要である。
単色三角形問題は自然に二次的であるが、ラムゼー数問題は二次的な定式化に順序還元法を用いる必要がある。
d-wave advantage quantum annealer上で実行する場合の実装、制限、結果について議論する。 Quantum annealing is a powerful tool for solving and approximating combinatorial optimization problems such as graph partitioning, community detection, centrality, routing problems, and more. In this paper we explore the use of quantum annealing as a tool for use in exploring combinatorial mathematics research problems. We consider the monochromatic triangle problem and the Ramsey number problem, both examples of graph coloring. Conversion to quadratic unconstrained binary optimization (QUBO) form is required to run on quantum hardware. While the monochromatic triangle problem is quadratic by nature, the Ramsey number problem requires the use of order reduction methods for a quadratic formulation. We discuss implementations, limitations, and results when running on the D-Wave Advantage quantum annealer. | 翻訳日:2023-11-09 17:31:55 公開日:2023-11-08 |
# ヒューマンセンタープランニング Human-Centered Planning ( http://arxiv.org/abs/2311.04403v1 ) ライセンス: Link先を確認 | Yuliang Li and Nitin Kamra and Ruta Desai and Alon Halevy | (参考訳) LLMは先日,コーディングやロボット計画,クエリデータベースなど,アウトプットが構造化されたタスクに対して,目覚ましい普及を遂げた。
AIを活用したパーソナルアシスタントを作成するというビジョンには、一日の計画や海外旅行など、構造化されたアウトプットの作成も含まれる。
ここでは、計画は人間によって実行されるので、出力は厳密な構文制約を満たす必要はない。
便利なアシスタントは、ユーザーが指定したあいまいな制約を自然言語に組み込むこともできる。
これにより、LSMは計画に魅力的な選択肢となります。
我々はその日を計画する問題を考える。
我々は LLM ベースのプランナー (LLMPlan) を開発し,その出力を自己表現できる機能と,テキスト制約を記号表現に変換する機能を備えた記号プランナー (SymPlan) を開発した。
制約の正式な仕様は存在しないが、LLMPlanは、暗黙的要件の推論を維持しながら、従来の象徴的プランナー(性能差2%)と同様の明示的な制約満足度を実現している。
その結果、LLMベースのプランナーは40人のユーザとの対話的な評価において、ユーザ満足度(70.5%対40.4%)の象徴的な指標よりも優れていた。 LLMs have recently made impressive inroads on tasks whose output is structured, such as coding, robotic planning and querying databases. The vision of creating AI-powered personal assistants also involves creating structured outputs, such as a plan for one's day, or for an overseas trip. Here, since the plan is executed by a human, the output doesn't have to satisfy strict syntactic constraints. A useful assistant should also be able to incorporate vague constraints specified by the user in natural language. This makes LLMs an attractive option for planning. We consider the problem of planning one's day. We develop an LLM-based planner (LLMPlan) extended with the ability to self-reflect on its output and a symbolic planner (SymPlan) with the ability to translate text constraints into a symbolic representation. Despite no formal specification of constraints, we find that LLMPlan performs explicit constraint satisfaction akin to the traditional symbolic planners on average (2% performance difference), while retaining the reasoning of implicit requirements. Consequently, LLM-based planners outperform their symbolic counterparts in user satisfaction (70.5% vs. 40.4%) during interactive evaluation with 40 users. | 翻訳日:2023-11-09 17:31:36 公開日:2023-11-08 |
# LRM: 単一画像から3Dへの大規模再構成モデル LRM: Large Reconstruction Model for Single Image to 3D ( http://arxiv.org/abs/2311.04400v1 ) ライセンス: Link先を確認 | Yicong Hong and Kai Zhang and Jiuxiang Gu and Sai Bi and Yang Zhou and Difan Liu and Feng Liu and Kalyan Sunkavalli and Trung Bui and Hao Tan | (参考訳) 本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
カテゴリ固有の方法でShapeNetのような小規模データセットでトレーニングされた多くの従来の手法とは対照的に、LRMは5億の学習可能なパラメータを持つスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
我々は、Objaverseの合成レンダリングとMVImgNetの実際のキャプチャを含む約100万のオブジェクトを含む大規模なマルチビューデータに基づいて、エンドツーエンドでモデルをトレーニングする。
この高容量モデルと大規模トレーニングデータの組み合わせにより、我々のモデルは高度に一般化可能となり、実世界のインザワイルドキャプチャや生成モデルの画像を含む様々なテストインプットから高品質な3D再構成を生成できる。
ビデオデモと対話可能な3Dメッシュは、このWebサイトで見ることができる。 We propose the first Large Reconstruction Model (LRM) that predicts the 3D model of an object from a single input image within just 5 seconds. In contrast to many previous methods that are trained on small-scale datasets such as ShapeNet in a category-specific fashion, LRM adopts a highly scalable transformer-based architecture with 500 million learnable parameters to directly predict a neural radiance field (NeRF) from the input image. We train our model in an end-to-end manner on massive multi-view data containing around 1 million objects, including both synthetic renderings from Objaverse and real captures from MVImgNet. This combination of a high-capacity model and large-scale training data empowers our model to be highly generalizable and produce high-quality 3D reconstructions from various testing inputs including real-world in-the-wild captures and images from generative models. Video demos and interactable 3D meshes can be found on this website: https://yiconghong.me/LRM/. | 翻訳日:2023-11-09 17:30:44 公開日:2023-11-08 |
# llmに基づくリソース指向インテント推論による静的リソースリーク検出の促進 Boosting Static Resource Leak Detection via LLM-based Resource-Oriented Intention Inference ( http://arxiv.org/abs/2311.04448v1 ) ライセンス: Link先を確認 | Chong Wang, Jianan Liu, Xin Peng, Yang Liu, Yiling Lou | (参考訳) リソースリークは、買収後にリリースされないリソースによって引き起こされ、しばしばパフォーマンス上の問題やシステムクラッシュにつながる。
既存の静的検出技術は、事前定義されたリソース獲得/リリースapiの機械的マッチング、事前定義されたapiの完全性、到達可能性の検証の特定、分析の複雑さなど、その有効性への挑戦に依存する。
これらの課題を克服するために,我々は,機械的なapiマッチングではなく,リソース管理知識とコードコンテキスト理解に基づいて,コード内のリソース指向の意図(獲得,リリース,到達可能性検証)を直接推論するために,大規模言語モデル(llm)を活用する新しいアプローチであるinferroiを提案する。
InferROI は LLM に与えられたコードスニペットから関連する意図を推論するように指示するプロンプトを使用し、それを形式表現に変換する。
これらの推論された意図を集約することにより、InferROIは軽量な静的解析に基づくアルゴリズムを使用して、コードから抽出された制御-フローパスを分析し、リソースリークを検出する。
InferROIをJavaプログラム上で評価し、リソース指向の意図推論とリソースリーク検出の両面での有効性を検討する。
実験の結果、InferROIは74.6%の精度で、DroidLeaksデータセットから172のコードスニペットを意図的に推論して81.8%のリコールを達成した。
さらに、InferROIは、データセットにリストされているAndroidリソースのかなりの部分をカバーしている。
DroidLeaksデータセットの86のバグに適用すると、InferROIは8つのベースライン検出器と比較して高いバグ検出率(53.5%)と低い偽アラーム率(8.1%)を示す。
さらに,実世界のオープンソースプロジェクトからの100メソッドのリソースリーク検出にinferroiを適用し,未知の12のリソースリークバグを特定し,そのうち7つを開発者が確認した。 Resource leaks, caused by resources not being released after acquisition, often lead to performance issues and system crashes. Existing static detection techniques rely on mechanical matching of predefined resource acquisition/release APIs, posing challenges to their effectiveness, including completeness of predefined APIs, identification of reachability validation, and analysis complexity. To overcome these challenges, we propose InferROI, a novel approach that leverages large language models (LLMs) to directly infer resource-oriented intentions (acquisition, release, and reachability validation) in code, based on resource management knowledge and code context understanding, rather than mechanical API matching. InferROI uses a prompt to instruct the LLM in inferring involved intentions from a given code snippet, which are then translated into formal expressions. By aggregating these inferred intentions, InferROI utilizes a lightweight static-analysis based algorithm to analyze control-flow paths extracted from the code, thereby detecting resource leaks. We evaluate InferROI on Java program and investigate its effectiveness in both resource-oriented intention inference and resource leak detection. Experimental results demonstrate that InferROI achieves a precision of 74.6% and a recall of 81.8% in intention inference on 172 code snippets from the DroidLeaks dataset. Additionally, InferROI covers a significant portion of concerned Android resources listed in the dataset. When applied to 86 bugs from the DroidLeaks dataset, InferROI exhibits a high bug detection rate (53.5%) and a low false alarm rate (8.1%) compared to eight baseline detectors. Moreover, we apply InferROI to resource leak detection in 100 methods from real-world open-source projects, where it identifies 12 unknown resource leak bugs, with 7 of them being confirmed by developers. | 翻訳日:2023-11-09 17:19:29 公開日:2023-11-08 |
# 計測用二発振器エンジンにおける非ホオケアンカップリングの利点 Advantages of non-Hookean coupling in a measurement-fueled two-oscillator engine ( http://arxiv.org/abs/2311.04446v1 ) ライセンス: Link先を確認 | Aleksandr Rodin | (参考訳) 非フック結合を持つ2つの発振器からなる量子エンジンを提案する。
より一般的な量子熱エンジンとは異なり、ここで導入されたセットアップは、演算のエネルギーが測定から生じるため、熱浴を必要としない。
エンジンは結合 $\rightarrow$ Measurement $\rightarrow$ decoupling $\rightarrow$ extract cycleに従っている。
ガウス項を原型的非ハーモニック相互作用として用いると、燃料化過程が脱カップリングステップを促進することが示されている。
数値シミュレーションは、測定駆動の燃料化とデカップリングエネルギーの低減を実証するために用いられる。 A quantum engine composed of two oscillators with a non-Hookean coupling is proposed. Unlike the more common quantum heat engines, the setup introduced here does not require heat baths as the energy for the operation originates from measurements. The engine follows the coupling $\rightarrow$ measurement $\rightarrow$ decoupling $\rightarrow$ extraction cycle. Using a Gaussian term as a prototypical non-harmonic interaction, it is shown that the fueling process facilitates the decoupling step. Numerical simulations are used to demonstrate the measurement-driven fueling, as well as the reduced decoupling energy. | 翻訳日:2023-11-09 17:18:54 公開日:2023-11-08 |
# クーロン封鎖状態におけるT字形二重量子ドットのファノアンドレフ効果 Fano Andreev effect in a T shaped Double Quantum Dot in the Coulomb blockade regime ( http://arxiv.org/abs/2311.04445v1 ) ライセンス: Link先を確認 | A. Gonz\'alez I., A. M. Calle, M. Pacheco, E. C. Siqueira, Pedro A. Orellana | (参考訳) 2つの量子ドットと2つの通常の導線と超伝導体からなる系における超伝導量子相関の効果について検討した。
非平衡グリーン関数法を用いて、通常の鉛間の電子の透過、状態密度、および差分伝導を解析した。
超伝導相関はファノ・アンドレーエフ干渉を生じさせ,これら2種類の反共振線形状を特徴とすることがわかった。
この挙動は平衡状態と非平衡状態の両方で観察され、ハバード-i近似を用いてクーロン相関を考慮した場合でも持続した。
なお、これらの状況に対するこの行動の堅牢性は文献ではこれまで研究されていない。 We studied the effects of superconducting quantum correlations in a system consisting of two quantum dots, two normal leads, and a superconductor. Using the non-equilibrium Green's functions method, we analyzed the transmission, density of states, and differential conductance of electrons between the normal leads. We found that the superconducting correlations resulted in Fano-Andreev interference, which is characterized by two anti-resonance line shapes in all of these quantities. This behavior was observed in both equilibrium and non-equilibrium regimes and persisted even when Coulomb correlations were taken into account using the Hubbard-I approximation. It is worth noting that the robustness of this behavior against these conditions has not been studied previously in the literature. | 翻訳日:2023-11-09 17:18:45 公開日:2023-11-08 |
# ss-mae:マルチソースリモートセンシング画像分類のための空間スペクトルマスク自動エンコーダ SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote Sensing Image Classification ( http://arxiv.org/abs/2311.04442v1 ) ライセンス: Link先を確認 | Junyan Lin, Feng Gao, Xiaocheng Shi, Junyu Dong, Qian Du | (参考訳) Masked Image Modeling (MIM) は画像理解のための自己教師型学習手法である。
既存のMIMベースの手法は主に空間的特徴モデリングに焦点をあて、スペクトル的特徴モデリングを無視する。
一方、既存のMIMベースの手法では、特徴抽出にTransformerを使用しており、一部のローカルまたは高周波情報は失われる可能性がある。
そこで本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付き自動エンコーダ(SS-MAE)を提案する。
具体的には、SS-MAEは空間的分枝とスペクトル的分枝から構成される。
空間ワイド分岐はランダムなパッチをマスクし、欠落したピクセルを再構成し、スペクトルワイド分岐はランダムなスペクトルチャネルをマスクし、欠落したチャネルを再構成する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
さらに,学習段階における局所的な特徴を補完するために,特徴抽出のための2つの軽量CNNを追加する。
グローバル機能とローカル機能の両方が機能モデリングを考慮している。
提案するSS-MAEの有効性を示すため,3つの公開データセットに対して広範な実験を行った。
3つのマルチソースデータセットに対する大規模な実験は、SS-MAEの優位性をいくつかの最先端ベースラインと比較して検証する。
ソースコードは \url{https://github.com/summitgao/ss-mae} で入手できる。 Masked image modeling (MIM) is a highly popular and effective self-supervised learning method for image understanding. Existing MIM-based methods mostly focus on spatial feature modeling, neglecting spectral feature modeling. Meanwhile, existing MIM-based methods use Transformer for feature extraction, some local or high-frequency information may get lost. To this end, we propose a spatial-spectral masked auto-encoder (SS-MAE) for HSI and LiDAR/SAR data joint classification. Specifically, SS-MAE consists of a spatial-wise branch and a spectral-wise branch. The spatial-wise branch masks random patches and reconstructs missing pixels, while the spectral-wise branch masks random spectral channels and reconstructs missing channels. Our SS-MAE fully exploits the spatial and spectral representations of the input data. Furthermore, to complement local features in the training stage, we add two lightweight CNNs for feature extraction. Both global and local features are taken into account for feature modeling. To demonstrate the effectiveness of the proposed SS-MAE, we conduct extensive experiments on three publicly available datasets. Extensive experiments on three multi-source datasets verify the superiority of our SS-MAE compared with several state-of-the-art baselines. The source codes are available at \url{https://github.com/summitgao/SS-MAE}. | 翻訳日:2023-11-09 17:18:33 公開日:2023-11-08 |
# MixTEA: 混合指導による半教師付きエンティティアライメント MixTEA: Semi-supervised Entity Alignment with Mixture Teaching ( http://arxiv.org/abs/2311.04441v1 ) ライセンス: Link先を確認 | Feng Xie, Xin Song, Xiang Zeng, Xuechen Zhao, Lei Tian, Bin Zhou, Yusong Tan | (参考訳) 半教師付きエンティティアライメント(EA)は、トレーニングデータとして適切なラベル付きマッピングが欠如しているため、実践的で困難な作業である。
ほとんどの研究は、ラベルのないエンティティの擬似マッピングを生成することでこの問題に対処する。
しかし、それらは誤った(ノイズの多い)擬似写像に悩まされるか、擬似写像の不確かさをほとんど無視する。
本論文では,手作業によるラベル付きマッピングと確率論的擬似マッピングによるエンドツーエンドの混合学習でモデル学習を指導する,MixTEAと呼ばれる新しい半教師付きEA手法を提案する。
まず、ラベル付きマッピングを標準とした学生モデルをトレーニングする。
さらに, 擬似写像学習においては, 一致信頼度スコアによる不確実性を推定するために, 異なる方向のアライメント決定を融合させる双方向投票方式を提案する。
また,疑似マッピング学習を調整できるように,mdrモジュールの設計を行い,ノイズマッピングの悪影響を低減した。
ベンチマークデータセットの広範な結果とさらなる分析により,提案手法の有効性と効果が示された。 Semi-supervised entity alignment (EA) is a practical and challenging task because of the lack of adequate labeled mappings as training data. Most works address this problem by generating pseudo mappings for unlabeled entities. However, they either suffer from the erroneous (noisy) pseudo mappings or largely ignore the uncertainty of pseudo mappings. In this paper, we propose a novel semi-supervised EA method, termed as MixTEA, which guides the model learning with an end-to-end mixture teaching of manually labeled mappings and probabilistic pseudo mappings. We firstly train a student model using few labeled mappings as standard. More importantly, in pseudo mapping learning, we propose a bi-directional voting (BDV) strategy that fuses the alignment decisions in different directions to estimate the uncertainty via the joint matching confidence score. Meanwhile, we also design a matching diversity-based rectification (MDR) module to adjust the pseudo mapping learning, thus reducing the negative influence of noisy mappings. Extensive results on benchmark datasets as well as further analyses demonstrate the superiority and the effectiveness of our proposed method. | 翻訳日:2023-11-09 17:18:14 公開日:2023-11-08 |
# モジュール化と構成による畳み込みニューラルネットワークモデルの再利用 Reusing Convolutional Neural Network Models through Modularization and Composition ( http://arxiv.org/abs/2311.04438v1 ) ライセンス: Link先を確認 | Binhang Qi, Hailong Sun, Hongyu Zhang, Xiang Gao | (参考訳) ディープラーニング技術の成功により、多くのトレーニング済みディープニューラルネットワーク(DNN)モデルが公開されている。
しかし、新しいタスクのためにパブリックなDNNモデルを直接再利用することは、しばしば機能やパフォーマンスのミスマッチによって失敗する。
ソフトウェア再利用におけるモジュール化と構成の概念に着想を得て,よりきめ細かい方法でDNNモデルの再利用性を向上させる可能性を検討する。
具体的には、CNNSplitterとGradSplitterという2つのモジュール化アプローチを提案する。これは、訓練された畳み込みニューラルネットワーク(CNN)モデルを、$N$クラスを小さな再利用可能なモジュールに分類するために分解することができる。
各モジュールは$N$クラスの1つを認識し、トレーニングされたCNNモデルの畳み込みカーネルの一部を含んでいる。
そして、生成されたモジュールを再利用して既存のCNNモデルをパッチしたり、コンポジションを通じて新しいCNNモデルを構築できる。
cnnsplitterとgradsplitterの主な違いは、検索方法にある。
広く利用されている3つの公開データセットに対する3つの代表的CNNによる実験により,提案手法の有効性が示された。
cnnsplitterと比較すると、gradsplitterは精度の低下が少なく、より小さなモジュール(19.88%のカーネル)を生成し、弱いモデルのパッチでより良い結果を得る。
特に、gradsplitterの実験では、(1)弱いモデルにパッチを当てることで、精度、リコール、およびf1-scoreの平均的な改善がそれぞれ17.13%、4.95%、11.47%となり、(2)新しいタスクでは、スクラッチから訓練されたモデルと比較して、モジュールの再利用は、コストのかかるトレーニングプロセスなしで同様の精度(平均的な精度の損失は2.46%)が得られる。
我々のアプローチは、CNNモデルの迅速な開発と改善に有効なソリューションを提供する。 With the widespread success of deep learning technologies, many trained deep neural network (DNN) models are now publicly available. However, directly reusing the public DNN models for new tasks often fails due to mismatching functionality or performance. Inspired by the notion of modularization and composition in software reuse, we investigate the possibility of improving the reusability of DNN models in a more fine-grained manner. Specifically, we propose two modularization approaches named CNNSplitter and GradSplitter, which can decompose a trained convolutional neural network (CNN) model for $N$-class classification into $N$ small reusable modules. Each module recognizes one of the $N$ classes and contains a part of the convolution kernels of the trained CNN model. Then, the resulting modules can be reused to patch existing CNN models or build new CNN models through composition. The main difference between CNNSplitter and GradSplitter lies in their search methods: the former relies on a genetic algorithm to explore search space, while the latter utilizes a gradient-based search method. Our experiments with three representative CNNs on three widely-used public datasets demonstrate the effectiveness of the proposed approaches. Compared with CNNSplitter, GradSplitter incurs less accuracy loss, produces much smaller modules (19.88% fewer kernels), and achieves better results on patching weak models. In particular, experiments on GradSplitter show that (1) by patching weak models, the average improvement in terms of precision, recall, and F1-score is 17.13%, 4.95%, and 11.47%, respectively, and (2) for a new task, compared with the models trained from scratch, reusing modules achieves similar accuracy (the average loss of accuracy is only 2.46%) without a costly training process. Our approaches provide a viable solution to the rapid development and improvement of CNN models. | 翻訳日:2023-11-09 17:17:56 公開日:2023-11-08 |
# 電子対ヘリウムイメージチャージリードアウトのための低温共振増幅器 Cryogenic resonant amplifier for electron-on-helium image charge readout ( http://arxiv.org/abs/2311.04437v1 ) ライセンス: Link先を確認 | Mikhail Belianchikov, Jakob A. Kraus, and Denis Konstantinov | (参考訳) electron-on-helium qubitは量子情報技術にとって有望な物理プラットフォームである。
量子ビット実現のための「ブループリント」の中で、rydberg-spin qubitのハイブリッドは電子スピンを用いた量子コンピューティングに有望であると思われる。
このような量子ビットへの道における主な技術的課題は、単一電子のライドバーグ遷移によって引き起こされるfa範囲の画像電流の検出である。
この問題に対処するために,高いインピーダンスと低消費電力極低温増幅器を併用したLC回路を用いた。
本稿では,FHX13LG HEMTに基づく自家製極低温増幅器を用いた共鳴画像電流検出器の実現に向けた進展を報告する。
本報告では, 室温, 低温におけるトランジスタの詳細な特性と, 増幅器の設計と性能について述べる。
増幅器の出力散逸レベルは100〜${\mu}$w以下であり、測定電圧と電流ノイズレベルはそれぞれ0.6〜nv/$\sqrt{hz}$、1.5〜fa/$\sqrt{hz}$以下である。
液体ヘリウム上の多電子系におけるリドバーグ遷移の実際の画像電流測定に基づいて、単電子遷移検出のための測定帯域幅1hzのsnr=8を推定し、増幅器のノイズのみにより出力のノイズレベルが決定されるようにした。 An electron-on-helium qubit is a promising physical platform for quantum information technologies. Among all the "blueprints" for the qubit realization, a hybrid Rydberg-spin qubit seems to be a promising one towards quantum computing using electron spins. The main technological challenge on the way to such qubits is a detection of fA range image current induced by Rydberg transition of a single electron. To address this problem we aim to use a tank LC-circuit in conjunction with a high impedance and low power dissipation cryogenic amplifier. Here, we report our progress towards realization of a resonant image current detector with a home-made cryogenic amplifier based on FHX13LG HEMT. We present a detailed characterization of the transistor at room and cryogenic temperatures, as well as details of the amplifier design and performance. At the power dissipation level of amplifier well below 100~${\mu}$W the measured voltage and current noise level is 0.6~nV/$\sqrt{Hz}$ and below 1.5~fA/$\sqrt{Hz}$, respectively. Based on the actual image current measurements of the Rydberg transition in a many-electron system on liquid helium, we estimate SNR=8 with the measurement bandwidth 1 Hz for the detection of a single-electron transition, providing the noise level at the output is solely determined by the noise of the amplifier. | 翻訳日:2023-11-09 17:17:18 公開日:2023-11-08 |
# 連続空間における大規模点サンプルの階層的空間変換器 A Hierarchical Spatial Transformer for Massive Point Samples in Continuous Space ( http://arxiv.org/abs/2311.04434v1 ) ライセンス: Link先を確認 | Wenchong He, Zhe Jiang, Tingsong Xiao, Zelin Xu, Shigang Chen, Ronald Fick, Miles Medina, Christine Angelini | (参考訳) トランスフォーマーはディープラーニングアーキテクチャとして広く使われている。
既存のトランスフォーマーは、主にシーケンス(テキストや時系列)、画像やビデオ、グラフ用に設計されている。
本稿では,連続空間における大規模(最大100万点)点試料の変圧器モデルを提案する。
このようなデータは、環境科学(例えば、センサ観測)、数値シミュレーション(例えば、粒子層流、天体物理学)、位置ベースのサービス(例えば、POIや軌道学)においてユビキタスである。
しかし、連続空間における不規則点への暗黙の長距離およびマルチスケールの依存、一様でない点分布、多点にわたる全対の注意を計算するための潜在的に高い計算コスト、および様々な点密度による過密な予測のリスクなど、大規模な空間点に対する変換器の設計は、いくつかの課題により非自明である。
これらの課題に対処するために,四分木階層内のマルチレゾリューション表現学習と粗い近似による効率的な空間的注意を含む新しい階層的空間トランスフォーマモデルを提案する。
また、入力特徴雑音と点間隔に関する予測信頼度を推定する不確実量化分岐を設計する。
計算時間の複雑さとメモリコストを理論的に解析する。
実世界のデータセットと合成データセットの両方に対する大規模な実験により、我々の手法は予測精度において複数のベースラインを上回り、我々のモデルは1つのNVIDIA A100 GPU上で100万ポイントまでスケール可能であることが示された。
コードは \url{https://github.com/spatialdatasciencegroup/hst} で入手できる。 Transformers are widely used deep learning architectures. Existing transformers are mostly designed for sequences (texts or time series), images or videos, and graphs. This paper proposes a novel transformer model for massive (up to a million) point samples in continuous space. Such data are ubiquitous in environment sciences (e.g., sensor observations), numerical simulations (e.g., particle-laden flow, astrophysics), and location-based services (e.g., POIs and trajectories). However, designing a transformer for massive spatial points is non-trivial due to several challenges, including implicit long-range and multi-scale dependency on irregular points in continuous space, a non-uniform point distribution, the potential high computational costs of calculating all-pair attention across massive points, and the risks of over-confident predictions due to varying point density. To address these challenges, we propose a new hierarchical spatial transformer model, which includes multi-resolution representation learning within a quad-tree hierarchy and efficient spatial attention via coarse approximation. We also design an uncertainty quantification branch to estimate prediction confidence related to input feature noise and point sparsity. We provide a theoretical analysis of computational time complexity and memory costs. Extensive experiments on both real-world and synthetic datasets show that our method outperforms multiple baselines in prediction accuracy and our model can scale up to one million points on one NVIDIA A100 GPU. The code is available at \url{https://github.com/spatialdatasciencegroup/HST}. | 翻訳日:2023-11-09 17:16:57 公開日:2023-11-08 |
# ぼやけたビデオ圧縮:ビジュアルエンハンスメントとデータ圧縮のトレードオフ Blurry Video Compression: A Trade-off between Visual Enhancement and Data Compression ( http://arxiv.org/abs/2311.04430v1 ) ライセンス: Link先を確認 | Dawit Mureja Argaw, Junsik Kim, In So Kweon | (参考訳) 既存のビデオ圧縮法(VC)は,映像の画質を保ちながら連続するフレーム間の空間的・時間的冗長性を低減することを目的としている。
この点に関して、以前の作品では、インスタント(既知の)露光時間やシャッタースピードといった特定の設定で取得したビデオで目覚ましい結果が得られている。
しかし、これらの手法が異なる時間差で撮影されたビデオで評価されると、動きのぼやけやフレームレートの低下といった劣化が生じ、コンテンツの品質を維持できない。
本研究では,シーン内のカメラ設定やダイナミックスによって,所定の映像がぼやけてしまうという一般的なシナリオにおいて,VCの問題に取り組む。
ビジュアルエンハンスメントとデータ圧縮の自然なトレードオフを利用して、最小限の最適化問題としてVCを定式化し、この問題に対処するための効果的なフレームワークとトレーニング戦略を提案する。
いくつかのベンチマークデータセットにおける広範囲な実験結果から,本手法の有効性を確認した。 Existing video compression (VC) methods primarily aim to reduce the spatial and temporal redundancies between consecutive frames in a video while preserving its quality. In this regard, previous works have achieved remarkable results on videos acquired under specific settings such as instant (known) exposure time and shutter speed which often result in sharp videos. However, when these methods are evaluated on videos captured under different temporal priors, which lead to degradations like motion blur and low frame rate, they fail to maintain the quality of the contents. In this work, we tackle the VC problem in a general scenario where a given video can be blurry due to predefined camera settings or dynamics in the scene. By exploiting the natural trade-off between visual enhancement and data compression, we formulate VC as a min-max optimization problem and propose an effective framework and training strategy to tackle the problem. Extensive experimental results on several benchmark datasets confirm the effectiveness of our method compared to several state-of-the-art VC approaches. | 翻訳日:2023-11-09 17:16:29 公開日:2023-11-08 |
# 確率量子進化のための安定化制御のロバスト性を探る Exploring the Robustness of stabilizing controls for stochastic quantum evolutions ( http://arxiv.org/abs/2311.04428v1 ) ライセンス: Link先を確認 | Weichao Liang, Kentaro Ohki, Francesco Ticozzi | (参考訳) 本研究では,量子確率進化における純粋状態や部分空間の安定化に対するモデル誤差の影響を解析・制限する。
オープンループとフィードバック制御プロトコルでは,さまざまなアプローチが使用されている。
どちらも、標的の動的不変性の鍵となる役割を強調し、摂動が不変性を保存するならば、追加の仮定の下で誘引性も保たれることを証明できる。
さらに,オープンループプロトコルの下で摂動系の解を用いて有界性を証明する。
フィードバック戦略については、不変性を仮定しない一般的な場合において、期待や確率における摂動効果の限界と、非退化名目システムの特定の境界を与える。 In this work we analyze and bound the effect of modeling errors on the stabilization of pure states or subspaces for quantum stochastic evolutions. Different approaches are used for open-loop and feedback control protocols. For both, we highlight the key role of dynamical invariance of the target: if the perturbation preserves invariance, it is possible to prove that it also preserves its attractivity, under some additional assumptions. In addition, we prove boundedness in mean of the solutions of perturbed systems under open-loop protocols. For the feedback strategies, in the general case without assumptions on invariance, we provide bounds on the perturbation effect in expectation and in probability, as well as specific bounds for non-demolition nominal systems. | 翻訳日:2023-11-09 17:16:12 公開日:2023-11-08 |
# 固有因子分解と一般化一重項の共分散に基づく方法 Covariance-based method for eigenstate factorization and generalized singlets ( http://arxiv.org/abs/2311.04426v1 ) ライセンス: Link先を確認 | Federico Petrovich, R. Rossignoli, N. Canosa | (参考訳) 我々は、ハミルトニアンを構成する関連する局所作用素の量子共分散行列に基づいて、多体ハミルトニアン$h$の固有状態の正確な因数分解の必要十分条件を決定づける一般的な方法を求める。
site" $p$ は単一のコンポーネントかサブシステムのグループのいずれかである。
形式論はスピン系における正確な二量化とクラスター化条件を導出するために使われ、スピン-$s$一量体とクラスターから、全スピンを0ドルに結合して一般の非最大エンタングルスピン-s$二量体(一般単数体)に結合する。
磁場下での異方性$xyz$配列における磁場誘起二量化の新しい結果を得た。 We derive a general method for determining the necessary and sufficient conditions for exact factorization $|\Psi\rangle=\otimes_p |\psi_p\rangle$ of an eigenstate of a many-body Hamiltonian $H$, based on the quantum covariance matrix of the relevant local operators building the Hamiltonian. The "site" $p$ can be either a single component or a group of subsystems. The formalism is then used to derive exact dimerization and clusterization conditions in spin systems, covering from spin-$s$ singlets and clusters coupled to $0$ total spin to general nonmaximally entangled spin-$s$ dimers (generalized singlets). New results for field induced dimerization in anisotropic $XYZ$ arrays under a magnetic field are obtained. | 翻訳日:2023-11-09 17:16:00 公開日:2023-11-08 |
# より良い構成一般化のためのデータ因子 Data Factors for Better Compositional Generalization ( http://arxiv.org/abs/2311.04420v1 ) ライセンス: Link先を確認 | Xiang Zhou, Yichen Jiang, Mohit Bansal | (参考訳) 最近、SCAN (Lake and Baroni, 2018) やCOGS (Kim and Linzen, 2020) のような構成一般化に関する診断データセットは、これらのデータセットをスクラッチからトレーニングしたモデルの深刻な問題を露呈している。
しかし、この貧弱なパフォーマンスとは対照的に、より大規模で一般的なデータセットでトレーニングされた最先端のモデルは、より良い一般化能力を示している。
本研究では,この不整合を解消するために,データセットスケール,パターン複雑性,サンプル難易度など,さまざまなデータファクタを持つトレーニングセット上でトランスフォーマモデルをトレーニングすることにより,経験的分析を行う。
まず、データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
この改善をさらに理解するために、より複雑なデータセットの利点の2つの軸を示す: それらはより多様な例を提供し、構成的理解をより効果的にする。
最後に、異なる難易度のトレーニング例が一般化にどう影響するかを考察する。
合成データセットでは、単純な例は硬い例よりも強い構成性を呼び起こす。
大規模な実言語データセットでは、適切なデータカバレッジを確保する上で、難しい例がより重要になる一方で、シンプルでハードな例のバランスのとれた混合によって、最強の一般化可能性が引き起こされる。
この作業のコードとデータはhttps://github.com/owenzx/data4compで入手できる。 Recent diagnostic datasets on compositional generalization, such as SCAN (Lake and Baroni, 2018) and COGS (Kim and Linzen, 2020), expose severe problems in models trained from scratch on these datasets. However, in contrast to this poor performance, state-of-the-art models trained on larger and more general datasets show better generalization ability. In this work, to reconcile this inconsistency, we conduct an empirical analysis by training Transformer models on a variety of training sets with different data factors, including dataset scale, pattern complexity, example difficulty, etc. First, we show that increased dataset complexity can lead to better generalization behavior on multiple different generalization challenges. To further understand this improvement, we show two axes of the benefit from more complex datasets: they provide more diverse examples so compositional understanding becomes more effective, and they also prevent ungeneralizable memorization of the examples due to reduced example repetition frequency. Finally, we explore how training examples of different difficulty levels influence generalization differently. On synthetic datasets, simple examples invoke stronger compositionality than hard examples do. On larger-scale real language datasets, while hard examples become more important potentially to ensure decent data coverage, a balanced mixture of simple and hard examples manages to induce the strongest generalizability. The code and data for this work are available at https://github.com/owenzx/data4comp | 翻訳日:2023-11-09 17:15:43 公開日:2023-11-08 |
# PepLand:カノニカルおよび非カノニカルアミノ酸の包括的景観のための大規模事前学習ペプチド表現モデル PepLand: a large-scale pre-trained peptide representation model for a comprehensive landscape of both canonical and non-canonical amino acids ( http://arxiv.org/abs/2311.04419v1 ) ライセンス: Link先を確認 | Ruochi Zhang (1,2,3), Haoran Wu (3), Yuting Xiu (3), Kewei Li (1,4), Ningning Chen (3), Yu Wang (3), Yan Wang (1,2,4), Xin Gao (5,6,7), Fengfeng Zhou (1,4,7) ((1) Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, Changchun, China. (2) School of Artificial Intelligence, Jilin University, Changchun, China. (3) Syneron Technology, Guangzhou, China. (4) College of Computer Science and Technology, Jilin University, Changchun, China. (5) Computational Bioscience Research Center, King Abdullah University of Science and Technology (KAUST), Thuwal, Saudi Arabia. (6) Computer Science Program, Computer, Electrical and Mathematical Sciences and Engineering Division, King Abdullah University of Science and Technology (KAUST), Thuwal, Saudi Arabia. (7) Corresponding Authors) | (参考訳) 近年,非カノニカルアミノ酸によるペプチドの安定性やタンパク質分解に対する耐性により,科学界の関心が高まっている。
これらのペプチドは内因性ペプチドと工学的ペプチドの両方において生物学的、薬理学的、物理化学的特性に有望な修飾を示す。
かなりの利点があるにも拘わらず、科学界はこのような複雑なペプチド配列からの特徴表現を蒸留する効果的な事前訓練されたモデルが目立たないことを示している。
本稿では、カノニカルアミノ酸と非カノニカルアミノ酸の両方にまたがるペプチドの表現と性質解析のための新しい事前学習アーキテクチャであるPepLandを提案する。
本質的にPepLandは、ペプチドの微妙な構造表現を明らかにするために、包括的な多視点不均一グラフニューラルネットワークを活用している。
実証的な検証は、タンパク質とタンパク質の相互作用、透過性、溶解性、合成性を含む一連のペプチド特性予測におけるPepLandの有効性を裏付ける。
厳密な評価は、サルエント合成ペプチドの特徴を取り込み、ペプチド中心の研究領域における変換的進歩の強固な基盤となるペプランドの非並列的な能力を確認する。
この研究で使われているすべてのソースコードは、githubのhttps://github.com/zhangruochi/pepland.com/で公開されている。 In recent years, the scientific community has become increasingly interested on peptides with non-canonical amino acids due to their superior stability and resistance to proteolytic degradation. These peptides present promising modifications to biological, pharmacological, and physiochemical attributes in both endogenous and engineered peptides. Notwithstanding their considerable advantages, the scientific community exhibits a conspicuous absence of an effective pre-trained model adept at distilling feature representations from such complex peptide sequences. We herein propose PepLand, a novel pre-training architecture for representation and property analysis of peptides spanning both canonical and non-canonical amino acids. In essence, PepLand leverages a comprehensive multi-view heterogeneous graph neural network tailored to unveil the subtle structural representations of peptides. Empirical validations underscore PepLand's effectiveness across an array of peptide property predictions, encompassing protein-protein interactions, permeability, solubility, and synthesizability. The rigorous evaluation confirms PepLand's unparalleled capability in capturing salient synthetic peptide features, thereby laying a robust foundation for transformative advances in peptide-centric research domains. We have made all the source code utilized in this study publicly accessible via GitHub at https://github.com/zhangruochi/pepland | 翻訳日:2023-11-09 17:15:18 公開日:2023-11-08 |
# AIによるAltermagnetic Materialsの発見 AI-accelerated Discovery of Altermagnetic Materials ( http://arxiv.org/abs/2311.04418v1 ) ライセンス: Link先を確認 | Ze-Feng Gao, Shuai Qu, Bocheng Zeng, Ji-Rong Wen, Hao Sun, Pengjie Guo and Zhong-Yi Lu | (参考訳) 新たな磁気相であるオルテルマグネティズムは、強磁性と反強磁性とを区別して理論的に提案され、実験的に検証されている。
強磁性体は多くの異種な物理的性質を持つことが知られているが、既知の強磁性体(例えば14の確認材料)の可用性は非常に限られているため、そのような性質の研究を妨げている。
したがって、強磁性材料の発見は、強磁性の包括的理解に不可欠であり、次世代情報技術、例えば記憶装置や高感度センサにおける新しい応用を促進する。
本稿では, 対称性解析, グラフニューラルネットワーク事前学習, 最適輸送理論, 第一原理電子構造計算を統一したai検索エンジンを用いて, 金属, 半導体, 絶縁体を覆う25種類の新しい強磁性材料について報告する。
広い範囲の電子構造特性は、新たに発見された強磁性材料、例えば異常ホール効果、異常カー効果、トポロジカル特性に様々な革新的な物性が現れることを示している。
特筆すべきは、初めて8$iの反磁性材料を発見したことです。
全体として、AI検索エンジンは人間の専門家よりもはるかに優れたパフォーマンスを示し、独特な性質を持つ新しい反磁性物質のセットを提案する。 Altermagnetism, a new magnetic phase, has been theoretically proposed and experimentally verified to be distinct from ferromagnetism and antiferromagnetism. Although altermagnets have been found to possess many exotic physical properties, the very limited availability of known altermagnetic materials~(e.g., 14 confirmed materials) hinders the study of such properties. Hence, discovering more types of altermagnetic materials is crucial for a comprehensive understanding of altermagnetism and thus facilitating new applications in the next generation information technologies, e.g., storage devices and high-sensitivity sensors. Here, we report 25 new altermagnetic materials that cover metals, semiconductors, and insulators, discovered by an AI search engine unifying symmetry analysis, graph neural network pre-training, optimal transport theory, and first-principles electronic structure calculation. The wide range of electronic structural characteristics reveals that various innovative physical properties manifest in these newly discovered altermagnetic materials, e.g., anomalous Hall effect, anomalous Kerr effect, and topological property. Noteworthy, we discovered 8 $i$-wave altermagnetic materials for the first time. Overall, the AI search engine performs much better than human experts and suggests a set of new altermagnetic materials with unique properties, outlining its potential for accelerated discovery of altermagnetic materials. | 翻訳日:2023-11-09 17:14:58 公開日:2023-11-08 |
# 地球観測のための説明可能なAI:現在の方法、オープンチャレンジ、機会 Explainable AI for Earth Observation: Current Methods, Open Challenges, and Opportunities ( http://arxiv.org/abs/2311.04491v1 ) ライセンス: Link先を確認 | Gulsen Taskin, Erchan Aptoula, Alp Ert\"urk | (参考訳) 深層学習は、地球観測のためのリモートセンシングを含む、データ分析に関わるすべての分野を嵐によって取り除かれた。
しかし、性能面での大幅な進歩にもかかわらず、その説明可能性や解釈可能性の欠如は一般にニューラルネットワークに固有のものであり、現在でも主要な批判の源となっている。
したがって、リモートセンシングにおける深層学習の手法が拡張され、説明可能な人工知能の幅広い分野を探索することで、この欠点に対処する努力がますます集中化しつつあることは驚きではない。
本章は,著名な地球観測応用分野に従って整理され,遠隔センシング画像解析における最先端のパノラマを提示する。 Deep learning has taken by storm all fields involved in data analysis, including remote sensing for Earth observation. However, despite significant advances in terms of performance, its lack of explainability and interpretability, inherent to neural networks in general since their inception, remains a major source of criticism. Hence it comes as no surprise that the expansion of deep learning methods in remote sensing is being accompanied by increasingly intensive efforts oriented towards addressing this drawback through the exploration of a wide spectrum of Explainable Artificial Intelligence techniques. This chapter, organized according to prominent Earth observation application fields, presents a panorama of the state-of-the-art in explainable remote sensing image analysis. | 翻訳日:2023-11-09 17:08:23 公開日:2023-11-08 |
# 不定因果順序を用いたマクロリアリズムのレゲット・ガーグ検定 Leggett-Garg test of macrorealism using indefinite causal order of measurements ( http://arxiv.org/abs/2311.04484v1 ) ライセンス: Link先を確認 | A. K. Pan | (参考訳) マクロリアリズム(英: Macrorealism)は、日常の世界における現実に対する認識の核となる信念である。
Leggett-Garg (LG) テストは、マクロリアリズムの概念と量子論の整合性を証明するための概念的にエレガントなアプローチである。
しかし、決定的なlgテストは、手術侵襲性抜け穴の修正方法、すなわち、非侵襲的測定可能性仮定の統計的形式がlgテストにおいてどのように保証されるかにかかっている。
この抜け穴を塞ごうとする試みは数多くあるが、まだ合意が得られていない。
本稿では,量子スイッチ実験における不定因果順序に基づく単純かつエレガントなスキームを提案し,この抜け穴を閉じることを可能にし,最終的にlgテストはマクロリアリズムの確定的なテストとなる。 Macrorealism is a belief that constitutes the core of our perception of reality in the everyday world. The Leggett-Garg (LG) test is a conceptually elegant approach for probing the compatibility between the notion of macrorealism and quantum theory. However, a conclusive LG test hinges on how one fixes the operational invasiveness loophole, i.e., how the statistical form of non-invasive measurability assumption is guaranteed in an LG test. Despite many attempts to close this loophole, no consensus has been achieved yet. In this work, we propose a simple and elegant scheme based on indefinite causal order in quantum switch experiment, which enables us to close this loophole, and eventually, the LG test becomes a conclusive test of macrorealism. | 翻訳日:2023-11-09 17:08:10 公開日:2023-11-08 |
# CLearViD:ビデオ記述のためのカリキュラム学習 CLearViD: Curriculum Learning for Video Description ( http://arxiv.org/abs/2311.04480v1 ) ライセンス: Link先を確認 | Cheng-Yu Chuang, Pooyan Fazli | (参考訳) ビデオ記述は、与えられたビデオの内容をナレーションするコヒーレントな自然言語文を自動的に生成する。
我々は,この課題を達成するためにカリキュラム学習を利用するビデオ記述生成用トランスフォーマモデルclearvidを提案する。
特に,(1)ビデオデータにガウスノイズを徐々に適用することにより,より困難なサンプルにモデルを段階的に露出させ,(2)トレーニングプロセス中にドロップアウトすることでネットワークの容量を徐々に削減する,という2つのカリキュラム戦略について検討した。
これらの手法により、モデルはより堅牢で一般化可能な特徴を学ぶことができる。
さらに、CLearViDは、非線形性と非単調性を提供するMishアクティベーション関数を活用し、勾配の消失問題を緩和する。
広範な実験とアブレーション実験により,提案モデルの有効性が実証された。
ActivityNet CaptionsとYouCook2という2つのデータセットの結果から、CLearViDは精度と多様性の両方の観点から既存の最先端モデルよりも大幅に優れています。 Video description entails automatically generating coherent natural language sentences that narrate the content of a given video. We introduce CLearViD, a transformer-based model for video description generation that leverages curriculum learning to accomplish this task. In particular, we investigate two curriculum strategies: (1) progressively exposing the model to more challenging samples by gradually applying a Gaussian noise to the video data, and (2) gradually reducing the capacity of the network through dropout during the training process. These methods enable the model to learn more robust and generalizable features. Moreover, CLearViD leverages the Mish activation function, which provides non-linearity and non-monotonicity and helps alleviate the issue of vanishing gradients. Our extensive experiments and ablation studies demonstrate the effectiveness of the proposed model. The results on two datasets, namely ActivityNet Captions and YouCook2, show that CLearViD significantly outperforms existing state-of-the-art models in terms of both accuracy and diversity metrics. | 翻訳日:2023-11-09 17:07:55 公開日:2023-11-08 |
# twitterによる新型コロナウイルスワクチンの感情分析 Twitter Sentiment Analysis of Covid Vacciness ( http://arxiv.org/abs/2311.04479v1 ) ライセンス: Link先を確認 | Wenbo Zhu and Tiechuan Hu | (参考訳) 本稿では,コビッドワクチンに対するユーザの感情を示す様々なキーワードで分類されたつぶやきのデータベースについて検討する。
ソーシャルメディアが世論の主流になるにつれ、コビッドワクチンに関する意見などの重要な情報を保持するツイートのソートとランク付けが最重要となる。
2つの異なるランキング尺度が使用され、この方法でのツイートのランク付けは、失った意見とサイトに掲載されている意見との違いを示し、それが人々の判断や行動に影響を及ぼし、なぜ研究者が興味を持ったのかを示している。
自然言語処理技術を用いて,コビッドワクチンに関する意見を可能な限り高い精度で決定・分類することを目的とする。 In this paper, we look at a database of tweets sorted by various keywords that could indicate the users sentiment towards covid vaccines. With social media becoming such a prevalent source of opinion, sorting and ranking tweets that hold important information such as opinions on covid vaccines is of utmost importance. Two different ranking scales were used, and ranking a tweet in this way could represent the difference between an opinion being lost and an opinion being featured on the site, which affects the decisions and behavior of people, and why researchers were interested in it. Using natural language processing techniques, our aim is to determine and categorize opinions about covid vaccines with the highest accuracy possible. | 翻訳日:2023-11-09 17:07:40 公開日:2023-11-08 |
# 規則推論のための創発的コミュニケーション Emergent Communication for Rules Reasoning ( http://arxiv.org/abs/2311.04474v1 ) ライセンス: Link先を確認 | Yuxuan Guo, Yifan Hao, Rui Zhang, Enshuai Zhou, Zidong Du, Xishan Zhang, Xinkai Song, Yuanbo Wen, Yongwei Zhao, Xuehai Zhou, Jiaming Guo, Qi Yi, Shaohui Peng, Di Huang, Ruizhi Chen, Qi Guo, Yunji Chen | (参考訳) 深層学習に基づくエージェント間の創発的コミュニケーションに関する研究は、言語学や人工知能へのインスピレーションにより、広く注目を集めている。
しかし、それまでの試みは、知覚指向の環境設定の下で、新しいコミュニケーションの周囲をホバリングしており、エージェントはイメージやシンボルのコンテキスト内の低レベルの知覚の特徴を記述せざるを得なかった。
本研究では,従来の人間推論テスト(ravenのプログレッシブマトリックス)に触発されて,エージェントが低レベルな文脈を知覚するのではなく,高いレベルのルールを推論・伝達することを奨励する認知型環境である推論ゲームを提案する。
さらに 提案します
1)過剰適合を避けるためのベンチマークとして、偏りのないデータセット(いわゆるルールレイブン)
2)コンテクストとセマンティクスが両立する推論ゲームにおけるより安定した収束のためのベースラインとしての2段階のカリキュラムエージェント訓練方法。
実験結果から,Reasoning Gameでは,意味論的に安定かつ構成的な言語が出現し,推論問題を解くことが示唆された。
出現した言語は、エージェントが抽出したルールを、目に見えないコンテキスト属性の一般化や、異なるコンテキスト属性やタスク間の転送に役立てる。 Research on emergent communication between deep-learning-based agents has received extensive attention due to its inspiration for linguistics and artificial intelligence. However, previous attempts have hovered around emerging communication under perception-oriented environmental settings, that forces agents to describe low-level perceptual features intra image or symbol contexts. In this work, inspired by the classic human reasoning test (namely Raven's Progressive Matrix), we propose the Reasoning Game, a cognition-oriented environment that encourages agents to reason and communicate high-level rules, rather than perceived low-level contexts. Moreover, we propose 1) an unbiased dataset (namely rule-RAVEN) as a benchmark to avoid overfitting, 2) and a two-stage curriculum agent training method as a baseline for more stable convergence in the Reasoning Game, where contexts and semantics are bilaterally drifting. Experimental results show that, in the Reasoning Game, a semantically stable and compositional language emerges to solve reasoning problems. The emerged language helps agents apply the extracted rules to the generalization of unseen context attributes, and to the transfer between different context attributes or even tasks. | 翻訳日:2023-11-09 17:07:28 公開日:2023-11-08 |
# 回折波面処理による全光位相共役 All-Optical Phase Conjugation Using Diffractive Wavefront Processing ( http://arxiv.org/abs/2311.04473v1 ) ライセンス: Link先を確認 | Che-Yung Shen, Jingxi Li, Tianyi Gan, Mona Jarrahi, Aydogan Ozcan | (参考訳) 光位相共役(OPC)は波面歪みに対抗する非線形手法であり、イメージングからビーム焦点まで様々な応用がある。
本稿では,位相収差を持つ入力フィールドに対する全光位相共役演算を近似する回折波面プロセッサの設計について述べる。
入力開口部から任意の位相収差コヒーレントフィールドを全てオプティカルに処理し、入力波の共役である位相分布を持つ出力フィールドを生成するように、一連のパッシブ回折層を最適化した。
深層学習によりトレーニングした拡散層を3次元で作製し,そのトレーニング中に観測されなかった位相歪みに対してOPCを実行することにより,この波面プロセッサの有効性を実験的に検証した。
テラヘルツ放射を応用した物理回折プロセッサは、数万の波長にまたがる浅い空間工学ボリュームを通してopcタスクを成功裏に実行した。
この透過型OPC構成に加えて、深層学習最適化拡散層と標準ミラーを組み合わせることで、拡散位相共役ミラーも作成した。
そのコンパクトで受動的でスケーラブルな性質から、我々の回折波面プロセッサは、振動抑制や収差補正など、様々なOPC関連アプリケーションに使用することができ、また、電磁スペクトルの異なる部分、特にコスト効率の良い波面工学ソリューションが存在しない部分にも適応できる。 Optical phase conjugation (OPC) is a nonlinear technique used for counteracting wavefront distortions, with various applications ranging from imaging to beam focusing. Here, we present the design of a diffractive wavefront processor to approximate all-optical phase conjugation operation for input fields with phase aberrations. Leveraging deep learning, a set of passive diffractive layers was optimized to all-optically process an arbitrary phase-aberrated coherent field from an input aperture, producing an output field with a phase distribution that is the conjugate of the input wave. We experimentally validated the efficacy of this wavefront processor by 3D fabricating diffractive layers trained using deep learning and performing OPC on phase distortions never seen by the diffractive processor during its training. Employing terahertz radiation, our physical diffractive processor successfully performed the OPC task through a shallow spatially-engineered volume that axially spans tens of wavelengths. In addition to this transmissive OPC configuration, we also created a diffractive phase-conjugate mirror by combining deep learning-optimized diffractive layers with a standard mirror. Given its compact, passive and scalable nature, our diffractive wavefront processor can be used for diverse OPC-related applications, e.g., turbidity suppression and aberration correction, and is also adaptable to different parts of the electromagnetic spectrum, especially those where cost-effective wavefront engineering solutions do not exist. | 翻訳日:2023-11-09 17:07:06 公開日:2023-11-08 |
# autonomous advanced aerial mobility - uavとbeyondのためのエンドツーエンドの自律性フレームワーク Autonomous Advanced Aerial Mobility -- An End-to-end Autonomy Framework for UAVs and Beyond ( http://arxiv.org/abs/2311.04472v1 ) ライセンス: Link先を確認 | Sakshi Mishra and Praveen Palanisamy | (参考訳) 乗客や商品の完全自律飛行というように、人間が介入することなく、安全に飛行し、割り当てられた任務を遂行できる航空ロボットの開発は、航空自動運転分野の研究、設計、開発を導く大きなビジョンである。
しかし、空域を自律的に共有している全ての種類の航空車両を同時に運用することは極めて困難である。
航空輸送部門の完全な自律性には、車両を駆動する技術の設計、マルチエージェント艦隊の運用、航空部門の厳格な安全要件を満たす認証プロセスなど、いくつかの側面がある。
そのため、自律的高度航空移動はいまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。
そこで本稿では,無人航空機 (uavs) と電動垂直離着陸機 (evtol) を都市空輸, パッケージ配送, 監視など様々な用途に利用することを含む, 自律型高度空中移動の新たな分野に関する総合的な展望を紹介する。
この記事では、センシング、知覚、計画、制御という4つの主要なブロックで構成される、スケーラブルで拡張可能な自律性フレームワークを提案する。
さらに、本論文は、自律飛行システムのテスト、検証、認証の側面と同様に、マルチエージェント艦隊の運用および管理における課題と機会について論じる。
最後に、この記事は航空自律性のためのモノリシックモデルの可能性を調査し、その利点と限界を分析します。
この視点は、自律進行空力場とその今後の方向性の全体像を提供することを目的としている。 Developing aerial robots that can both safely navigate and execute assigned mission without any human intervention - i.e., fully autonomous aerial mobility of passengers and goods - is the larger vision that guides the research, design, and development efforts in the aerial autonomy space. However, it is highly challenging to concurrently operationalize all types of aerial vehicles that are operating fully autonomously sharing the airspace. Full autonomy of the aerial transportation sector includes several aspects, such as design of the technology that powers the vehicles, operations of multi-agent fleets, and process of certification that meets stringent safety requirements of aviation sector. Thereby, Autonomous Advanced Aerial Mobility is still a vague term and its consequences for researchers and professionals are ambiguous. To address this gap, we present a comprehensive perspective on the emerging field of autonomous advanced aerial mobility, which involves the use of unmanned aerial vehicles (UAVs) and electric vertical takeoff and landing (eVTOL) aircraft for various applications, such as urban air mobility, package delivery, and surveillance. The article proposes a scalable and extensible autonomy framework consisting of four main blocks: sensing, perception, planning, and controls. Furthermore, the article discusses the challenges and opportunities in multi-agent fleet operations and management, as well as the testing, validation, and certification aspects of autonomous aerial systems. Finally, the article explores the potential of monolithic models for aerial autonomy and analyzes their advantages and limitations. The perspective aims to provide a holistic picture of the autonomous advanced aerial mobility field and its future directions. | 翻訳日:2023-11-09 17:06:40 公開日:2023-11-08 |
# RDGCN:Aspect-based Sentiment Analysisのための強化依存グラフ畳み込みネットワーク RDGCN: Reinforced Dependency Graph Convolutional Network for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2311.04467v1 ) ライセンス: Link先を確認 | Xusheng Zhao, Hao Peng, Qiong Dai, Xu Bai, Huailiang Peng, Yanbing Liu, Qinglang Guo, Philip S. Yu | (参考訳) アスペクトベースの感情分析(ABSA)は、文中のアスペクト項の感情極性を予測することを目的としている。
グラフニューラルネットワークを用いて構文依存解析から構造パターンを捉えることは、ABSAを促進する効果的なアプローチとして確認されている。
ほとんどの作品において、依存木や依存に基づく注意係数のトポロジーは、しばしばアスペクトと意見の間の縁と見なされ、不十分であいまいな構文利用につながる。
これらの問題に対処するため,我々は,距離と型ビューの両方における依存関係の重要度計算を改善する新しい強化型依存グラフ畳み込みネットワーク(rdgcn)を提案する。
まず,依存性木上の最小距離に対する重要度計算基準を提案する。
この基準の下で、重み分布探索と相似性制御に強化学習を利用する距離重要度関数を設計する。
依存型はツリー距離のような明示的な構文を持たないことが多いため、我々はグローバルアテンションとマスク機構を使って型重要関数を設計する。
最後に、これらの重みをマージし、機能集約と分類を実装します。
3つの一般的なデータセットに関する総合的な実験は、基準と重要度関数の有効性を示す。
RDGCNはすべてのバリデーションにおいて最先端のGNNベースのベースラインを上回っている。 Aspect-based sentiment analysis (ABSA) is dedicated to forecasting the sentiment polarity of aspect terms within sentences. Employing graph neural networks to capture structural patterns from syntactic dependency parsing has been confirmed as an effective approach for boosting ABSA. In most works, the topology of dependency trees or dependency-based attention coefficients is often loosely regarded as edges between aspects and opinions, which can result in insufficient and ambiguous syntactic utilization. To address these problems, we propose a new reinforced dependency graph convolutional network (RDGCN) that improves the importance calculation of dependencies in both distance and type views. Initially, we propose an importance calculation criterion for the minimum distances over dependency trees. Under the criterion, we design a distance-importance function that leverages reinforcement learning for weight distribution search and dissimilarity control. Since dependency types often do not have explicit syntax like tree distances, we use global attention and mask mechanisms to design type-importance functions. Finally, we merge these weights and implement feature aggregation and classification. Comprehensive experiments on three popular datasets demonstrate the effectiveness of the criterion and importance functions. RDGCN outperforms state-of-the-art GNN-based baselines in all validations. | 翻訳日:2023-11-09 17:05:54 公開日:2023-11-08 |
# ガウス過程を用いた高周波・マルチスケールPDEの解法 Solving High Frequency and Multi-Scale PDEs with Gaussian Processes ( http://arxiv.org/abs/2311.04465v1 ) ライセンス: Link先を確認 | Shikai Fang, Madison Cooley, Da Long, Shibo Li, Robert Kirby, Shandian Zhe | (参考訳) 機械学習に基づく解法は、物理シミュレーションと科学計算に大きな注目を集めており、特に物理情報ニューラルネットワーク(PINN)が顕著である。
しかしながら、PINNは、ニューラルネットワークトレーニング中のスペクトルバイアスに起因する、高周波およびマルチスケールPDEの解決に苦慮することが多い。
この問題に対処するため、我々はガウス過程(GP)フレームワークを利用する。
支配周波数を柔軟に捉えるために,pde溶液のパワースペクトルを学生t混合またはガウス混合でモデル化する。
次に、逆フーリエ変換を適用して共分散関数を得る(ウィナー・ヒンチンの定理による)。
ガウス混合スペクトルに由来する共分散は、既知のスペクトル混合核に対応する。
我々はPDE解決の合理性と有効性を発見した最初の人物である。
次に、ログ領域の混合重みを推定し、ジェフリーを事前に配置するのと等価であることを示す。
空間性を自動的に誘導し、過度な周波数を誘発し、残りを地平線に向けて調整する。
第3に,大量のコロケーション点に対して効率的かつスケーラブルな計算を実現するため,コロケーション点をグリッド上に配置し,各入力次元に共分散関数を乗算する。
gp条件付き平均を用いて解とその微分を予測し、境界条件と方程式自体に適合させる。
その結果、共分散行列におけるクロネッカー積構造を導出することができる。
我々は, クロネッカー積の性質と多線型代数を用いて, 低ランク近似を必要とせず, 計算効率と拡張性を大幅に促進する。
系統実験において,本手法の利点を示す。 Machine learning based solvers have garnered much attention in physical simulation and scientific computing, with a prominent example, physics-informed neural networks (PINNs). However, PINNs often struggle to solve high-frequency and multi-scale PDEs, which can be due to spectral bias during neural network training. To address this problem, we resort to the Gaussian process (GP) framework. To flexibly capture the dominant frequencies, we model the power spectrum of the PDE solution with a student t mixture or Gaussian mixture. We then apply the inverse Fourier transform to obtain the covariance function (according to the Wiener-Khinchin theorem). The covariance derived from the Gaussian mixture spectrum corresponds to the known spectral mixture kernel. We are the first to discover its rationale and effectiveness for PDE solving. Next,we estimate the mixture weights in the log domain, which we show is equivalent to placing a Jeffreys prior. It automatically induces sparsity, prunes excessive frequencies, and adjusts the remaining toward the ground truth. Third, to enable efficient and scalable computation on massive collocation points, which are critical to capture high frequencies, we place the collocation points on a grid, and multiply our covariance function at each input dimension. We use the GP conditional mean to predict the solution and its derivatives so as to fit the boundary condition and the equation itself. As a result, we can derive a Kronecker product structure in the covariance matrix. We use Kronecker product properties and multilinear algebra to greatly promote computational efficiency and scalability, without any low-rank approximations. We show the advantage of our method in systematic experiments. | 翻訳日:2023-11-09 17:05:20 公開日:2023-11-08 |
# Semantic-Aware Fine-TuningによるFew-shot CLIPの強化 Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning ( http://arxiv.org/abs/2311.04464v1 ) ライセンス: Link先を確認 | Yao Zhu, Yuefeng Chen, Wei Wang, Xiaofeng Mao, Yue Wang, Zhigang Li, Wang lu, Jindong Wang, Xiangyang Ji | (参考訳) 限られたトレーニングサンプルから一般的な表現を学ぶことは、低リソースのシナリオでディープニューラルネットワークを適用する上で非常に重要です。
近年,CLIP (Contrastive Language- Image Pre-Training) に基づく手法が,少数の適応タスクにおいて有望な性能を示した。
数ショットの微調整による破滅的な忘れと過度な調整を避けるため、既存の作業は通常、大規模なデータセットで事前トレーニングされたCLIPのパラメータを凍結し、一部のパラメータが下流タスクに適さない可能性を見越す。
この目的のために、我々はCLIPの視覚エンコーダを再検討し、高密度特徴写像の空間重み付きサマーを実行する特徴的アテンションプーリング層に着目した。
濃密な特徴マップには意味のある意味情報が含まれており、さまざまな下流タスク(例えば、サイドミラーではなくペット分類タスクにおける耳や目などのセマンティクスの優先順位付けなど)において異なる意味論は様々な重要性を持っている。
そこで本研究では,学習過程における注意プーリング層のパラメータを微調整し,モデルがタスク固有のセマンティクスに注目するよう促す。
推論プロセスでは、微調整層と本来の注目層によってプールされた特徴の残差ブレンドを行い、少数ショット知識と事前トレーニングされたCLIPの事前知識の両方を組み込む。
本手法をSemantic-Aware Fine-tuning (SAFE) と呼ぶ。
SAFEは従来の小ショットCLIPの強化に有効であり、既存のアダプタアプローチ(SAFE-Aと呼ばれる)と互換性がある。 Learning generalized representations from limited training samples is crucial for applying deep neural networks in low-resource scenarios. Recently, methods based on Contrastive Language-Image Pre-training (CLIP) have exhibited promising performance in few-shot adaptation tasks. To avoid catastrophic forgetting and overfitting caused by few-shot fine-tuning, existing works usually freeze the parameters of CLIP pre-trained on large-scale datasets, overlooking the possibility that some parameters might not be suitable for downstream tasks. To this end, we revisit CLIP's visual encoder with a specific focus on its distinctive attention pooling layer, which performs a spatial weighted-sum of the dense feature maps. Given that dense feature maps contain meaningful semantic information, and different semantics hold varying importance for diverse downstream tasks (such as prioritizing semantics like ears and eyes in pet classification tasks rather than side mirrors), using the same weighted-sum operation for dense features across different few-shot tasks might not be appropriate. Hence, we propose fine-tuning the parameters of the attention pooling layer during the training process to encourage the model to focus on task-specific semantics. In the inference process, we perform residual blending between the features pooled by the fine-tuned and the original attention pooling layers to incorporate both the few-shot knowledge and the pre-trained CLIP's prior knowledge. We term this method as Semantic-Aware FinE-tuning (SAFE). SAFE is effective in enhancing the conventional few-shot CLIP and is compatible with the existing adapter approach (termed SAFE-A). | 翻訳日:2023-11-09 17:04:35 公開日:2023-11-08 |
# 長編ストーリープランニングにおけるペーシングの改善 Improving Pacing in Long-Form Story Planning ( http://arxiv.org/abs/2311.04459v1 ) ライセンス: Link先を確認 | Yichen Wang, Kevin Yang, Xiaoming Liu, Dan Klein | (参考訳) 長い形式のストーリーやストーリーアウトラインを書くための既存のllmベースのシステムは、重要なイベントに光沢を付けたり、重要でない詳細を過剰に精査したりするなど、しばしば不自然なペースに苦しむ。
ストーリーアウトラインを自動的に生成する際のペーシングを改善するためのConCrete Outline ConTrol(CONCOCT)システムを提案する。
まず,2つの事象のうちどれがより具体的なものかを判断するために,コンクリート性評価器を訓練する。
この評価器は階層的アウトライン生成におけるペーシングの制御に利用でき、この研究では一様ペーシングを目的とした曖昧な第1展開手順を探索する。
さらに,予測された具体性に基づいて,新たなアウトライン項目のフィルタリングを行う。
ベースラインの階層的なアウトラインジェネレータと比較すると、concoctのペーシングは複数のアウトラインの長さで57%以上の時間の一貫性を持つと判断される。
すべてのコード、データ、モデルはオープンソースです。 Existing LLM-based systems for writing long-form stories or story outlines frequently suffer from unnatural pacing, whether glossing over important events or over-elaborating on insignificant details, resulting in a jarring experience for the reader. We propose a CONCrete Outline ConTrol (CONCOCT) system to improve pacing when automatically generating story outlines. We first train a concreteness evaluator to judge which of two events is more concrete (low-level-detailed). This evaluator can then be used to control pacing in hierarchical outline generation; in this work, we explore a vaguest-first expansion procedure that aims for uniform pacing. We further use the evaluator to filter new outline items based on predicted concreteness. Compared to a baseline hierarchical outline generator, humans judge CONCOCT's pacing to be more consistent over 57% of the time across multiple outline lengths; the gains also translate to downstream stories. All code, data, and models are open-sourced. | 翻訳日:2023-11-09 17:03:54 公開日:2023-11-08 |
# エンドツーエンドフレームワークによるビデオの再ターゲティング Retargeting video with an end-to-end framework ( http://arxiv.org/abs/2311.04458v1 ) ライセンス: Link先を確認 | Thi-Ngoc-Hanh Le, HuiGuang Huang, Yi-Ru Chen, and Tong-Yee Lee | (参考訳) ビデオはコンピュータグラフィックスアプリケーションにおいて重要である。
デジタル機器の不均一性により、ビデオの再ターゲティングは、そのようなアプリケーションにおけるユーザー視聴エクスペリエンスを向上させる上で必須の機能となる。
ビデオ再ターゲティングの研究では、ビデオ内の関連するビジュアルコンテンツの保存、フリックの回避、処理時間の削減が重要な課題である。
ビデオ領域へのイメージリターゲティング技術の拡張は、高い実行時間のために困難である。
ビデオ再ターゲティングの以前の仕事は、主に時間消費の前処理を使用してフレームを分析する。
さらに、異なるビデオコンテンツに寛容であり、重要なオブジェクトの縮小を回避し、任意の比率でプレイする能力は、調査を必要とするこれらのシステムで解決すべき制限である。
本稿では,動画を任意のアスペクト比に再ターゲットするエンドツーエンドのRETVI手法を提案する。
本稿では、コンテンツ特徴分析器(CFA)と適応変形推定器(ADE)の2つのモジュールでRETVIを設計することで、従来の手法の計算ボトルネックを解消する。
広範な実験と評価の結果,システムの性能と実行時間の面では,これまでの作業よりも優れています。
プロジェクトのWebサイトは、$\href{http://graphics.csie.ncku.edu.tw/RETVI}{http://graphics.csie.ncku.edu.tw/RETVI}$で見ることができます。 Video holds significance in computer graphics applications. Because of the heterogeneous of digital devices, retargeting videos becomes an essential function to enhance user viewing experience in such applications. In the research of video retargeting, preserving the relevant visual content in videos, avoiding flicking, and processing time are the vital challenges. Extending image retargeting techniques to the video domain is challenging due to the high running time. Prior work of video retargeting mainly utilizes time-consuming preprocessing to analyze frames. Plus, being tolerant of different video content, avoiding important objects from shrinking, and the ability to play with arbitrary ratios are the limitations that need to be resolved in these systems requiring investigation. In this paper, we present an end-to-end RETVI method to retarget videos to arbitrary aspect ratios. We eliminate the computational bottleneck in the conventional approaches by designing RETVI with two modules, content feature analyzer (CFA) and adaptive deforming estimator (ADE). The extensive experiments and evaluations show that our system outperforms previous work in quality and running time. Visit our project website for more results at $\href{http://graphics.csie.ncku.edu.tw/RETVI}{http://graphics.csie.ncku.edu.tw/RETVI}$. | 翻訳日:2023-11-09 17:03:29 公開日:2023-11-08 |
# 科学的応用におけるニューラルPDEの不確実性定量化手法の評価 Evaluating Uncertainty Quantification approaches for Neural PDEs in scientific applications ( http://arxiv.org/abs/2311.04457v1 ) ライセンス: Link先を確認 | Vardhan Dongre, Gurpreet Singh Hora | (参考訳) 安価なセンサ、フィールド、数値実験によって実現された空間分散データのアクセシビリティは、気候変動、天気予報、都市計画などの科学的問題に対するデータ駆動型ソリューションの開発を促進する。
ニューラル部分微分方程式(Neural partial Differential Equations, ニューラルPDE)は、深層学習(DL)技術とパラメータ化のためのドメインの専門知識(例えば、制御方程式)を組み合わせることで、時空間データセット内の貴重な相関を捉えるのに有効であることが証明されている。
しかし、モデル近似と組み合わされたばらばらで騒がしい測定は、アレエータ的および認識的不確かさをもたらす。
したがって、モデル入力から出力へ伝播する不確実性を定量化することは、ニューラルPDEの信頼性を確立するための重要な目標である。
この研究は、科学応用におけるフォワードおよび逆問題に対する様々な不確実量化(UQ)アプローチを評価する。
具体的には,ハミルトン・モンテカルロ (HMC) やモンテカルロ・ドロップアウト (MCD) などのベイズ的手法の有効性と,より従来型のDeep Ensembles (DE) のアプローチについて検討する。
それらの性能を説明するために、バーガー方程式とナビエ・ストークス方程式の2つの標準PDEを用いる。
この結果から,ニューラルPDEは流れ系を効果的に再構築し,関連する未知パラメータを予測できることが示唆された。
しかしながら、ベイズ法から得られた結果は、deを用いて得られたものに比べて、予測において高い確実性を示す傾向があることは注目すべきである。
この予測の確信の高まりは、ベイズ手法が真の基礎となる不確実性を過小評価し、それによってdeアプローチよりも彼らの予測に自信を示せることを示唆している。 The accessibility of spatially distributed data, enabled by affordable sensors, field, and numerical experiments, has facilitated the development of data-driven solutions for scientific problems, including climate change, weather prediction, and urban planning. Neural Partial Differential Equations (Neural PDEs), which combine deep learning (DL) techniques with domain expertise (e.g., governing equations) for parameterization, have proven to be effective in capturing valuable correlations within spatiotemporal datasets. However, sparse and noisy measurements coupled with modeling approximation introduce aleatoric and epistemic uncertainties. Therefore, quantifying uncertainties propagated from model inputs to outputs remains a challenge and an essential goal for establishing the trustworthiness of Neural PDEs. This work evaluates various Uncertainty Quantification (UQ) approaches for both Forward and Inverse Problems in scientific applications. Specifically, we investigate the effectiveness of Bayesian methods, such as Hamiltonian Monte Carlo (HMC) and Monte-Carlo Dropout (MCD), and a more conventional approach, Deep Ensembles (DE). To illustrate their performance, we take two canonical PDEs: Burger's equation and the Navier-Stokes equation. Our results indicate that Neural PDEs can effectively reconstruct flow systems and predict the associated unknown parameters. However, it is noteworthy that the results derived from Bayesian methods, based on our observations, tend to display a higher degree of certainty in their predictions as compared to those obtained using the DE. This elevated certainty in predictions suggests that Bayesian techniques might underestimate the true underlying uncertainty, thereby appearing more confident in their predictions than the DE approach. | 翻訳日:2023-11-09 17:03:04 公開日:2023-11-08 |
# ルイスのシグナリングゲーム : 自然語長とセグメントのベータベールとして Lewis's Signaling Game as beta-VAE For Natural Word Lengths and Segments ( http://arxiv.org/abs/2311.04453v1 ) ライセンス: Link先を確認 | Ryo Ueda, Tadahiro Taniguchi | (参考訳) 進化言語学と計算言語学の亜分野として、創発的コミュニケーション(EC)は創発的言語と呼ばれる通信プロトコルを研究し、エージェントが通信するシミュレーションで発生する。
ECの主な目標は、統計特性を自然言語と共有する言語を作ることである。
本稿では,ECで頻繁に使用されるルイスのシグナリングゲームをβ-VAEとして再解釈し,その目的機能をELBOとして再構成する。
その結果,先行言語の存在を明らかにし,先行言語の選択がそれらの統計的特性に影響を及ぼすことを示す。
具体的には,単語長と区分けの性質,すなわちZipfの省略法則(ZLA)とHarrisの調音法(HAS)について述べる。
創発的な言語は、従来の目的に従わないと報告されている。
実験により、適切な事前分布を選択することで、より自然なセグメントが出現し、従来のセグメントがZLAやHASに従わないことを示す。 As a sub-discipline of evolutionary and computational linguistics, emergent communication (EC) studies communication protocols, called emergent languages, arising in simulations where agents communicate. A key goal of EC is to give rise to languages that share statistical properties with natural languages. In this paper, we reinterpret Lewis's signaling game, a frequently used setting in EC, as beta-VAE and reformulate its objective function as ELBO. Consequently, we clarify the existence of prior distributions of emergent languages and show that the choice of the priors can influence their statistical properties. Specifically, we address the properties of word lengths and segmentation, known as Zipf's law of abbreviation (ZLA) and Harris's articulation scheme (HAS), respectively. It has been reported that the emergent languages do not follow them when using the conventional objective. We experimentally demonstrate that by selecting an appropriate prior distribution, more natural segments emerge, while suggesting that the conventional one prevents the languages from following ZLA and HAS. | 翻訳日:2023-11-09 17:02:30 公開日:2023-11-08 |
# 再帰的再帰:拡張性を備えた長さ一般化のための2レベルネスト再帰 Recursion in Recursion: Two-Level Nested Recursion for Length Generalization with Scalability ( http://arxiv.org/abs/2311.04449v1 ) ライセンス: Link先を確認 | Jishnu Ray Chowdhury, Cornelia Caragea | (参考訳) バイナリバランス木RvNN(BBT-RvNN)は、予め設定されたバランス木構造に従ってシーケンス構成を実行する。
したがって、それらの非線形再帰深さは$\log_2 n$ (n$ はシーケンス長) である。
このような対数スケーリングにより、BBT-RvNNはLong Range Arena (LRA)のような長いシーケンスタスクにおいて効率的かつスケーラブルになる。
しかし、BBT-RvNNはListOpsのような単純な算術的なタスクを解くことができないため、そのような計算効率はコストがかかる。
一方、ListOps(および形式論理推論のような構造に敏感なタスク)で成功するRvNN(例:ビームツリーRvNN)は、一般的にRNNよりも数倍高い。
本稿では,両者のバランスを取るために,再帰的再帰(recursion in recursion, rir)という新しい枠組みを提案する。
RIRでは、外部再帰は$k$aryのバランス木モデルであり、別の再帰モデル(インナー再帰)はそのセル関数を実装している。
内部再帰について、ビームツリーRvNN(BT-RvNN)を選択する。
RIR内でBT-RvNNを調整するために、ビームアライメントの新しい戦略を提案する。
全体として、RIR の総再帰深さは $k \log_k n$ で上界となる。
我々の最良のRIRベースのモデルは、LRAからの長いシーケンス入力でトレーニングできるほどスケーラブルであると同時に、ListOps上での高(\geq 90\%$)長一般化性能を示す最初のモデルです。
さらに、lra言語タスクの正確性の観点からは、特別な初期化なしに構造化状態空間モデル(ssm)と競合して、大きなマージンでトランスフォーマーを上回っている。
一方、SSMはLRAではRIRをわずかに上回りますが、ListOpsでは(SSMは)長大に一般化できません。
私たちのコードは、 \url{https://github.com/jrc1995/beamrecursionfamily/} で利用可能です。 Binary Balanced Tree RvNNs (BBT-RvNNs) enforce sequence composition according to a preset balanced binary tree structure. Thus, their non-linear recursion depth is just $\log_2 n$ ($n$ being the sequence length). Such logarithmic scaling makes BBT-RvNNs efficient and scalable on long sequence tasks such as Long Range Arena (LRA). However, such computational efficiency comes at a cost because BBT-RvNNs cannot solve simple arithmetic tasks like ListOps. On the flip side, RvNNs (e.g., Beam Tree RvNN) that do succeed on ListOps (and other structure-sensitive tasks like formal logical inference) are generally several times more expensive than even RNNs. In this paper, we introduce a novel framework -- Recursion in Recursion (RIR) to strike a balance between the two sides - getting some of the benefits from both worlds. In RIR, we use a form of two-level nested recursion - where the outer recursion is a $k$-ary balanced tree model with another recursive model (inner recursion) implementing its cell function. For the inner recursion, we choose Beam Tree RvNNs (BT-RvNN). To adjust BT-RvNNs within RIR we also propose a novel strategy of beam alignment. Overall, this entails that the total recursive depth in RIR is upper-bounded by $k \log_k n$. Our best RIR-based model is the first model that demonstrates high ($\geq 90\%$) length-generalization performance on ListOps while at the same time being scalable enough to be trainable on long sequence inputs from LRA. Moreover, in terms of accuracy in the LRA language tasks, it performs competitively with Structured State Space Models (SSMs) without any special initialization - outperforming Transformers by a large margin. On the other hand, while SSMs can marginally outperform RIR on LRA, they (SSMs) fail to length-generalize on ListOps. Our code is available at: \url{https://github.com/JRC1995/BeamRecursionFamily/}. | 翻訳日:2023-11-09 17:02:08 公開日:2023-11-08 |
# RDF知識グラフと文類似性によるチャットGPTファクトの検証 Validating ChatGPT Facts through RDF Knowledge Graphs and Sentence Similarity ( http://arxiv.org/abs/2311.04524v1 ) ライセンス: Link先を確認 | Michalis Mountantonakis and Yannis Tzitzikas | (参考訳) 本稿では,ChatGPTの応答をRDFで検索し,1つ以上のRDF知識グラフ(KGs)を用いてChatGPTの事実を検証しようとする新しいパイプラインを提案する。
この目的のために、DBpediaとLODsyndesis(多くのドメインの400のRDF KGから20億のトリプルを含む集約された知識グラフ)と短い文の埋め込みを活用し、その証明と信頼スコアを伴うより関連するトリプル(s)を返すアルゴリズムを導入する。
これにより、ChatGPT応答の検証と、正当化と証明による強化が可能になる。
このサービス(一般にこのようなサービス)を評価するために、2000のChatGPT事実、特に有名なギリシャ人の1000の事実、人気のあるギリシャの場所の500の事実、ギリシャ関連のイベントの500の事実を含む評価ベンチマークを作成します。
事実は手作業でラベル付けされた(ChatGPTの事実の約73%が正しく、事実の27%が間違っていた)。
ベンチマーク全体では、ChatGPTの正しい事実の85.3%を検証し、誤ったChatGPTの事実の62.6%を正解することに成功した。 Since ChatGPT offers detailed responses without justifications, and erroneous facts even for popular persons, events and places, in this paper we present a novel pipeline that retrieves the response of ChatGPT in RDF and tries to validate the ChatGPT facts using one or more RDF Knowledge Graphs (KGs). To this end we leverage DBpedia and LODsyndesis (an aggregated Knowledge Graph that contains 2 billion triples from 400 RDF KGs of many domains) and short sentence embeddings, and introduce an algorithm that returns the more relevant triple(s) accompanied by their provenance and a confidence score. This enables the validation of ChatGPT responses and their enrichment with justifications and provenance. To evaluate this service (such services in general), we create an evaluation benchmark that includes 2,000 ChatGPT facts; specifically 1,000 facts for famous Greek Persons, 500 facts for popular Greek Places, and 500 facts for Events related to Greece. The facts were manually labelled (approximately 73% of ChatGPT facts were correct and 27% of facts were erroneous). The results are promising; indicatively for the whole benchmark, we managed to verify the 85.3% of the correct facts of ChatGPT and to find the correct answer for the 62.6% of the erroneous ChatGPT facts. | 翻訳日:2023-11-09 16:54:27 公開日:2023-11-08 |
# 補助的相互モーダル相互作用を持つ関係時間グラフニューラルネットワークを用いた会話理解 Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction ( http://arxiv.org/abs/2311.04507v1 ) ライセンス: Link先を確認 | Cam-Van Thi Nguyen, Anh-Tuan Mai, The-Son Le, Hai-Dang Kieu, Duc-Trong Le | (参考訳) 感情認識は人間の会話理解にとって重要な課題である。
言語、音声、表情といったマルチモーダルデータの概念により、より困難になる。
典型的な解決策として、グローバルとローカルのコンテキスト情報は、対話中の各文、すなわち発話の感情ラベルを予測するために利用される。
特に、グローバル表現は、会話レベルでのモーダル間相互作用のモデリングによって取得できる。
話し手の時間的情報や感情の変化を用いて局所的に推測されることが多く、発話レベルの重要な要因を無視する。
さらに、既存のアプローチの多くは、モダリティ固有の表現を使わずに、統一入力における複数のモダリティの融合特徴を取り入れている。
これらの問題から,会話レベルの対話や発話レベルの時間的依存関係を,会話理解のためのモーダル特有の方法と効果的に捉えるニューラルネットワークフレームワークであるCORECT(Relational Temporal Graph Neural Network with Auxiliary Cross-Modality Interaction)を提案する。
大規模な実験では、マルチモーダルERCタスクのためのIEMOCAPとCMU-MOSEIデータセット上でCORECTの有効性を実証している。 Emotion recognition is a crucial task for human conversation understanding. It becomes more challenging with the notion of multimodal data, e.g., language, voice, and facial expressions. As a typical solution, the global- and the local context information are exploited to predict the emotional label for every single sentence, i.e., utterance, in the dialogue. Specifically, the global representation could be captured via modeling of cross-modal interactions at the conversation level. The local one is often inferred using the temporal information of speakers or emotional shifts, which neglects vital factors at the utterance level. Additionally, most existing approaches take fused features of multiple modalities in an unified input without leveraging modality-specific representations. Motivating from these problems, we propose the Relational Temporal Graph Neural Network with Auxiliary Cross-Modality Interaction (CORECT), an novel neural network framework that effectively captures conversation-level cross-modality interactions and utterance-level temporal dependencies with the modality-specific manner for conversation understanding. Extensive experiments demonstrate the effectiveness of CORECT via its state-of-the-art results on the IEMOCAP and CMU-MOSEI datasets for the multimodal ERC task. | 翻訳日:2023-11-09 16:54:02 公開日:2023-11-08 |
# nitec: ego-visionインタラクションのための多彩なハンドアノテートアイコンタクトデータセット NITEC: Versatile Hand-Annotated Eye Contact Dataset for Ego-Vision Interaction ( http://arxiv.org/abs/2311.04505v1 ) ライセンス: Link先を確認 | Thorsten Hempel, Magnus Jung, Ahmed A. Abdelrahman, Ayoub Al-Hamadi | (参考訳) アイコンタクトは非言語的相互作用の重要なモダリティであり、日常生活において重要な役割を果たす。
人間は目の接触に非常に敏感だが、人間の視線を捉える機械の能力はいまだに平凡である。
我々はこの課題に取り組み、エゴビジョンインタラクションのための手書きアイコンタクトデータセットであるNITECを提示する。
NITECは、エゴビジョンベースのアイコンタクト研究を進めるための貴重な資源として、サイズや様々な人口動態、社会的文脈、照明条件の既存のデータセットを超えている。
NITECに関する広範な評価は、コンピュータビジョン、人間とコンピュータの相互作用、社会ロボティクスの分野にシームレスに活用できる様々なシナリオにおいて、その有効性と適応性を強調し、強力なデータセット性能を示している。
我々はNITECデータセットを公開し、再現性を高め、エゴビジョンインタラクションの分野でさらなる探索を行う。
https://github.com/thohemp/nitec Eye contact is a crucial non-verbal interaction modality and plays an important role in our everyday social life. While humans are very sensitive to eye contact, the capabilities of machines to capture a person's gaze are still mediocre. We tackle this challenge and present NITEC, a hand-annotated eye contact dataset for ego-vision interaction. NITEC exceeds existing datasets for ego-vision eye contact in size and variety of demographics, social contexts, and lighting conditions, making it a valuable resource for advancing ego-vision-based eye contact research. Our extensive evaluations on NITEC demonstrate strong cross-dataset performance, emphasizing its effectiveness and adaptability in various scenarios, that allows seamless utilization to the fields of computer vision, human-computer interaction, and social robotics. We make our NITEC dataset publicly available to foster reproducibility and further exploration in the field of ego-vision interaction. https://github.com/thohemp/nitec | 翻訳日:2023-11-09 16:53:42 公開日:2023-11-08 |
# 制約付き適応攻撃: 逆例の現実的評価と語彙データに対する深部ニューラルネットワークのロバストトレーニング Constrained Adaptive Attacks: Realistic Evaluation of Adversarial Examples and Robust Training of Deep Neural Networks for Tabular Data ( http://arxiv.org/abs/2311.04503v1 ) ライセンス: Link先を確認 | Thibault Simonetto, Salah Ghamizi, Antoine Desjardins, Maxime Cordy, Yves Le Traon | (参考訳) 表データのための最先端のディープラーニングモデルは最近、産業環境でのデプロイに許容できるパフォーマンスを達成している。
しかし、これらのモデルの堅牢性はいまだにほとんど調査されていない。
コンピュータビジョンとは対照的に、カテゴリー的特徴、不変性、特徴関係の制約といった表データの本質的性質により、深層表モデルの敵対的ロバスト性を適切に評価するための現実的なプロトコルは存在しない。
このギャップを埋めるために、制約付き表層深層学習モデルに対する最初の効率的な回避攻撃であるCAAを提案する。
CAAは、勾配と探索攻撃を組み合わせた反復的なパラメータフリー攻撃であり、制約の下で逆例を生成する。
CAAを活用して、クレジットスコア、フィッシング、ボットネット攻撃検出という3つの一般的なユースケースにわたる、ディープタブモデルのベンチマークを構築します。
我々のベンチマークは攻撃者の能力を高めた10の脅威モデルをサポートし、ユースケースごとに実際の攻撃シナリオを反映しています。
全体として、ドメイン知識、敵的訓練、攻撃予算が深層表モデルの堅牢性評価にどのように影響するかを示し、様々な回避攻撃シナリオに対する深部表モデルの堅牢性を改善するための一連の勧告を提供する。 State-of-the-art deep learning models for tabular data have recently achieved acceptable performance to be deployed in industrial settings. However, the robustness of these models remains scarcely explored. Contrary to computer vision, there is to date no realistic protocol to properly evaluate the adversarial robustness of deep tabular models due to intrinsic properties of tabular data such as categorical features, immutability, and feature relationship constraints. To fill this gap, we propose CAA, the first efficient evasion attack for constrained tabular deep learning models. CAA is an iterative parameter-free attack that combines gradient and search attacks to generate adversarial examples under constraints. We leverage CAA to build a benchmark of deep tabular models across three popular use cases: credit scoring, phishing and botnet attacks detection. Our benchmark supports ten threat models with increasing capabilities of the attacker, and reflects real-world attack scenarios for each use case. Overall, our results demonstrate how domain knowledge, adversarial training, and attack budgets impact the robustness assessment of deep tabular models and provide security practitioners with a set of recommendations to improve the robustness of deep tabular models against various evasion attack scenarios. | 翻訳日:2023-11-09 16:53:27 公開日:2023-11-08 |
# PreD: LiDARポイントクラウド上でのセマンティックレンダリングによる事前トレーニング PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds ( http://arxiv.org/abs/2311.04501v1 ) ライセンス: Link先を確認 | Hao Yang, Haiyang Wang, Di Dai, Liwei Wang | (参考訳) 事前トレーニングは、ポイントクラウドアノテーションが高価かつ困難である自動運転のような3d関連分野において重要である。
しかし、ポイントクラウドの事前学習に関する最近の多くの研究は、不完全性の問題を見落としており、その点のほんの一部がlidarによって捕捉され、訓練段階で曖昧さに繋がる。
一方、画像はより包括的な情報とよりリッチなセマンティクスを提供し、ポイントクラウド固有の不完全性問題に対処するためにポイントクラウドエンコーダを強化できる。
しかし、イメージをポイントクラウドに組み込むことは、オクルージョンによる独自の課題を示し、ポイントとピクセルのミスアライメントを引き起こす可能性がある。
本研究では,屋外の点群を対象とした画像支援型事前学習フレームワークPreDを提案する。
我々のフレームワークの主な構成要素は、ニューラルネットワークによる画像のセマンティックスを活用する、Birds-Eye-View (BEV) 機能マップの条件付きセマンティックレンダリングである。
我々は,高マスク比(95%)のポイントワイズマスキングを組み込むことにより,モデルの性能をさらに向上させる。
大規模な実験では、PreDが事前学習方法よりも優れていることが示され、3D知覚タスクのための大規模なデータセットが大幅に改善された。
コードはhttps://github.com/PRED4pc/PRED.comで入手できる。 Pre-training is crucial in 3D-related fields such as autonomous driving where point cloud annotation is costly and challenging. Many recent studies on point cloud pre-training, however, have overlooked the issue of incompleteness, where only a fraction of the points are captured by LiDAR, leading to ambiguity during the training phase. On the other hand, images offer more comprehensive information and richer semantics that can bolster point cloud encoders in addressing the incompleteness issue inherent in point clouds. Yet, incorporating images into point cloud pre-training presents its own challenges due to occlusions, potentially causing misalignments between points and pixels. In this work, we propose PRED, a novel image-assisted pre-training framework for outdoor point clouds in an occlusion-aware manner. The main ingredient of our framework is a Birds-Eye-View (BEV) feature map conditioned semantic rendering, leveraging the semantics of images for supervision through neural rendering. We further enhance our model's performance by incorporating point-wise masking with a high mask ratio (95%). Extensive experiments demonstrate PRED's superiority over prior point cloud pre-training methods, providing significant improvements on various large-scale datasets for 3D perception tasks. Codes will be available at https://github.com/PRED4pc/PRED. | 翻訳日:2023-11-09 16:53:06 公開日:2023-11-08 |
# NExT-Chat: チャット、検出、セグメンテーションのためのLMM NExT-Chat: An LMM for Chat, Detection and Segmentation ( http://arxiv.org/abs/2311.04498v1 ) ライセンス: Link先を確認 | Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua | (参考訳) 大規模言語モデル(LLM)の開発は、多モーダル理解の分野を大幅に進歩させ、大規模多モーダルモデル(LMM)の出現につながった。
視覚的理解のレベルを高めるため、近年の研究では、オブジェクト境界ボックス座標を一連のテキストシーケンス(ピクセル2seq)として表現することで、領域レベルの理解能力を備えたLMMを実装している。
本稿では,Pixel2emb法と呼ばれるオブジェクト位置モデリングのための新しいパラダイムを紹介し,LMMに位置埋め込みを出力させ,異なるデコーダでデコードする。
このパラダイムでは、異なる位置フォーマット(バウンディングボックスやマスクなど)をマルチモーダルな会話で使用できるだけでなく、このような組み込みベースのロケーションモデリングによって、検出やセグメンテーションといったローカライゼーションタスクにおける既存のプラクティスの活用が可能になる。
資源が限られているシナリオでは、我々のピクセル2embは、位置入力と出力タスクの両方において、既存のSOTA(State-of-the-art)アプローチよりも優れた性能を示す。
提案手法を活用することで,NExT-ChatというLMMを訓練し,視覚的接地,領域キャプション,接地推論などの複数のタスクを処理可能であることを示す。 The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance the level of visual comprehension, recent studies have equipped LMMs with region-level understanding capabilities by representing object bounding box coordinates as a series of text sequences (pixel2seq). In this paper, we introduce a novel paradigm for object location modeling called pixel2emb method, where we ask the LMM to output the location embeddings and then decoded by different decoders. This paradigm allows for different location formats (such as bounding boxes and masks) to be used in multimodal conversations Furthermore, this kind of embedding based location modeling enables the utilization of existing practices in localization tasks, such as detection and segmentation. In scenarios with limited resources, our pixel2emb demonstrates superior performance compared to existing state-of-the-art (SOTA) approaches in both the location input and output tasks under fair comparison. Leveraging the proposed pixel2emb method, we train an LMM named NExT-Chat and demonstrate its capability of handling multiple tasks like visual grounding, region caption, and grounded reasoning. | 翻訳日:2023-11-09 16:52:43 公開日:2023-11-08 |
# デジェネリアシー・ブレイキング測定のデバイス非依存認証 Device-independent certification of degeneracy-breaking measurements ( http://arxiv.org/abs/2311.04497v1 ) ライセンス: Link先を確認 | Prabuddha Roy, Shyam Sundar Mahato, Sumit Mukherjee, and A. K. Pan | (参考訳) デバイスに依存しないベルテストでは、デバイスはブラックボックスと見なされ、システムの寸法は未定である。
このようなベル試験に関与するジコトミック観測装置は退化可能であり、縮退性を持ち上げるための適切な測定方法を実行することができる。
しかし、標準ベル試験は、基準ベル試験が認定していない測定後の状態にのみ、縮退を解除する効果が反映されるため、どの程度の程度に縮退が解除されるかは説明できない。
本研究では,ポジカル・オペレーター価値測定(povms)を特徴とする非シャープな測定を行う複数のオブザーバによる逐次ベルテストに基づく縮退破壊測定のデバイス非依存的証明を実証する。
複数のシーケンシャルオブザーバによるクロージャ・ホーン・シモニー・ホルト不等式の最適量子違反は、最終的にデジェネラシーがどの程度持ち上げられたかを証明できる。
特に,本プロトコルは,そのような測定を行うために使用されるPOVMの数と,絡み合った状態と観測可能な測定値の上限を認証する。
このようなデジェネラシー破壊測定の証明を駆動するエレガントな2乗法を採用している。 In a device-independent Bell test, the devices are considered to be black boxes and the dimension of the system remains unspecified. The dichotomic observables involved in such a Bell test can be degenerate and one may invoke a suitable measurement scheme to lift the degeneracy. However, the standard Bell test cannot account for whether or up to what extent the degeneracy is lifted, as the effect of lifting the degeneracy can only be reflected in the post-measurement states, which the standard Bell tests do not certify. In this work, we demonstrate the device-independent certification of degeneracy-breaking measurement based on the sequential Bell test by multiple observers who perform degeneracy-breaking unsharp measurements characterized by positive-operator-valued measures (POVMs) - the noisy variants of projectors. The optimal quantum violation of Clauser-Horne-Shimony-Holt inequality by multiple sequential observers eventually enables us to certify up to what extent the degeneracy has been lifted. In particular, our protocol certifies the upper bound on the number of POVMs used for performing such measurements along with the entangled state and measurement observables. We use an elegant sum-of-squares approach that powers such certification of degeneracy-breaking measurements. | 翻訳日:2023-11-09 16:52:21 公開日:2023-11-08 |
# PersonMAE: マスク付きオートエンコーダによる人物識別事前訓練 PersonMAE: Person Re-Identification Pre-Training with Masked AutoEncoders ( http://arxiv.org/abs/2311.04496v1 ) ライセンス: Link先を確認 | Hezhen Hu, Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Lu Yuan, Dong Chen, Houqiang Li | (参考訳) 事前学習は、人物再識別(ReID)のための一般的な特徴表現を学ぶ上で、ますます重要な役割を担っている。
高品質なReID表現は、3つの特性、すなわち多レベル認識、排他的堅牢性、領域間不変性を持つべきである。
そこで本研究では,Person Re-ID の課題に対処するため,マスク付きオートエンコーダに2つのコア設計を組み込んだシンプルな事前学習フレームワークである PersonMAE を提案する。
1) PersonMAE は、入力として RegionA と予測対象として \textit{RegionB} の2つの領域を生成する。
リージョンAはブロックワイズマスキングによって破壊され、ReIDの共通閉塞を模倣し、残りの可視部分はエンコーダに供給される。
2) personmaeは、ピクセルレベルと意味的特徴レベルで、全領域を予測することを目指している。
前述の3つの特性で事前訓練された特徴表現を奨励する。
これらの特性により、PersonMAEはダウンストリームのPerson ReIDタスクと互換性があり、4つのダウンストリームのReIDタスク、すなわち、教師付き(全体的および排他的)および教師なし(UDAとUSLの設定)で最先端のパフォーマンスをもたらす。
特に、一般的に採用されているVT-BバックボーンのPersonMAEは、MSMT17とOccDukeのデータセットで79.8%と69.5%のmAPを達成し、それぞれ+8.0mAPと+5.3mAPを大きく上回っている。 Pre-training is playing an increasingly important role in learning generic feature representation for Person Re-identification (ReID). We argue that a high-quality ReID representation should have three properties, namely, multi-level awareness, occlusion robustness, and cross-region invariance. To this end, we propose a simple yet effective pre-training framework, namely PersonMAE, which involves two core designs into masked autoencoders to better serve the task of Person Re-ID. 1) PersonMAE generates two regions from the given image with RegionA as the input and \textit{RegionB} as the prediction target. RegionA is corrupted with block-wise masking to mimic common occlusion in ReID and its remaining visible parts are fed into the encoder. 2) Then PersonMAE aims to predict the whole RegionB at both pixel level and semantic feature level. It encourages its pre-trained feature representations with the three properties mentioned above. These properties make PersonMAE compatible with downstream Person ReID tasks, leading to state-of-the-art performance on four downstream ReID tasks, i.e., supervised (holistic and occluded setting), and unsupervised (UDA and USL setting). Notably, on the commonly adopted supervised setting, PersonMAE with ViT-B backbone achieves 79.8% and 69.5% mAP on the MSMT17 and OccDuke datasets, surpassing the previous state-of-the-art by a large margin of +8.0 mAP, and +5.3 mAP, respectively. | 翻訳日:2023-11-09 16:52:00 公開日:2023-11-08 |
# 計算機姿勢検出のための機械アノテーションのマルチラベル・マルチターゲットサンプリング Multi-label and Multi-target Sampling of Machine Annotation for Computational Stance Detection ( http://arxiv.org/abs/2311.04495v1 ) ライセンス: Link先を確認 | Zhengyuan Liu, Hai Leong Chieu, Nancy F. Chen | (参考訳) 手動ラベリングによるデータ収集は、データ駆動アプローチのためのドメイン固有かつタスク整合性のある監視を提供し、自然言語処理タスクにおいて適切なパフォーマンスを達成するためには、十分なアノテートされたリソースの臨界質量が必要である。
しかし、特にドメインの知識、微妙な意味的特徴の取り込み、そして推論のステップが必要な場合、手動アノテーションは、時間と予算の観点からスケールアップするのがしばしば困難です。
本稿では,大規模言語モデルを用いた自動ラベリングによる計算姿勢検出の有効性について検討する。
大規模言語モデルは人間のアノテーションの代替として強い可能性を示すが、タスク固有の命令に対する感度と固有のバイアスは、マシンアノテーションにおいて興味深いがユニークな課題をもたらすことを実証的に観察する。
アノテーションの品質を最適化するために,マルチラベルおよびマルチターゲットサンプリング戦略を導入する。
ベンチマーク姿勢検出コーパスの実験結果から,本手法は性能と学習効果が有意に向上することが示された。 Data collection from manual labeling provides domain-specific and task-aligned supervision for data-driven approaches, and a critical mass of well-annotated resources is required to achieve reasonable performance in natural language processing tasks. However, manual annotations are often challenging to scale up in terms of time and budget, especially when domain knowledge, capturing subtle semantic features, and reasoning steps are needed. In this paper, we investigate the efficacy of leveraging large language models on automated labeling for computational stance detection. We empirically observe that while large language models show strong potential as an alternative to human annotators, their sensitivity to task-specific instructions and their intrinsic biases pose intriguing yet unique challenges in machine annotation. We introduce a multi-label and multi-target sampling strategy to optimize the annotation quality. Experimental results on the benchmark stance detection corpora show that our method can significantly improve performance and learning efficacy. | 翻訳日:2023-11-09 16:51:27 公開日:2023-11-08 |
# 深部機能マップによる非剛体形状の事前登録 Non-Rigid Shape Registration via Deep Functional Maps Prior ( http://arxiv.org/abs/2311.04494v1 ) ライセンス: Link先を確認 | Puhua Jiang and Mingze Sun and Ruqi Huang | (参考訳) 本稿では,対応しない非剛体形状登録のための学習ベースフレームワークを提案する。
伝統的な形状登録技術は、通常、外部近接によって引き起こされる対応に依存するため、大きな内在的変形が存在する場合に失敗する。
スペクトルマッピング法は、形状が整列しやすい高次元空間に幾何学的あるいは学習された形状を埋め込むことで、この課題を克服した。
しかし、抽象的で非線形な埋め込みスキームに依存するため、後者は摂動または異質な入力に関して脆弱である。
これを踏まえて、私たちのフレームワークは両方の世界を最大限に活用します。
具体的には,深部機能マップ(dfm)から学習した高次元埋め込みによる対応によって誘導される,ターゲットポイントクラウドに向かってソースメッシュを変形する。
特に、対応は中間登録に従って動的に更新され、一貫性が先行してフィルタされ、パイプライン全体のロバストが顕著になる。
さらに,高度に整列した入力の要求を緩和するために,dfmの訓練形状に依存しない一組の整列合成形状に向き付けレグレッシャを訓練する。
実験的な結果から,本研究のパイプラインは,限られた変動性のトレーニング形状が数十種類にも満たないため,非剛点クラウドマッチングのいくつかのベンチマークで最先端の結果が得られ,また,従来の登録手法や本質的な手法が機能しないような,目立たない難解な形状のペア間の高品質な適合性も示している。
コードはhttps://github.com/rqhuang88/dfrで入手できる。 In this paper, we propose a learning-based framework for non-rigid shape registration without correspondence supervision. Traditional shape registration techniques typically rely on correspondences induced by extrinsic proximity, therefore can fail in the presence of large intrinsic deformations. Spectral mapping methods overcome this challenge by embedding shapes into, geometric or learned, high-dimensional spaces, where shapes are easier to align. However, due to the dependency on abstract, non-linear embedding schemes, the latter can be vulnerable with respect to perturbed or alien input. In light of this, our framework takes the best of both worlds. Namely, we deform source mesh towards the target point cloud, guided by correspondences induced by high-dimensional embeddings learned from deep functional maps (DFM). In particular, the correspondences are dynamically updated according to the intermediate registrations and filtered by consistency prior, which prominently robustify the overall pipeline. Moreover, in order to alleviate the requirement of extrinsically aligned input, we train an orientation regressor on a set of aligned synthetic shapes independent of the training shapes for DFM. Empirical results show that, with as few as dozens of training shapes of limited variability, our pipeline achieves state-of-the-art results on several benchmarks of non-rigid point cloud matching, but also delivers high-quality correspondences between unseen challenging shape pairs that undergo both significant extrinsic and intrinsic deformations, in which case neither traditional registration methods nor intrinsic methods work. The code is available at https://github.com/rqhuang88/DFR. | 翻訳日:2023-11-09 16:51:09 公開日:2023-11-08 |
# 連鎖ネットワーク不平等の量子違反を用いたネットワーク内の非局所性共有 Sharing nonlocality in a network using the quantum violation of chain network inequality ( http://arxiv.org/abs/2311.04492v1 ) ライセンス: Link先を確認 | Rahul Kumar and A. K. Pan | (参考訳) 任意の$m$入力に対するスターネットワークにおける適切な$n$局所不等式に対する量子違反に基づいて、ネットワーク内の非局所性の共有を実証する。
このようなネットワークには、任意にn$の独立したソース、n$のエッジパーティ、そして中央のパーティがある。
各パーティは任意の$m$の入力を受け取る。
ネットワーク内の非局所性の共有には2つの異なる種類がある。
i) 対称の場合-非局所性の共有がすべてのエッジパーティ間で考慮される場合。
二 非対称の場合-非局所性の共有が一辺の当事者間でのみ考慮されるとき。
単純性のために、まず3つの入力を持つ双局所シナリオ $(n=2)$ を考え、対称の場合、ほとんどの2つのシーケンシャルオブザーバは非局所性を共有することができるが、非対称の場合、ほとんどの4つのシーケンシャルオブザーバは非局所性を共有することができることを示した。
我々は、各当事者が3つの入力を受け取り、対称の場合、結果は任意の$n$に対して同じであることを示すことによって、研究を$n$-局所シナリオに拡張するが、非対称の場合、非有界なシーケンシャルオブザーバの数が1つのエッジにわたって非局所性を共有して$n$の十分大きな値を求めることができる。
さらに、$n$-localシナリオで任意の$m$入力に対して結果を拡張します。
m\geq 4$ の場合、対称の場合、最大で1つのシーケンシャルなオブザーバは、$n$ の値に関係なく非局所性を共有することができる。
非対称の場合、解析的に$n(k)$が存在し、任意の$k$のシーケンシャルオブザーバが1つのエッジで非局所性を共有することができることを示す。
m$-input $n$-local 不等式における最適量子違反は、量子系の次元を指定せずにエレガントなsosアプローチによって導かれる。 Based on the quantum violation of suitable $n$-local inequality in a star network for arbitrary $m$ inputs, we demonstrate the sharing of nonlocality in the network. Such a network features an arbitrary $n$ number of independent sources, $n$ edge parties, and a central party. Each party receives arbitrary $m$ inputs. We consider two different types of sharing of nonlocality in the network. i) The symmetric case - when the sharing of nonlocality is considered across all edge parties. ii) The asymmetric case - when the sharing of nonlocality is considered across only one edge party. For simplicity, we first consider the bilocal scenario $(n=2)$ with three inputs $m=3$ and demonstrate that while in the symmetric case at most two sequential observers can share nonlocality, in the asymmetric case at most four sequential observers can share nonlocality. We extend the study to $n$-local scenario by assuming each party receives three inputs and show that in the symmetric case the result remains the same for any $n$, but in the asymmetrical case, an unbounded number of sequential observers can share nonlocality across one edge for a sufficiently large value of $n$. We further extend our result for arbitrary $m$ input in $n$-local scenario. We demonstrate that for $m\geq 4$, in the symmetric case at most one sequential observer can share nonlocality irrespective of the value of $n$. For the asymmetric case, we analytically show that there exists $n(k)$ for which an arbitrary $k$ number of sequential observers can share the nonlocality across one edge. The optimal quantum violation of $m$-input $n$-local inequality is derived through an elegant SOS approach without specifying the dimension of the quantum system. | 翻訳日:2023-11-09 16:50:41 公開日:2023-11-08 |
# 量子準備文脈を利用した汎用パリティ放送通信ゲーム Generalized parity-oblivious communication games powered by quantum preparation contextuality ( http://arxiv.org/abs/2311.04490v1 ) ライセンス: Link先を確認 | Prabuddha Roy and A. K. Pan | (参考訳) parity-oblivious random- Access-code (PORAC)は、送信機(Alice)と受信機(Bob)を含む通信ゲームの一種。
このようなゲームでは、アリスのボブへの通信量はパリティ公約(PO)条件に制約されるため、彼女の入力のパリティ情報はボブに不利なままである。
操作理論におけるpo条件は、準備の非文脈性を満たすオントロジモデルで等価に表現される。
本稿では,既存の二段階poracの非自明な一般化と,非文脈的オントロジモデルにおけるゲームの勝利確率の導出について述べる。
量子論は, 一般化poracにおける高い勝利確率を予測し, 非文脈モデルよりも優れていることを示す。 The parity-oblivious random-access-code (PORAC) is a class of communication games involving a sender (Alice) and a receiver (Bob). In such games, Alice's amount of communication to Bob is constraint by the parity-oblivious (PO) conditions, so that the parity information of her inputs remains oblivious to Bob. The PO condition in an operational theory is equivalently represented in an ontological model that satisfies the preparation noncontextuality. In this paper, we provide a nontrivial generalization of the existing two-level PORAC and derive the winning probability of the game in the preparation noncontextual ontological model. We demonstrate that the quantum theory outperforms the preparation noncontextual model by predicting higher winning probability in our generalized PORAC. | 翻訳日:2023-11-09 16:50:07 公開日:2023-11-08 |
# 原子-オプトメカニクス系における絡み合いと操舵のモノガミー Monogamy of entanglement and steering in an atom-optomechanical system ( http://arxiv.org/abs/2311.04488v1 ) ライセンス: Link先を確認 | Jamila Hmouch, Mohamed Amazioug and Mostafa Nassik | (参考訳) 本稿では,3つのモード,すなわちメカニカルモード,光学モード,原子モード間で共有される量子相関について理論的に検討する。
まず, キャビティ-コレクティブ原子モード結合と有効オプトメカニカル結合の変動が三部体の絡み合い挙動および三部体のステアリング進化に及ぼす影響について検討した。
そして、上記の結合にしたがって、ペアワイズ・アンタングルメントとバイパーティイト・ステアリングについて議論する。
したがって、絡み合い分布のモノガミーに加えて、ガウスステアリングの共有もモノガミーであり、CKW型モノガミー不等式は、選択された安定領域の3つのモードの全ての置換の下で完全に満たされる。
さらに, 三成分の絡み合いと三成分の操舵挙動の研究により, 真の三成分の絡み合い, 片方向, 両方向の操舵を行うための最適条件を知ることができた。 In this article, we theoretically study, in an atomic-optomechanical system, quantum correlations shared between three modes, namely mechanical mode, optical mode and atomic mode. We firstly investigate the combined effect of the variation of the cavity-collective atomic mode coupling and the effective optomechanical one, on the tripartite entanglement behavior as well as on tripartite steering evolution. Then, we discuss pairwise entanglement and bipartite steering according to the aforementioned couplings. Consequently, besides monogamy of the entanglement distribution, the sharing of Gaussian steering is also monogamous, thus the CKW-type monogamy inequalities are fully satisfied under all permutations of the three considered modes in a chosen stable region. In addition, the study of tripartite entanglement and tripartite steering behaviors leads to know the optimal conditions to generate genuine tripartite entanglement, one-way and two-way steering. | 翻訳日:2023-11-09 16:49:53 公開日:2023-11-08 |
# 非シャープ測定のデバイス非依存自己テスト Device-independent self-testing of unsharp measurements ( http://arxiv.org/abs/2311.04485v1 ) ライセンス: Link先を確認 | Prabuddha Roy and A. K. Pan | (参考訳) 近年, 量子ビットを前提とした準備通信ゲームにおいて, 量子アドバンテージの逐次的共有に基づいて, 半デバイス非依存による非シャープ機器の認証が実証されている(New J. Phys. 21 083034 (2019))。
本研究では, デバイスが非特性化され, システム寸法が不明なベル不等式2つの量子違反により, 非シャープ機器のデバイス非依存(DI)自己検査を行う。
本稿では,ベル不等式に対する次元非依存的最適量子違反を導出するエレガントな二乗和法を提案する。
標準ベルテストは、測定後の状態の自己テストができず、その結果、非シャープな装置の自己テストができないことに注意されたい。
シーケンシャルベルテストは、非シャープな楽器を自己テストする可能性を秘めている。
そこで本研究では,クロージャ・ホーン・シモニー・ホルトの不等式における最大逐次量子違反のトレードオフが存在することを証明し,エンタングル状態,可観測値,非シャープ性パラメータのdi自己テストを可能にする最適ペアを形成する。
さらに,本研究をエレガントベルの不等式の場合にまで拡張し,局所境界と非自明な非文脈境界の2つの古典境界が存在することを論じた。
3つの独立したシーケンシャルオブザーバによる準備コンテキストの共有に基づいて、2つの非シャープ性パラメータのdi自己テストを示す。
実際の実験シナリオでは損失と欠陥が伴うため、ノイズに対する認証の堅牢性を示す。 Semi-device-independent certification of an unsharp instrument has recently been demonstrated [New J. Phys. 21, 083034 (2019)] based on the sequential sharing of quantum advantages in a prepare-measure communication game by assuming the system to be qubit. In this work, we provide device-independent (DI) self-testing of the unsharp instrument through the quantum violation of two Bell inequalities where the devices are uncharacterized and the dimension of the system remains unspecified. We introduce an elegant sum-of-squares approach to derive the dimension-independent optimal quantum violation of Bell inequalities which plays a crucial role. Note that the standard Bell test cannot self-test the post-measurement states and consequently cannot self-test unsharp instrument. The sequential Bell test possess the potential to self-test an unsharp instrument. We demonstrate that there exists a trade-off between the maximum sequential quantum violations of the Clauser-Horne-Shimony-Holt inequality, and they form an optimal pair that enables the DI self-testing of the entangled state, the observables, and the unsharpness parameter. Further, we extend our study to the case of elegant Bell inequality and we argue that it has two classical bounds - the local bound and the non-trivial preparation non-contextual bound, lower than the local bound. Based on the sharing of preparation contextuality by three independent sequential observers, we demonstrate the DI self-testing of two unsharpness parameters. Since an actual experimental scenario involves losses and imperfection, we demonstrate robustness of our certification to noise. | 翻訳日:2023-11-09 16:49:35 公開日:2023-11-08 |
# 多変量機能主成分分析における成分数推定について On the estimation of the number of components in multivariate functional principal component analysis ( http://arxiv.org/abs/2311.04540v1 ) ライセンス: Link先を確認 | Steven Golovkine and Edward Gunning and Andrew J. Simpkin and Norma Bargary | (参考訳) Happ and Greven (2018) は、異なる次元領域で観測されたデータに対する多変量関数データの主成分分析のための方法論を開発した。
彼らのアプローチは、各不定機能特徴に対する不定機能主成分の推定に依存している。
本稿では,保持する主成分数を選択するための広範囲なシミュレーションについて述べる。
本研究では,多変量機能データにおける分散の全体的パーセンテージを説明するために,各単変量機能特徴に対して,従来の分散説明しきい値を用いた手法は信頼できない可能性があることを実証的に示す。 Happ and Greven (2018) developed a methodology for principal components analysis of multivariate functional data for data observed on different dimensional domains. Their approach relies on an estimation of univariate functional principal components for each univariate functional feature. In this paper, we present extensive simulations to investigate choosing the number of principal components to retain. We show empirically that the conventional approach of using a percentage of variance explained threshold for each univariate functional feature may be unreliable when aiming to explain an overall percentage of variance in the multivariate functional data, and thus we advise practitioners to be careful when using it. | 翻訳日:2023-11-09 16:43:03 公開日:2023-11-08 |
# バグ自動再現のための多言語多言語モデルの評価 Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction ( http://arxiv.org/abs/2311.04532v1 ) ライセンス: Link先を確認 | Sungmin Kang, Juyeon Yoon, Nargiz Askarbekkyzy, Shin Yoo | (参考訳) バグレポートは自然言語であることが多いため、常にテストケースに変換することが難しいため、バグ再現は自動化が難しい重要な開発者活動である。
その結果、既存のテクニックはクラッシュバグに重点を置いており、自動検出や検証が容易である。
本研究では,自然言語処理やコード生成に長けていることが証明された大規模言語モデル(LLM)を用いることで,この制限を克服する。
LLMにバグを再現するテストを生成するよう促すことで、後処理パイプラインを使って予測されるテストを自動的に識別することで、提案手法は広く使用されているDefects4Jベンチマークの3分の1のバグを再現することができた。
さらに,11個のオープンソース LLM を含む15個の LLM に関する広範な評価から,オープンソース LLM は,大規模な Defects4J ベンチマークでクローズドソース OpenAI LLM code-davinci-002 の再現性能の 70% を達成し,LLM のトレーニングデータに含まれない可能性のあるホールドアウトバグデータセットのパフォーマンスの 90% を達成している。
さらに, LIBROを用いたLLM実験により, LLMのサイズが大きくなるにつれて, LIBROを用いたバグ再現が向上し, LLMをLIBROパイプラインで使用可能な情報が得られることを示した。 Bug reproduction is a critical developer activity that is also challenging to automate, as bug reports are often in natural language and thus can be difficult to transform to test cases consistently. As a result, existing techniques mostly focused on crash bugs, which are easier to automatically detect and verify. In this work, we overcome this limitation by using large language models (LLMs), which have been demonstrated to be adept at natural language processing and code generation. By prompting LLMs to generate bug-reproducing tests, and via a post-processing pipeline to automatically identify promising generated tests, our proposed technique LIBRO could successfully reproduce about one-third of all bugs in the widely used Defects4J benchmark. Furthermore, our extensive evaluation on 15 LLMs, including 11 open-source LLMs, suggests that open-source LLMs also demonstrate substantial potential, with the StarCoder LLM achieving 70% of the reproduction performance of the closed-source OpenAI LLM code-davinci-002 on the large Defects4J benchmark, and 90% of performance on a held-out bug dataset likely not part of any LLM's training data. In addition, our experiments on LLMs of different sizes show that bug reproduction using LIBRO improves as LLM size increases, providing information as to which LLMs can be used with the LIBRO pipeline. | 翻訳日:2023-11-09 16:42:52 公開日:2023-11-08 |
# 波動方程式逆問題に対する教師なしディープラーニング手法 An Unsupervised Deep Learning Approach for the Wave Equation Inverse Problem ( http://arxiv.org/abs/2311.04531v1 ) ライセンス: Link先を確認 | Xiong-Bin Yan and Keke Wu and Zhi-Qin John Xu and Zheng Ma | (参考訳) フルウェーブフォーム・インバージョン(FWI)は、非凸最適化問題を解くことで高分解能地下物理パラメータを推論する強力な物理画像技術である。
しかし、例えば、制限されたショットや受信機、ランダムノイズなどの観測の限界により、従来の逆転法は局所最小問題のような多くの課題に直面している。
近年、深いニューラルネットワークと偏微分方程式の統合により、フルウェーブフォーム逆問題を解くことが有望な性能を示していることが実証されている。
本研究では,ニューラルネットワークの表現能力からインスピレーションを得て,地下の物理速度パラメータを正確に再構成することを目的とした教師なし学習手法を提案する。
この方法は、ランダムな重み付きディープニューラルネットワークによって達成されるベイズ推論の再パラメータ化技術に基づいている。
特に,提案手法はラベル付きトレーニングデータセットの要件には依存せず,多種多様な地下モデルに適用可能な汎用性を備えている。
大規模な実験により,提案手法は従来の逆転法よりも顕著に優れた性能を示した。 Full-waveform inversion (FWI) is a powerful geophysical imaging technique that infers high-resolution subsurface physical parameters by solving a non-convex optimization problem. However, due to limitations in observation, e.g., limited shots or receivers, and random noise, conventional inversion methods are confronted with numerous challenges, such as the local-minimum problem. In recent years, a substantial body of work has demonstrated that the integration of deep neural networks and partial differential equations for solving full-waveform inversion problems has shown promising performance. In this work, drawing inspiration from the expressive capacity of neural networks, we provide an unsupervised learning approach aimed at accurately reconstructing subsurface physical velocity parameters. This method is founded on a re-parametrization technique for Bayesian inference, achieved through a deep neural network with random weights. Notably, our proposed approach does not hinge upon the requirement of the labeled training dataset, rendering it exceedingly versatile and adaptable to diverse subsurface models. Extensive experiments show that the proposed approach performs noticeably better than existing conventional inversion methods. | 翻訳日:2023-11-09 16:42:25 公開日:2023-11-08 |
# 位置ベースクリックモデルでランク付けするバンド学習:パーソナライズと平等な治療 Bandit Learning to Rank with Position-Based Click Models: Personalized and Equal Treatments ( http://arxiv.org/abs/2311.04528v1 ) ライセンス: Link先を確認 | Tianchen Zhou, Jia Liu, Yang Jiao, Chaosheng Dong, Yetian Chen, Yan Gao, Yi Sun | (参考訳) online learning to rank (onl2r) はレコメンダシステムの基礎的な問題であり、近年注目を集めている。
ONL2Rの既存のアプローチの中で、自然モデリングアーキテクチャは、位置ベースクリックモデルと組み合わせたマルチアームバンディットフレームワークである。
しかし、位置ベースクリックモデルを用いたMABベースのONL2Rの効率的なオンライン学習ポリシーの開発は、問題の組合せの性質と位置ベースクリックモデルにおける部分的可観測性により、非常に困難である。
現在までに、位置ベースのクリックモデルを持つMABベースのONL2Rの結果はかなり限定的であり、この作業のギャップを埋める動機となっている。
この仕事の主な貢献は3つあります。
i) 位置ベースクリックモデルを用いてONL2Rのすべての重要な成分をキャプチャする最初の汎用MABフレームワークを提案する。
本モデルでは,ONL2Rの格付け勧告におけるパーソナライズと同等の扱いについて検討する。
二 上記の分析枠組みに基づき、GreedyRank とUCBRank という2つの統合されたgreed- and UCB-based Policyを策定し、それぞれがパーソナライズ及び同等のランキング処理に適用することができる。
iii) greedyrank と ucbrank がそれぞれ$o(\sqrt{t}\ln t)$ と $o(\sqrt{t\ln t})$ を享受していることを示す。
根本的な難解な等ランク処理では、集合的ユーティリティ関数のクラスとそれに関連する十分条件を識別し、そこでは$o(\sqrt{t}\ln t)$ と $o(\sqrt{t\ln t})$ がそれぞれグリーディランクとucbrankに対して依然として達成可能である。
また, 数値実験により, 種々の問題条件下での最適行動を求める上でのGreedyRankとUCBRankの有効性を検証した。 Online learning to rank (ONL2R) is a foundational problem for recommender systems and has received increasing attention in recent years. Among the existing approaches for ONL2R, a natural modeling architecture is the multi-armed bandit framework coupled with the position-based click model. However, developing efficient online learning policies for MAB-based ONL2R with position-based click models is highly challenging due to the combinatorial nature of the problem, and partial observability in the position-based click model. To date, results in MAB-based ONL2R with position-based click models remain rather limited, which motivates us to fill this gap in this work. Our main contributions in this work are threefold: i) We propose the first general MAB framework that captures all key ingredients of ONL2R with position-based click models. Our model considers personalized and equal treatments in ONL2R ranking recommendations, both of which are widely used in practice; ii) Based on the above analytical framework, we develop two unified greed- and UCB-based policies called GreedyRank and UCBRank, each of which can be applied to personalized and equal ranking treatments; and iii) We show that both GreedyRank and UCBRank enjoy $O(\sqrt{t}\ln t)$ and $O(\sqrt{t\ln t})$ anytime sublinear regret for personalized and equal treatment, respectively. For the fundamentally hard equal ranking treatment, we identify classes of collective utility functions and their associated sufficient conditions under which $O(\sqrt{t}\ln t)$ and $O(\sqrt{t\ln t})$ anytime sublinear regrets are still achievable for GreedyRank and UCBRank, respectively. Our numerical experiments also verify our theoretical results and demonstrate the efficiency of GreedyRank and UCBRank in seeking the optimal action under various problem settings. | 翻訳日:2023-11-09 16:42:07 公開日:2023-11-08 |
# 拡張論文:静的型付け実装のテストのためのAPI駆動プログラム合成 Extended Paper: API-driven Program Synthesis for Testing Static Typing Implementations ( http://arxiv.org/abs/2311.04527v1 ) ライセンス: Link先を確認 | Thodoris Sotiropoulos, Stefanos Chaliasos, Zhendong Su | (参考訳) 本稿では,API駆動型プログラム合成の概念に基づいて静的型付けの実装をテストする新しい手法を提案する。
既存のソフトウェアライブラリから派生したアプリケーションプログラミングインターフェース(api)を活用し、組み合わせることで、型集中型だが、小さく、よく型付けされたプログラムを合成する。
多数のコンパイラ型付けのバグは、テスト対象の言語の標準ライブラリからapiを使用する小さなテストケースによって引き起こされます。
これは、これらのapiの大部分に固有の複雑さが原因で、多くの高度な型関連機能をしばしば実行している。
このアプローチの主な貢献は、スクラッチから対応する well-formed API 定義を生成する負担を負わずに、機能カバレッジが向上した小さなクライアントプログラムを作成できることです。
静的型付け手順のさまざまな側面(健全性、型推論の精度など)を検証するために、私たちは、api駆動アプローチをフォールトインジェクションとセマンティクス保存モードとともに、対応するテストオラクルとともに強化しています。
実装されたツールであるTaliaを評価し、Scala、Kotlin、Groovyという3つの人気のある言語でコンパイラの静的型付け実装をテストする。
Thaliaは84のタイプバグ(77の確認と22の修正)を明らかにした。その大部分は、パラメトリック多型、オーバーロード、高階関数に依存するAPIを備えたテストケースによって引き起こされたものだ。
我々の最先端と比較すると、タリアは異なる特徴を持つテストプログラムを産み出し、追加的かつ補完的な利点を提供する。 We introduce a novel approach for testing static typing implementations based on the concept of API-driven program synthesis. The idea is to synthesize type-intensive but small and well-typed programs by leveraging and combining application programming interfaces (APIs) derived from existing software libraries. Our primary insight is backed up by real-world evidence: a significant number of compiler typing bugs are caused by small test cases that employ APIs from the standard library of the language under test. This is attributed to the inherent complexity of the majority of these APIs, which often exercise a wide range of sophisticated type-related features. The main contribution of our approach is the ability to produce small client programs with increased feature coverage, without bearing the burden of generating the corresponding well-formed API definitions from scratch. To validate diverse aspects of static typing procedures (i.e., soundness, precision of type inference), we also enrich our API-driven approach with fault-injection and semantics-preserving modes, along with their corresponding test oracles. We evaluate our implemented tool, Thalia on testing the static typing implementations of the compilers for three popular languages, namely, Scala, Kotlin, and Groovy. Thalia has uncovered 84 typing bugs (77 confirmed and 22 fixed), most of which are triggered by test cases featuring APIs that rely on parametric polymorphism, overloading, and higher-order functions. Our comparison with state-of-the-art shows that Thalia yields test programs with distinct characteristics, offering additional and complementary benefits. | 翻訳日:2023-11-09 16:41:20 公開日:2023-11-08 |
# 分解と神経常微分方程式に基づく長期時系列予測 Long-term Time Series Forecasting based on Decomposition and Neural Ordinary Differential Equations ( http://arxiv.org/abs/2311.04522v1 ) ライセンス: Link先を確認 | Seonkyu Lim, Jaehyeon Park, Seojin Kim, Hyowon Wi, Haksoo Lim, Jinsung Jeon, Jeongwhan Choi, Noseong Park | (参考訳) 長期時系列予測(ltsf:long-term time series forecasting)は、金融投資、医療、交通、気象予報など様々な分野で研究されてきた課題である。
近年,線形型ltsfモデルの性能が向上し,時間的情報損失の原因となるトランスフォーマティブ・アプローチの問題が指摘されている。
しかし、Linearベースのアプローチには、データセットの特徴を包括的に活用するにはモデルが単純すぎるという制限もある。
これらの制約を解決するために,線形常微分方程式(ODE)に基づくモデルと,データ統計特性に応じた時系列分解法を応用したLTSF-DNODEを提案する。
LTSF-DNODEは様々な実世界のデータセットのベースラインよりも優れていることを示す。
さらに、各データセットに対して、ニューラル常微分方程式(NODE)フレームワークにおける正規化の影響について検討する。 Long-term time series forecasting (LTSF) is a challenging task that has been investigated in various domains such as finance investment, health care, traffic, and weather forecasting. In recent years, Linear-based LTSF models showed better performance, pointing out the problem of Transformer-based approaches causing temporal information loss. However, Linear-based approach has also limitations that the model is too simple to comprehensively exploit the characteristics of the dataset. To solve these limitations, we propose LTSF-DNODE, which applies a model based on linear ordinary differential equations (ODEs) and a time series decomposition method according to data statistical characteristics. We show that LTSF-DNODE outperforms the baselines on various real-world datasets. In addition, for each dataset, we explore the impacts of regularization in the neural ordinary differential equation (NODE) framework. | 翻訳日:2023-11-09 16:40:50 公開日:2023-11-08 |
# 非ポーズ画像からのニューラルラジアンス場に対するロバストなマルチスケール表現の学習 Learning Robust Multi-Scale Representation for Neural Radiance Fields from Unposed Images ( http://arxiv.org/abs/2311.04521v1 ) ライセンス: Link先を確認 | Nishant Jain, Suryansh Kumar, Luc Van Gool | (参考訳) 本稿では,コンピュータビジョンにおけるニューラルイメージベースレンダリング問題に対する改良解を提案する。
列車内で自由移動カメラから撮影された画像のセットを考えると、提案手法はテスト時の新しい視点からシーンの現実的なイメージを合成することができる。
この論文で提示される主要なアイデアは
(i)不用意な日々の画像からロバストなパイプラインを介して正確なカメラパラメータを復元することは、ニューラルノベルのビュー合成問題において等しく重要である。
(II)劇的なカメラの動きは、日々の未提示画像において非常に起こりやすいため、異なる解像度でオブジェクトのコンテンツをモデル化することはより現実的である。
キーとなるアイデアを取り入れるために、シーンの剛性、マルチスケールのニューラルシーン表現、シングルイメージの深さ予測の基礎を利用する。
具体的には,ニューラルフィールドに基づくモデリングフレームワークにおいて,カメラパラメータを学習可能とする手法を提案する。
ビュー毎の深度予測がスケールに与えられていると仮定することで、フレーム間の相対的なポーズを制約する。
相対的なポーズから、絶対的なカメラポーズ推定は、マルチスケールニューラルネットワーク内のグラフニューラルネットワークに基づくマルチモーション平均化によってモデル化され、単一損失関数が導かれる。
導入された損失関数の最適化は、カメラ内在性、外部性、および未設定の画像からのレンダリングを提供する。
実例では,日常的に取得した未取得の多視点画像から,複数スケールのニューラルシーン表現を正確にモデル化するための統一フレームワークが,シーン表現フレームワーク内で正確なカメラ配置推定を行うことが重要であることを実証する。
カメラポーズ推定パイプラインにおけるロバスト性測定を考慮せずに、マルチスケールエイリアスアーティファクトのモデリングは非生産的である。
提案手法の適合性を示すため,いくつかのベンチマークデータセットについて広範な実験を行った。 We introduce an improved solution to the neural image-based rendering problem in computer vision. Given a set of images taken from a freely moving camera at train time, the proposed approach could synthesize a realistic image of the scene from a novel viewpoint at test time. The key ideas presented in this paper are (i) Recovering accurate camera parameters via a robust pipeline from unposed day-to-day images is equally crucial in neural novel view synthesis problem; (ii) It is rather more practical to model object's content at different resolutions since dramatic camera motion is highly likely in day-to-day unposed images. To incorporate the key ideas, we leverage the fundamentals of scene rigidity, multi-scale neural scene representation, and single-image depth prediction. Concretely, the proposed approach makes the camera parameters as learnable in a neural fields-based modeling framework. By assuming per view depth prediction is given up to scale, we constrain the relative pose between successive frames. From the relative poses, absolute camera pose estimation is modeled via a graph-neural network-based multiple motion averaging within the multi-scale neural-fields network, leading to a single loss function. Optimizing the introduced loss function provides camera intrinsic, extrinsic, and image rendering from unposed images. We demonstrate, with examples, that for a unified framework to accurately model multiscale neural scene representation from day-to-day acquired unposed multi-view images, it is equally essential to have precise camera-pose estimates within the scene representation framework. Without considering robustness measures in the camera pose estimation pipeline, modeling for multi-scale aliasing artifacts can be counterproductive. We present extensive experiments on several benchmark datasets to demonstrate the suitability of our approach. | 翻訳日:2023-11-09 16:40:38 公開日:2023-11-08 |
# 適応ミラー降下二レベル最適化 Adaptive Mirror Descent Bilevel Optimization ( http://arxiv.org/abs/2311.04520v1 ) ライセンス: Link先を確認 | Feihu Huang | (参考訳) 本稿では,非凸二レベル最適化のミラー降下に基づく効率的な適応的二レベル手法のクラスを提案し,その上層問題は非滑らかな正規化を伴う可能性があり,下層問題もまた非凸であり,Polyak-{\L}ojasiewicz (PL) 条件を満たす。
これらの決定論的双レベル問題を解くために、鏡面降下に基づく効率的な適応射影支援勾配(AdaPAG)法を提案し、非凸双レベル問題の$\epsilon$-stationary解を求めるために$O(\epsilon^{-1})$の最もよく知られた勾配複雑性を求める。
これらの確率的双レベル問題を解決するために,鏡面降下法と分散還元法に基づく適応確率的射影支援勾配(AdaVSPAG)法を提案し,$O(\epsilon^{-3/2})$を$\epsilon$-stationary解を求めるために最もよく知られた勾配複雑性を求める。
PL条件は強凸を緩和するので、我々のアルゴリズムは強凸二値最適化に利用できる。
理論的には、いくつかの穏やかな条件下での方法に対して有用な収束解析フレームワークを提供し、この手法がより高速な収束率である $o(\frac{1}{t})$ を示し、ここで$t$ は反復数を表す。 In the paper, we propose a class of efficient adaptive bilevel methods based on mirror descent for nonconvex bilevel optimization, where its upper-level problem is nonconvex possibly with nonsmooth regularization, and its lower-level problem is also nonconvex while satisfies Polyak-{\L}ojasiewicz (PL) condition. To solve these deterministic bilevel problems, we present an efficient adaptive projection-aid gradient (i.e., AdaPAG) method based on mirror descent, and prove that it obtains the best known gradient complexity of $O(\epsilon^{-1})$ for finding an $\epsilon$-stationary solution of nonconvex bilevel problems. To solve these stochastic bilevel problems, we propose an efficient adaptive stochastic projection-aid gradient (i.e., AdaVSPAG) methods based on mirror descent and variance-reduced techniques, and prove that it obtains the best known gradient complexity of $O(\epsilon^{-3/2})$ for finding an $\epsilon$-stationary solution. Since the PL condition relaxes the strongly convex, our algorithms can be used to nonconvex strongly-convex bilevel optimization. Theoretically, we provide a useful convergence analysis framework for our methods under some mild conditions, and prove that our methods have a fast convergence rate of $O(\frac{1}{T})$, where $T$ denotes the number of iterations. | 翻訳日:2023-11-09 16:40:03 公開日:2023-11-08 |
# AIの民主化に向けて: サービスプラットフォームとしてのAIと機械学習アプローチのためのオープンスペースの比較分析 Towards Democratizing AI: A Comparative Analysis of AI as a Service Platforms and the Open Space for Machine Learning Approach ( http://arxiv.org/abs/2311.04518v1 ) ライセンス: Link先を確認 | Dennis Rall, Bernhard Bauer, Thomas Fraunholz | (参考訳) 最近のAI研究は、AIを適用するための障壁を著しく減らしているが、必要なツールやフレームワークを設定するプロセスは依然として課題である。
AIモデルのトレーニングとデプロイを簡略化するために、AI-as-a-Serviceプラットフォームが登場したが、それでもAIの真の民主化を達成するには至っていない。
本稿では、いくつかの一般的なAI-as-a-Serviceプラットフォームを比較し、AIの真の民主化を実現するプラットフォームの主要な要件を特定することで、このギャップに対処することを目的とする。
分析では、セルフホスティングオプション、高スケーラビリティ、オープン性の必要性を強調する。
これらの要件に対処するために,我々は,このアプローチである"機械学習のオープンスペース"を提案する。
私たちのプラットフォームは、KubernetesやKubeflow Pipelines、Ludwigといった最先端技術に基づいて構築されています。
当社のアプローチは,既存のAI・アズ・ア・サービスプラットフォームよりも,AIの民主化要件を満たす上で,より包括的で効果的なものだ,と私たちは主張する。 Recent AI research has significantly reduced the barriers to apply AI, but the process of setting up the necessary tools and frameworks can still be a challenge. While AI-as-a-Service platforms have emerged to simplify the training and deployment of AI models, they still fall short of achieving true democratization of AI. In this paper, we aim to address this gap by comparing several popular AI-as-a-Service platforms and identifying the key requirements for a platform that can achieve true democratization of AI. Our analysis highlights the need for self-hosting options, high scalability, and openness. To address these requirements, we propose our approach: the "Open Space for Machine Learning" platform. Our platform is built on cutting-edge technologies such as Kubernetes, Kubeflow Pipelines, and Ludwig, enabling us to overcome the challenges of democratizing AI. We argue that our approach is more comprehensive and effective in meeting the requirements of democratizing AI than existing AI-as-a-Service platforms. | 翻訳日:2023-11-09 16:39:20 公開日:2023-11-08 |
# Big-Meansアルゴリズムの並列化戦略: 効果的なビッグデータクラスタリングのための総合的チュートリアル Strategies for Parallelizing the Big-Means Algorithm: A Comprehensive Tutorial for Effective Big Data Clustering ( http://arxiv.org/abs/2311.04517v1 ) ライセンス: Link先を確認 | Ravil Mussabayev and Rustam Mussabayev | (参考訳) 本研究では,大規模データセットをクラスタリングするためのBig-meansアルゴリズムの最適化に注目し,4つの異なる並列化戦略を探索する。
各アプローチの計算効率,スケーラビリティ,クラスタリング性能を評価し,そのメリットと限界を明らかにするため,広範な実験を行った。
また,計算効率とクラスタリング品質のトレードオフについても検討し,各種要因の影響について検討した。
今回の知見は,利用可能なリソースとデータセット特性に基づく最良並列化戦略の選択に関する実践的ガイダンスを提供し,big-meansアルゴリズムの並列化手法のより深い理解に寄与する。 This study focuses on the optimization of the Big-means algorithm for clustering large-scale datasets, exploring four distinct parallelization strategies. We conducted extensive experiments to assess the computational efficiency, scalability, and clustering performance of each approach, revealing their benefits and limitations. The paper also delves into the trade-offs between computational efficiency and clustering quality, examining the impacts of various factors. Our insights provide practical guidance on selecting the best parallelization strategy based on available resources and dataset characteristics, contributing to a deeper understanding of parallelization techniques for the Big-means algorithm. | 翻訳日:2023-11-09 16:38:48 公開日:2023-11-08 |
# 長距離量子資源挙動を用いた量子相の診断 Diagnosing Quantum Phases Using Long-Range Two-Site Quantum Resource Behaviors ( http://arxiv.org/abs/2311.04514v1 ) ライセンス: Link先を確認 | Lin-Lin Su, Jun Ren, Wen-Long Ma, Z. D. Wang, and Yan-Kui Bai | (参考訳) 本研究では,長距離2サイト量子資源の挙動が量子相を効果的に診断できることを示す。
対称性を破る量子相転移を持つXXスピン鎖において、量子コヒーレンスまたは量子不協和の漸近的および振動する減衰モードが2点距離とともに2つのスピン液相を同定できることを明らかにする。
さらに, スピン相関関数の解析結果に基づいて, システム内における長距離絡み合いの存在を確認し, 2サイト絡み合いと量子位相の関係を確立する。
さらに、位相相転移を持つ拡張イジングモデルでは、コヒーレンスと量子不和の振る舞いも位相的量子位相を表すことができる。
特に、位相的に保護された長距離量子資源が量子情報処理に潜在的に応用できる量子資源凍結現象を発見する。 We propose and demonstrate that the behaviors of long-range, two-site quantum resources can effectively diagnose quantum phases. In an XX spin chain with symmetry-breaking quantum phase transitions, we reveal that the asymptotic and oscillating decay modes of quantum coherence or quantum discord, along with two-site distance, can identify two spin-liquid phases. Furthermore, based on our analytical results of spin correlation functions, we confirm the existence of long-range entanglement in the system and establish a connection between two-site entanglement and quantum phases. Additionally, for the extended Ising model with topological phase transitions, we find that coherence and quantum discord behaviors can also signify topological quantum phases. In particular, we discover the quantum resource freezing phenomenon, where topologically protected long-range quantum resources may have potential applications in quantum information processing. | 翻訳日:2023-11-09 16:38:28 公開日:2023-11-08 |
# FFINet:モーション予測のためのフィードバックインタラクションネットワーク FFINet: Future Feedback Interaction Network for Motion Forecasting ( http://arxiv.org/abs/2311.04512v1 ) ライセンス: Link先を確認 | Miao Kang, Shengqi Wang, Sanping Zhou, Ke Ye, Jingjing Jiang, Nanning Zheng | (参考訳) 移動予測は、交通機関の将来の合理的な動きを予測することを目的として、自動運転において重要な役割を果たす。
既存のほとんどの手法は、エージェントと環境の間の歴史的相互作用をモデル化し、エージェント間の将来の相互作用による潜在的な軌道変化を無視し、フィードフォワードプロセスにおけるマルチモーダル軌道を予測する。
本稿では、軌道予測のための現在の観測と潜在的な未来の相互作用を集約する、新しいFuture Feedback Interaction Network(FFINet)を提案する。
まず,各シーンの分解位置ベクトルと現在位置を埋め込むために,異なる空間・時空間エンコーダを用い,後続の時空間アグリゲーションに豊富な特徴を提供する。
第2に,現在のフュージョンモジュール,観測インタラクションモジュール,将来のフィードバックモジュール,グローバルフュージョンモジュールの機能を統合するために,相対的インタラクションと時空間的アグリゲーション戦略を順次採用し,プレビュー情報の影響をフィードフォワード予測に与えることで,将来のフィードバックモジュールがプレアクションの理解を可能にする。
第3に、包括的相互作用特徴はさらに最終予測器に供給され、複数のエージェントの結合予測軌道を生成する。
我々のFFINetはArgoverse 1 と Argoverse 2 の動作予測ベンチマークで最先端の性能を達成している。 Motion forecasting plays a crucial role in autonomous driving, with the aim of predicting the future reasonable motions of traffic agents. Most existing methods mainly model the historical interactions between agents and the environment, and predict multi-modal trajectories in a feedforward process, ignoring potential trajectory changes caused by future interactions between agents. In this paper, we propose a novel Future Feedback Interaction Network (FFINet) to aggregate features the current observations and potential future interactions for trajectory prediction. Firstly, we employ different spatial-temporal encoders to embed the decomposed position vectors and the current position of each scene, providing rich features for the subsequent cross-temporal aggregation. Secondly, the relative interaction and cross-temporal aggregation strategies are sequentially adopted to integrate features in the current fusion module, observation interaction module, future feedback module and global fusion module, in which the future feedback module can enable the understanding of pre-action by feeding the influence of preview information to feedforward prediction. Thirdly, the comprehensive interaction features are further fed into final predictor to generate the joint predicted trajectories of multiple agents. Extensive experimental results show that our FFINet achieves the state-of-the-art performance on Argoverse 1 and Argoverse 2 motion forecasting benchmarks. | 翻訳日:2023-11-09 16:37:50 公開日:2023-11-08 |
# 深層学習による添加ガウス雑音下の確率力学に対するfpk方程式の解法 Solution of FPK Equation for Stochastic Dynamics Subjected to Additive Gaussian Noise via Deep Learning Approach ( http://arxiv.org/abs/2311.04511v1 ) ライセンス: Link先を確認 | Amir H. Khodabakhsh, Seid H. Pourtakdoust | (参考訳) fokker-plank-kolmogorov (fpk) 方程式は、確率構造の解析や他の多くの応用でよく見られる多くの確率体系を表現する理想化されたモデルである。
このソリューションは、多くのエンジニアリングシステムのパフォーマンスに対する貴重な洞察を提供する。
その重要性にもかかわらず、FPK方程式の解は依然として非常に難しい。
実用的重要性のシステムでは、FPK方程式は通常高次元であり、数値的な方法のほとんどを効果的にしない。
この点に関して、本研究では、物理学的洞察、すなわち物理法則から生じる支配的制約付き微分方程式を、ディープニューラルネットワークに符号化する物理インフォーメーションネットワークとしてfpk-dp netを導入する。
FPK-DPネットは、事前のシミュレーションデータなしで付加的な白色ガウス雑音を受ける確率力学の密度変化を解き、その後に効率的な代理モデルとして使用できるメッシュフリー学習法である。
FPK-DPネットは次元還元FPK方程式を用いる。
したがって、高次元の実践的な問題にも対処することができる。
提案手法の適用可能性を示し,その精度と有効性を検討するため,5つのベンチマーク問題に対する数値的実装について検討した。 The Fokker-Plank-Kolmogorov (FPK) equation is an idealized model representing many stochastic systems commonly encountered in the analysis of stochastic structures as well as many other applications. Its solution thus provides an invaluable insight into the performance of many engineering systems. Despite its great importance, the solution of the FPK equation is still extremely challenging. For systems of practical significance, the FPK equation is usually high dimensional, rendering most of the numerical methods ineffective. In this respect, the present work introduces the FPK-DP Net as a physics-informed network that encodes the physical insights, i.e. the governing constrained differential equations emanated out of physical laws, into a deep neural network. FPK-DP Net is a mesh-free learning method that can solve the density evolution of stochastic dynamics subjected to additive white Gaussian noise without any prior simulation data and can be used as an efficient surrogate model afterward. FPK-DP Net uses the dimension-reduced FPK equation. Therefore, it can be used to address high-dimensional practical problems as well. To demonstrate the potential applicability of the proposed framework, and to study its accuracy and efficacy, numerical implementations on five different benchmark problems are investigated. | 翻訳日:2023-11-09 16:37:23 公開日:2023-11-08 |
# 集団カウントのための識別的特徴の学習 Learning Discriminative Features for Crowd Counting ( http://arxiv.org/abs/2311.04509v1 ) ライセンス: Link先を確認 | Yuehai Chen | (参考訳) 人口密集地域における群集計数モデルは,前景と背景を区別する能力の弱さと難易度という2つの課題に直面し,不正確な推定に繋がる。
その理由は、密集した領域のオブジェクトは通常小さく、畳み込みニューラルネットワークによって抽出されるハイレベルな特徴は小さなオブジェクトを表すのに差別的ではないためである。
これらの問題に対処するために,マスク付き特徴予測モジュール (MPM) と教師付き画素レベルのコントラスト学習モジュール (CLM) で構成される,クラウドカウントのための学習識別機能フレームワークを提案する。
MPMは、特徴マップ内の特徴ベクトルをランダムにマスキングし、それらを再構成することで、マスクされた領域に存在するものについてモデルを学習し、高密度領域でオブジェクトをローカライズする能力を向上させる。
clmはターゲットを互いに近づけて、特徴空間の背景から遠ざけ、モデルがフォアグラウンドオブジェクトを背景から区別できるようにする。
さらに、提案するモジュールは、密集したシーンや乱雑な環境が正確なローカライゼーションに困難をもたらす、クラウドカウントやオブジェクト検出など、様々なコンピュータビジョンタスクに有用である。
提案された2つのモジュールはプラグ・アンド・プレイであり、既存のモデルに提案されたモジュールを組み込むことで、これらのシナリオでパフォーマンスが向上する可能性がある。 Crowd counting models in highly congested areas confront two main challenges: weak localization ability and difficulty in differentiating between foreground and background, leading to inaccurate estimations. The reason is that objects in highly congested areas are normally small and high-level features extracted by convolutional neural networks are less discriminative to represent small objects. To address these problems, we propose a learning discriminative features framework for crowd counting, which is composed of a masked feature prediction module (MPM) and a supervised pixel-level contrastive learning module (CLM). The MPM randomly masks feature vectors in the feature map and then reconstructs them, allowing the model to learn about what is present in the masked regions and improving the model's ability to localize objects in high-density regions. The CLM pulls targets close to each other and pushes them far away from background in the feature space, enabling the model to discriminate foreground objects from background. Additionally, the proposed modules can be beneficial in various computer vision tasks, such as crowd counting and object detection, where dense scenes or cluttered environments pose challenges to accurate localization. The proposed two modules are plug-and-play, incorporating the proposed modules into existing models can potentially boost their performance in these scenarios. | 翻訳日:2023-11-09 16:36:48 公開日:2023-11-08 |
# トランスダクティブ学習のための情報理論一般化境界とその応用 Information-Theoretic Generalization Bounds for Transductive Learning and its Applications ( http://arxiv.org/abs/2311.04561v1 ) ライセンス: Link先を確認 | Huayi Tang and Yong Liu | (参考訳) 本稿では,情報理論の文脈において,トランスダクティブ学習アルゴリズムのためのデータ依存およびアルゴリズム依存の一般化境界を初めて開発する。
トランスダクティブ学習アルゴリズムの一般化ギャップは,学習ラベルと仮説の相互情報によって境界化できることを示す。
トランスダクティブスーパーサンプルの概念を革新的に提案することにより、私たちはインダクティブ学習の設定を超越し、様々な情報尺度の観点から上限を確立する。
さらに,新しいPAC-ベイズ境界を導出し,帰納的学習環境下での一般化と損失景観平坦性の関係を構築した。
最後に,適応最適化アルゴリズムの上限を示し,半教師付き学習およびグラフ学習シナリオにおける結果の適用例を示す。
我々の理論結果は、合成データセットと実世界のデータセットの両方で検証される。 In this paper, we develop data-dependent and algorithm-dependent generalization bounds for transductive learning algorithms in the context of information theory for the first time. We show that the generalization gap of transductive learning algorithms can be bounded by the mutual information between training labels and hypothesis. By innovatively proposing the concept of transductive supersamples, we go beyond the inductive learning setting and establish upper bounds in terms of various information measures. Furthermore, we derive novel PAC-Bayesian bounds and build the connection between generalization and loss landscape flatness under the transductive learning setting. Finally, we present the upper bounds for adaptive optimization algorithms and demonstrate the applications of results on semi-supervised learning and graph learning scenarios. Our theoretic results are validated on both synthetic and real-world datasets. | 翻訳日:2023-11-09 16:28:20 公開日:2023-11-08 |
# 集合スピンXYZモデルによるGHZ様状態の高速生成 Fast generation of GHZ-like states using collective-spin XYZ model ( http://arxiv.org/abs/2311.04560v1 ) ライセンス: Link先を確認 | Xuanchen Zhang and Zhiyao Hu and Yong-Chun Liu | (参考訳) greenberger-horne-zeilinger (ghz)状態は、量子情報処理と量子計測の重要な資源である。
原子GHZ状態は1軸ツイストリング(OAT)相互作用$H_{\mathrm{OAT}}=\chi J_{z}^{2}$と相互作用強度$\chiで生成できるが、長い進化時間$\chi t=\pi /2$が必要であり、デコヒーレンスと損失に強く影響される。
ここでは,超短時間で$\chi t\sim \ln {n}/n$ for $n$粒子でghz様状態を生成する3体集合スピンxyzモデルを提案する。
Floquet 運転をオリジナル OAT Hamiltonian に適用することにより,本モデルの有効性を示す。
理想的GHZ状態と比較して,我々のモデルを用いて生成したGHZ様状態は,ハイゼンベルク限界まで類似した気象特性を維持でき,デコヒーレンスや粒子損失に対してより堅牢性を示す。
この研究は、大きな粒子数を持つghz様状態を生成するための道を開き、マクロ量子効果の研究や量子メトロロジーや量子情報への応用に大きな可能性を秘めている。 Greenberger-Horne-Zeilinger (GHZ) state is a key resource for quantum information processing and quantum metrology. Atomic GHZ state can be generated by one-axis twisting (OAT) interaction $H_{\mathrm{OAT}}=\chi J_{z}^{2}$ with $\chi $ the interaction strength, but it requires a long evolution time $\chi t=\pi /2$ and is thus seriously influenced by decoherence and losses. Here we propose a three-body collective-spin XYZ model which creates GHZ-like state in a very short time scale $\chi t\sim \ln {N}/N$ for $N$ particles. We show that this model can be effectively produced by applying Floquet driving to an original OAT Hamiltonian. Compared with the ideal GHZ state, the GHZ-like state generated using our model can maintain similar metrological properties reaching the Heisenberg-limited scaling, and it shows better robustness to decoherence and particle losses. This work opens the avenue for generating GHZ-like states with large particle number, which holds great potential for the study of macroscopic quantum effects and for applications in quantum metrology and quantum information. | 翻訳日:2023-11-09 16:28:08 公開日:2023-11-08 |
# コンピュータサイエンスにおける個人とジェンダーの不平等--1970年から2000年までのコホートのキャリア研究 Individual and gender inequality in computer science: A career study of cohorts from 1970 to 2000 ( http://arxiv.org/abs/2311.04559v1 ) ライセンス: Link先を確認 | Haiko Lietz, Mohsen Jadidi, Daniel Kostic, Milena Tsvetkova and Claudia Wagner | (参考訳) 不平等は科学に多い。
個人の不平等は、ほとんどの人が急速に死に、わずかしか成功しないことを意味し、一方で性不平等は、女性と男性の達成度に違いがあることを意味する。
大規模書誌データを用いて,1970年から2000年までのコホートにおける個人的・性別的不平等の進化を,コンピュータ科学全般において研究し,チームベースの科学へと発展していく。
生産性の個人的不平等(公告)は学者のキャリアよりも増加するが、歴史的に不変であり、影響の個人的不平等(引用)は大きいが、コーホートやキャリア間で安定している。
男女の格差は生産性に関して多いが、影響の差を示す証拠はない。
マシュー効果は、初期の業績の利点を蓄積し、何十年もの間より強くなることを示しており、それは「出版または普及」の規範の台頭を示している。
チームの公開が約束するメリットを享受できるのは、一部の著者だけです。
マシュー効果は初期差を増幅し、男女差を伝播させる。
女性は、早期キャリアの達成や社会的支援とは無関係な理由で退社するリスクが高いため、引き続き遅れ続ける。
以上の結果から,女性のソーシャルネットワークスキル向上のためのメンタリングプログラムが,男女格差の低減に有効であることが示唆された。 Inequality prevails in science. Individual inequality means that most perish quickly and only a few are successful, while gender inequality implies that there are differences in achievements for women and men. Using large-scale bibliographic data and following a computational approach, we study the evolution of individual and gender inequality for cohorts from 1970 to 2000 in the whole field of computer science as it grows and becomes a team-based science. We find that individual inequality in productivity (publications) increases over a scholar's career but is historically invariant, while individual inequality in impact (citations), albeit larger, is stable across cohorts and careers. Gender inequality prevails regarding productivity, but there is no evidence for differences in impact. The Matthew Effect is shown to accumulate advantages to early achievements and to become stronger over the decades, indicating the rise of a "publish or perish" imperative. Only some authors manage to reap the benefits that publishing in teams promises. The Matthew Effect then amplifies initial differences and propagates the gender gap. Women continue to fall behind because they continue to be at a higher risk of dropping out for reasons that have nothing to do with early-career achievements or social support. Our findings suggest that mentoring programs for women to improve their social-networking skills can help to reduce gender inequality. | 翻訳日:2023-11-09 16:27:43 公開日:2023-11-08 |
# 自由空間光スパイクニューラルネットワーク Free-Space Optical Spiking Neural Network ( http://arxiv.org/abs/2311.04558v1 ) ライセンス: Link先を確認 | Reyhane Ahmadi, Amirreza Ahmadnejad, Somayyeh Koohi | (参考訳) ニューロモルフィックエンジニアリングは、脳にインスパイアされた計算システムを開発するための有望な道として登場した。
しかし、従来の電子aiベースのプロセッサは、しばしば処理速度や熱散逸に関する問題に遭遇する。
代替として、光の本質的な情報処理能力に乗じて、このようなプロセッサの光学的実装が提案されている。
光ニューロモルフィック工学の領域では、様々な光学ニューラルネットワーク(ONN)が研究されている。
これらのうち、スパイキングニューラルネットワーク(SNN)は人間の脳の計算原理をエミュレートすることに成功した。
それにもかかわらず、光学SNNプロセッサの統合は、主に大規模なデータセットの計算要求に対処する際の重大な障害を提示している。
これらの課題に応えて、我々は先駆的な概念であるFree-space Optical Deep Spiking Convolutional Neural Network (OSCNN)を紹介した。
この手法は人間の眼の計算モデルからインスピレーションを得ている。
我々は、MNIST、ETH 80、Caltechなどの著名なベンチマークデータセットにわたるオブジェクト検出タスクに取り組むために、OSCNN内の様々な光学部品を慎重に設計しました。
以上の結果から,電子的ONNと比較して,レイテンシと消費電力を最小に抑えた有望な性能を示す。
さらに,光強度から遅延変換,同期など,いくつかの関連するシミュレーションを行った。
特に重要なのは特徴抽出層の評価であり、Gaborフィルタバンクを用いており、多様なONNアーキテクチャの実践的展開に大きな影響を与える。 Neuromorphic engineering has emerged as a promising avenue for developing brain-inspired computational systems. However, conventional electronic AI-based processors often encounter challenges related to processing speed and thermal dissipation. As an alternative, optical implementations of such processors have been proposed, capitalizing on the intrinsic information-processing capabilities of light. Within the realm of optical neuromorphic engineering, various optical neural networks (ONNs) have been explored. Among these, Spiking Neural Networks (SNNs) have exhibited notable success in emulating the computational principles of the human brain. Nevertheless, the integration of optical SNN processors has presented formidable obstacles, mainly when dealing with the computational demands of large datasets. In response to these challenges, we introduce a pioneering concept: the Free-space Optical deep Spiking Convolutional Neural Network (OSCNN). This novel approach draws inspiration from computational models of the human eye. We have meticulously designed various optical components within the OSCNN to tackle object detection tasks across prominent benchmark datasets, including MNIST, ETH 80, and Caltech. Our results demonstrate promising performance with minimal latency and power consumption compared to their electronic ONN counterparts. Additionally, we conducted several pertinent simulations, such as optical intensity to-latency conversion and synchronization. Of particular significance is the evaluation of the feature extraction layer, employing a Gabor filter bank, which stands to impact the practical deployment of diverse ONN architectures significantly. | 翻訳日:2023-11-09 16:27:16 公開日:2023-11-08 |
# マルチチョイステストにおける注意注意点の評価 Assessing Distractors in Multiple-Choice Tests ( http://arxiv.org/abs/2311.04554v1 ) ライセンス: Link先を確認 | Vatsal Raina, Adian Liusie, Mark Gales | (参考訳) 複数選択テストは、候補者の理解力を評価する一般的なアプローチである。
標準的な多重選択読解試験では、候補者は文脈通過に関する質問に基づいて、個別の集合から正しい解答オプションを選択する必要がある。
適切な評価のためには、イントラクタの解答オプションは定義上は正しくないが、多様でなければならない。
しかし、これらの基準を満たす高品質な気晴らしを生み出すことは、コンテンツ制作者にとって難しい課題である。
本稿では,複数項目の読解テストにおける注意点品質の自動評価指標を提案する。
具体的には,不正確さ,妥当性,多様さの観点から品質を定義した。
二分音読解システムの分類能力を用いて不正確性を評価する。
可読性は、標準マルチクラスマルチチョイス読解システムにおける可読性オプションに付随する確率質量である可聴性信頼度を考慮して評価される。
多様性は、質問の気晴らし者間の埋め込みベースの等価度メトリックのペアワイズ比較によって評価される。
複数の質問に対する候補分布との比較と、ChatGPTモデルによる散逸的妥当性と多様性の解釈との一致を更に検証する。 Multiple-choice tests are a common approach for assessing candidates' comprehension skills. Standard multiple-choice reading comprehension exams require candidates to select the correct answer option from a discrete set based on a question in relation to a contextual passage. For appropriate assessment, the distractor answer options must by definition be incorrect but plausible and diverse. However, generating good quality distractors satisfying these criteria is a challenging task for content creators. We propose automated assessment metrics for the quality of distractors in multiple-choice reading comprehension tests. Specifically, we define quality in terms of the incorrectness, plausibility and diversity of the distractor options. We assess incorrectness using the classification ability of a binary multiple-choice reading comprehension system. Plausibility is assessed by considering the distractor confidence - the probability mass associated with the distractor options for a standard multi-class multiple-choice reading comprehension system. Diversity is assessed by pairwise comparison of an embedding-based equivalence metric between the distractors of a question. To further validate the plausibility metric we compare against candidate distributions over multiple-choice questions and agreement with a ChatGPT model's interpretation of distractor plausibility and diversity. | 翻訳日:2023-11-09 16:26:58 公開日:2023-11-08 |
# 病理学的多モードMR画像の3次元生成モデルとセグメンテーション A 3D generative model of pathological multi-modal MR images and segmentations ( http://arxiv.org/abs/2311.04552v1 ) ライセンス: Link先を確認 | Virginia Fernandez, Walter Hugo Lopez Pinaya, Pedro Borges, Mark S. Graham, Tom Vercauteren, M. Jorge Cardoso | (参考訳) 生成的モデリングと合成データは、実際の医療画像データセットの代理であり、その不足と共有の困難さは、医療アプリケーションに対して正確なディープラーニングモデルを提供する際に迷惑となる可能性がある。
近年, GAN (Generative Adversarial Network) や拡散モデル (DM) などのアーキテクチャを用いて, データ拡張や合成データ共有にこれらのモデルを使用することへの関心が高まっている。
それでも、3次元磁気共鳴イメージング(MRI)セグメンテーションのようなタスクへの合成データの適用は、生成した画像に関連付けられたラベルの欠如により制限されている。
さらに, 提案する生成型mriモデルの多くは, 明示的なコントラストコンディショニングがないため, 任意のモダリティを生成できない。
これらの制限により、ユーザーは画像のコントラストやコンテントを調整でき、タスク固有のモデルを訓練するためのより汎用的なデータを得ることができる。
本研究では,脳MRIと関連セグメンテーションの3次元生成モデルである脳SPADE3Dを提案する。
提案するジョイントイメージング・セグメンテーション生成モデルにより,高忠実度合成画像と関連するセグメンテーションを生成し,病理を組み合わせることができることを示した。
データに予期せぬ病理が存在する場合、セグメント化モデルの性能の問題を軽減する方法を示す。 Generative modelling and synthetic data can be a surrogate for real medical imaging datasets, whose scarcity and difficulty to share can be a nuisance when delivering accurate deep learning models for healthcare applications. In recent years, there has been an increased interest in using these models for data augmentation and synthetic data sharing, using architectures such as generative adversarial networks (GANs) or diffusion models (DMs). Nonetheless, the application of synthetic data to tasks such as 3D magnetic resonance imaging (MRI) segmentation remains limited due to the lack of labels associated with the generated images. Moreover, many of the proposed generative MRI models lack the ability to generate arbitrary modalities due to the absence of explicit contrast conditioning. These limitations prevent the user from adjusting the contrast and content of the images and obtaining more generalisable data for training task-specific models. In this work, we propose brainSPADE3D, a 3D generative model for brain MRI and associated segmentations, where the user can condition on specific pathological phenotypes and contrasts. The proposed joint imaging-segmentation generative model is shown to generate high-fidelity synthetic images and associated segmentations, with the ability to combine pathologies. We demonstrate how the model can alleviate issues with segmentation model performance when unexpected pathologies are present in the data. | 翻訳日:2023-11-09 16:26:43 公開日:2023-11-08 |
# コストベースリジェクションによる回帰 Regression with Cost-based Rejection ( http://arxiv.org/abs/2311.04550v1 ) ライセンス: Link先を確認 | Xin Cheng and Yuzhou Cao and Haobo Wang and Hongxin Wei and Bo An and Lei Feng | (参考訳) 拒絶による学習は、予測と拒絶のバランスをとることによって、重大な誤予測を避けるために予測を控える重要なフレームワークである。
コストベースの拒絶に関する以前の研究は、回帰設定において連続的および無限的対象空間を扱えない分類設定のみに焦点を当てていた。
本稿では,コストに基づく拒絶を伴う回帰問題と呼ばれる新たな回帰問題について検討する。
この問題を解決するために,まずこの問題に対する期待リスクを定式化し,次にベイズ最適解を導出し,評価指標として平均二乗誤差を用いた場合,誤差が拒絶コストよりも大きい例に対して最適モデルが予測を拒絶することを示す。
さらに,拒絶を二元分類として考慮した代理損失関数を用いてモデルを訓練することを提案し,モデル一貫性の条件を提供し,提案する代理損失によってベイズ最適解を回復できることを示す。
提案手法の有効性を示す広範な実験を行った。 Learning with rejection is an important framework that can refrain from making predictions to avoid critical mispredictions by balancing between prediction and rejection. Previous studies on cost-based rejection only focused on the classification setting, which cannot handle the continuous and infinite target space in the regression setting. In this paper, we investigate a novel regression problem called regression with cost-based rejection, where the model can reject to make predictions on some examples given certain rejection costs. To solve this problem, we first formulate the expected risk for this problem and then derive the Bayes optimal solution, which shows that the optimal model should reject to make predictions on the examples whose variance is larger than the rejection cost when the mean squared error is used as the evaluation metric. Furthermore, we propose to train the model by a surrogate loss function that considers rejection as binary classification and we provide conditions for the model consistency, which implies that the Bayes optimal solution can be recovered by our proposed surrogate loss. Extensive experiments demonstrate the effectiveness of our proposed method. | 翻訳日:2023-11-09 16:26:21 公開日:2023-11-08 |
# 大型GPT様モデルは悪い乳児である:言語能力と心理言語学的尺度との関係について Large GPT-like Models are Bad Babies: A Closer Look at the Relationship between Linguistic Competence and Psycholinguistic Measures ( http://arxiv.org/abs/2311.04547v1 ) ライセンス: Link先を確認 | Julius Steuer, Marius Mosbach, Dietrich Klakow | (参考訳) 言語モデル(lms)の認知的可能性の研究は、読解時間、視線継続時間、n400/p600脳波信号などの心理言語学的応答変数のモデル化に集中しているが、mahowald et al. (2023) が形式的、機能的言語能力、発達的可能性の次元は除外されている。
このギャップに対処するために,BabyLMプレトレーニングコーパスの厳密なバージョン上で異なるサイズのGPT様言語モデルをトレーニングし,課題タスク(BLiMP,GLUE,MSGS)と追加の読み出し時間予測タスクを評価する。
3つの課題すべてにおいてlmサイズと性能は正の相関関係にあり,各課題におけるモデル幅と深さの好みが異なる。
一方,lmsurprisalを予測器として用いた線形混合効果モデルでは,lmサイズと読み時間との負の相関がみられ,第2の小さいlmはサプリsalを使わずにベースラインモデルよりもログライク度が小さくなった。
このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。 Research on the cognitive plausibility of language models (LMs) has so far mostly concentrated on modelling psycholinguistic response variables such as reading times, gaze durations and N400/P600 EEG signals, while mostly leaving out the dimension of what Mahowald et al. (2023) described as formal and functional linguistic competence, and developmental plausibility. We address this gap by training a series of GPT-like language models of different sizes on the strict version of the BabyLM pretraining corpus, evaluating on the challenge tasks (BLiMP, GLUE, MSGS) and an additional reading time prediction task. We find a positive correlation between LM size and performance on all three challenge tasks, with different preferences for model width and depth in each of the tasks. In contrast, a negative correlation was found between LM size and reading time fit of linear mixed-effects models using LM surprisal as a predictor, with the second-smallest LM achieving the largest log-likelihood reduction over a baseline model without surprisal. This suggests that modelling processing effort and linguistic competence may require an approach different from training GPT-like LMs on a developmentally plausible corpus. | 翻訳日:2023-11-09 16:26:03 公開日:2023-11-08 |
# スマートメータデータ共有のための局所微分プライバシー Local Differential Privacy for Smart Meter Data Sharing ( http://arxiv.org/abs/2311.04544v1 ) ライセンス: Link先を確認 | Yashothara Shanmugarasa, M.A.P. Chamikara, Hye-young Paik, Salil S. Kanhere, Liming Zhu | (参考訳) スマートメーターデータを用いて家電のエネルギー使用量を推定するエネルギーデアグリゲーション技術は、消費者やエネルギー会社にエネルギー管理に関する貴重な洞察を提供する。
しかし、これらの手法は、行動プロファイリングの可能性など、プライバシー上のリスクも提示する。
ローカルディファレンシャルプライバシ(LDP)メソッドは、プライバシー問題に対処する上で高い効率で強力なプライバシ保証を提供する。
しかし,既存のLCP法は,個々の家電製品よりも集積エネルギー消費データ保護に重点を置いている。
さらに、これらの手法は、スマートメーターデータがストリーミングデータの形式であるという事実を考慮せず、その処理方法は時間ウィンドウを考慮すべきである。
本稿では,スライディングウインドウを用いたランダム化応答手法を用いて,各ユーザの家電利用パターンを明らかにせず,時間とともに家電レベルのエネルギー消費データの共有を容易にする新しいldp手法(ldp-smartenergy)を提案する。
評価の結果, LDP-SmartEnergy はベースライン法と比較して効率よく動作することがわかった。
また,本手法は,プライバシー保護と有効分析のためのデータの有効性維持のバランスを崩すことを実証した。 Energy disaggregation techniques, which use smart meter data to infer appliance energy usage, can provide consumers and energy companies valuable insights into energy management. However, these techniques also present privacy risks, such as the potential for behavioral profiling. Local differential privacy (LDP) methods provide strong privacy guarantees with high efficiency in addressing privacy concerns. However, existing LDP methods focus on protecting aggregated energy consumption data rather than individual appliances. Furthermore, these methods do not consider the fact that smart meter data are a form of streaming data, and its processing methods should account for time windows. In this paper, we propose a novel LDP approach (named LDP-SmartEnergy) that utilizes randomized response techniques with sliding windows to facilitate the sharing of appliance-level energy consumption data over time while not revealing individual users' appliance usage patterns. Our evaluations show that LDP-SmartEnergy runs efficiently compared to baseline methods. The results also demonstrate that our solution strikes a balance between protecting privacy and maintaining the utility of data for effective analysis. | 翻訳日:2023-11-09 16:25:34 公開日:2023-11-08 |
# STM誘起発光による分子Huang-Rhys因子の決定 Determining the molecular Huang-Rhys factor via STM induced luminescence ( http://arxiv.org/abs/2311.04543v1 ) ライセンス: Link先を確認 | Fei Wen, Guohui Dong | (参考訳) 走査トンネル顕微鏡誘起発光(STML)は、分子の光学的および電子的性質を探査するために用いられる。
振動結合については、分子を振動自由度を持つ2レベル系としてモデル化する。
バーディーンの理論に基づき、非弾性電子散乱(ies)機構内のhuang-rhys因子を用いて非弾性トンネル電流を表現する。
バイアス電圧によって異なる差動コンダクタンスは,様々な振動結合強度を有する異なるステップ構造を示すことがわかった。
バイアス電圧に対する非弾性トンネル電流の第2導関数は、フランクコンドン係数を持つ振動準位構造の特性を示す。
そこで本研究では,固体物理学の領域において有望なポテンシャルを持つ分子のHuang-Rhys因子を決定する方法を提案する。 The scanning tunneling microscopy induced luminescence (STML) can be used to probe the optical and electronic properties of molecules. Concerning the vibronic coupling, we model the molecule as a two-level system with the vibrational degrees of freedom. Based on the Bardeen's theory, we express the inelastic tunneling current in terms of Huang-Rhys factor within the inelastic electron scattering (IES) mechanism. We find that the differential conductance, varying with the bias voltage, exhibits distinct step structure with various vibronic coupling strength. The second derivative of the inelastic tunneling current with respect to the bias voltage shows the characteristics of vibrational-level structure with Franck-Condon factor. Consequently, we propose a method to determine the Huang-Rhys factor of molecules, holding promising potential within the realm of solid-state physics. | 翻訳日:2023-11-09 16:25:17 公開日:2023-11-08 |
# FEIR:限られた資源の公正な勧告のための熱意と不便さの定量化と削減 FEIR: Quantifying and Reducing Envy and Inferiority for Fair Recommendation of Limited Resources ( http://arxiv.org/abs/2311.04542v1 ) ライセンス: Link先を確認 | Nan Li, Bo Kang, Jefrey Lijffijt, Tijl De Bie | (参考訳) e-recruitmentやオンラインデートのような設定では、レコメンデーションは限られた機会を分配し、公正を定量化し強制するための新しいアプローチを求める。
提案するアイテムに対するユーザの競争的不利を定量化する新しい(un)フェアネス尺度である \emph{inferiority} を導入する。
劣等性は、他者の推奨に対する嗜好を測定する公平性の概念である \emph{envy} を補完する。
我々は, 関連度スコアの精度関連尺度である 'emph{utility} と劣等性と妬みを組み合わせた。
これらの測度は微分不可能であるため、リコメンダシステムの確率論的解釈を用いてそれらを再構成し、異なるバージョンを生成する。
これらの損失関数を,標準レコメンデータシステムの後処理として適用した「texttt{FEIR} (Fairness through Envy and Inferiority Reduction)」と呼ばれる多目的最適化問題に組み合わせる。
総合的および実世界データを用いた実験により,本手法が劣等感,妬み,実用性とのトレードオフを,ナイーブな推奨手法やベースライン手法と比較して改善することを示した。 In settings such as e-recruitment and online dating, recommendation involves distributing limited opportunities, calling for novel approaches to quantify and enforce fairness. We introduce \emph{inferiority}, a novel (un)fairness measure quantifying a user's competitive disadvantage for their recommended items. Inferiority complements \emph{envy}, a fairness notion measuring preference for others' recommendations. We combine inferiority and envy with \emph{utility}, an accuracy-related measure of aggregated relevancy scores. Since these measures are non-differentiable, we reformulate them using a probabilistic interpretation of recommender systems, yielding differentiable versions. We combine these loss functions in a multi-objective optimization problem called \texttt{FEIR} (Fairness through Envy and Inferiority Reduction), applied as post-processing for standard recommender systems. Experiments on synthetic and real-world data demonstrate that our approach improves trade-offs between inferiority, envy, and utility compared to naive recommendations and the baseline methods. | 翻訳日:2023-11-09 16:25:06 公開日:2023-11-08 |
# 強化ダウンリンクmm波通信のための深層学習支援マルチユーザMIMO負荷変調システム Deep Learning Assisted Multiuser MIMO Load Modulated Systems for Enhanced Downlink mmWave Communications ( http://arxiv.org/abs/2311.04537v1 ) ライセンス: Link先を確認 | Ercong Yu, Jinle Zhu, Qiang Li, Zilong Liu, Hongyang Chen, Shlomo Shamai (Shitz), and H. Vincent Poor | (参考訳) 本稿では,マルチユーザ負荷変調アレイ (mu-lmas) に着目し,mimo (mm wave multi-input multi-output) システムにおいて,システムの複雑さが低く,コストの低減が図られた。
ダウンリンクMU-LMAの既存のプリコーディングアルゴリズムは、自由度と複雑なシステム構成に悩まされるサブアレイ構造化(SAS)送信機に依存している。
さらに、超球面上に一様に分布するコードワードを持つ従来のLMAコードブックは、チャネル適応性がなく、信号検出の複雑さが増大する可能性がある。
本稿では,FAS (Full-array Structured) 送信機を用いたMU-LMAシステムを提案し,それに応じて2つのアルゴリズムを提案する。
提案システムでは,SASの構造問題に対処し,より多くのユーザをサポートする。
LMAによる定電力ダウンリンクプリコーディングでは,FASに基づく正規化ブロック対角化(FAS-NBD)アルゴリズムを提案する。
しかし、強制正規化は性能劣化をもたらす可能性がある。
この劣化は、前述のコードブック設計問題とともに解析的に解決することが困難である。
これにより、適応型コードブック設計とコードブック非依存復号化のためのディープラーニング強化(FAS-DL-NBD)アルゴリズムを提案する。
提案アルゴリズムは,チャネル状態情報の不十分な知識に対して頑健であり,優れたエラー性能が得られることを示す。
さらに、FAS-DL-NBDアルゴリズムは、コードワードあたりのビット数が増加するにつれて、信号検出を低複雑性で行うことができる。 This paper is focused on multiuser load modulation arrays (MU-LMAs) which are attractive due to their low system complexity and reduced cost for millimeter wave (mmWave) multi-input multi-output (MIMO) systems. The existing precoding algorithm for downlink MU-LMA relies on a sub-array structured (SAS) transmitter which may suffer from decreased degrees of freedom and complex system configuration. Furthermore, a conventional LMA codebook with codewords uniformly distributed on a hypersphere may not be channel-adaptive and may lead to increased signal detection complexity. In this paper, we conceive an MU-LMA system employing a full-array structured (FAS) transmitter and propose two algorithms accordingly. The proposed FAS-based system addresses the SAS structural problems and can support larger numbers of users. For LMA-imposed constant-power downlink precoding, we propose an FAS-based normalized block diagonalization (FAS-NBD) algorithm. However, the forced normalization may result in performance degradation. This degradation, together with the aforementioned codebook design problems, is difficult to solve analytically. This motivates us to propose a Deep Learning-enhanced (FAS-DL-NBD) algorithm for adaptive codebook design and codebook-independent decoding. It is shown that the proposed algorithms are robust to imperfect knowledge of channel state information and yield excellent error performance. Moreover, the FAS-DL-NBD algorithm enables signal detection with low complexity as the number of bits per codeword increases. | 翻訳日:2023-11-09 16:24:47 公開日:2023-11-08 |
# RankAug: テキスト分類のための拡張データランキング RankAug: Augmented data ranking for text classification ( http://arxiv.org/abs/2311.04535v1 ) ライセンス: Link先を確認 | Tiasa Singha Roy and Priyam Basu | (参考訳) データ生成と拡張の研究は、主に生成モデルの改善に焦点が当てられ、合成データを評価する方法の探究と洗練に顕著なギャップが残されている。
生成されたデータフィルタリングのコンテキスト内には、特定の自然言語理解(nlu)タスクのパフォーマンス、特に意図と感情の分類に影響を及ぼすいくつかのテキスト類似度メトリクスがある。
本研究では,辞書や構文の多様性に最もよく似ているという観点から,上位拡張テキストの検出とフィルタリングを行うテキストランキング手法であるrankaugを提案する。
複数のデータセットで行った実験を通じて,フィルタリング手法を適切に選択することで,上位クラスの分類精度を最大35%向上できることを示した。 Research on data generation and augmentation has been focused majorly on enhancing generation models, leaving a notable gap in the exploration and refinement of methods for evaluating synthetic data. There are several text similarity metrics within the context of generated data filtering which can impact the performance of specific Natural Language Understanding (NLU) tasks, specifically focusing on intent and sentiment classification. In this study, we propose RankAug, a text-ranking approach that detects and filters out the top augmented texts in terms of being most similar in meaning with lexical and syntactical diversity. Through experiments conducted on multiple datasets, we demonstrate that the judicious selection of filtering techniques can yield a substantial improvement of up to 35% in classification accuracy for under-represented classes. | 翻訳日:2023-11-09 16:24:20 公開日:2023-11-08 |
# 離散整合型ASRのためのデコーダのみ変換器の損失マスキングは不要 Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token Based ASR ( http://arxiv.org/abs/2311.04534v1 ) ライセンス: Link先を確認 | Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Shiliang Zhang, Chong Deng, Yukun Ma, Hai Yu, Jiaqing Liu, Chong Zhang | (参考訳) 近年,SpeechGPT,VioLA,AudioPaLMなどの統合音声テキストモデルが,音声タスクにおいて顕著なパフォーマンスを実現している。
これらのモデルは、連続した音声信号を離散トークン(音声離散化)に変換し、テキストと音声トークンを共有語彙にマージする。
そして、1つのデコーダのみのトランスフォーマーを複数の音声タスクで訓練する。
具体的には、これらのモデルは全てASRタスクの入力音声トークンにロス・マスキングを利用するため、これらのモデルは音声トークン間の依存関係を明示的にモデル化しない。
本稿では,テキストのような自己回帰的な方法で音声トークンのシーケンスをモデル化する。
しかし,従来のクロスエントロピー損失を入力音声トークンに適用しても,ロスマスキングよりもASR性能が向上しないことがわかった。
そこで本稿では,入力音声トークンにスムーズラベルを付加したKL分散損失を導入し,音声トークンを効果的にモデル化する,Smoothed Label Distillation (SLD) という新しい手法を提案する。
実験により,クロスエントロピー損失の制限を緩和し,異なる音声識別法を用いたデコーダのみを用いたasrの損失マスキングを一貫して改善することを示す。 Recently, unified speech-text models, such as SpeechGPT, VioLA, and AudioPaLM, have achieved remarkable performance on speech tasks. These models convert continuous speech signals into discrete tokens (speech discretization) and merge text and speech tokens into a shared vocabulary. Then they train a single decoder-only Transformer on a mixture of speech tasks. Specifically, all these models utilize Loss Masking on the input speech tokens for the ASR task, which means that these models do not explicitly model the dependency between the speech tokens. In this paper, we attempt to model the sequence of speech tokens in an autoregressive manner like text. However, we find that applying the conventional cross-entropy loss on input speech tokens does not consistently improve the ASR performance over Loss Masking. Therefore, we propose a novel approach denoted Smoothed Label Distillation (SLD), which introduces a KL divergence loss with smoothed labels on the input speech tokens to effectively model speech tokens. Experiments demonstrate that our SLD approach alleviates the limitations of the cross-entropy loss and consistently outperforms Loss Masking for decoder-only Transformer based ASR using different speech discretization methods. | 翻訳日:2023-11-09 16:24:08 公開日:2023-11-08 |
# プロサッカーにおける市場価値の予測 - 説明可能な機械学習モデルからの考察 Predicting Market Value in Professional Soccer: Insights from Explainable Machine Learning Models ( http://arxiv.org/abs/2311.04599v1 ) ライセンス: Link先を確認 | Chunyang Huang, Shaoliang Zhang | (参考訳) 本研究では,説明可能な機械学習モデルを用いて,プロサッカー選手の市場価値を予測する革新的な手法を提案する。
fifaのウェブサイトから収集したデータセットを用いて,shapley additive explanations (shap) を併用したアンサンブル機械学習手法を用いて,モデル予測の詳細な説明を行う。
GBDTモデルは平均 R-Squared (0.8780) と最低平均 Root Mean Squared Error (3,221,632.175) を達成する。
分析の結果,ボールコントロール,ショートパス,インターセプション,リブリング,タックリングといった特定のスキルがスキルディメンションにおいて最重要であるのに対して,スプリントスピードとアクセラレーションはフィットネスディメンションにおいて重要であり,認知次元では反応が顕著であることがわかった。
我々の結果は、より正確で客観的で一貫した市場価値推定フレームワークを提供し、プレイヤー転送における管理上の決定に有用な洞察を提供する。 This study presents an innovative method for predicting the market value of professional soccer players using explainable machine learning models. Using a dataset curated from the FIFA website, we employ an ensemble machine learning approach coupled with Shapley Additive exPlanations (SHAP) to provide detailed explanations of the models' predictions. The GBDT model achieves the highest mean R-Squared (0.8780) and the lowest mean Root Mean Squared Error (3,221,632.175), indicating its superior performance among the evaluated models. Our analysis reveals that specific skills such as ball control, short passing, finishing, interceptions, dribbling, and tackling are paramount within the skill dimension, whereas sprint speed and acceleration are critical in the fitness dimension, and reactions are preeminent in the cognitive dimension. Our results offer a more accurate, objective, and consistent framework for market value estimation, presenting useful insights for managerial decisions in player transfers. | 翻訳日:2023-11-09 16:17:27 公開日:2023-11-08 |
# 代数トポロジーを用いたニューラルネットワークの埋め込み空間の進化特性について On Characterizing the Evolution of Embedding Space of Neural Networks using Algebraic Topology ( http://arxiv.org/abs/2311.04592v1 ) ライセンス: Link先を確認 | Suryaka Suresh, Bishshoy Das, Vinayak Abrol, Sumantra Dutta Roy | (参考訳) 特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
浅層完全連結ネットワーク (FCN) 上の単体錯体を用いた既存の研究により, 代わりに立方体ホモロジーを用いた拡張解析を行い, 様々なDeep Architectureと実画像データセットを用いた。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
トポロジカル複雑性における崩壊率(計量として)は、一般化能力に対するアーキテクチャ選択の影響を定量化するのに役立つ。
表現学習の観点からは,(1)類似したデータセット上のアーキテクチャのトポロジ的不変性,(2)可変深さのアーキテクチャのためのデータセットの埋め込み空間,(3)入力解像度/サイズへの埋め込み空間,(4)データサブサンプリングなど,いくつかの不変性に注目した。
ネットワークの表現率と一般化能力の関連性をさらに実証するために,下流分類タスク(トランスファーラーニング)における事前学習モデルのランク付け作業について検討する。
既存の手法と比較して,提案手法は事前学習モデルの微調整により,実際に達成可能な精度との相関性が高い。 We study how the topology of feature embedding space changes as it passes through the layers of a well-trained deep neural network (DNN) through Betti numbers. Motivated by existing studies using simplicial complexes on shallow fully connected networks (FCN), we present an extended analysis using Cubical homology instead, with a variety of popular deep architectures and real image datasets. We demonstrate that as depth increases, a topologically complicated dataset is transformed into a simple one, resulting in Betti numbers attaining their lowest possible value. The rate of decay in topological complexity (as a metric) helps quantify the impact of architectural choices on the generalization ability. Interestingly from a representation learning perspective, we highlight several invariances such as topological invariance of (1) an architecture on similar datasets; (2) embedding space of a dataset for architectures of variable depth; (3) embedding space to input resolution/size, and (4) data sub-sampling. In order to further demonstrate the link between expressivity \& the generalization capability of a network, we consider the task of ranking pre-trained models for downstream classification task (transfer learning). Compared to existing approaches, the proposed metric has a better correlation to the actually achievable accuracy via fine-tuning the pre-trained model. | 翻訳日:2023-11-09 16:17:04 公開日:2023-11-08 |
# 3次元イベント表現を用いた人物ポーズ推定の再考 Rethinking Event-based Human Pose Estimation with 3D Event Representations ( http://arxiv.org/abs/2311.04591v1 ) ライセンス: Link先を確認 | Xiaoting Yin, Hao Shi, Jiaan Chen, Ze Wang, Yaozu Ye, Huajian Ni, Kailun Yang, Kaiwei Wang | (参考訳) 人間のポーズ推定は、自動運転と駐車において重要な要素であり、人間の行動を予測することによって安全性を高める。
従来のフレームベースのカメラやビデオは一般的に用いられるが、高いダイナミックレンジや重い動きのぼかしのシナリオでは信頼性が低下する。
対照的に、イベントカメラはこれらの困難なコンテキストをナビゲートするための堅牢なソリューションを提供する。
一般的な方法論では、イベントカメラを学習フレームワークに取り入れ、イベントをイベントフレームに蓄積する。
しかし、そのような手法は、イベントの固有非同期および高時間分解能特性を限界化する傾向がある。
この無視は、人間のダイナミックな活動に関連する安全クリティカルなタスクに不可欠な、重要な時間次元データを失うことにつながる。
この問題に対処し、イベント情報の3Dポテンシャルを解き放つために、Rasterized Event Point Cloud(RasEPC)とDecoupled Event Voxel(DEV)という2つの3Dイベント表現を導入します。
RasEPCは、正確な時間スライス内のイベントを同じ位置で照合し、3D属性を統計的手がかりで保存し、メモリと計算要求を著しく緩和する。
一方、dev表現はイベントをvoxelに識別し、3つの直交平面に投影し、分離されたイベントの注意を利用して2d平面から3dのヒントを取得する。
さらに,屋外シーンでのトレーニングや定量的分析を容易にするために,イベントベースの合成データセットEV-3DPWを開発した。
実世界のDHP19データセットでは,イベントポイントクラウド技術がリアルタイムなモバイル予測に優れており,デカップリングされたイベントボクセル法が最も精度が高い。
実験により,従来のrgb画像やイベントフレーム技術に対する3次元表現手法の優れた一般化能力が明らかになった。
私たちのコードとデータセットはhttps://github.com/masterhow/eventpointposeで利用可能です。 Human pose estimation is a critical component in autonomous driving and parking, enhancing safety by predicting human actions. Traditional frame-based cameras and videos are commonly applied, yet, they become less reliable in scenarios under high dynamic range or heavy motion blur. In contrast, event cameras offer a robust solution for navigating these challenging contexts. Predominant methodologies incorporate event cameras into learning frameworks by accumulating events into event frames. However, such methods tend to marginalize the intrinsic asynchronous and high temporal resolution characteristics of events. This disregard leads to a loss in essential temporal dimension data, crucial for safety-critical tasks associated with dynamic human activities. To address this issue and to unlock the 3D potential of event information, we introduce two 3D event representations: the Rasterized Event Point Cloud (RasEPC) and the Decoupled Event Voxel (DEV). The RasEPC collates events within concise temporal slices at identical positions, preserving 3D attributes with statistical cues and markedly mitigating memory and computational demands. Meanwhile, the DEV representation discretizes events into voxels and projects them across three orthogonal planes, utilizing decoupled event attention to retrieve 3D cues from the 2D planes. Furthermore, we develop and release EV-3DPW, a synthetic event-based dataset crafted to facilitate training and quantitative analysis in outdoor scenes. On the public real-world DHP19 dataset, our event point cloud technique excels in real-time mobile predictions, while the decoupled event voxel method achieves the highest accuracy. Experiments reveal our proposed 3D representation methods' superior generalization capacities against traditional RGB images and event frame techniques. Our code and dataset are available at https://github.com/MasterHow/EventPointPose. | 翻訳日:2023-11-09 16:16:36 公開日:2023-11-08 |
# TEAL:マルチモーダル大規模言語モデルのためのTokenize and Embed ALL TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models ( http://arxiv.org/abs/2311.04589v1 ) ライセンス: Link先を確認 | Zhen Yang, Yingxue Zhang, Fandong Meng and Jie Zhou | (参考訳) 近年,MM-LLM(Multi-modal Large Language Models, MM-LLMs)が注目されているが, マルチモーダル入力間の相互作用や非テクスチュアルなモーダル生成のモデル化に苦慮している。
本研究では,任意のモダリティからの入力をトークンシーケンスとして扱い,すべてのモダリティに対する共同埋め込み空間を学習するTEAL(Tokenize and Embed ALl)}を提案する。
具体的には、任意のモダリティからの入力に対して、TEALはまずそれをオフザシェルフトークンライザでトークンシーケンスに離散化し、トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
MM-LLM はテキスト LLM のように自動回帰的にマルチモーダルトークンを予測する必要がある。
最後に、対応するデトケナイザを適用し、予測トークンシーケンスに基づいて各モードで出力を生成する。
共同埋め込み空間により、TEALは凍結したLCMに対して、画像やオーディオなどの非テクスチュアルなモダリティを含む理解と生成の両方を行うことができる。
したがって、テキストLLMはインタフェースとして機能し、テキストの理解と生成において高い性能を維持することができる。
実験により、TEALはマルチモーダル理解を大幅に改善し、マルチモーダル世代のための単純なスキームを実装した。 Despite Multi-modal Large Language Models (MM-LLMs) have made exciting strides recently, they are still struggling to efficiently model the interactions among multi-modal inputs and the generation in non-textual modalities. In this work, we propose TEAL (Tokenize and Embed ALl)}, an approach to treat the input from any modality as a token sequence and learn a joint embedding space for all modalities. Specifically, for the input from any modality, TEAL first discretizes it into a token sequence with the off-the-shelf tokenizer and embeds the token sequence into a joint embedding space with a learnable embedding matrix. MM-LLMs just need to predict the multi-modal tokens autoregressively as the textual LLMs do. Finally, the corresponding de-tokenizer is applied to generate the output in each modality based on the predicted token sequence. With the joint embedding space, TEAL enables the frozen LLMs to perform both understanding and generation tasks involving non-textual modalities, such as image and audio. Thus, the textual LLM can just work as an interface and maintain its high performance in textual understanding and generation. Experiments show that TEAL achieves substantial improvements in multi-modal understanding, and implements a simple scheme for multi-modal generations. | 翻訳日:2023-11-09 16:16:05 公開日:2023-11-08 |
# Army of Thieves: Ensembleベースのサンプル選択によるブラックボックスモデル抽出の強化 Army of Thieves: Enhancing Black-Box Model Extraction via Ensemble based sample selection ( http://arxiv.org/abs/2311.04588v1 ) ライセンス: Link先を確認 | Akshit Jindal, Vikram Goyal, Saket Anand, Chetan Arora | (参考訳) マシンラーニング(ML)モデルは、サービスとしてデプロイされた時に、モデルステアリングアタック(MSA)に対して脆弱になる。
このような攻撃では、デプロイされたモデルを繰り返しクエリしてラベル付きデータセットを構築する。
このデータセットにより、攻撃者は元のモデルを模倣した泥棒モデルを訓練することができる。
クエリ効率を最大化するために、攻撃者は利用可能なデータのプールから最も情報性の高いデータポイントを選択する必要がある。
既存の攻撃戦略は、アクティブラーニングや半教師付き学習のようなアプローチを利用してコストを最小化している。
しかしながら、ブラックボックス設定では、これらのアプローチは1つの泥棒モデルのみを訓練するので、最適でないサンプルを選択することができる。
泥棒モデルの能力と事前訓練されたデータによっては、学習プロセスに害を与えるノイズのあるサンプルも選択できるかもしれない。
本研究では,泥棒モデルとして深層学習モデルのアンサンブルの利用について検討する。
aot(attack army of thieves)と呼び、群衆の知恵を生かすために様々な複雑さを持つ複数のモデルを訓練します。
アンサンブルの集団的決定に基づいて、不確定なサンプルがクエリとして選択され、最も自信のあるサンプルがトレーニングデータに直接含まれる。
本手法は,泥棒モデルのアンサンブルを用いてモデル抽出を行う最初の手法である。
我々は、CIFAR-10データセットでトレーニングされたモデルに対して、既存の最先端手法のベースアプローチを少なくとも3%上回り、従来よりも21%高い逆転率を達成する。 Machine Learning (ML) models become vulnerable to Model Stealing Attacks (MSA) when they are deployed as a service. In such attacks, the deployed model is queried repeatedly to build a labelled dataset. This dataset allows the attacker to train a thief model that mimics the original model. To maximize query efficiency, the attacker has to select the most informative subset of data points from the pool of available data. Existing attack strategies utilize approaches like Active Learning and Semi-Supervised learning to minimize costs. However, in the black-box setting, these approaches may select sub-optimal samples as they train only one thief model. Depending on the thief model's capacity and the data it was pretrained on, the model might even select noisy samples that harm the learning process. In this work, we explore the usage of an ensemble of deep learning models as our thief model. We call our attack Army of Thieves(AOT) as we train multiple models with varying complexities to leverage the crowd's wisdom. Based on the ensemble's collective decision, uncertain samples are selected for querying, while the most confident samples are directly included in the training data. Our approach is the first one to utilize an ensemble of thief models to perform model extraction. We outperform the base approaches of existing state-of-the-art methods by at least 3% and achieve a 21% higher adversarial sample transferability than previous work for models trained on the CIFAR-10 dataset. | 翻訳日:2023-11-09 16:15:39 公開日:2023-11-08 |
# ディープラーニングによるログステートメント生成 - 開発者に提供されるサポートの拡大 Log Statements Generation via Deep Learning: Widening the Support Provided to Developers ( http://arxiv.org/abs/2311.04587v1 ) ライセンス: Link先を確認 | Antonio Mastropaolo, Valentina Ferrari, Luca Pascarella, Gabriele Bavota | (参考訳) ロギングは、ソフトウェアの実行中にトランスパイアするイベントの監視を支援する。
これまでの調査では、ログの場所、記録するデータ、採用するログレベル(例えば、情報、致命的)などのジレンマなど、ロギングに関して開発者が直面した課題が強調されていた。
この文脈では、LANCEというディープラーニング(DL)に根ざしたアプローチを導入し、約15%のケースでログステートメントをJavaメソッドに正しく注入できることを示した。
それでも、LANCEは2つの主要な制約を課している。
(i)メソッドがロギングステートメントを含める必要があると仮定し、
(ii)複数のログステートメントの注入が不可欠である場合であっても、単一の(新しい)ログステートメントのみを注入することができる。
これらの制限に対処するために,ログステートメントを含まないメソッドを識別するDLベースの手法であるLEONIDを提案する。
さらに、LEONIDは、必要なときに複数のログステートメントの注入をサポートし、DLとInformation Retrieval(IR)の組み合わせによって意味のあるログメッセージを生成するLANCEの能力を高める。 Logging assists in monitoring events that transpire during the execution of software. Previous research has highlighted the challenges confronted by developers when it comes to logging, including dilemmas such as where to log, what data to record, and which log level to employ (e.g., info, fatal). In this context, we introduced LANCE, an approach rooted in deep learning (DL) that has demonstrated the ability to correctly inject a log statement into Java methods in ~15% of cases. Nevertheless, LANCE grapples with two primary constraints: (i) it presumes that a method necessitates the inclusion of logging statements and; (ii) it allows the injection of only a single (new) log statement, even in situations where the injection of multiple log statements might be essential. To address these limitations, we present LEONID, a DL-based technique that can distinguish between methods that do and do not require the inclusion of log statements. Furthermore, LEONID supports the injection of multiple log statements within a given method when necessary, and it also enhances LANCE's proficiency in generating meaningful log messages through the combination of DL and Information Retrieval (IR). | 翻訳日:2023-11-09 16:15:17 公開日:2023-11-08 |
# 拡散生成画像における弱教師付きディープフェイク局在 Weakly-supervised deepfake localization in diffusion-generated images ( http://arxiv.org/abs/2311.04584v1 ) ライセンス: Link先を確認 | Dragos Tantaru and Elisabeta Oneata and Dan Oneata | (参考訳) ノイズ拡散モデルの顕著な生成能力は、インターネット上で毎日見られる画像の真正性に関する新たな懸念を引き起こした。
しかし、既存のディープフェイク検出モデルの大部分は、従来の生成的アプローチ(例えばgan)に対してテストされ、通常は画像毎に「フェイク」または「リアル」ラベルのみを提供する。
より有益な出力は、入力のどの領域が操作されたかを示すローカライズマップで画像ごとのラベルを拡大することだと考えています。
そこで我々は,この課題を弱教師付きローカライズ問題とみなし,Xception ネットワークを共通バックボーンアーキテクチャとして用いて,等価な足場上で比較した手法の3つの主要なカテゴリ(説明,局所スコア,注意)を同定する。
本研究は,設計空間をパラメータ化するすべての主要な要素の注意深い分析を提供する。操作済み画像の作成に使用されるメソッドの選択,監督の種類,データセット,ジェネレータである。
提案手法は,データセットやジェネレータの観点からのミスマッチよりも,より緩い監督に対する感度が低く,最も優れた検出手法(局所スコアに基づく)が実現可能であることを示す。 The remarkable generative capabilities of denoising diffusion models have raised new concerns regarding the authenticity of the images we see every day on the Internet. However, the vast majority of existing deepfake detection models are tested against previous generative approaches (e.g. GAN) and usually provide only a "fake" or "real" label per image. We believe a more informative output would be to augment the per-image label with a localization map indicating which regions of the input have been manipulated. To this end, we frame this task as a weakly-supervised localization problem and identify three main categories of methods (based on either explanations, local scores or attention), which we compare on an equal footing by using the Xception network as the common backbone architecture. We provide a careful analysis of all the main factors that parameterize the design space: choice of method, type of supervision, dataset and generator used in the creation of manipulated images; our study is enabled by constructing datasets in which only one of the components is varied. Our results show that weakly-supervised localization is attainable, with the best performing detection method (based on local scores) being less sensitive to the looser supervision than to the mismatch in terms of dataset or generator. | 翻訳日:2023-11-09 16:14:57 公開日:2023-11-08 |
# 非対称量子ネットワークにおける非局所相関 Nonlocal correlations in an asymmetric quantum network ( http://arxiv.org/abs/2311.04583v1 ) ライセンス: Link先を確認 | Souradeep Sasmal, Shyam Sundar Mahato, and Alok Kumar Pan | (参考訳) マルチパーティマルチソースネットワークベル実験で明らかになった非局所性は、単一の共通ソースを含む標準マルチパーティベル非局所性と概念的に異なる。
ここでは、非対称な二局所ネットワークシナリオや三局所ネットワークシナリオを導入することによって、両端側が同じ数の測定設定を持つ典型的な二局所ネットワークシナリオを超越する。
まず、一方の辺側(例えばアリス)が2^{n-1}$入力を受け取り、他方の辺側(例えばチャーリー)が$n$入力を受け取る非対称な双局所ネットワークを導入する。
非対称双局所性不等式の2つの変種を導出し、それらの最適量子違反を示す。
さらに、2種類の非対称な三局所シナリオを探索する。
i) 2つの辺側がそれぞれ$2^{n-1}$入力を受け取り、他方の辺側が$n$入力を受け取り、
(ii)一方の辺側が$2^{n-1}の入力を受け取り、他方の辺側がそれぞれ$n$の入力を持つ場合。
非対称双局所および三局所シナリオの両方のシステムの次元を仮定することなく、提案するネットワーク不等式の量子的最適値を評価できるエレガントな二乗和法を用いる。
さらに,白色雑音の存在下では,提案した不等式に対する量子違反の堅牢性を示す。 The nonlocality revealed in a multiparty multisource network Bell experiment is conceptually different than the standard multiparty Bell nonlocality involving a single common source. Here, by introducing variants of asymmetric bilocal as well as trilocal network scenarios, we go beyond the typical bilocal network scenario where both the edge parties have an equal number of measurement settings. We first introduce an asymmetric bilocal network where one of the edge parties (say, Alice) receives $2^{n-1}$ inputs and the other edge party (say, Charlie) receives $n$ inputs. We derive two variants of asymmetric bilocality inequalities and demonstrate their optimal quantum violations. Further, we explore two types of asymmetric trilocal scenarios: (i) when two edge parties receive $2^{n-1}$ inputs each and the other edge party receives $n$ inputs, and (ii) when one edge party receives $2^{n-1}$ inputs, and the other two edge parties have $n$ inputs each. We use an elegant sum-of-squares technique that enables us to evaluate the quantum optimal values of the proposed network inequalities without assuming the dimension of the systems for both the asymmetric bilocal as well as the trilocal scenarios. Further, we demonstrate the robustness of the quantum violations of the proposed inequalities in the presence of white noise. | 翻訳日:2023-11-09 16:14:34 公開日:2023-11-08 |
# Android向けテキストファインダーアプリケーション Text Finder Application for Android ( http://arxiv.org/abs/2311.04579v1 ) ライセンス: Link先を確認 | Dr. Milind Godase, Dr. Chandrani Singh and Kunal Dhongadi | (参考訳) text finderは、google cloud vision apiの助けを借りて、光学式文字認識(ocr)技術を使用して、デバイスカメラで撮影された画像からテキストを抽出するandroidアプリケーションである。
抽出したテキストは、ユーザフレンドリーなインターフェース上で、すべての前の抽出が容易にアクセス可能なデバイスストレージに保存することができる。
アプリケーションは、抽出したテキストの編集、削除、共有オプションも備えている。
ユーザインターフェースはユーザフレンドリーであり、文書のスキャン、データ入力、情報検索など、さまざまな目的で学生、専門家、組織にアプリケーションをアクセス可能にする。
画像の入力や書き起こしによる手作業によるテキストの抽出は非常に時間がかかり、エラーを起こしやすい。
このアプリケーションは、テキストを抽出し、写真から重要な情報を整理するための効率的でシンプルなソリューションである。
本稿では、OCR技術とアプリケーションで使用されるGoogleのML Kit Text Recognition APIの技術的詳細と、アプリケーションの設計、実装、評価について、性能と精度の観点から述べる。
この研究はまた、必要な時間と労力の削減やドキュメントベースのタスクの効率向上など、テキスト検索の主な目的とメリットについても検討している。 A Text Finder, an android application that utilizes Optical Character Recognition (OCR) technology with the help of Google Cloud Vision API to extract text from images taken with the device camera or from existing images in the users phone. The extracted text can be saved to the device storage where all previous extracts can be easily accessed on a user-friendly interface. The application also features editing, deletion and sharing options for the extracted text. The user interface is user-friendly, making the application accessible to students, professional and organizations for a variety of purposes, including document scanning, data entry, and information retrieval. Manual extraction of text by typing or writing from images can be very time-consuming and can be prone to errors. This application is an efficient and simple solution for extracted texts and organizing important information from the photos. This paper describes the technical details of the OCR technology and Googles ML Kit Text Recognition API used in the application, as well as the design, implementation and evaluation of the application in terms of performance and accuracy. The research also explores the key objectives and benefits of Text Finder, such as reducing the time and effort required and increasing the efficiency of document-based tasks. | 翻訳日:2023-11-09 16:14:11 公開日:2023-11-08 |
# 量子画像処理における量子エラー低減ツールとしてのディープラーニング Deep learning as a tool for quantum error reduction in quantum image processing ( http://arxiv.org/abs/2311.04575v1 ) ライセンス: Link先を確認 | Krzysztof Werner and Kamil Wereszczy\'nski and Rafa{\l} Potempa and Krzysztof Cyran | (参考訳) 量子コンピュータの可用性や量子体積は限られているが、量子画像表現は広く研究されている分野である。
現在、量子エンタングルメントを用いて画素位置に関する情報を符号化する手法が開発されている。
これらの方法は、回転ゲートの角度パラメータ(例えば、量子画像のフレキシブル表現、FRQI)、量子ビットのシーケンス(例えば、新しい量子表現、NEQR)、位相シフトゲートの角度パラメータ(例えば、局所位相画像量子符号化、LPIQE)から色情報を保存することまで様々である。
これらの手法はすべて、ノイズの多い中間スケール量子時代における量子コンピューティングの不可分な部分であるデコヒーレンスや他の量子ノイズの影響を強く受けている。
これらの現象は測定に大きく影響し、オリジナルと視覚的に異なる画像が抽出される。
この過程は基礎量子であるので、この過程の計算的反転は可能である。
誤り訂正、緩和、削減には多くの方法があるが、いずれも所望の結果を得るために量子コンピュータ時間または追加の量子ビットを使用する。
LPIQEを用いて符号化された画像の全体的な誤差を低減するために、位相歪みアンラベリング誤り低減法と併用して、画像と画像の変換を訓練した生成対向ネットワークを成功させたことを報告する。 Despite the limited availability and quantum volume of quantum computers, quantum image representation is a widely researched area. Currently developed methods use quantum entanglement to encode information about pixel positions. These methods range from using the angle parameter of the rotation gate (e.g., the Flexible Representation of Quantum Images, FRQI), sequences of qubits (e.g., Novel Enhanced Quantum Representation, NEQR), or the angle parameter of the phase shift gates (e.g., Local Phase Image Quantum Encoding, LPIQE) for storing color information. All these methods are significantly affected by decoherence and other forms of quantum noise, which is an inseparable part of quantum computing in the noisy intermediate-scale quantum era. These phenomena can highly influence the measurements and result in extracted images that are visually dissimilar to the originals. Because this process is at its foundation quantum, the computational reversal of this process is possible. There are many methods for error correction, mitigation, and reduction, but all of them use quantum computer time or additional qubits to achieve the desired result. We report the successful use of a generative adversarial network trained for image-to-image translation, in conjunction with Phase Distortion Unraveling error reduction method, for reducing overall error in images encoded using LPIQE. | 翻訳日:2023-11-09 16:13:50 公開日:2023-11-08 |
# 古典的シャドウを用いた量子コンピューティングの回復対称性 Restoring symmetries in quantum computing using Classical Shadows ( http://arxiv.org/abs/2311.04571v1 ) ライセンス: Link先を確認 | Edgar Andres Ruiz Guzman and Denis Lacroix | (参考訳) これらの対称性を尊重しない量子コンピュータ上で用意された試行的な波動関数から、いくつかの対称性を強制する手法を提案する。
この技術は、量子コンピュータ自体に投影を行う必要をなくす。
代わりに、このタスクはシステムの"クラシックシャドウ"の処理後ステップとして実行される。
このアプローチのイラストは、多体系の相互作用に特に興味を持つパリティ、粒子数、スピンプロジェクタに対して与えられる。
提案手法を,量子レジスタの直接測定に基づく他の古典的後処理手法と比較する。
本手法は、非ランダム化による最適化が採用されると、対称性回復状態の可観測性を予測するための競合となることを示す。
この手法は、ペアリングモデルハミルトンの射影エネルギーを計算するための応用を通して説明される。 We introduce a method to enforce some symmetries starting from a trial wave-function prepared on quantum computers that might not respect these symmetries. The technique eliminates the necessity for performing the projection on the quantum computer itself. Instead, this task is conducted as a post-processing step on the system's "Classical Shadow". Illustrations of the approach are given for the parity, particle number, and spin projectors that are of particular interest in interacting many-body systems. We compare the method with another classical post-processing technique based on direct measurements of the quantum register. We show that the present scheme can be competitive to predict observables on symmetry-restored states once optimization through derandomization is employed. The technique is illustrated through its application to compute the projected energy for the pairing model Hamiltonian. | 翻訳日:2023-11-09 16:13:15 公開日:2023-11-08 |
# GResilience: グリーンネスとコラボレーション型AIシステムのレジリエンスのトレードオフ GResilience: Trading Off Between the Greenness and the Resilience of Collaborative AI Systems ( http://arxiv.org/abs/2311.04569v1 ) ライセンス: Link先を確認 | Diaeddin Rimawi, Antonio Liotta, Marco Todescato, Barbara Russo | (参考訳) 協調人工知能システム(CAIS)は、共通の目標を達成するために、共有環境で人間と連携する。
パフォーマンスを低下させレジリエンスを確保する破壊的なイベントから回復するためには、CAISはシステムによって、人間によって、または協力的に、一連のアクションを実行する必要がある。
他のシステムでは、回復行動は追加の必要エネルギーによるエネルギーの悪影響を引き起こす可能性がある。
したがって、上記の行動のどちらがレジリエンスとグリーンネスのトレードオフを改善するかを理解することが最重要となる。
本研究は,CAISの回復行動を自動的に評価し,システムのレジリエンスとグリーンネスのトレードオフを可能にする手法を提案する。
我々は実験プロトコルとその実際のcaisデモストラクタへの応用も設計した。
提案手法は,レジリエンスとグリーンネスのスコアに基づいて決定を行う最適化による1エージェント決定問題,協調ゲームの2プレイヤーとしてレジリエンスとグリーンネスを計算した報酬に基づいて決定を行うゲーム理論による2エージェント決定問題という2つの視点から問題に取り組むことを目的としている。 A Collaborative Artificial Intelligence System (CAIS) works with humans in a shared environment to achieve a common goal. To recover from a disruptive event that degrades its performance and ensures its resilience, a CAIS may then need to perform a set of actions either by the system, by the humans, or collaboratively together. As for any other system, recovery actions may cause energy adverse effects due to the additional required energy. Therefore, it is of paramount importance to understand which of the above actions can better trade-off between resilience and greenness. In this in-progress work, we propose an approach to automatically evaluate CAIS recovery actions for their ability to trade-off between the resilience and greenness of the system. We have also designed an experiment protocol and its application to a real CAIS demonstrator. Our approach aims to attack the problem from two perspectives: as a one-agent decision problem through optimization, which takes the decision based on the score of resilience and greenness, and as a two-agent decision problem through game theory, which takes the decision based on the payoff computed for resilience and greenness as two players of a cooperative game. | 翻訳日:2023-11-09 16:12:56 公開日:2023-11-08 |
# 任意対のシーケンシャルオブザーバによるベル実験における準備条件の共有 Sharing preparation contextuality in Bell experiment by arbitrary pair of sequential observers ( http://arxiv.org/abs/2311.04568v1 ) ライセンス: Link先を確認 | Asmita Kumari and Alok Kumar Pan | (参考訳) 2成分ベルの不等式を量子的に破ることにより、一方の端と両端の観測者の少なくとも1対1のシーケンシャルオブザーバに対して、非局所性の共有が証明できることが証明されている。
本研究では,二成分ベルの不等式に基づく非局所性の共有と文脈性について検討し,一方の当事者による任意の n$ と他方による 2^{n-1}$ の測定について検討した。
そのようなベルの不等式は局所境界と非文脈境界という2つの境界を持ち、これは局所境界よりも小さい。
非局所性はシーケンシャルオブザーバの第一対でしか共有できないが、準備状況は両端の独立なシーケンシャルオブザーバの任意の対で共有できることが示される。 Based on the quantum violation of bipartite Bell inequality, it has been demonstrated that the sharing of non-locality can be demonstrated for at most two sequential observers at one end and at most one-pair of observers at both ends. In this work, we study the sharing of non-locality and preparation contextuality based on a bipartite Bell inequality, involving arbitrary $n$ measurements by one party and $2^{n-1}$ measurements by other party. Such a Bell inequality has two bounds, the local bound and the preparation non-contextual bound, which is smaller than the local bound. We show that while non-locality can be shared only by first pair of the sequential observers, the preparation contextuality can be shared by arbitrary pair of independent sequential observers at both ends. | 翻訳日:2023-11-09 16:12:19 公開日:2023-11-08 |
# 中規模評価における相違点の性質の検討:抽象性・連続性連続体を事例として Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case Study on the Abstractness-Concreteness Continuum ( http://arxiv.org/abs/2311.04563v1 ) ライセンス: Link先を確認 | Urban Knuple\v{s}, Diego Frassinelli, Sabine Schulte im Walde | (参考訳) 人間は極端なケースの尺度での格付けに強く同意する傾向にある(例えば、CATは、非常に具体的なものと判断される)が、中規模語の判断は、より不一致を示す。
しかし、収集された評価基準は分野によって大きく活用されている。
私たちの研究はコンクリート質の評価と
(i)中規模単語の有意なマルチモーダル特性を特定するための相関と教師付き分類を実装し、
(ii)ラッカー間の系統的不一致のパターンを特定するためにハードクラスタリングを適用する。
提案手法は,それを利用する前に,微調整か,中規模ターゲット語をフィルタリングすることである。 Humans tend to strongly agree on ratings on a scale for extreme cases (e.g., a CAT is judged as very concrete), but judgements on mid-scale words exhibit more disagreement. Yet, collected rating norms are heavily exploited across disciplines. Our study focuses on concreteness ratings and (i) implements correlations and supervised classification to identify salient multi-modal characteristics of mid-scale words, and (ii) applies a hard clustering to identify patterns of systematic disagreement across raters. Our results suggest to either fine-tune or filter mid-scale target words before utilising them. | 翻訳日:2023-11-09 16:11:52 公開日:2023-11-08 |
# CAIS-DMA:協調型AIシステムのための意思決定アシスタント CAIS-DMA: A Decision-Making Assistant for Collaborative AI Systems ( http://arxiv.org/abs/2311.04562v1 ) ライセンス: Link先を確認 | Diaeddin Rimawi, Antonio Lotta, Marco Todescato, Barbara Russo | (参考訳) 協調型人工知能システム(collaborative artificial intelligence system, cais)は、共通の目標を達成するために、人間と協調して行動を学ぶサイバー物理システムである。
特に、CAISは、このコラボレーションの意思決定プロセスをサポートするAIモデルを備えている。
イベントがCAIS(すなわち破壊的なイベント)のパフォーマンスを低下させるとき、この決定プロセスは妨げられるか、停止される。
したがって、AIモデルの学習を監視し、最終的にはそのような状況下で意思決定プロセスを支援することが最重要となる。
本稿では,ディスラプティブイベント後にシステムの性能劣化が発生した場合,CAISにおける意思決定プロセスを支援する新しい手法を提案する。
本研究の目的は,CAISの環境と破壊的な事象を管理・シミュレートするフレームワークと,意思決定プロセスを自動化するフレームワークと,CAISの振る舞いを視覚的に分析するフレームワークを開発することである。
全体として、我々のフレームワークは意思決定プロセスを自動的に監視し、パフォーマンス劣化が発生した時に介入し、次のアクションを推奨します。
我々は,実世界のコラボレーティブロボットを用いて,回復時間(回復力)の最小化とエネルギーの悪影響(緑度)の最小化のバランスをとることを推奨する実世界のコラボレーティブロボットの例を示す。 A Collaborative Artificial Intelligence System (CAIS) is a cyber-physical system that learns actions in collaboration with humans in a shared environment to achieve a common goal. In particular, a CAIS is equipped with an AI model to support the decision-making process of this collaboration. When an event degrades the performance of CAIS (i.e., a disruptive event), this decision-making process may be hampered or even stopped. Thus, it is of paramount importance to monitor the learning of the AI model, and eventually support its decision-making process in such circumstances. This paper introduces a new methodology to automatically support the decision-making process in CAIS when the system experiences performance degradation after a disruptive event. To this aim, we develop a framework that consists of three components: one manages or simulates CAIS's environment and disruptive events, the second automates the decision-making process, and the third provides a visual analysis of CAIS behavior. Overall, our framework automatically monitors the decision-making process, intervenes whenever a performance degradation occurs, and recommends the next action. We demonstrate our framework by implementing an example with a real-world collaborative robot, where the framework recommends the next action that balances between minimizing the recovery time (i.e., resilience), and minimizing the energy adverse effects (i.e., greenness). | 翻訳日:2023-11-09 16:11:20 公開日:2023-11-08 |
# 情報融合によるソフトウェアアーキテクチャ回復 Software Architecture Recovery with Information Fusion ( http://arxiv.org/abs/2311.04643v1 ) ライセンス: Link先を確認 | Yiran Zhang, Zhengzi Xu, Chengwei Liu, Hongxu Chen, Jianwen Sun, Dong Qiu, Yang Liu | (参考訳) アーキテクチャを理解することは、大規模なソフトウェアシステムの効率的な保守と管理に不可欠である。
しかし、ソフトウェアシステムが時間とともに進化するにつれて、そのアーキテクチャは必然的に変化する。
変更に対応するには、アーキテクトは実装レベルの変更を追跡し、それに従ってアーキテクチャドキュメントを更新する必要がある。
そのため、このプロセスを容易にするために、多くの自動アーキテクチャ復元技術が提案されている。
アーキテクチャリカバリの正確性を改善する努力が続けられているが、既存のソリューションには2つの制限がある。
第一に、その多くは回復のために1つまたは2つの種類の情報のみを使用し、他の情報源の潜在的有用性を無視している。
第2に,情報を粗い粒度で使用し,その中の重要な詳細を見渡す傾向があります。
これらの制約に対処するため,我々は,依存関係やコードテキスト,フォルダ構造など,3種類の包括的な情報を取り入れた完全自動化アーキテクチャリカバリ手法であるsarifを提案する。
SARIFは、各タイプの情報の詳細を徹底的に分析し、それらの関連性や品質に基づいてそれらを適応的に融合することにより、より正確にアーキテクチャを復元することができる。
SARIFを評価するために、我々は6つのプロジェクトと産業協力者がラベル付けした3つのオープンソースプロジェクトを収集した。
SARIFを3つの一般的なアーキテクチャ類似度指標と2つの新しい指標を用いて,9つの最先端技術と比較した。
実験の結果、SARIFは従来の技術よりも36.1%精度が高いことがわかった。
包括的アーキテクチャを提供することで、SARIFはシステムを効果的に理解し、基幹アーキテクチャを得るための手作業を減らすことができる。 Understanding the architecture is vital for effectively maintaining and managing large software systems. However, as software systems evolve over time, their architectures inevitably change. To keep up with the change, architects need to track the implementation-level changes and update the architectural documentation accordingly, which is time-consuming and error-prone. Therefore, many automatic architecture recovery techniques have been proposed to ease this process. Despite efforts have been made to improve the accuracy of architecture recovery, existing solutions still suffer from two limitations. First, most of them only use one or two type of information for the recovery, ignoring the potential usefulness of other sources. Second, they tend to use the information in a coarse-grained manner, overlooking important details within it. To address these limitations, we propose SARIF, a fully automated architecture recovery technique, which incorporates three types of comprehensive information, including dependencies, code text and folder structure. SARIF can recover architecture more accurately by thoroughly analyzing the details of each type of information and adaptively fusing them based on their relevance and quality. To evaluate SARIF, we collected six projects with published ground-truth architectures and three open-source projects labeled by our industrial collaborators. We compared SARIF with nine state-of-the-art techniques using three commonly-used architecture similarity metrics and two new metrics. The experimental results show that SARIF is 36.1% more accurate than the best of the previous techniques on average. By providing comprehensive architecture, SARIF can help users understand systems effectively and reduce the manual effort of obtaining ground-truth architectures. | 翻訳日:2023-11-09 16:03:07 公開日:2023-11-08 |
# 電磁場からの絡み合いの収穫 Entanglement Harvesting from Electromagnetic Quantum Fields ( http://arxiv.org/abs/2311.04642v1 ) ライセンス: Link先を確認 | Frieder Lindel, Alexa Herter, Valentin Gebhart, J\'er\^ome Faist, Stefan Y. Buhmann | (参考訳) 真空状態を含む量子電磁場の多くの状態において、異なる時空領域の間に絡み合いがあり、空間のような分離領域さえ存在する。
これらの相関は収穫され、場と局所的に相互作用する量子系によって検出される。
本稿では,電気光学サンプリング(eos)に基づくエンタングルメントハーベスティング方式の実験的実装を提案する。
最先端のeos実験により、真空場から絡み合いを抽出し、一般的なthz場内の量子相関を研究できることを実証する。
さらに,真空場に存在するベル非局在性について検討する。
最後に,単ビームEOS構成におけるショットノイズを軽減する新しい手法を提案する。
これらの知見は、相対論的量子場理論の基礎的性質を実験的に探求する方法を開拓し、THz量子光学における診断ツールとしてEOSを強化する。 In many states of the quantum electromagnetic field, including the vacuum state, entanglement exists between different space-time regions -- even space-like separated ones. These correlations can be harvested and, thereby, detected by quantum systems which locally interact with the field. Here, we propose an experimental implementation of such an entanglement-harvesting scheme which is based on electro-optic sampling (EOS). We demonstrate that state-of-the-art EOS experiments enable one to harvest entanglement from the vacuum field and to study quantum correlations within general THz fields. We further show how Bell nonlocality present in the vacuum field can be probed. Finally, we introduce a novel approach to mitigate shot noise in single-beam EOS configurations. These findings pave the way for experimental inquiries into foundational properties of relativistic quantum field theory, and empower EOS as a diagnostic tool in THz quantum optics. | 翻訳日:2023-11-09 16:02:41 公開日:2023-11-08 |
# スロット混合モジュールを用いたオブジェクト中心学習 Object-Centric Learning with Slot Mixture Module ( http://arxiv.org/abs/2311.04640v1 ) ライセンス: Link先を確認 | Daniil Kirilenko, Vitaliy Vorobyov, Alexey K. Kovalev, Aleksandr I. Panov | (参考訳) オブジェクト中心アーキテクチャは通常、機能マップ全体に微分可能なモジュールを適用して、スロットと呼ばれるエンティティ表現の集合に分解する。
これらの手法の一部はクラスタリングアルゴリズムに似ており、クラスタの中心がスロット表現として機能している。
Slot Attentionはそのような手法の例であり、ソフトk平均アルゴリズムの学習可能なアナログとして機能する。
本研究はガウス混合モデルに基づく学習可能なクラスタリング手法を用いる。
他のアプローチとは異なり、私たちはスロットをクラスタの中心として表現するだけでなく、クラスタと割り当てられたベクター間の距離に関する情報も取り入れている。
Slot Attentionの代わりにこのアプローチを用いることで、オブジェクト中心のシナリオのパフォーマンスが向上し、設定されたプロパティ予測タスクで最先端の結果が得られます。 Object-centric architectures usually apply a differentiable module to the entire feature map to decompose it into sets of entity representations called slots. Some of these methods structurally resemble clustering algorithms, where the cluster's center in latent space serves as a slot representation. Slot Attention is an example of such a method, acting as a learnable analog of the soft k-means algorithm. Our work employs a learnable clustering method based on the Gaussian Mixture Model. Unlike other approaches, we represent slots not only as centers of clusters but also incorporate information about the distance between clusters and assigned vectors, leading to more expressive slot representations. Our experiments demonstrate that using this approach instead of Slot Attention improves performance in object-centric scenarios, achieving state-of-the-art results in the set property prediction task. | 翻訳日:2023-11-09 16:02:27 公開日:2023-11-08 |
# 介入による線形ガウス多木モデルの学習 Learning Linear Gaussian Polytree Models with Interventions ( http://arxiv.org/abs/2311.04636v1 ) ライセンス: Link先を確認 | D. Tramontano, L. Waldmann, M. Drton, and E. Duarte | (参考訳) 線形ガウス多樹の因果構造を既知の介入目標を用いた介入実験のデータを用いて一貫した高度にスケーラブルな局所的アプローチを提案する。
我々の手法はまずポリツリーの骨格を学習し、その後エッジをオリエントする。
出力は、真の基底分布のポリツリーの介入等価クラスを表すPDAGである。
我々が使用する骨格と方向の回復手順は、二階統計と低次元辺縁分布に依存する。
合成データセットにおける異なるシナリオ下での手法の性能を評価し,遺伝子表現介入データセットにおけるポリツリーの学習にアルゴリズムを適用した。
シミュレーションにより,我々のアプローチは高速であり,構造的ハミング距離の精度が良好であり,数千ノードの問題を処理できることを示した。 We present a consistent and highly scalable local approach to learn the causal structure of a linear Gaussian polytree using data from interventional experiments with known intervention targets. Our methods first learn the skeleton of the polytree and then orient its edges. The output is a CPDAG representing the interventional equivalence class of the polytree of the true underlying distribution. The skeleton and orientation recovery procedures we use rely on second order statistics and low-dimensional marginal distributions. We assess the performance of our methods under different scenarios in synthetic data sets and apply our algorithm to learn a polytree in a gene expression interventional data set. Our simulation studies demonstrate that our approach is fast, has good accuracy in terms of structural Hamming distance, and handles problems with thousands of nodes. | 翻訳日:2023-11-09 16:02:13 公開日:2023-11-08 |
# VET:ポイントクラウド補完と高品質ニューラルレンダリングのためのビジュアルエラートモグラフィ VET: Visual Error Tomography for Point Cloud Completion and High-Quality Neural Rendering ( http://arxiv.org/abs/2311.04634v1 ) ライセンス: Link先を確認 | Linus Franke, Darius R\"uckert, Laura Fink, Matthias Innmann, Marc Stamminger | (参考訳) ここ数年、ディープニューラルネットワークは、新しい視点合成における大きな進歩の扉を開いた。
これらのアプローチの多くは、運動アルゴリズムの構造から得られる(粗い)プロキシ幾何に基づいている。
このプロキシの小さな欠陥は、ニューラルレンダリングによって修正できるが、細い構造や光沢のある領域によく見られる大きな穴や欠落部分により、それでも人工物や時間的不安定さを損なう。
本稿では,そのような欠陥を検知し,修正するためのニューラルレンダリングに基づく新しいアプローチを提案する。
プロキシとして、ポイントクラウドを使用し、複雑なトポロジ操作をすることなく、容易にアウトリー幾何を除去し、欠落した幾何を埋めることができる。
我々のアプローチの鍵は
(i)冗長な点をブレンドできる、微分可能でブレンドされた点ベースのレンダラ
(II)ビジュアルエラートモグラフィ(VET)の概念により、2次元誤差マップを持ち上げて幾何学に欠ける3次元領域を識別し、それに応じて新しい点を生成することができる。
さらに
(iii)ネスト環境マップとしてポイントを追加することにより,同じパイプライン内で環境の高品質なレンダリングを生成できる。
その結果,本手法は,動きから構造によって得られる点雲の品質を向上し,新たな視点合成の質を著しく向上できることがわかった。
ポイント成長技術とは対照的に、このアプローチは大規模な穴や薄い構造を効果的に修正することもできます。
レンダリング品質は最先端の手法より優れ、時間的安定性は大幅に向上し、レンダリングはリアルタイムフレームレートで可能である。 In the last few years, deep neural networks opened the doors for big advances in novel view synthesis. Many of these approaches are based on a (coarse) proxy geometry obtained by structure from motion algorithms. Small deficiencies in this proxy can be fixed by neural rendering, but larger holes or missing parts, as they commonly appear for thin structures or for glossy regions, still lead to distracting artifacts and temporal instability. In this paper, we present a novel neural-rendering-based approach to detect and fix such deficiencies. As a proxy, we use a point cloud, which allows us to easily remove outlier geometry and to fill in missing geometry without complicated topological operations. Keys to our approach are (i) a differentiable, blending point-based renderer that can blend out redundant points, as well as (ii) the concept of Visual Error Tomography (VET), which allows us to lift 2D error maps to identify 3D-regions lacking geometry and to spawn novel points accordingly. Furthermore, (iii) by adding points as nested environment maps, our approach allows us to generate high-quality renderings of the surroundings in the same pipeline. In our results, we show that our approach can improve the quality of a point cloud obtained by structure from motion and thus increase novel view synthesis quality significantly. In contrast to point growing techniques, the approach can also fix large-scale holes and missing thin structures effectively. Rendering quality outperforms state-of-the-art methods and temporal stability is significantly improved, while rendering is possible at real-time frame rates. | 翻訳日:2023-11-09 16:02:00 公開日:2023-11-08 |
# 生体用テンプレート保護システムにおけるunlinkability評価のための汎用フレームワーク General Framework to Evaluate Unlinkability in Biometric Template Protection Systems ( http://arxiv.org/abs/2311.04633v1 ) ライセンス: Link先を確認 | Marta Gomez-Barrero, Javier Galbally, Christian Rathgeb, Christoph Busch | (参考訳) 過去20年間のバイオメトリック認識システムの広範な展開は、バイオメトリックデータの保存と使用に関するプライバシー上の懸念を提起している。
その結果、生体情報保護に関するiso/iec 24745国際規格は、生体情報テンプレートを保護するための2つの主要な要件を確立した。
可逆テンプレートの開発と分析に多くの取り組みがなされている。
しかし、そのようなテンプレートの無連結性を分析する体系的な定量的方法はまだ存在しない。
本稿では,バイオメトリックテンプレートのunlinkabilityを評価するための新しい汎用フレームワークを提案することで,この欠点を解決する。
アプローチの可能性を説明するために,バイオメトリックソルト,ブルームフィルタ,ホモモルフィック暗号化,ブロック再マッピングという,バイオメトリックテンプレート保護のための最先端技術の4つの非リンク性を評価する。
最後のテクニックでは、提案されたフレームワークが他の既存のメトリクスと比較され、その利点を示しています。 The wide deployment of biometric recognition systems in the last two decades has raised privacy concerns regarding the storage and use of biometric data. As a consequence, the ISO/IEC 24745 international standard on biometric information protection has established two main requirements for protecting biometric templates: irreversibility and unlinkability. Numerous efforts have been directed to the development and analysis of irreversible templates. However, there is still no systematic quantitative manner to analyse the unlinkability of such templates. In this paper we address this shortcoming by proposing a new general framework for the evaluation of biometric templates' unlinkability. To illustrate the potential of the approach, it is applied to assess the unlinkability of four state-of-the-art techniques for biometric template protection: biometric salting, Bloom filters, Homomorphic Encryption and block re-mapping. For the last technique, the proposed framework is compared with other existing metrics to show its advantages. | 翻訳日:2023-11-09 16:01:33 公開日:2023-11-08 |
# 相互に通勤する局所可観測体の非有界数の自己検定 Self-testing of an unbounded number of mutually commuting local observables ( http://arxiv.org/abs/2311.04631v1 ) ライセンス: Link先を確認 | Sneha Munshi, A. K. Pan | (参考訳) 適切なベルの不等式に対する最適量子違反に基づいて、状態と可観測物のデバイス非依存の自己テストが報告されている。
局所的可換あるいは可換な可観測性は量子非局所性を明らかにするために使用できないことがよく研究されている。
したがって、通勤するローカルオブザーバブルの自己テストはベルテストでは不可能である。
本研究では, 相互に通勤する局所可観測物の集合の自己試験を実演する。
このような認定は報告されていない。
ネットワーク内の2つの局所性およびn-局所性不等式を最適に定式化する量子違反は、相互に通勤する一方の観測可能量を一意に固定することを示す。
特に、2入力のarbitrary-party starネットワークでは、2つの可換ローカルオブザーバブルが自己テスト可能であることを最初に示す。
さらに、任意の入力の3者2ローカルネットワークシナリオを考慮し、相互に可換な局所可観測性を持つ非有界数の自己テストを示す。 Based on the optimal quantum violation of suitable Bell's inequality, the device-independent self-testing of state and observables has been reported. It is well-studied that locally commuting or compatible observables cannot be used to reveal quantum nonlocality. Therefore, the self-testing of commuting local observables cannot be possible through the Bell test. In this work, we demonstrate the self-testing of a set of mutually commuting local observables. Such certification has not hitherto been reported. We show that the optimal quantum violations of suitably formulated bilocality and n-locality inequalities in networks uniquely fix the observables of one party to be mutually commuting. In particular, we first demonstrate that in a two-input-arbitrary-party star network, two commuting local observables can be self-tested. Further, by considering an arbitrary-input three-party bilocal network scenario, we demonstrate the self-testing of an unbounded number of mutually commuting local observables. | 翻訳日:2023-11-09 16:01:19 公開日:2023-11-08 |
# 入力に依存する条件付きn-局所性不等式の最適量子違反 Optimal quantum violations of n-locality inequalities with conditional dependence on inputs ( http://arxiv.org/abs/2311.04621v1 ) ライセンス: Link先を確認 | Sneha Munshi, A. K. Pan | (参考訳) ネットワークにおけるベル実験は、概念的には従来のマルチパーティイトベル非局所性とは異なる量子非局所性の形式をもたらす。
従来のマルチパーティトベル実験では、物理システムを複数のパーティに分散する単一のソースが特徴である。
対照的に、ネットワークベル実験では複数の独立したソースが特徴である。
この研究は、n個の独立したソースと(n+1)個のパーティを含む(n個のエッジパーティを含む)任意の入力シナリオにおける星ネットワーク構成である非自明な量子ネットワークを考える。
nのエッジパーティはそれぞれ、物理的なシステムを中央と共有している。
中央党は任意の m 個の入力を受け取り、各辺党は 2^{m-1} 個の入力を受け取る。
システムのジョイント確率は、いくつかの線形制約によって制限される。
この共同確率の挙動は, エッジパーティの入力に条件付き依存性を課し, 各エッジパーティの可観測性は, 少数の線形制約によって拘束されることを示した。
一般化されたn-局所性不等式の族を導出し、その最適量子違反を示す。
量子系の次元を指定せずに量子理論の最適化を可能にするエレガントな2乗法を導入する。
最適な量子値は、条件依存とともに各辺の可観測性をテストする。
中心のパーティと量子状態の観測可能量は、最適化手順自体から自己検査される。
さらに,ネットワーク非局所性を特徴付け,適切な標準ベル非局所性との対応性を検討する。 Bell experiment in the network gives rise to a form of quantum nonlocality which is conceptually different from traditional multipartite Bell nonlocality. Conventional multipartite Bell experiment features a single source that distributes physical systems to multiple parties. In contrast, the network Bell experiment features multiple independent sources. This work considers a nontrivial quantum network, the star-network configuration in an arbitrary input scenario involving n independent sources and (n+1) parties, including n edge parties and one central party. Each of the n edge parties shares a physical system with the central party. We consider that the central party received an arbitrary m number of inputs, and each edge party receives 2^{m-1} number of inputs. The joint probabilities of the system are bounded by some linear constraints. We show that this behaviour of the joint probabilities in turn imposes conditional dependence on the inputs of the edge parties such that the observables of each edge party are bounded by few linear constraints. We derive a family of generalized n-locality inequalities and demonstrate its optimal quantum violation. We introduce an elegant sum-of-squares approach that enables the optimization in quantum theory without specifying the dimension of the quantum system. The optimal quantum value self-tests the observables of each edge party along with the conditional dependence. The observables of the central party along with the quantum state are also self-tested from the optimization procedure itself. Further, we characterize the network nonlocality and examine its correspondence with suitably derived standard Bell nonlocality. | 翻訳日:2023-11-09 16:01:00 公開日:2023-11-08 |
# ストリートシーンにおけるグラフ学習による画像パッチマッチング Image Patch-Matching with Graph-Based Learning in Street Scenes ( http://arxiv.org/abs/2311.04617v1 ) ライセンス: Link先を確認 | Rui She, Qiyu Kang, Sijie Wang, Wee Peng Tay, Yong Liang Guan, Diego Navarro Navarro and Andreas Hartmannsgruber | (参考訳) 車載カメラが捉えたリアルタイム画像のランドマークパッチと、画像データベース内のランドマークパッチとをマッチングすることは、自動運転のための様々なコンピュータ認識タスクにおいて重要な役割を果たす。
現在の手法は関心領域の局所的マッチングに重点を置いており、通常環境内のオブジェクトに対応するイメージパッチ間の空間的近傍関係を考慮していない。
本稿では,空間近傍情報をキャプチャするパッチやエッジに対応するグラフ頂点を持つ空間グラフを構築する。
本稿では,グラフ学習を用いた特徴量と距離学習モデルを提案する。
本研究では,一致対と不一致対を条件とした分布間の情報距離を最大化することにより,グラフベース損失の理論的基礎を提供する。
いくつかのストリートシーンデータセットを用いてモデルを評価し,提案手法が最先端のマッチング結果を実現することを示す。 Matching landmark patches from a real-time image captured by an on-vehicle camera with landmark patches in an image database plays an important role in various computer perception tasks for autonomous driving. Current methods focus on local matching for regions of interest and do not take into account spatial neighborhood relationships among the image patches, which typically correspond to objects in the environment. In this paper, we construct a spatial graph with the graph vertices corresponding to patches and edges capturing the spatial neighborhood information. We propose a joint feature and metric learning model with graph-based learning. We provide a theoretical basis for the graph-based loss by showing that the information distance between the distributions conditioned on matched and unmatched pairs is maximized under our framework. We evaluate our model using several street-scene datasets and demonstrate that our approach achieves state-of-the-art matching results. | 翻訳日:2023-11-09 16:00:39 公開日:2023-11-08 |
# LuminanceL1Loss:明るさと色差を測定する損失関数 LuminanceL1Loss: A loss function which measures percieved brightness and colour differences ( http://arxiv.org/abs/2311.04614v1 ) ライセンス: Link先を確認 | Dominic De Jonge | (参考訳) 本稿では,画像復元タスクの性能向上を目的とした新しい損失関数LuminanceL1Lossを紹介する。
Retinexformer, BUIFD, DnCNN アーキテクチャに適用した場合, MSE よりも優れていることを示す。
提案するluminancel1lossは,画像をグレースケールに変換し,その後,グレースケールとカラーチャネルのmse損失を計算するユニークな手法を採用している。
実験結果から,このイノベーティブな損失関数は従来手法よりも常に優れており,画像復号化や画像再構成における他の関連タスクの可能性を示している。
4.7dBまで上昇する。
本研究では,画像修復作業におけるLuminanceL1Lossの有効性を明らかにする。 We introduce LuminanceL1Loss, a novel loss function designed to enhance the performance of image restoration tasks. We demonstrate its superiority over MSE when applied to the Retinexformer, BUIFD and DnCNN architectures. Our proposed LuminanceL1Loss leverages a unique approach by transforming images into grayscale and subsequently computing the MSE loss for both grayscale and color channels. Experimental results demonstrate that this innovative loss function consistently outperforms traditional methods, showcasing its potential in image denoising and other related tasks in image reconstruction. It demonstrates gains up to 4.7dB. The results presented in this study highlight the efficacy of LuminanceL1Loss for various image restoration tasks. | 翻訳日:2023-11-09 16:00:27 公開日:2023-11-08 |
# 分散変分不等式に対するビザンチン耐性法 Byzantine-Tolerant Methods for Distributed Variational Inequalities ( http://arxiv.org/abs/2311.04611v1 ) ライセンス: Link先を確認 | Nazarii Tupitsa, Abdulla Jasem Almansoori, Yanlin Wu, Martin Tak\'a\v{c}, Karthik Nandakumar, Samuel Horv\'ath, Eduard Gorbunov | (参考訳) ビザンチン攻撃に対する堅牢性は、さまざまな分散トレーニングシナリオにおいて不可欠である。
トレーニングが最小化問題を解決するプロセスに還元されると、ビザンチンの堅牢性は比較的よく理解される。
しかし、min-max問題や、より一般的には変分不等式などの他の問題定式化は、多くの現代の機械学習、特に分散学習タスクで発生する。
これらの問題は標準最小化問題と大きく異なり、したがって別々に検討する必要がある。
それにもかかわらず、ビザンツの強固さという文脈において、この重要な疑問に答えるのは1つの著作(adibi et al., 2022)だけである。
本研究は, 分散変分不等式に対するビザンチン・ロバスト法を複数(確実に)提供し, 理論的収束を徹底的に研究し, 先行研究の限界を除去し, 理論的結果を支持する数値比較を行った。 Robustness to Byzantine attacks is a necessity for various distributed training scenarios. When the training reduces to the process of solving a minimization problem, Byzantine robustness is relatively well-understood. However, other problem formulations, such as min-max problems or, more generally, variational inequalities, arise in many modern machine learning and, in particular, distributed learning tasks. These problems significantly differ from the standard minimization ones and, therefore, require separate consideration. Nevertheless, only one work (Adibi et al., 2022) addresses this important question in the context of Byzantine robustness. Our work makes a further step in this direction by providing several (provably) Byzantine-robust methods for distributed variational inequality, thoroughly studying their theoretical convergence, removing the limitations of the previous work, and providing numerical comparisons supporting the theoretical findings. | 翻訳日:2023-11-09 16:00:14 公開日:2023-11-08 |
# フェデレートラーニング(SVCFL)に基づく支援ベクトル分類器を用いた自閉症スペクトラム障害予測 Accurate Autism Spectrum Disorder prediction using Support Vector Classifier based on Federated Learning (SVCFL) ( http://arxiv.org/abs/2311.04606v1 ) ライセンス: Link先を確認 | Ali Mohammadifar, Hasan Samadbin, Arman Daliri | (参考訳) 自閉症診断への道は長く困難であり、遅延は深刻な結果をもたらす可能性がある。
人工知能は、自閉症の診断方法を完全に変えることができる。
AIベースの診断ツールは、大量のデータを分析し、人間の評価者にすぐには見えないパターンを明らかにすることによって、診断の確認やさらなるテストの必要性の強調に役立つかもしれない。
成功かつタイムリーな診断の後、自閉症は様々な方法で人工知能によって治療することができる。
本稿では,4つのデータセットを用いてフェデレーション学習法を用いてそれらを収集し,支援ベクトル分類法で診断することにより,この障害の早期診断について論じる。
本研究では,自閉症スペクトラム障害の予測に99%の精度を達成し,その結果を13%改善した。 The path to an autism diagnosis can be long and difficult, and delays can have serious consequences. Artificial intelligence can completely change the way autism is diagnosed, especially when it comes to situations where it is difficult to see the first signs of the disease. AI-based diagnostic tools may help confirm a diagnosis or highlight the need for further testing by analyzing large volumes of data and uncovering patterns that may not be immediately apparent to human evaluators. After a successful and timely diagnosis, autism can be treated through artificial intelligence using various methods. In this article, by using four datasets and gathering them with the federated learning method and diagnosing them with the support vector classifier method, the early diagnosis of this disorder has been discussed. In this method, we have achieved 99% accuracy for predicting autism spectrum disorder and we have achieved 13% improvement in the results. | 翻訳日:2023-11-09 15:59:57 公開日:2023-11-08 |
# 短距離および長距離p波ペアリングを用いた非エルミートオーブリー・アンドルー・ハーパーモデル Non-Hermitian Aubry-Andr\'e-Harper model with short- and long-range p-wave pairing ( http://arxiv.org/abs/2311.04605v1 ) ライセンス: Link先を確認 | Shaina Gandhi and Jayendra N. Bandyopadhyay | (参考訳) 短波と長波のペアリングを考慮した非エルミートオーブリー・アンドレ・ハーパーモデルについて検討する。
ここで、非エルミティキシー性はオンサイトポテンシャルで考慮される。
固有スペクトル、局在特性、PT}対称性、実-複素遷移、位相特性など、このシステムのいくつかの重要な側面の包括的解析を行う。
具体的には,短距離ペアリングではマヨラナゼロモードが出現するのに対し,長距離ペアリングでは巨大なディラックモードが出現する。
特に、三相遷移が同定され、拡張状態または金属状態から臨界多重フラクタル状態への同時遷移、pt対称性の破れ、および非慣習実数から複素エネルギーへの同時遷移を含む。
さらに、トポロジカル遷移と超伝導遷移が同時に起こる二重相転移が観察される。
これらの興味深い二相および三相遷移は、短距離および長距離のペアリングケースで観察される。 We investigate a non-Hermitian Aubry-Andre-Harper model, considering both the short- and long-range p-wave pairing. Here, the non-Hermiticity is considered at the onsite potential. A comprehensive analysis of several critical aspects of this system, including the eigenspectra, localization properties, PT} symmetry, real to complex transition, and topological properties, is conducted. Specifically, we observe the emergence of Majorana zero modes in the case of short-range pairing, whereas the massive Dirac modes emerge in the case of long-range pairing. Notably, a triple-phase transition is identified, involving simultaneous transitions from extended or metallic state to critical multifractal state, unbroken to broken PT symmetry, and unconventional real to complex energies. In addition, a double-phase transition is observed, where the topological and superconducting transitions occur concurrently. These intriguing double- and triple-phase transitions are observed in both short- and long-range pairing cases. | 翻訳日:2023-11-09 15:59:43 公開日:2023-11-08 |
# 通信ネットワークにおけるリソース割当を考慮した境界遅延によるゼロ階非同期学習 Zeroth-order Asynchronous Learning with Bounded Delays with a Use-case in Resource Allocation in Communication Networks ( http://arxiv.org/abs/2311.04604v1 ) ライセンス: Link先を確認 | Pourya Behmandpoor, Marc Moonen, Panagiotis Patrinos | (参考訳) 分散最適化は、分散学習と適応における幅広い応用のために、大きな関心を集めている。
共有メモリ、ローカルメモリ、コンセンサスベースのアプローチといった様々なシナリオは独立して研究されてきたが、相互接続をさらに探究する必要がある。
本稿では、エージェントが統合されたミッションに向けて協力し、異なるタスクをこなすシナリオに特に焦点をあてる。
各エージェントのアクションは、インタラクションを通じて他のエージェントに影響を及ぼす可能性がある。
このコンテキスト内では、エージェントの目標は、ローカルのゼロ次オラクルのみが利用できるローカル報酬関数の集約に基づいて、ローカルパラメータを最適化することである。
特に、学習プロセスは非同期であり、つまりエージェントは、有界でランダムな通信遅延を受けた他のエージェントと通信しながら、ゼロ階のオーラクルを非同期に更新し、クエリする。
本稿では,理論収束解析を行い,提案手法の収束率を確立する。
さらに,コミュニケーションネットワークにおける深層学習に基づく資源配分の問題にも対処し,エージェントがトランスミッターとして,個々の(おそらくユニークな)ポリシーを協調的に訓練し,共通のパフォーマンス指標を最大化する数値実験を行う。 Distributed optimization has experienced a significant surge in interest due to its wide-ranging applications in distributed learning and adaptation. While various scenarios, such as shared-memory, local-memory, and consensus-based approaches, have been extensively studied in isolation, there remains a need for further exploration of their interconnections. This paper specifically concentrates on a scenario where agents collaborate toward a unified mission while potentially having distinct tasks. Each agent's actions can potentially impact other agents through interactions. Within this context, the objective for the agents is to optimize their local parameters based on the aggregate of local reward functions, where only local zeroth-order oracles are available. Notably, the learning process is asynchronous, meaning that agents update and query their zeroth-order oracles asynchronously while communicating with other agents subject to bounded but possibly random communication delays. This paper presents theoretical convergence analyses and establishes a convergence rate for the proposed approach. Furthermore, it addresses the relevant issue of deep learning-based resource allocation in communication networks and conducts numerical experiments in which agents, acting as transmitters, collaboratively train their individual (possibly unique) policies to maximize a common performance metric. | 翻訳日:2023-11-09 15:59:26 公開日:2023-11-08 |
# 動的ユーザユーティリティ要求を考慮したコミュニケーションシステムのための深層学習型リソースアロケータ A Deep Learning Based Resource Allocator for Communication Systems with Dynamic User Utility Demands ( http://arxiv.org/abs/2311.04600v1 ) ライセンス: Link先を確認 | Pourya Behmandpoor, Panagiotis Patrinos, Marc Moonen | (参考訳) ディープラーニング(DL)ベースのリソース割り当て(RA)は、そのパフォーマンス効率から、最近多くの注目を集めています。
しかし、関連研究の多くは、データレート制約などのユーザ数とそのユーティリティ要求が固定され、設計されたDLベースのRAスキームは、これらの固定パラメータに対してのみ訓練されたポリシーを利用するという理想的なケースを前提としている。
これらのパラメータが変化するたびに、計算量的に複雑なポリシー再トレーニングが必要となる。
そこで,本論文では,DLベースのリソースアロケータ(ALCOR)を導入し,アプリケーション層などに基づいて,ユーザが自由にユーティリティ要求を調整できるようにする。
alcorは反復最適化アルゴリズムにおいて、ポリシーとしてディープニューラルネットワーク(dnn)を採用している。
最適化アルゴリズムは,期待するユーティリティ要求を満たすために,タイムシェアリング問題におけるユーザのオンオフ状態を最適化することを目的としている。
このポリシーは、アクティブユーザ間のユーザユーティリティ要求を考慮せずに、unconstrained ra (ura) -- raを実行し、瞬時にsumユーティリティ(su)を最大化する。
選択されたURAスキームに基づいて、ALCORはモデルベースまたはモデルフリーな方法で、集中的または分散的なシナリオでRAを実行することができる。
導出収束解析はalcorの収束の保証を提供し、数値実験はその効果を補う。 Deep learning (DL) based resource allocation (RA) has recently gained a lot of attention due to its performance efficiency. However, most of the related studies assume an ideal case where the number of users and their utility demands, e.g., data rate constraints, are fixed and the designed DL based RA scheme exploits a policy trained only for these fixed parameters. A computationally complex policy retraining is required whenever these parameters change. Therefore, in this paper, a DL based resource allocator (ALCOR) is introduced, which allows users to freely adjust their utility demands based on, e.g., their application layer. ALCOR employs deep neural networks (DNNs), as the policy, in an iterative optimization algorithm. The optimization algorithm aims to optimize the on-off status of users in a time-sharing problem to satisfy their utility demands in expectation. The policy performs unconstrained RA (URA) -- RA without taking into account user utility demands -- among active users to maximize the sum utility (SU) at each time instant. Based on the chosen URA scheme, ALCOR can perform RA in a model-based or model-free manner and in a centralized or distributed scenario. Derived convergence analyses provide guarantees for the convergence of ALCOR, and numerical experiments corroborate its effectiveness. | 翻訳日:2023-11-09 15:59:04 公開日:2023-11-08 |
# 生成型アドホック情報検索の評価 Evaluating Generative Ad Hoc Information Retrieval ( http://arxiv.org/abs/2311.04694v1 ) ライセンス: Link先を確認 | Lukas Gienapp, Harrisen Scells, Niklas Deckers, Janek Bevendorff, Shuai Wang, Johannes Kiesel, Shahbaz Syed, Maik Fr\"obe, Guide Zucoon, Benno Stein, Matthias Hagen, Martin Potthast | (参考訳) 近年の大規模言語モデルの発展により,生成可能情報検索システムの開発が可能となった。
生成検索システムは、従来の文書ランキングに代えて、情報ニーズに応じて生成されたテキストを返却する。
この種の応答の有用性を定量化することは,生成的検索システムを評価する上で不可欠である。
ランキングベースのアドホック検索のための確立された評価手法は、生成的検索には適さないと思われるため、信頼性、再現性、再現性のある実験のための新しいアプローチが必要である。
本稿では、関連情報検索と自然言語処理の文献を調査し、生成検索における検索タスクとシステムアーキテクチャを特定し、対応するユーザモデルを開発し、その運用について検討する。
この理論解析は生成型アドホック検索システムの評価のための基礎と新しい知見を提供する。 Recent advances in large language models have enabled the development of viable generative information retrieval systems. A generative retrieval system returns a grounded generated text in response to an information need instead of the traditional document ranking. Quantifying the utility of these types of responses is essential for evaluating generative retrieval systems. As the established evaluation methodology for ranking-based ad hoc retrieval may seem unsuitable for generative retrieval, new approaches for reliable, repeatable, and reproducible experimentation are required. In this paper, we survey the relevant information retrieval and natural language processing literature, identify search tasks and system architectures in generative retrieval, develop a corresponding user model, and study its operationalization. This theoretical analysis provides a foundation and new insights for the evaluation of generative ad hoc retrieval systems. | 翻訳日:2023-11-09 15:51:40 公開日:2023-11-08 |
# Diff-HierVC:ゼロショット話者適応のためのロバストピッチ生成とマスク前処理による拡散型階層音声変換 Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation ( http://arxiv.org/abs/2311.04693v1 ) ライセンス: Link先を確認 | Ha-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee | (参考訳) 音声変換(VC)システムは音声スタイルを伝達する優れた能力を示しているが、既存の手法は不正確なピッチと低話者適応性を持っている。
これらの課題に対処するために,2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
まず、ターゲット音声スタイルでF0を効果的に生成できるDiffPitchを紹介する。
その後、生成されたF0をDiffVoiceに供給し、ターゲット音声スタイルで変換する。
さらに、ソースフィルタエンコーダを用いて、変換したMel-spectrogramをDiffVoiceの先行データとして使用し、音声スタイルの転送能力を向上させる。
最後に,拡散モデルにおいて先行マスクを用いることで,話者適応性を向上させることができる。
実験の結果, ピッチ生成と音声転送性能におけるモデルの優位性が検証され, ゼロショットvcのシナリオでは, cer が0.83%, eer が3.29%となった。 Although voice conversion (VC) systems have shown a remarkable ability to transfer voice style, existing methods still have an inaccurate pitch and low speaker adaptation quality. To address these challenges, we introduce Diff-HierVC, a hierarchical VC system based on two diffusion models. We first introduce DiffPitch, which can effectively generate F0 with the target voice style. Subsequently, the generated F0 is fed to DiffVoice to convert the speech with a target voice style. Furthermore, using the source-filter encoder, we disentangle the speech and use the converted Mel-spectrogram as a data-driven prior in DiffVoice to improve the voice style transfer capacity. Finally, by using the masked prior in diffusion models, our model can improve the speaker adaptation quality. Experimental results verify the superiority of our model in pitch generation and voice style transfer performance, and our model also achieves a CER of 0.83% and EER of 3.29% in zero-shot VC scenarios. | 翻訳日:2023-11-09 15:51:28 公開日:2023-11-08 |
# 変分量子回路による量子位相推定の学習 Learning Quantum Phase Estimation by Variational Quantum Circuits ( http://arxiv.org/abs/2311.04690v1 ) ライセンス: Link先を確認 | Chen-Yu Liu, Chu-Hsuan Abraham Lin, Kuan-Cheng Chen | (参考訳) 量子位相推定(QPE)は、逆量子フーリエ変換(QFT)を必要とする中心的な量子コンピューティングサブルーチンである。
しかし、推定精度の向上が必然的にはるかに深い回路となることを認識することが不可欠である。
我々は,QPE回路の深さを低減し,ノイズシミュレーションや実ハードウェアの性能を向上させるために,変分量子回路(VQC)近似を開発した。
実験の結果,VQCは回路ノイズを低減し,実ハードウェア上でのノイズQPEと標準QPEの両方に優れていた。
この量子コンパイラへのvqc統合は、入力回路とトランスパイル回路の間の中間ステップとして、深い回路を持つ量子アルゴリズムに大きな期待を持っている。
今後の研究は、様々な量子コンピューティングハードウェアアーキテクチャにまたがる応用可能性を探るだろう。 Quantum Phase Estimation (QPE) stands as a pivotal quantum computing subroutine that necessitates an inverse Quantum Fourier Transform (QFT). However, it is imperative to recognize that enhancing the precision of the estimation inevitably results in a significantly deeper circuit. We developed a variational quantum circuit (VQC) approximation to reduce the depth of the QPE circuit, yielding enhanced performance in noisy simulations and real hardware. Our experiments demonstrated that the VQC outperformed both Noisy QPE and standard QPE on real hardware by reducing circuit noise. This VQC integration into quantum compilers as an intermediate step between input and transpiled circuits holds significant promise for quantum algorithms with deep circuits. Future research will explore its potential applicability across various quantum computing hardware architectures. | 翻訳日:2023-11-09 15:51:07 公開日:2023-11-08 |
# ランダム特徴を用いたロバストかつ通信効率の良いフェデレーションドメイン適応 Robust and Communication-Efficient Federated Domain Adaptation via Random Features ( http://arxiv.org/abs/2311.04686v1 ) ライセンス: Link先を確認 | Zhanbo Feng, Yuanjie Wang, Jie Li, Fan Yang, Jiong Lou, Tiebin Mi, Robert. C. Qiu, Zhenyu Liao | (参考訳) 現代の機械学習(ML)モデルは、単一のマシンでそれらをトレーニングするスケールに成長した。
その結果、大規模なMLモデルを分散的かつ協調的にトレーニングするために、連邦学習(FL)技術を活用する傾向が高まっている。
しかし、これらのモデルは、新しいデバイスにデプロイされると、ドメインシフトのため、うまく一般化できないかもしれない。
この文脈では、フェデレーションドメイン適応(fda)は、この課題に対処するための強力なアプローチとして現れます。
既存のFDAのアプローチは、典型的にはソースとターゲットドメイン間の分配を最小化すること(MDDなど)に焦点を当てている。
しかし、そのような戦略は必然的に高い通信オーバーヘッドをもたらし、ネットワークの信頼性に非常に敏感である。
本稿では,理論的および経験的性能を損なうことなく計算を著しく高速化する標準転送成分分析手法であるRF-TCAを紹介する。
RF-TCAの計算的優位性を生かして、さらにFedRF-TCAを用いたFDA設定に拡張する。
提案したFedRF-TCAプロトコルは、サンプルサイズの‘emph{independent’である通信複雑性を誇示すると同時に、最先端のFDAメソッドに匹敵する、あるいは超えるパフォーマンスを維持している。
我々は,FedRF-TCAの優れた性能とロバスト性(ネットワーク状態)を示す広範な実験を行った。 Modern machine learning (ML) models have grown to a scale where training them on a single machine becomes impractical. As a result, there is a growing trend to leverage federated learning (FL) techniques to train large ML models in a distributed and collaborative manner. These models, however, when deployed on new devices, might struggle to generalize well due to domain shifts. In this context, federated domain adaptation (FDA) emerges as a powerful approach to address this challenge. Most existing FDA approaches typically focus on aligning the distributions between source and target domains by minimizing their (e.g., MMD) distance. Such strategies, however, inevitably introduce high communication overheads and can be highly sensitive to network reliability. In this paper, we introduce RF-TCA, an enhancement to the standard Transfer Component Analysis approach that significantly accelerates computation without compromising theoretical and empirical performance. Leveraging the computational advantage of RF-TCA, we further extend it to FDA setting with FedRF-TCA. The proposed FedRF-TCA protocol boasts communication complexity that is \emph{independent} of the sample size, while maintaining performance that is either comparable to or even surpasses state-of-the-art FDA methods. We present extensive experiments to showcase the superior performance and robustness (to network condition) of FedRF-TCA. | 翻訳日:2023-11-09 15:50:54 公開日:2023-11-08 |
# 誤り訂正符号からの効率的な安定な提示 Efficiently stable presentations from error-correcting codes ( http://arxiv.org/abs/2311.04681v1 ) ライセンス: Link先を確認 | Michael Chapman, Thomas Vidick, Henry Yuen | (参考訳) 群の有限表現に対する 'emph{efficient stability' の概念を導入する。
非公式に、ジェネレータ$s$ とリレーション$r$ を用いた有限表現が \emph{stable} であるとは、$s$ からユニタリへの(トランシアルノルムにおける)関係をほぼ満足する任意の写像が、$g$ の表現のサブセット $s$ への制限に近いことをいう。
この概念とその変種は近年広く研究され、部分的にはコンピュータ科学における財産試験とのつながりが動機となっている。
私たちの作品の新規性は、エンコード長という意味で、非公式に小さなプレゼンテーションに小音を配置する「emph{efficiency}」に焦点を当てている。
この設定の目標は、提示長さと安定性の係数の間の非自明なトレードオフを達成することである。
この目標を念頭に置いて、プレゼンテーションの自然な例を分析します。
線形誤り訂正符号から$\mathbb{Z}_2^k$のプレゼンテーションを構築するための一般的な方法を提案する。
結果の表現は、コードが \emph{testable} であるときの安定性が弱いことを観察する。
これは、テスト可能なコードが本手法を使って真に安定したプレゼンテーションをもたらすかどうかという疑問を提起する。
このことは一般には証明できないが、近年の量子情報理論における非局所ゲームの研究(Ji et al., Discrete Analysis 2021)の結果を利用して、Reed-Mullerの符号族に基づく我々の構成の特定のインスタンス化が、$\mathbb{Z}_2^k$ of size polylog$(k)$ onlyという安定した表現をもたらすことを示す。
例えば、この結果と最近のデ・ラ・サール(arxiv:2204.07084)の研究を組み合わせることで、ナタラジャンとヴィディック(ieee focs'18)の量子低次テストを再導出し、これは複雑性理論(ji et al., arxiv:2001.04383)によるコンヌの埋め込み問題に対する最近の反論において重要な構成要素である。 We introduce a notion of \emph{efficient stability} for finite presentations of groups. Informally, a finite presentation using generators $S$ and relations $R$ is \emph{stable} if any map from $S$ to unitaries that approximately satisfies the relations (in the tracial norm) is close to the restriction of a representation of $G$ to the subset $S$. This notion and variants thereof have been extensively studied in recent years, in part motivated by connections to property testing in computer science. The novelty in our work is the focus on \emph{efficiency}, which, informally, places an onus on small presentations -- in the sense of encoding length. The goal in this setup is to achieve non-trivial tradeoffs between the presentation length and its modulus of stability. With this goal in mind we analyze various natural examples of presentations. We provide a general method for constructing presentations of $\mathbb{Z}_2^k$ from linear error-correcting codes. We observe that the resulting presentation has a weak form of stability exactly when the code is \emph{testable}. This raises the question of whether testable codes give rise to genuinely stable presentations using this method. While we cannot show that this is the case in general, we leverage recent results in the study of non-local games in quantum information theory (Ji et al., Discrete Analysis 2021) to show that a specific instantiation of our construction, based on the Reed-Muller family of codes, leads to a stable presentation of $\mathbb{Z}_2^k$ of size polylog$(k)$ only. As an application, we combine this result with recent work of de la Salle (arXiv:2204.07084) to re-derive the quantum low-degree test of Natarajan and Vidick (IEEE FOCS'18), which is a key building block in the recent refutation of Connes' Embedding Problem via complexity theory (Ji et al., arXiv:2001.04383). | 翻訳日:2023-11-09 15:50:31 公開日:2023-11-08 |
# 高品位スクリーニングにおける弱教師付きクロスモデル学習 Weakly supervised cross-model learning in high-content screening ( http://arxiv.org/abs/2311.04678v1 ) ライセンス: Link先を確認 | Watkinson Gabriel and Cohen Ethan and Bourriez Nicolas and Bendidi Ihab and Bollot Guillaume and Genovesio Auguste | (参考訳) さまざまなモダリティから利用可能なデータの急増に伴い、さまざまなデータタイプ間のギャップを埋める必要性が高まっている。
本研究では,創薬のための画像データと分子表現のクロスモーダル表現を学習するための新しいアプローチを提案する。
本稿では,CLIP上に構築された2つの革新的な損失関数であるEMMとIMMを提案する。
クロスモーダル検索における既知のベースラインに対するモデルの評価により,提案手法はより優れた表現の学習とバッチ効果の緩和を可能にすることを示す。
さらに,必要な空間を85Tbからわずか7Tbまで効果的に削減し,摂動や情報内容のほとんどを保持するJUMP-CPデータセットの事前処理方法を提案する。 With the surge in available data from various modalities, there is a growing need to bridge the gap between different data types. In this work, we introduce a novel approach to learn cross-modal representations between image data and molecular representations for drug discovery. We propose EMM and IMM, two innovative loss functions built on top of CLIP that leverage weak supervision and cross sites replicates in High-Content Screening. Evaluating our model against known baseline on cross-modal retrieval, we show that our proposed approach allows to learn better representations and mitigate batch effect. In addition, we also present a preprocessing method for the JUMP-CP dataset that effectively reduce the required space from 85Tb to a mere usable 7Tb size, still retaining all perturbations and most of the information content. | 翻訳日:2023-11-09 15:49:47 公開日:2023-11-08 |
# スパース精密行列の圧縮回復 Compressive Recovery of Sparse Precision Matrices ( http://arxiv.org/abs/2311.04673v1 ) ライセンス: Link先を確認 | Titouan Vayer and Etienne Lasalle and R\'emi Gribonval and Paulo Gon\c{c}alves | (参考訳) 我々は、データセットの$d$変数の統計的関係を$n$サンプル$X \in \mathbb{R}^{n \times d}$でモデル化するグラフの学習問題を考察する。
標準的アプローチは、データを適切に説明するガウスのグラフィカルモデルの精度行列 $\theta$ を探索する量である。
しかし、ほとんどの最大確率に基づく推定値は、通常経験的共分散行列の$d^{2}$の値を保存する必要がある。
本研究では、圧縮的な視点を採用し、データのスケッチからスパース$\Theta$、すなわち、非線型ランダム特徴を用いて、X$から慎重に設計した低次元ベクトル$m \ll d^{2}$を推定することを目的とする。
$\Theta$(あるいは条件番号)のスペクトル上の特定の仮定の下で、$m=\Omega((d+2k)\log(d))$ のスケッチから、$k$ が基礎となるグラフの頂点の最大数であることを示す。
これらの情報理論的な保証は圧縮センシング理論に触発され、制限された等長性とインスタンス最適デコーダを含む。
本研究では,グラフィカルラッソに基づく反復アルゴリズムを具体的デノイザーとして,実用的リカバリを実現する可能性について検討する。
合成データセットに対する我々のアプローチとグラフィカルラッソを比較し、データセットを圧縮しても良好な性能を示す。 We consider the problem of learning a graph modeling the statistical relations of the $d$ variables of a dataset with $n$ samples $X \in \mathbb{R}^{n \times d}$. Standard approaches amount to searching for a precision matrix $\Theta$ representative of a Gaussian graphical model that adequately explains the data. However, most maximum likelihood-based estimators usually require storing the $d^{2}$ values of the empirical covariance matrix, which can become prohibitive in a high-dimensional setting. In this work, we adopt a compressive viewpoint and aim to estimate a sparse $\Theta$ from a sketch of the data, i.e. a low-dimensional vector of size $m \ll d^{2}$ carefully designed from $X$ using nonlinear random features. Under certain assumptions on the spectrum of $\Theta$ (or its condition number), we show that it is possible to estimate it from a sketch of size $m=\Omega((d+2k)\log(d))$ where $k$ is the maximal number of edges of the underlying graph. These information-theoretic guarantees are inspired by compressed sensing theory and involve restricted isometry properties and instance optimal decoders. We investigate the possibility of achieving practical recovery with an iterative algorithm based on the graphical lasso, viewed as a specific denoiser. We compare our approach and graphical lasso on synthetic datasets, demonstrating its favorable performance even when the dataset is compressed. | 翻訳日:2023-11-09 15:49:32 公開日:2023-11-08 |
# 人型開発データコーパスを用いた事前学習LLM Pre-training LLMs using human-like development data corpus ( http://arxiv.org/abs/2311.04666v1 ) ライセンス: Link先を確認 | Khushi Bhardwaj, Raj Sanjay Shah, Sashank Varma | (参考訳) 事前学習された大規模言語モデル(llm)は、様々な言語推論と理解タスクで成功を収めている。
LLMの事前学習段階は、生のテキストデータの大規模なコーパスを見る。
BabyLMの共有タスクは、LLMの事前学習と人間の言語習得を比較し、13歳の子供たちが見るトークンの数は、LLMが見るトークンの数よりも小さい。
本研究では, 子どもが見るトークンの数とほぼ同じ数を用いて, 文脈表現の学習能力に基づいて, LLMの事前学習と評価を行う。
アーキテクチャの違い、エポック全体のパフォーマンス変化の評価、タスクの厳格で厳格なトラックに対する事前トレーニングメトリクスの報告といった、強力なベースラインを提供しています。
また、タスクオーガナイザが与えるRoBERTaベースラインを緩やかに複製して、ハイパーパラメータ選択と複製性に対するトレーニングロバスト性を観察する。
本報告では,厳密かつ厳密なトラックの提出の詳細について述べる。 Pre-trained Large Language Models (LLMs) have shown success in a diverse set of language inference and understanding tasks. The pre-training stage of LLMs looks at a large corpus of raw textual data. The BabyLM shared task compares LLM pre-training to human language acquisition, where the number of tokens seen by 13-year-old kids is magnitudes smaller than the number of tokens seen by LLMs. In this work, we pre-train and evaluate LLMs on their ability to learn contextual word representations using roughly the same number of tokens as seen by children. We provide a strong set of baselines; with different architectures, evaluation of changes in performance across epochs, and reported pre-training metrics for the strict small and strict tracks of the task. We also try to loosely replicate the RoBERTa baseline given by the task organizers to observe the training robustness to hyperparameter selection and replicability. We provide the submission details to the strict and strict-small tracks in this report. | 翻訳日:2023-11-09 15:49:03 公開日:2023-11-08 |
# 言語モデルには重要な脳関連意味論がない Speech language models lack important brain-relevant semantics ( http://arxiv.org/abs/2311.04664v1 ) ライセンス: Link先を確認 | Subba Reddy Oota, Emin \c{C}elik, Fatma Deniz, Mariya Toneva | (参考訳) 脳の読書と聞き取りの違いは知られているが、最近の研究はテキストベースの言語モデルがテキスト誘発脳活動と音声誘発脳活動の両方を印象的な程度に予測していることを示している。
このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。
我々は,言語モデル表現における特定の低レベル刺激機能(テキスト,音声,視覚)に関する情報を排除し,この介入が,同じ自然主義的物語を読んだり聴いたりしながら取得したfMRI脳記録とのアライメントにどのように影響するかを観察する。
さらに,脳内の言語処理を十分にモデル化すれば,音声誘発脳活動の予測性が向上することが期待できる音声言語モデルと比較した。
直接的アプローチを用いて,テキストベースと音声ベースの言語モデルの両方が,低レベル機能共有による早期感覚領域に適合していることを見出した。
テキストベースのモデルは、これらの機能を削除した後でも、後続の言語領域とよく一致し続けています。
これらの結果は,脳的な言語処理をよりよく反映するために,音声ベースのモデルをさらに改善できることを示唆している。 Despite known differences between reading and listening in the brain, recent work has shown that text-based language models predict both text-evoked and speech-evoked brain activity to an impressive degree. This poses the question of what types of information language models truly predict in the brain. We investigate this question via a direct approach, in which we eliminate information related to specific low-level stimulus features (textual, speech, and visual) in the language model representations, and observe how this intervention affects the alignment with fMRI brain recordings acquired while participants read versus listened to the same naturalistic stories. We further contrast our findings with speech-based language models, which would be expected to predict speech-evoked brain activity better, provided they model language processing in the brain well. Using our direct approach, we find that both text-based and speech-based language models align well with early sensory regions due to shared low-level features. Text-based models continue to align well with later language regions even after removing these features, while, surprisingly, speech-based models lose most of their alignment. These findings suggest that speech-based models can be further improved to better reflect brain-like language processing. | 翻訳日:2023-11-09 15:48:48 公開日:2023-11-08 |
# メタ学習による大規模言語モデルの大量編集 Massive Editing for Large Language Models via Meta Learning ( http://arxiv.org/abs/2311.04661v1 ) ライセンス: Link先を確認 | Chenmien Tan and Ge Zhang and Jie Fu | (参考訳) 大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にする一方で、習得した知識は時間とともに根本的に誤りまたは時代遅れになり、訓練後に言語モデル(LM)の知識を修正する必要がある。
有望なアプローチはパラメータシフトを生成するためにハイパーネットワークを使用するのに対して、既存のハイパーネットワークは同期編集操作量においてスケーラビリティが劣る。
この問題を軽減するために,パラメータシフト集約を最小二乗問題として定式化し,次に正規方程式を用いてLMパラメータを更新するMassive Language Model Editing Network (MALMEN)を提案する。
限られたメモリ予算で複数の事実を同時に編集できるように、ハイパーネットワークとlmの計算を分離し、両方のニューラルネットワークの任意のバッチサイズを可能にした。
本手法は,異なるアーキテクチャ,すなわちBERTベース,GPT-2,T5-XL (2.8B),GPT-J (6B) を用いて,様々な知識集約型NLPタスク,すなわちクローズドブックのファクトチェックと質問応答を用いて,最大数千の事実をLM上で編集することによって評価する。
驚くべきことに、malmenは、gpt用に特別に設計された同一のハイパーネットワークアーキテクチャとより強力なベースラインよりも数百倍の事実を編集できる。
私たちのコードはhttps://github.com/ChenmienTan/malmen.comから入手可能です。 While large language models (LLMs) have enabled learning knowledge from the pre-training corpora, the acquired knowledge may be fundamentally incorrect or outdated over time, which necessitates rectifying the knowledge of the language model (LM) after the training. A promising approach involves employing a hyper-network to generate parameter shift, whereas existing hyper-networks suffer from inferior scalability in synchronous editing operation amount. To mitigate the problem, we propose the MAssive Language Model Editing Network (MALMEN), which formulates the parameter shift aggregation as the least square problem, subsequently updating the LM parameters using the normal equation. To accommodate editing multiple facts simultaneously with limited memory budgets, we separate the computation on the hyper-network and LM, enabling arbitrary batch size on both neural networks. Our method is evaluated by editing up to thousands of facts on LMs with different architectures, i.e., BERT-base, GPT-2, T5-XL (2.8B), and GPT-J (6B), across various knowledge-intensive NLP tasks, i.e., closed book fact-checking and question answering. Remarkably, MALMEN is capable of editing hundreds of times more facts than strong baselines with the identical hyper-network architecture and outperforms editor specifically designed for GPT. Our code is available at https://github.com/ChenmienTan/malmen. | 翻訳日:2023-11-09 15:48:24 公開日:2023-11-08 |
# 実用的推論は基礎モデルの量化意味論を解き放つ Pragmatic Reasoning Unlocks Quantifier Semantics for Foundation Models ( http://arxiv.org/abs/2311.04659v1 ) ライセンス: Link先を確認 | Yiyuan Li, Rakesh R. Menon, Sayan Ghosh, Shashank Srivastava | (参考訳) 一般化量化器(例:ほとんど、ほとんどの場合)は、述語が満たされる割合を示すために用いられる(例えば、リンゴは赤である)。
量化器のセマンティクスを解釈する方法の1つは、これらの満足度をパーセンテージスコープ(リンゴの30%-40%が赤)で明示的に結合することである。
このアプローチは論理形式化や表面形式量的推論(Gordon and Schubert, 2010; Roy et al., 2015)のようなタスクに有効である。
しかし、最近の基礎モデルが直接の訓練信号がないため、この能力を持っているかどうかは不明である。
そこで本研究では,人称注釈付き一般化量化器のクラウドソーシングデータセットであるQuReについて,パーセンテージ付き述語を含むウィキペディア文で紹介する。
自然言語推論とRational Speech Actsフレームワークを組み合わせたPreSQUEを用いて,言語モデルにおける量化器の理解について検討する。
HVDデータセットとQuReの実験結果によると、PureSQUEは実用的推論を用いて、量子化器パーセンテージの範囲を予測する際に、リテラル推論ベースラインよりも20%優れた性能を示し、追加のトレーニングは不要である。 Generalized quantifiers (e.g., few, most) are used to indicate the proportions predicates are satisfied (for example, some apples are red). One way to interpret quantifier semantics is to explicitly bind these satisfactions with percentage scopes (e.g., 30%-40% of apples are red). This approach can be helpful for tasks like logic formalization and surface-form quantitative reasoning (Gordon and Schubert, 2010; Roy et al., 2015). However, it remains unclear if recent foundation models possess this ability, as they lack direct training signals. To explore this, we introduce QuRe, a crowd-sourced dataset of human-annotated generalized quantifiers in Wikipedia sentences featuring percentage-equipped predicates. We explore quantifier comprehension in language models using PRESQUE, a framework that combines natural language inference and the Rational Speech Acts framework. Experimental results on the HVD dataset and QuRe illustrate that PRESQUE, employing pragmatic reasoning, performs 20% better than a literal reasoning baseline when predicting quantifier percentage scopes, with no additional training required. | 翻訳日:2023-11-09 15:47:57 公開日:2023-11-08 |
# ハイブリッド焦点・全距離注意型グラフトランス Hybrid Focal and Full-Range Attention Based Graph Transformers ( http://arxiv.org/abs/2311.04653v1 ) ライセンス: Link先を確認 | Minhong Zhu, Zhenhao Zhao, Weiran Cai | (参考訳) 自己アテンション機構を用いたトランスフォーマーのパラダイムは、グラフ構造化データの学習においてその優位性を示している。
しかし、グラフトランスフォーマーは完全な範囲依存をモデル化できるが、しばしば局所性から情報を抽出するのに不足する。
一般的には、メッセージパッシングニューラルネットワーク(MPNN)を、ローカル情報をキャプチャするための補助として使用するが、サブストラクチャの解釈にはまだ不十分である。
本稿では,全球相関学習における局所情報の損失を軽減できる,純粋に注意に基づくアーキテクチャであるfocal and full-range graph transformer (ffgt)を提案する。
FFGTのコアコンポーネントは複合的な注意のメカニズムであり、従来のフルレンジアテンションとエゴネットへのKホップアテンションを組み合わせることで、グローバル情報とローカル情報の両方を集約する。
標準変換器の範囲を超えて、FFGTはよりサブ構造を意識する利点がある。
提案手法は,各種オープンデータセット上での既存のグラフ変換器の性能を向上させるとともに,複数のLong-Range Graph Benchmark(LRGB)データセットにおいて,バニラ変換器を用いても互換性のあるSOTA性能を実現する。
さらに,SBM-PATTERNに基づく新しい合成データセットを導入することにより,注目の焦点距離に影響を及ぼす要因について検討した。 The paradigm of Transformers using the self-attention mechanism has manifested its advantage in learning graph-structured data. Yet, Graph Transformers are capable of modeling full range dependencies but are often deficient in extracting information from locality. A common practice is to utilize Message Passing Neural Networks (MPNNs) as an auxiliary to capture local information, which however are still inadequate for comprehending substructures. In this paper, we present a purely attention-based architecture, namely Focal and Full-Range Graph Transformer (FFGT), which can mitigate the loss of local information in learning global correlations. The core component of FFGT is a new mechanism of compound attention, which combines the conventional full-range attention with K-hop focal attention on ego-nets to aggregate both global and local information. Beyond the scope of canonical Transformers, the FFGT has the merit of being more substructure-aware. Our approach enhances the performance of existing Graph Transformers on various open datasets, while achieves compatible SOTA performance on several Long-Range Graph Benchmark (LRGB) datasets even with a vanilla transformer. We further examine influential factors on the optimal focal length of attention via introducing a novel synthetic dataset based on SBM-PATTERN. | 翻訳日:2023-11-09 15:47:34 公開日:2023-11-08 |
# Chrono DEM-Engine: カスタマイズ可能な接触力と素子形状を持つ離散要素法デュアルGPUシミュレータ Chrono DEM-Engine: A Discrete Element Method dual-GPU simulator with customizable contact forces and element shape ( http://arxiv.org/abs/2311.04648v1 ) ライセンス: Link先を確認 | Ruochun Zhang, Bonaventura Tagliafierro, Colin Vanden Heuvel, Shlok Sabarwal1, Luning Bakke, Yulong Yue, Xin Wei, Radu Serban, Dan Negrut | (参考訳) 本稿では、離散要素法(DEM)シミュレーションを実行するために設計されたProject Chronoの新たなサブモジュールであるDEM-Engineを紹介する。
球状原始形状に基づいて、DEM-Engineは多分散粒状材料をシミュレートし、プリミティブのアセンブリとして生成された複雑な形状を扱える。
DEM-Engineは2つのGPUで同時に動作するように最適化された多層並列構造を持つ。
メモリフットプリントを削減し、帯域幅を増加させるために、カスタム定義のデータ型を使用する。
新しい"delayed contact detection"アルゴリズムは、コンタクト検出とフォース計算の分離を可能にし、ワークロードを2つの非同期gpuストリームに分割する。
dem-engineはジャストインタイムコンパイルを使用して、ユーザ定義のコンタクトフォースモデルをサポートする。
本稿では, c++ と python のインターフェースについて述べるとともに, 衝撃力, 複雑形状粒子流, カスタム力モデルなど, 有名なベンチマークケースを考慮し, 様々な数値実験を行う。
さらに、このシミュレーターの完全なポテンシャルは、粒状地形における地球外ローバーの移動性を調べるために示される。
選択されたケーススタディでは、外部のマルチボディダイナミクスシステムと合わせて15秒にまたがる大規模共同シミュレーション(1100万要素を含む)が1日以内に効率的に実行可能であることが示されている。
最後に、パフォーマンステストによると、demエンジンは2つのnvidia a100 gpu上で最大1億5000万要素の線形スケーリングを示す。 This paper introduces DEM-Engine, a new submodule of Project Chrono, that is designed to carry out Discrete Element Method (DEM) simulations. Based on spherical primitive shapes, DEM-Engine can simulate polydisperse granular materials and handle complex shapes generated as assemblies of primitives, referred to as clumps. DEM-Engine has a multi-tier parallelized structure that is optimized to operate simultaneously on two GPUs. The code uses custom-defined data types to reduce memory footprint and increase bandwidth. A novel "delayed contact detection" algorithm allows the decoupling of the contact detection and force computation, thus splitting the workload into two asynchronous GPU streams. DEM-Engine uses just-in-time compilation to support user-defined contact force models. This paper discusses its C++ and Python interfaces and presents a variety of numerical tests, in which impact forces, complex-shaped particle flows, and a custom force model are validated considering well-known benchmark cases. Additionally, the full potential of the simulator is demonstrated for the investigation of extraterrestrial rover mobility on granular terrain. The chosen case study demonstrates that large-scale co-simulations (comprising 11 million elements) spanning 15 seconds, in conjunction with an external multi-body dynamics system, can be efficiently executed within a day. Lastly, a performance test suggests that DEM-Engine displays linear scaling up to 150 million elements on two NVIDIA A100 GPUs. | 翻訳日:2023-11-09 15:47:10 公開日:2023-11-08 |
# 変分量子アルゴリズムを用いたghz状態蒸留のための繰り返しプロトコルの訓練 Training iterated protocols for distillation of GHZ states with variational quantum algorithms ( http://arxiv.org/abs/2311.04646v1 ) ライセンス: Link先を確認 | \'Aron Rozgonyi, G\'abor Sz\'echenyi, Orsolya K\'alm\'an, Tam\'as Kiss | (参考訳) グリーンバーガー・ホーネ・ザイリンガー状態(GHZ)を調製するための最適化蒸留方式を提案する。
提案手法は、入力としてGHZ状態に影響を受ける白色雑音を持つ変分量子回路のトレーニングに依存する。
スキームの1つの反復を最適化すると、GHZ状態への忠実度の増加が可能であるが、さらなる反復は忠実度を減少させる。
整合的に歪んだ純粋状態入力に作用する同じスキームは、特定の特別な場合にのみ有効である。
しかし,プロトコルを2回繰り返した後に出力を最適化することで,根本的に異なる結果が得られることを示す。
この場合、得られたスキームはホワイトノイズによる入力からGHZ状態を蒸留するのにより効果的である。
さらに、複数の種類のコヒーレントな純状態誤差を修正することもできる。 We present optimized distillation schemes for preparing Greenberger-Horne-Zeilinger (GHZ) states. Our approach relies on training variational quantum circuits with white noise affected GHZ states as inputs. Optimizing for a single iteration of the scheme, we find that it is possible to achieve an increased fidelity to the GHZ state, although further iterations decrease the fidelity. The same scheme, acting on coherently distorted pure-state inputs, is effective only in certain special cases. We show that radically different results can be achieved, however, when one optimizes for the output after two iterations of the protocol. In this case, the obtained schemes are more effective in distilling GHZ states from inputs affected by white noise. Moreover, they can also correct several types of coherent pure-state errors. | 翻訳日:2023-11-09 15:46:33 公開日:2023-11-08 |
# sku-patch: オートストアにおけるunseenオブジェクトの効率的なインスタンスセグメンテーションに向けて SKU-Patch: Towards Efficient Instance Segmentation for Unseen Objects in Auto-Store ( http://arxiv.org/abs/2311.04645v1 ) ライセンス: Link先を確認 | Biqi Yang, Weiliang Tang, Xiaojie Gao, Xianzhi Li, Yun-Hui Liu, Chi-Wing Fu, Pheng-Ann Heng | (参考訳) 大規模倉庫では、精密なケースマスクはロボットのビンピックには不可欠だが、入手は困難である。
既存のインスタンスセグメンテーションメソッドは、通常、すべてのストックキーピングユニット(SKU)に対して、シーンコレクション、マスクアノテーション、ネットワークファインチューニングの面倒なプロセスに依存する。
本稿では,SKU-Patchについて述べる。SKU-Patchは,新しいSKUに対して,手作業の面倒さやモデル再構成を伴わずに,より正確で堅牢なマスクを予測するために,少数のイメージパッチのみを活用する,新しいパッチ誘導型インスタンスセグメンテーションソリューションである。
技術面では、新しいトランスを用いたネットワークを設計する。
(i)パッチ情報で校正された多レベル画像特徴をキャプチャするパッチ画像相関エンコーダ
(ii) 並列タスクヘッドを持つパッチ対応トランスフォーマーデコーダを使用してインスタンスマスクを生成する。
4つのストアハウスベンチマークの大規模な実験は、SKU-Patchが最先端の手法よりも最高のパフォーマンスを達成できることを示している。
また、SKU-Patchは、ロボット支援オートストアロジスティックパイプラインにおいて、50以上の未知のSKUで成功率を100%近く把握し、その有効性と実用性を示す。 In large-scale storehouses, precise instance masks are crucial for robotic bin picking but are challenging to obtain. Existing instance segmentation methods typically rely on a tedious process of scene collection, mask annotation, and network fine-tuning for every single Stock Keeping Unit (SKU). This paper presents SKU-Patch, a new patch-guided instance segmentation solution, leveraging only a few image patches for each incoming new SKU to predict accurate and robust masks, without tedious manual effort and model re-training. Technical-wise, we design a novel transformer-based network with (i) a patch-image correlation encoder to capture multi-level image features calibrated by patch information and (ii) a patch-aware transformer decoder with parallel task heads to generate instance masks. Extensive experiments on four storehouse benchmarks manifest that SKU-Patch is able to achieve the best performance over the state-of-the-art methods. Also, SKU-Patch yields an average of nearly 100% grasping success rate on more than 50 unseen SKUs in a robot-aided auto-store logistic pipeline, showing its effectiveness and practicality. | 翻訳日:2023-11-09 15:46:12 公開日:2023-11-08 |
# 自然ベイズクラム・ラオ境界と共分散推定への応用 Natural Bayesian Cram\'er-Rao Bound with an Application to Covariance Estimation ( http://arxiv.org/abs/2311.04748v1 ) ライセンス: Link先を確認 | Florent Bouchard, Alexandre Renaux, Guillaume Ginolhac, Arnaud Breloy | (参考訳) 本稿では, 推定パラメータが多様体内にあり, 先行分布に従う場合に, 新たなクラム・ラオ境界(CRB)を開発することを提案する。
この導出は、幾何学的性質に基づく誤差基準とこの新しい境界との間の自然な不等式をもたらす。
この主な貢献は、データがガウス分布に従い、事前分布が逆ウィッシュアートである場合の共分散推定の問題に示される。
数値シミュレーションにより,従来のベイズ式crbでは観測されない地図推定器の興味深い特性を示す新たな結果が得られた。 In this paper, we propose to develop a new Cram\'er-Rao Bound (CRB) when the parameter to estimate lies in a manifold and follows a prior distribution. This derivation leads to a natural inequality between an error criteria based on geometrical properties and this new bound. This main contribution is illustrated in the problem of covariance estimation when the data follow a Gaussian distribution and the prior distribution is an inverse Wishart. Numerical simulation shows new results where the proposed CRB allows to exhibit interesting properties of the MAP estimator which are not observed with the classical Bayesian CRB. | 翻訳日:2023-11-09 15:37:56 公開日:2023-11-08 |
# 非局在力学系における力感度の起源について On the Origin of Force Sensitivity in Delocalised Mechanical Systems ( http://arxiv.org/abs/2311.04745v1 ) ライセンス: Link先を確認 | Julen S. Pedernales and Martin B. Plenio | (参考訳) 低エネルギー限界ヒンジにおける重力の量子的性質の検出は、機械システムによる前例のない力の感度を達成する上で重要である。
この背景に対して, 機械システムの外部力に対する感受性と, それらの量子状態の性質との関係を考察する。
純粋な量子状態における力の感度の主要な決定要因は、その空間的非局在化であり、2つの力学系が量子力の下で絡み合う速度に力の感度を結びつける。
一般的に考慮されている2つの構成でこれを例示します。
Schr\"odinger-cat 状態のような非ガウス状態に準備された物体と重力的に相互作用する物体は、通常は重畳中の成分間の動的位相の蓄積によって引き起こされる。
他方は、運動量で強く圧迫され、エンタングルメント生成が加速に起因する位置で非局在化されたガウス状態の粒子を準備する。
位相空間表現を用いてこれら2つの配置を統一的に記述し、それらの絡み合い速度と力感度を関連付けることにより、両者の配置が同じ速度で絡み合っていることを示す。
位相空間における記述と、力の感度と絡み合いの関係は、これらの2つの構成間の同値性がなぜ持つのかという複雑さに光を当てている。
特に, 従来の動的位相による絡み合いの計算は, Schr\"odinger-cat 状態では精度が低いが, キャットを絞った状態の系では誤推定が生じることを示した。 The detection of the quantum nature of gravity in the low-energy limit hinges on achieving an unprecedented degree of force sensitivity with mechanical systems. Against this background, we explore the relationship between the sensitivity of mechanical systems to external forces and the properties of the quantum states they are prepared in. We establish that the main determinant of the force sensitivity in pure quantum states is their spatial delocalisation and we link the force sensitivity to the rate at which two mechanical systems become entangled under a quantum force. We exemplify this at the hand of two commonly considered configurations. One that involves gravitationally interacting objects prepared in non-Gaussian states such as Schr\"odinger-cat states, where the generation of entanglement is typically ascribed to the accumulation of a dynamical phase between components in superposition. The other prepares particles in Gaussian states that are strongly squeezed in momentum and delocalised in position where entanglement generation is attributed to accelerations. We offer a unified description of these two arrangements using the phase-space representation and link their entangling rate to their force sensitivity, showing that both configurations get entangled at the same rate provided that they are equally delocalised in space. Our description in phase space and the established relation between force sensitivity and entanglement sheds light on the intricacies of why the equivalence between these two configurations holds, something that is not always evident in the literature, due to the distinct physical and analytical methods employed to study each of them. Notably, we demonstrate that while the conventional computation of entanglement via the dynamical phase remains accurate for Schr\"odinger-cat states, it yields erroneous estimations for systems in squeezed cat states. | 翻訳日:2023-11-09 15:37:45 公開日:2023-11-08 |
# Euclidean, Projective, Conformal:等変変換器のための幾何学的代数の選択 Euclidean, Projective, Conformal: Choosing a Geometric Algebra for Equivariant Transformers ( http://arxiv.org/abs/2311.04744v1 ) ライセンス: Link先を確認 | Pim de Haan, Taco Cohen and Johann Brehmer | (参考訳) Geometric Algebra Transformer (GATr) は射影幾何学的代数に基づく幾何学的深層学習のための汎用アーキテクチャである。
我々はこのアーキテクチャをブループリントに一般化し、幾何(またはクリフォード)代数を与えられたスケーラブルなトランスフォーマーアーキテクチャを構築することができる。
3次元データを表現するのに適したユークリッド代数、射影代数、共形代数のためのこのアーキテクチャのバージョンを研究し、それらを理論と実践で評価する。
最も単純なユークリッドアーキテクチャは計算的に安価であるが、対称性群が小さく、サンプル効率が良くないが、射影モデルは十分に表現できない。
共形代数と射影代数の改良版の両方が、強力でパフォーマンスの良いアーキテクチャを定義する。 The Geometric Algebra Transformer (GATr) is a versatile architecture for geometric deep learning based on projective geometric algebra. We generalize this architecture into a blueprint that allows one to construct a scalable transformer architecture given any geometric (or Clifford) algebra. We study versions of this architecture for Euclidean, projective, and conformal algebras, all of which are suited to represent 3D data, and evaluate them in theory and practice. The simplest Euclidean architecture is computationally cheap, but has a smaller symmetry group and is not as sample-efficient, while the projective model is not sufficiently expressive. Both the conformal algebra and an improved version of the projective algebra define powerful, performant architectures. | 翻訳日:2023-11-09 15:37:15 公開日:2023-11-08 |
# 大きな言語モデルを用いた有意義な物語のための人間の記憶の研究 Using large language models to study human memory for meaningful narratives ( http://arxiv.org/abs/2311.04742v1 ) ライセンス: Link先を確認 | Antonios Georgiou Tankut Can, Mikhail Katkov, Misha Tsodyks | (参考訳) ai革命の最も印象的な成果の1つは、意味のあるテキストを生成し、追加のトレーニングなしで平易な英語の指示に応答できる大きな言語モデルの開発である。
ここでは,有意義な素材に対する人間の記憶を研究するための科学的手段として,言語モデルが利用できることを示す。
大規模メモリ実験を設計し,結果を解析するパイプラインを開発した。
我々は,多数の参加者とオンライン記憶実験を行い,異なる長さの物語に対する認識と記憶データを収集した。
記憶と認識の両方のパフォーマンスは物語の長さと線形にスケールしていることがわかった。
さらに,記憶におけるナラティブ理解の役割を検討するために,提示したストーリーのスクランブル版を用いて,これらの実験を繰り返した。
その結果,リコール性能は著しく低下したが,認識にはほとんど影響を与えなかった。
興味深いことに、この状況でのリコールは、スクランブルドのプレゼンテーションではなく、オリジナルの物語の順序に従っており、記憶におけるストーリーの文脈的再構成を指している。 One of the most impressive achievements of the AI revolution is the development of large language models that can generate meaningful text and respond to instructions in plain English with no additional training necessary. Here we show that language models can be used as a scientific instrument for studying human memory for meaningful material. We developed a pipeline for designing large scale memory experiments and analyzing the obtained results. We performed online memory experiments with a large number of participants and collected recognition and recall data for narratives of different lengths. We found that both recall and recognition performance scale linearly with narrative length. Furthermore, in order to investigate the role of narrative comprehension in memory, we repeated these experiments using scrambled versions of the presented stories. We found that even though recall performance declined significantly, recognition remained largely unaffected. Interestingly, recalls in this condition seem to follow the original narrative order rather than the scrambled presentation, pointing to a contextual reconstruction of the story in memory. | 翻訳日:2023-11-09 15:37:03 公開日:2023-11-08 |
# 固体環境における集合光子放出:非マルコフ力学とマルコフ力学の結合 Collective photon emission in solid state environments: Concatenating non-markovian and markovian dynamics ( http://arxiv.org/abs/2311.04741v1 ) ライセンス: Link先を確認 | Devashish Pandey and Martijn Wubs | (参考訳) 固体量子エミッタの集団発光と多量子ビットダイナミクスは、それらの光場への結合と格子振動の両方に影響される。
ポーラロンの形成は超高速な非マルコフ力学によって記述され、遅い劣化は指数的崩壊によってよく説明される。
どちらの温度依存性のプロセスも集団放出と絡み合いに影響を与えるが、通常はモデル化されていない。
そこで本研究では, 高速かつ低速なフォノン力学を結合する第1法と, ポラロン法という2つの方法を提案する。
単一量子エミッタの場合、動的方程式はどちらの方法でも同一であり、2つ以上のエミッタの予測も非常によく一致する。
どちらの方法も、集団光子放出の温度感度を示すフォノンによる非マルコフ力学を取り入れている。
単純化されたマルコフモデルを用いることは、量子情報応用において特に正確ではないかもしれない:例えば、非常に低温のときを除いて、マルコフモデルが2エミッターの共起をかなり過大評価していることを示す。
我々の結合法とポーラロン法は、任意の数と種類の量子エミッタに適用でき、ここで考慮するバルクGaAs環境を超えることができる。
特に結合法は、エミッタ-光子相互作用のみをモデル化するのと同じ計算コストでフォノン効果を考慮に入れることができる。
最後に、1次元鎖上のNエミッタの集合放出スペクトルに関する近似解析式を提案する。 Collective light emission and multi-qubit dynamics of solid-state quantum emitters are affected both by their coupling to the light field and to lattice vibrations. The effect of phonons on quantum emitters is twofold: polaron formation is described by ultrafast non-markovian dynamics, while slower dephasing is well described by exponential decay. Both temperature-dependent processes will affect collective emission and entanglement, but they are usually not modeled, probably due to a lack of efficient methods especially for more than two emitters. So here we propose and compare two methods: the first method concatenates the fast and slow phonon dynamics, and the second is the polaron method. For a single quantum emitter, we show that the dynamical equations are identical in both methods, while predictions for two or more emitters also agree very well. Both of our methods incorporate non-markovian dynamics due to phonons demonstrating the temperature sensitivity of the collective photon emission. Utilizing a simplified markovian model instead may not be accurate enough especially for quantum information applications: for example, we show how the markovian model may considerably overestimate the two-emitter concurrence, except at very low temperatures. Our concatenation and polaron methods can be applied to an arbitrary number and type of quantum emitters, and beyond the bulk GaAs environment that we consider here. Especially the concatenation method can take phonon effects into account at the same computational cost as modelling the emitter-photon interaction alone. Finally, we present approximate analytical expressions for the collective emission spectrum for N emitters on a one-dimensional chain. | 翻訳日:2023-11-09 15:36:45 公開日:2023-11-08 |
# 共通操作画像統合によるマルチエージェント協調の強化 Enhancing Multi-Agent Coordination through Common Operating Picture Integration ( http://arxiv.org/abs/2311.04740v1 ) ライセンス: Link先を確認 | Peihong Yu, Bhoram Lee, Aswin Raghavan, Supun Samarasekara, Pratap Tokekar, James Zachary Hare | (参考訳) マルチエージェントシステムでは、エージェントは環境の局所的な観察のみを保持する。
チームメート間のコミュニケーションはコーディネーションの強化に不可欠である。
過去の研究は主に、人間には理解できない埋め込みメッセージにローカル情報をエンコードすることに焦点を当ててきた。
エージェントのポリシー学習にこれらのメッセージを使用することで、配布外初期状態でテストした場合、不安定なポリシーが生まれる。
本稿では,マルチエージェントの協調手法を提案する。各エージェントは,その観察,行動,メッセージを共通オペレーティング・ピクチャー(COP)に統合し,COPを広める機能を備えている。
このプロセスは環境の動的な性質と共有ミッションを考慮に入れます。
我々はStarCraft2環境で実験を行い、我々のアプローチを検証する。
本研究では,コプト統合の有効性を示し,コプトベーストレーニングが分散初期状態に直面する場合,最先端のマルチエージェント強化学習(marl)法と比較して強固な方針を導くことを示した。 In multi-agent systems, agents possess only local observations of the environment. Communication between teammates becomes crucial for enhancing coordination. Past research has primarily focused on encoding local information into embedding messages which are unintelligible to humans. We find that using these messages in agent's policy learning leads to brittle policies when tested on out-of-distribution initial states. We present an approach to multi-agent coordination, where each agent is equipped with the capability to integrate its (history of) observations, actions and messages received into a Common Operating Picture (COP) and disseminate the COP. This process takes into account the dynamic nature of the environment and the shared mission. We conducted experiments in the StarCraft2 environment to validate our approach. Our results demonstrate the efficacy of COP integration, and show that COP-based training leads to robust policies compared to state-of-the-art Multi-Agent Reinforcement Learning (MARL) methods when faced with out-of-distribution initial states. | 翻訳日:2023-11-09 15:36:20 公開日:2023-11-08 |
# 量子増強型干渉計における横モード制御:新しい世代の展望と提言 Transverse Mode Control in Quantum Enhanced Interferometers: A Review and Recommendations for a New Generation ( http://arxiv.org/abs/2311.04736v1 ) ライセンス: Link先を確認 | Aaron W. Goodwin-Jones, Ricardo Cabrita, Mikhail Korobko, Martin van Beuzekom, Daniel D. Brown, Viviana Fafone, Joris van Heijningen, Alessio Rocchi, Mitchell G. Schiworski, Matteo Tacca | (参考訳) 適応光学は過去10年間に大きく進歩し、特に量子光学の領域において、様々な応用において重要な技術となった。
衝撃の1つの重要な領域は重力波検出であり、数百キロワットの光力を持つビームによって量子相関がキロメートル離れた距離に分散される。
ガウスビームと共振器のミスマッチを検知するロバストで安定した技術を開発するために数十年の開発が求められ、量子相関を維持した。
ここでは重力波検出に必要な横モード制御の重要な進歩を要約する。
将来の検出器の先進的な設計に目を向けると、重要な課題を強調し、これらの機器の設計を推奨する。
我々は、量子技術における適応光学の幅広い応用、すなわちコミュニケーション、計算、イメージング、センシングについて論じてレビューを締めくくった。 Adaptive optics has made significant advancement over the past decade, becoming the essential technology in a wide variety of applications, particularly in the realm of quantum optics. One key area of impact is gravitational-wave detection, where quantum correlations are distributed over kilometer-long distances by beams with hundreds of kilowatts of optical power. Decades of development were required to develop robust and stable techniques to sense mismatches between the Gaussian beams and the resonators, all while maintaining the quantum correlations. Here we summarize the crucial advancements in transverse mode control required for gravitational-wave detection. As we look towards the advanced designs of future detectors, we highlight key challenges and offer recommendations for the design of these instruments. We conclude the review with a discussion of the broader application of adaptive optics in quantum technologies: communication, computation, imaging and sensing. | 翻訳日:2023-11-09 15:35:59 公開日:2023-11-08 |
# 線形帯域におけるロバストベストアーム同定 Robust Best-arm Identification in Linear Bandits ( http://arxiv.org/abs/2311.04731v1 ) ライセンス: Link先を確認 | Wei Wang, Sattar Vakili, Ilija Bogunovic | (参考訳) 線形報酬の場合のロバストベストアーム識別問題(RBAI)について検討する。
第一の目的は、あらゆるラウンドで腕を選択し、潜在的な敵の行動を探索することでその頑健性を評価することを含む、最適に近いロバストな腕を特定することである。
この手法はシミュレータの利用と実世界の移動のための堅牢な解の同定に特に有用である。
この目的のために,線形報酬を伴うロバストな最適アーム識別問題に対して,インスタンス依存下限を提案する。
さらに,下界にマッチするサンプル複雑性を実現する静的および適応的帯域幅アルゴリズムを提案する。
合成実験において,本アルゴリズムは最適なロバストアームを効果的に同定し,オラクル戦略と同様の動作を行う。
応用として、標準電卓の不正確性に対して頑健な糖尿病ケアとインスリン投与推奨の学習過程について検討する。
本アルゴリズムは,様々な年齢範囲の患者においてロバストな服用量の同定に有効であることを証明した。 We study the robust best-arm identification problem (RBAI) in the case of linear rewards. The primary objective is to identify a near-optimal robust arm, which involves selecting arms at every round and assessing their robustness by exploring potential adversarial actions. This approach is particularly relevant when utilizing a simulator and seeking to identify a robust solution for real-world transfer. To this end, we present an instance-dependent lower bound for the robust best-arm identification problem with linear rewards. Furthermore, we propose both static and adaptive bandit algorithms that achieve sample complexity that matches the lower bound. In synthetic experiments, our algorithms effectively identify the best robust arm and perform similarly to the oracle strategy. As an application, we examine diabetes care and the process of learning insulin dose recommendations that are robust with respect to inaccuracies in standard calculators. Our algorithms prove to be effective in identifying robust dosage values across various age ranges of patients. | 翻訳日:2023-11-09 15:35:46 公開日:2023-11-08 |
# コミュニティ対応機能によるノードの特性予測 Predicting Properties of Nodes via Community-Aware Features ( http://arxiv.org/abs/2311.04730v1 ) ライセンス: Link先を確認 | Bogumi{\l} Kami\'nski, Pawe{\l} Pra{\l}at, Fran\c{c}ois Th\'eberge, Sebastian Zaj\k{a}c | (参考訳) 複雑なネットワークにしばしば存在するコミュニティ構造は、ネットワークの形成だけでなく、これらのネットワークのダイナミクスを形作り、ノードの性質に影響を及ぼす重要な役割を担っている。
本稿では,コミュニティ対応ノードの特徴のファミリーを提案し,その特性について検討する。
分類タスクには高い予測力があることが示される。
また,古典的ノードの特徴やノード埋め込み(古典的かつ構造的)によっても復元できない情報が含まれていることも確認した。 A community structure that is often present in complex networks plays an important role not only in their formation but also shapes dynamics of these networks, affecting properties of their nodes. In this paper, we propose a family of community-aware node features and then investigate their properties. We show that they have high predictive power for classification tasks. We also verify that they contain information that cannot be recovered neither by classical node features nor by node embeddings (both classical as well as structural). | 翻訳日:2023-11-09 15:35:31 公開日:2023-11-08 |
# 認知階層を用いた社会運動予測 Social Motion Prediction with Cognitive Hierarchies ( http://arxiv.org/abs/2311.04726v1 ) ライセンス: Link先を確認 | Wentao Zhu, Jason Qin, Yuke Lou, Hang Ye, Xiaoxuan Ma, Hai Ci, Yizhou Wang | (参考訳) 人間は、他人の行動を予想し、それに応じて自分の行動を計画する能力を示す。
本研究では,社会運動予測問題に対処して,この能力の再現に努める。
我々は,新しいベンチマーク,新しい定式化,認知に触発されたフレームワークを紹介する。
We present Wusi, a 3D multi-person motion data under the context of team sports, which feature with intense and strategic human interaction and various pose distributions。
マルチエージェント強化学習の観点から問題を再構成することにより,学習効率と一般化を促進するために行動クローニングと生成的敵意模倣学習を組み込む。
さらに,人間の社会的行動計画過程の認知的側面を考慮し,戦略的社会的相互作用を予測する認知階層フレームワークの開発を行った。
提案したデータセットとアプローチの有効性を検証するための総合的な実験を行う。
コードとデータはhttps://walter0807.github.io/social-ch/で入手できる。 Humans exhibit a remarkable capacity for anticipating the actions of others and planning their own actions accordingly. In this study, we strive to replicate this ability by addressing the social motion prediction problem. We introduce a new benchmark, a novel formulation, and a cognition-inspired framework. We present Wusi, a 3D multi-person motion dataset under the context of team sports, which features intense and strategic human interactions and diverse pose distributions. By reformulating the problem from a multi-agent reinforcement learning perspective, we incorporate behavioral cloning and generative adversarial imitation learning to boost learning efficiency and generalization. Furthermore, we take into account the cognitive aspects of the human social action planning process and develop a cognitive hierarchy framework to predict strategic human social interactions. We conduct comprehensive experiments to validate the effectiveness of our proposed dataset and approach. Code and data are available at https://walter0807.github.io/Social-CH/. | 翻訳日:2023-11-09 15:35:22 公開日:2023-11-08 |
# 異方性を考慮した共通乱数生成の通信複雑性 Communication Complexity of Common Randomness Generation with Isotropic States ( http://arxiv.org/abs/2311.04723v1 ) ライセンス: Link先を確認 | Yangjing Dong, Penghui Yao | (参考訳) 本稿では,Alice と Bob 間の通信が最小限に抑えられた,ノイズの多い EPR ペアや量子等方性状態の無制限供給を用いて,min-entropy k で共通乱弦を生成する問題に対処する。
この論文は、一方向古典通信と一方向量子通信の2つの通信モデルを検討し、両モデルの最適共通ランダム性率の上界を導出する。
古典的コミュニケーションの場合、量子等方性状態はノイズの多い古典的相関に対して何の利点も持たず、alice と bob が古典的$\rho$-correlated random variable を共有する古典的戦略によって最適な共通乱数率を達成できることを示した。
量子通信の場合、量子等方性状態の超高密度符号化を用いて、共通乱数率を増大させることができることを示す。
我々の主な結果は、一方方向量子通信を用いて達成可能な最適共通乱数率の上限である。
また、ノイズのない量子チャネルの古典的容量の上限を雑音の絡み合いによって補助するこの結果の適用について述べる。 This paper addresses the problem of generating a common random string with min-entropy k using an unlimited supply of noisy EPR pairs or quantum isotropic states, with minimal communication between Alice and Bob. The paper considers two communication models -- one-way classical communication and one-way quantum communication, and derives upper bounds on the optimal common randomness rate for both models. We show that in the case of classical communication, quantum isotropic states have no advantage over noisy classical correlation, and that the optimal common randomness rate can be achieved by a classical strategy, in which Alice and Bob share classical $\rho$-correlated random variables. In the case of quantum communication, we demonstrate that the common randomness rate can be increased by using superdense coding on quantum isotropic states. Our main result is an upper bound on the optimal common randomness rate achievable by using one-way quantum communication. We also provide an application of this result, which yields upper bounds on the classical capacity of the noiseless quantum channel assisted by noisy entanglement. | 翻訳日:2023-11-09 15:35:08 公開日:2023-11-08 |
# 科学論文データを用いたCLIPモデルの訓練 Training CLIP models on Data from Scientific Papers ( http://arxiv.org/abs/2311.04711v1 ) ライセンス: Link先を確認 | Calvin Metzger | (参考訳) Contrastive Language- Image Pretraining (CLIP)モデルは、画像とテキストのセマンティックな関係を捉えることができ、画像検索から分類まで幅広いアプリケーションを実現している。
これらのモデルは、大量のが品質は限られているwebクローラから抽出されたデータセットで訓練される。
本稿では,CLIPモデルの汎用性能を向上させるため,特定の領域における限られた高品質データについて検討する。
本研究では,arxivおよびpubmed中央リポジトリにホストされている科学論文からテキスト画像データを抽出する。
小型CLIPモデル(ViT B/32)の実験では、モデルの性能は平均的に上昇するが、適度にしか上昇しない。
この結果から,大規模CLIPモデルのトレーニングに本論文で検討したデータソースが有用であることが示唆された。 Contrastive Language-Image Pretraining (CLIP) models are able to capture the semantic relationship of images and texts and have enabled a wide range of applications, from image retrieval to classification. These models are trained with datasets extracted from web crawls, which are of large quantity but limited quality. This paper explores whether limited amounts higher quality data in a specific domain improve the general performance of CLIP models. To this purpose, we extract text-image data from scientific papers hosted in the arXiv and PubMed Central repositories. Experiments on small-scale CLIP models (ViT B/32) show that model performance increases on average, but only moderately. This result indicates that using the data sources considered in the paper to train large-scale CLIP models is a worthwile research direction. | 翻訳日:2023-11-09 15:34:47 公開日:2023-11-08 |
# The Quest for Content: a Survey of Search-based Procedural Content Generation for video Games The Quest for Content: A Survey of Search-Based Procedural Content Generation for Video Games ( http://arxiv.org/abs/2311.04710v1 ) ライセンス: Link先を確認 | Mar Zamorano, Carlos Cetina, Federica Sarro | (参考訳) ビデオゲームの需要は常に増加しており、大量のコンテンツのコストがかかる。
この課題に向けて、研究者は検索アルゴリズムによるコンテンツの自動生成(半自動)という、検索に基づく手続き的コンテンツ生成(sbpcg)を開発した。
sbpcgの現状を調査し,2011~2022年に現場で報告活動を行い,オープン研究課題の特定を行った。
その結果,SBPCGの実践者への推奨と今後の研究の道筋の特定につながった。 Video games demand is constantly increasing, which requires the costly production of large amounts of content. Towards this challenge, researchers have developed Search-Based Procedural Content Generation (SBPCG), that is, the (semi-)automated creation of content through search algorithms. We survey the current state of SBPCG, reporting work appeared in the field between 2011-2022 and identifying open research challenges. The results lead to recommendations for practitioners and to the identification of several potential future research avenues for SBPCG. | 翻訳日:2023-11-09 15:34:33 公開日:2023-11-08 |
# ディープキーポイント検出とポイントクラウドを用いたトマト果皮ノードの3次元ポーズ推定 3D Pose Estimation of Tomato Peduncle Nodes using Deep Keypoint Detection and Point Cloud ( http://arxiv.org/abs/2311.04699v1 ) ライセンス: Link先を確認 | Jianchao Ci, Xin Wang, David Rapado-Rinc\'on, Akshay K. Burusa, Gert Kootstra | (参考訳) 先進国における果物や野菜の温室効果ガス生産は、労働力12の不足と労働コストの高騰に苦しめられている。
ロボットは持続可能で費用効果の高い13生産に適したソリューションを提供する。
植物部分に関する正確な空間情報を取得することは、14のロボット操作の成功に不可欠である。
温室におけるロボットの知覚は、15の植物外観、視点、照明の変化により困難である。
本稿では,rgb-dカメラから得られたデータを用いて,果皮ノードの3次元ポーズを推定するキーポイント検出に基づく16の手法を提案する。
具体的には、カラー20画像中の4つの解剖学的ランドマークを検出し、3Dポイントクラウド情報を統合して3Dポーズを決定する手法を提案する。
21の包括的評価を商業温室で行い,22の異なる部分の性能について考察した。
その結果,(1)オブジェクト23の検出精度が高く,ap@0.5=0.96の平均精度(ap)を達成し,(2)phdj@0.2=94.31%のキーポイントの24個の検出関節(pdj)の平均パーセンテージ,(3)平均絶対誤差(mae)11.38o,9.93oの3dポージング推定25の精度が,それぞれペデュンクルとメインステムの相対上方26角と下方26角で得られた。
さらに,27種類の視点の変動を処理できる性能について検討し,その方法が変化を見るのにロバストであることを実証した。
しかし、標準ビューと高ビューは、他の29ビューに比べてわずかに高いパフォーマンスを示した。
トマトをユースケースとして選定したが,提案手法はコショウなどの他の30種の温室栽培作物にも適用できる。 Greenhouse production of fruits and vegetables in developed countries is challenged by labor 12 scarcity and high labor costs. Robots offer a good solution for sustainable and cost-effective 13 production. Acquiring accurate spatial information about relevant plant parts is vital for 14 successful robot operation. Robot perception in greenhouses is challenging due to variations in 15 plant appearance, viewpoints, and illumination. This paper proposes a keypoint-detection-based 16 method using data from an RGB-D camera to estimate the 3D pose of peduncle nodes, which 17 provides essential information to harvest the tomato bunches. 18 19 Specifically, this paper proposes a method that detects four anatomical landmarks in the color 20 image and then integrates 3D point-cloud information to determine the 3D pose. A 21 comprehensive evaluation was conducted in a commercial greenhouse to gain insight into the 22 performance of different parts of the method. The results showed: (1) high accuracy in object 23 detection, achieving an Average Precision (AP) of AP@0.5=0.96; (2) an average Percentage of 24 Detected Joints (PDJ) of the keypoints of PhDJ@0.2=94.31%; and (3) 3D pose estimation 25 accuracy with mean absolute errors (MAE) of 11.38o and 9.93o for the relative upper and lower 26 angles between the peduncle and main stem, respectively. Furthermore, the capability to handle 27 variations in viewpoint was investigated, demonstrating the method was robust to view changes. 28 However, canonical and higher views resulted in slightly higher performance compared to other 29 views. Although tomato was selected as a use case, the proposed method is also applicable to 30 other greenhouse crops like pepper. | 翻訳日:2023-11-09 15:34:22 公開日:2023-11-08 |
# マルチタスク学習における共通想定の充足 Challenging Common Assumptions in Multi-task Learning ( http://arxiv.org/abs/2311.04698v1 ) ライセンス: Link先を確認 | Cathrin Elich, Lukas Kirchdorfer, Jan M. K\"ohler, Lukas Schott | (参考訳) 近年,マルチタスク学習(MTL)が注目されているが,その基盤となるメカニズムはよく分かっていない。
最近の手法ではシングルタスク学習(stl)ベースラインよりも一貫したパフォーマンス改善が得られず、mtl特有の課題に関する深い洞察を得ることの重要性が強調された。
本研究では,stlの文脈におけるmtlの一般的な仮定に挑戦する: まず,mtlではオプティマイザの選択が軽度に検討されている。
MTLにおけるAdam Optimizationrのような一般的なSTLツールの役割を示す。
我々はAdamの有効性をその部分的損失スケール不変性に推定する。
第二に、勾配衝突の概念は、しばしばMTLの特定の問題として表現される。
MTLにおける勾配衝突の役割を探求し、STLと比較する。
角勾配アライメントに対しては、これが MTL の唯一の問題であることを示す証拠は見つからない。
主な要因として勾配等級の違いを強調した。
最後に,MTL と STL を用いて学習した特徴の変換可能性を比較し,MTL がより優れた転送可能性をもたらすという決定的な証拠は見つからない。
全体として、STLとMTLの驚くべき類似性は、より広い文脈で両方の分野からの手法を検討することを示唆している。 While multi-task learning (MTL) has gained significant attention in recent years, its underlying mechanisms remain poorly understood. Recent methods did not yield consistent performance improvements over single task learning (STL) baselines, underscoring the importance of gaining more profound insights about challenges specific to MTL. In our study, we challenge common assumptions in MTL in the context of STL: First, the choice of optimizer has only been mildly investigated in MTL. We show the pivotal role of common STL tools such as the Adam optimizer in MTL. We deduce the effectiveness of Adam to its partial loss-scale invariance. Second, the notion of gradient conflicts has often been phrased as a specific problem in MTL. We delve into the role of gradient conflicts in MTL and compare it to STL. For angular gradient alignment we find no evidence that this is a unique problem in MTL. We emphasize differences in gradient magnitude as the main distinguishing factor. Lastly, we compare the transferability of features learned through MTL and STL on common image corruptions, and find no conclusive evidence that MTL leads to superior transferability. Overall, we find surprising similarities between STL and MTL suggesting to consider methods from both fields in a broader context. | 翻訳日:2023-11-09 15:33:44 公開日:2023-11-08 |
# FetMRQC:多心性胎児脳MRI品質管理のためのオープンソースの機械学習フレームワーク FetMRQC: an open-source machine learning framework for multi-centric fetal brain MRI quality control ( http://arxiv.org/abs/2311.04780v1 ) ライセンス: Link先を確認 | Thomas Sanchez and Oscar Esteban and Yvan Gomez and Alexandre Pron and M\'eriam Koob and Vincent Dunet and Nadine Girard and Andras Jakab and Elisenda Eixarch and Guillaume Auzias and Meritxell Bach Cuadra | (参考訳) 胎児脳MRIは、周産期診断のための神経超音波検査の補完となり、妊娠中における胎児脳の発達に関する基本的な洞察を可能にしている。
しかし、摂食プロトコルの制御されていない胎児の動きと不均一性は、変動品質のデータをもたらし、その後の研究の結果をバイアスする可能性がある。
臨床データの多様性によって引き起こされる領域シフトに頑健な画像品質評価と品質管理を自動化する,オープンソースの機械学習フレームワークであるfetmrqcを提案する。
FetMRQCは、未処理の解剖学的MRIから品質指標のアンサンブルを抽出し、それらを組み合わせ、ランダムな森林を用いて専門家のレーティングを予測する。
我々は,4つの臨床センターと13の異なるスキャナーから,1600以上の胎児脳T2強調画像を手作業で評価した,先駆的に大きく多様なデータセット上で,我々の枠組みを検証した。
本研究は,FetMRQCの予測が解釈可能でありながら未確認データによく当てはまることを示す。
FetMRQCは、より堅牢な胎児脳画像へのステップであり、人間の脳の発達に関する新たな洞察を隠蔽する可能性がある。 Fetal brain MRI is becoming an increasingly relevant complement to neurosonography for perinatal diagnosis, allowing fundamental insights into fetal brain development throughout gestation. However, uncontrolled fetal motion and heterogeneity in acquisition protocols lead to data of variable quality, potentially biasing the outcome of subsequent studies. We present FetMRQC, an open-source machine-learning framework for automated image quality assessment and quality control that is robust to domain shifts induced by the heterogeneity of clinical data. FetMRQC extracts an ensemble of quality metrics from unprocessed anatomical MRI and combines them to predict experts' ratings using random forests. We validate our framework on a pioneeringly large and diverse dataset of more than 1600 manually rated fetal brain T2-weighted images from four clinical centers and 13 different scanners. Our study shows that FetMRQC's predictions generalize well to unseen data while being interpretable. FetMRQC is a step towards more robust fetal brain neuroimaging, which has the potential to shed new insights on the developing human brain. | 翻訳日:2023-11-09 15:26:07 公開日:2023-11-08 |
# ソボレフノルムに関するコロボフ関数に対する最適ディープニューラルネットワーク近似 Optimal Deep Neural Network Approximation for Korobov Functions with respect to Sobolev Norms ( http://arxiv.org/abs/2311.04779v1 ) ライセンス: Link先を確認 | Yahong Yang and Yulong Lu | (参考訳) 本稿では,コロボフ関数に適用した場合のディープニューラルネットワーク(DNN)の近似のほぼ最適値を確立し,次元性の呪いを克服する。
本論文で示される近似結果は、$l_p$ノルムと$h^1$ノルムに関して測定される。
我々の達成した近似速度は、従来の手法と連続関数近似器よりも優れた「超収束」率を示す。
これらの結果は非漸近的であり、ネットワークの幅と深さを同時に考慮した誤差境界を提供する。 This paper establishes the nearly optimal rate of approximation for deep neural networks (DNNs) when applied to Korobov functions, effectively overcoming the curse of dimensionality. The approximation results presented in this paper are measured with respect to $L_p$ norms and $H^1$ norms. Our achieved approximation rate demonstrates a remarkable "super-convergence" rate, outperforming traditional methods and any continuous function approximator. These results are non-asymptotic, providing error bounds that consider both the width and depth of the networks simultaneously. | 翻訳日:2023-11-09 15:25:49 公開日:2023-11-08 |
# 説明可能なAIにおけるオントロジーの役割について On the Multiple Roles of Ontologies in Explainable AI ( http://arxiv.org/abs/2311.04778v1 ) ライセンス: Link先を確認 | Roberto Confalonieri and Giancarlo Guizzardi | (参考訳) 本稿では、明示的な知識、特にオントロジーが、説明可能なAIや、人間中心の説明可能なシステムや理解可能な説明の開発に果たす役割について論じる。
我々は,参照モデリング,常識推論,知識の洗練と複雑性管理という,オントロジーが著しく貢献できる3つの主要な視点を考察する。
文献における既存のアプローチのいくつかを概観し,これら3つの視点に基づいて位置づける。
この論文は、オントロジーに基づく説明と人間の理解可能性と有効性を評価するために、まだ解決すべき課題について論じる。 This paper discusses the different roles that explicit knowledge, in particular ontologies, can play in Explainable AI and in the development of human-centric explainable systems and intelligible explanations. We consider three main perspectives in which ontologies can contribute significantly, namely reference modelling, common-sense reasoning, and knowledge refinement and complexity management. We overview some of the existing approaches in the literature, and we position them according to these three proposed perspectives. The paper concludes by discussing what challenges still need to be addressed to enable ontology-based approaches to explanation and to evaluate their human-understandability and effectiveness. | 翻訳日:2023-11-09 15:25:38 公開日:2023-11-08 |
# Lidarのアノテーションは必要なだけ Lidar Annotation Is All You Need ( http://arxiv.org/abs/2311.04777v1 ) ライセンス: Link先を確認 | Dinar Sharafutdinov, Stanislav Kuskov, Saian Protasov, Alexey Voropaev | (参考訳) 近年、コンピュータビジョンは医療画像、物体認識、地理空間分析などの分野に変化をもたらした。
コンピュータビジョンにおける基本的なタスクの1つはセマンティック画像分割(semantic image segmentation)である。
自律運転はコンピュータビジョンアルゴリズムを適用する重要な領域の1つである。
道路面のセグメンテーションの課題は、自動運転システムにおいて重要であるが、いくつかのデータ領域において労働集約的なアノテーションプロセスが必要である。
本稿では,畳み込みニューラルネットワークを用いたマルチセンサ構成による画像分割の効率向上を目的としている。
このアプローチでは、ライダー(Light Detection and Ranging)アノテーションを使用して、RGBイメージ上で画像セグメンテーションモデルを直接トレーニングする。
lidarはレーザーパルスを照射し、反射を測定することで深度情報を提供する。
しかし、lidarのスパースポイント雲は、しばしば正確なオブジェクトセグメンテーションの困難を生じさせる。
ポイントクラウドのセグメンテーションには、時間を要する予備データの準備と大量の計算リソースが必要である。
我々のアプローチの鍵となる革新は、点雲からの粗い地道マスクに対処するマスク損失である。
ライダーポイントが存在する場所のみの損失を計算することにより、ライダーポイントを基底真実として画像上の道路セグメンテーションを学習する。
このアプローチでは、モデルトレーニング中に異なる地上データ型をブレンドすることができる。
ベンチマークデータセットに対するアプローチの実験的検証は、高品質の画像セグメンテーションモデルに匹敵する性能を示す。
ライダーを組み込むことでアノテーションの負荷を低減し、セグメンテーション品質を損なうことなく画像分割モデルのトレーニングを可能にする。
この方法論は、公開およびプロプライエタリな、さまざまなデータセット上でテストされる。
本論文では,提案手法の長所と短所について述べる。 In recent years, computer vision has transformed fields such as medical imaging, object recognition, and geospatial analytics. One of the fundamental tasks in computer vision is semantic image segmentation, which is vital for precise object delineation. Autonomous driving represents one of the key areas where computer vision algorithms are applied. The task of road surface segmentation is crucial in self-driving systems, but it requires a labor-intensive annotation process in several data domains. The work described in this paper aims to improve the efficiency of image segmentation using a convolutional neural network in a multi-sensor setup. This approach leverages lidar (Light Detection and Ranging) annotations to directly train image segmentation models on RGB images. Lidar supplements the images by emitting laser pulses and measuring reflections to provide depth information. However, lidar's sparse point clouds often create difficulties for accurate object segmentation. Segmentation of point clouds requires time-consuming preliminary data preparation and a large amount of computational resources. The key innovation of our approach is the masked loss, addressing sparse ground-truth masks from point clouds. By calculating loss exclusively where lidar points exist, the model learns road segmentation on images by using lidar points as ground truth. This approach allows for blending of different ground-truth data types during model training. Experimental validation of the approach on benchmark datasets shows comparable performance to a high-quality image segmentation model. Incorporating lidar reduces the load on annotations and enables training of image-segmentation models without loss of segmentation quality. The methodology is tested on diverse datasets, both publicly available and proprietary. The strengths and weaknesses of the proposed method are also discussed in the paper. | 翻訳日:2023-11-09 15:25:23 公開日:2023-11-08 |
# 対立表現に対するコントラスト学習の統一的枠組みに向けて Towards a Unified Framework of Contrastive Learning for Disentangled Representations ( http://arxiv.org/abs/2311.04774v1 ) ライセンス: Link先を確認 | Stefan Matthes, Zhiwei Han, Hao Shen | (参考訳) コントラスト学習は、データの説明的要素を発見し、歪ませるデータ表現を学ぶための有望なアプローチとして最近登場した。
このような手法の以前の分析は、ノイズコントラスト推定(NCE)やInfoNCEなど、個々の対照的な損失に主に焦点を当てており、データ生成プロセスに関する特定の仮定に依存している。
本稿では,データ分布に関する仮定を緩和しつつ,より広範なコントラスト的手法のファミリーに解離の理論的保証を拡大する。
具体的には,本論文で研究した4つの対照損失に対する真の潜在要因の同定可能性を示す。
理論的な結果はいくつかのベンチマークデータセットで検証される。
最後に,本手法の実用的限界についても検討した。 Contrastive learning has recently emerged as a promising approach for learning data representations that discover and disentangle the explanatory factors of the data. Previous analyses of such approaches have largely focused on individual contrastive losses, such as noise-contrastive estimation (NCE) and InfoNCE, and rely on specific assumptions about the data generating process. This paper extends the theoretical guarantees for disentanglement to a broader family of contrastive methods, while also relaxing the assumptions about the data distribution. Specifically, we prove identifiability of the true latents for four contrastive losses studied in this paper, without imposing common independence assumptions. The theoretical findings are validated on several benchmark datasets. Finally, practical limitations of these methods are also investigated. | 翻訳日:2023-11-09 15:25:00 公開日:2023-11-08 |
# gcs-ichnet : ドメイン知識統合型セルフアテンションによる脳内出血予後の評価 GCS-ICHNet: Assessment of Intracerebral Hemorrhage Prognosis using Self-Attention with Domain Knowledge Integration ( http://arxiv.org/abs/2311.04772v1 ) ライセンス: Link先を確認 | Xuhao Shan, Xinyang Li, Ruiquan Ge, Shibin Wu, Ahmed Elazab, Jichao Zhu, Lingyan Zhang, Gangyong Jia, Qingying Xiao, Xiang Wan, Changmiao Wang | (参考訳) 脳内出血 (intracerebral hemorrhage, ich) は脳血管の損傷による重篤な疾患であり、合併症や死亡に至ることが多い。
死亡率が高いため、タイムリーで正確な予後と管理が不可欠である。
しかし、従来の方法は主観的な臨床専門知識に大きく依存しており、不正確な診断や治療の遅れにつながる可能性がある。
人工知能(AI)モデルは臨床医を支援するために研究されてきたが、多くの先行研究はドメイン知識を考慮せずにモデル修正に焦点を当てていた。
本稿では,マルチモーダル脳ct画像データとglasgow coma scale(gcs)スコアを統合し,ict予後を改善する新しいディープラーニングアルゴリズムgcs-ichnetを提案する。
このアルゴリズムは、トランスフォーマーベースの融合モジュールを用いて評価を行う。
gcs-ichnetは、感度81.03%と特異性91.59%を示し、平均的な臨床医や他の最先端の方法よりも優れている。 Intracerebral Hemorrhage (ICH) is a severe condition resulting from damaged brain blood vessel ruptures, often leading to complications and fatalities. Timely and accurate prognosis and management are essential due to its high mortality rate. However, conventional methods heavily rely on subjective clinician expertise, which can lead to inaccurate diagnoses and delays in treatment. Artificial intelligence (AI) models have been explored to assist clinicians, but many prior studies focused on model modification without considering domain knowledge. This paper introduces a novel deep learning algorithm, GCS-ICHNet, which integrates multimodal brain CT image data and the Glasgow Coma Scale (GCS) score to improve ICH prognosis. The algorithm utilizes a transformer-based fusion module for assessment. GCS-ICHNet demonstrates high sensitivity 81.03% and specificity 91.59%, outperforming average clinicians and other state-of-the-art methods. | 翻訳日:2023-11-09 15:24:46 公開日:2023-11-08 |
# ICUにおける敗血症患者のバイタルサイン予測 Vital Sign Forecasting for Sepsis Patients in ICUs ( http://arxiv.org/abs/2311.04770v1 ) ライセンス: Link先を確認 | Anubhav Bhatti, Yuwei Liu, Chen Dan, Bingjie Shen, San Lee, Yonghwan Kim, Jang Yong Kim | (参考訳) 敗血症と敗血症性ショックは世界中で何百万という深刻な医療疾患であり、死亡率が高い。
本稿では,集中治療室(ICUs)における敗血症性ショック進行を示すバイタルサインを予測するための多段階予測システムを導入するために,最先端のディープラーニング(DL)アーキテクチャを用いる。
提案手法は, 過去のバイタルサインデータのショートウィンドウを利用して, 将来の生理状態を予測する。
我々は,過去6時間のデータから,今後3時間のバイタルサインを予測できるDLベースのバイタルサイン予測システムを導入する。
さらに, 臨床意思決定に不可欠なバイタルサインの形状と時間動態をよりよく捉えるために, ジレート損失関数を応用した。
我々は,3つのDLモデルであるN-BEATS,N-HiTS,TFTを比較し,eICU-CRD(eICU Collaborative Research Database)を用いて,その予測能力を重要なケア環境で強調する。
平均二乗誤差 (MSE) と動的時間歪み (DTW) 測定値を用いて, モデルの性能評価を行った。
以上の結果から,TFTは全体の傾向を捉えるのに優れているが,N-HiTSは予め定義された範囲内で短期変動を維持するのに優れていることがわかった。
本稿では,icusにおけるモニタリングシステムのトランスフォーメーションにおける深層学習の可能性を示し,生理的不安定の早期発見と敗血症性ショックの予知を支援するバイタルサインを正確に予測することで,患者のケアとアウトカムの大幅な改善につながる可能性を示唆する。 Sepsis and septic shock are a critical medical condition affecting millions globally, with a substantial mortality rate. This paper uses state-of-the-art deep learning (DL) architectures to introduce a multi-step forecasting system to predict vital signs indicative of septic shock progression in Intensive Care Units (ICUs). Our approach utilizes a short window of historical vital sign data to forecast future physiological conditions. We introduce a DL-based vital sign forecasting system that predicts up to 3 hours of future vital signs from 6 hours of past data. We further adopt the DILATE loss function to capture better the shape and temporal dynamics of vital signs, which are critical for clinical decision-making. We compare three DL models, N-BEATS, N-HiTS, and Temporal Fusion Transformer (TFT), using the publicly available eICU Collaborative Research Database (eICU-CRD), highlighting their forecasting capabilities in a critical care setting. We evaluate the performance of our models using mean squared error (MSE) and dynamic time warping (DTW) metrics. Our findings show that while TFT excels in capturing overall trends, N-HiTS is superior in retaining short-term fluctuations within a predefined range. This paper demonstrates the potential of deep learning in transforming the monitoring systems in ICUs, potentially leading to significant improvements in patient care and outcomes by accurately forecasting vital signs to assist healthcare providers in detecting early signs of physiological instability and anticipating septic shock. | 翻訳日:2023-11-09 15:24:28 公開日:2023-11-08 |
# 卵巣癌におけるプラチナ耐性予測のための注意型深層学習ネットワーク An attention-based deep learning network for predicting Platinum resistance in ovarian cancer ( http://arxiv.org/abs/2311.04769v1 ) ライセンス: Link先を確認 | Haoming Zhuang, Beibei Li, Jingtong Ma, Patrice Monkam, Shouliang Qi, Wei Qian, Dianning He | (参考訳) 背景:卵巣癌は世界でも最も頻度の高い婦人科がんである。
hgsoc (high-grade serous ovarian cancer) は、最も一般的で攻撃的な組織型である。
hgsocの誘導治療は一般的にプラチナベースの併用化学療法を要し、患者がプラチナ耐性かどうかを評価する必要がある。
本研究の目的は,マルチモーダルポジトロンエミッショントモグラフィ(pet/ct)画像を用いて,プラチナ耐性を判定する深層学習に基づく手法を提案することである。
方法: hgsoc患者289名について検討した。
Squeeze-Excitation Block (SE Block)とSpatial Pyramid Pooling Layer (SPPLayer)をDense Convolutional Network (DenseNet)に追加することで、エンドツーエンドのSE-SPP-DenseNetモデルを構築した。
興味領域(ROI)のPET/CT画像からのマルチモーダルデータを用いてプラチナ耐性の予測を行った。
結果: se-spp-densenetは5倍のクロスバリデーションにより, 92.6%, 93。
SEブロックとSPPLayerを深層学習モデルに組み込むことの重要性とマルチモーダルデータを考慮することは、単一のモーダルデータを用いたアブレーション研究と実験を行うことによって実証された。
結論: 得られた分類結果から, 提案した深層学習フレームワークは, 患者の白金抵抗の予測に優れており, 婦人科医がより良い治療決定を下すのに役立つことが示唆された。
キーワード:PET/CT, CNN, SE Block, SPP Layer, 白金耐性, 卵巣癌 Background: Ovarian cancer is among the three most frequent gynecologic cancers globally. High-grade serous ovarian cancer (HGSOC) is the most common and aggressive histological type. Guided treatment for HGSOC typically involves platinum-based combination chemotherapy, necessitating an assessment of whether the patient is platinum-resistant. The purpose of this study is to propose a deep learning-based method to determine whether a patient is platinum-resistant using multimodal positron emission tomography/computed tomography (PET/CT) images. Methods: 289 patients with HGSOC were included in this study. An end-to-end SE-SPP-DenseNet model was built by adding Squeeze-Excitation Block (SE Block) and Spatial Pyramid Pooling Layer (SPPLayer) to Dense Convolutional Network (DenseNet). Multimodal data from PET/CT images of the regions of interest (ROI) were used to predict platinum resistance in patients. Results: Through five-fold cross-validation, SE-SPP-DenseNet achieved a high accuracy rate and an area under the curve (AUC) in predicting platinum resistance in patients, which were 92.6% and 0.93, respectively. The importance of incorporating SE Block and SPPLayer into the deep learning model, and considering multimodal data was substantiated by carrying out ablation studies and experiments with single modality data. Conclusions: The obtained classification results indicate that our proposed deep learning framework performs better in predicting platinum resistance in patients, which can help gynecologists make better treatment decisions. Keywords: PET/CT, CNN, SE Block, SPP Layer, Platinum resistance, Ovarian cancer | 翻訳日:2023-11-09 15:23:57 公開日:2023-11-08 |
# OSSにおける個人間の信頼 - GitHubのプルリクエストによる信頼度の調査 Interpersonal Trust in OSS: Exploring Dimensions of Trust in GitHub Pull Requests ( http://arxiv.org/abs/2311.04767v1 ) ライセンス: Link先を確認 | Amirali Sajadi, Kostadin Damevski, Preetha Chatterjee | (参考訳) 対人信頼は、ソフトウェア開発のような協調作業を促進する上で重要な役割を果たす。
これまでの研究では、組織的な環境での信頼の重要性を認識していましたが、OSS分散チームでは、直接の対人コミュニケーションが欠如しているため、信頼がどのように表現されるかは理解できません。
OSSチームにおける信頼とコラボレーションを促進するには、信頼とは何か、どのように書かれた開発者コミュニケーション(プルリクエスト、チャットなど)でどのように表現されるのかを理解する必要があります。
本稿ではまず,OSSにおける信頼行動の観察方法を明らかにするために,信頼のさまざまな側面について検討する。
次に、Apache Software Foundation(ASF)プロジェクトから100件のGitHubプルリクエストをサンプルとして、信頼のそれぞれの次元がどのように表現できるかを分析し、実証します。
我々の発見は、チームのダイナミクスを自動評価し、OSSチームにおける個人間の信頼を確立するのに役立ち、成功し、持続可能なOSSを実現するための手がかりに関する予備的な洞察を提供する。 Interpersonal trust plays a crucial role in facilitating collaborative tasks, such as software development. While previous research recognizes the significance of trust in an organizational setting, there is a lack of understanding in how trust is exhibited in OSS distributed teams, where there is an absence of direct, in-person communications. To foster trust and collaboration in OSS teams, we need to understand what trust is and how it is exhibited in written developer communications (e.g., pull requests, chats). In this paper, we first investigate various dimensions of trust to identify the ways trusting behavior can be observed in OSS. Next, we sample a set of 100 GitHub pull requests from Apache Software Foundation (ASF) projects, to analyze and demonstrate how each dimension of trust can be exhibited. Our findings provide preliminary insights into cues that might be helpful to automatically assess team dynamics and establish interpersonal trust in OSS teams, leading to successful and sustainable OSS. | 翻訳日:2023-11-09 15:23:26 公開日:2023-11-08 |
# DualTalker: 音声駆動型3次元顔アニメーションのためのクロスモーダルデュアルラーニングアプローチ DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D Facial Animation ( http://arxiv.org/abs/2311.04766v1 ) ライセンス: Link先を確認 | Guinan Su, Yanwu Yang, Zhifeng Li | (参考訳) 近年、特に仮想現実、ゲーム、ビデオ会議などのアプリケーションにおいて、音声駆動の3d顔アニメーションが注目されている。
しかし、表情の複雑で微妙なダイナミクスを正確にモデル化することは依然として困難である。
既存の研究のほとんどは、顔アニメーションタスクを単一の回帰問題として捉えており、音声信号と3d顔アニメーション間の内在的モーダル関係を捉えて、それらの内在的一貫性を見落としていないことが多い。
さらに、3d-audio-visualデータセットの可用性が限られているため、小規模サンプルで学習するアプローチは汎用性が低く、パフォーマンスが低下する。
本稿では,データ利用効率の向上とクロスモーダル依存性の関連を目的とした,クロスモーダルなデュアルラーニングフレームワークであるdualtalkerを提案する。
このフレームワークは、プライマリタスク(オーディオ駆動顔アニメーション)とそのデュアルタスク(リップ読み取り)と共同でトレーニングされ、共通のオーディオ/モーションエンコーダコンポーネントを共有する。
我々の共同トレーニングフレームワークは,両タスクの情報を活用し,顔の動きと音声の相補的関係を明確化し,パフォーマンスを向上させることによって,より効率的なデータ利用を促進する。
さらに,交叉交叉相補表現の基盤となる潜在的オーバースムーシングを軽減するために補助交叉一貫性損失を導入し,微妙な表情ダイナミクスのマッピングを強化した。
VOCAおよびBIWIデータセットを用いた広汎な実験と知覚的ユーザスタディにより,本手法が定性的かつ定量的に現在の最先端手法よりも優れていることを示す。
コードとビデオのデモをhttps://github.com/sabrina-su/iadf.gitで公開しました。 In recent years, audio-driven 3D facial animation has gained significant attention, particularly in applications such as virtual reality, gaming, and video conferencing. However, accurately modeling the intricate and subtle dynamics of facial expressions remains a challenge. Most existing studies approach the facial animation task as a single regression problem, which often fail to capture the intrinsic inter-modal relationship between speech signals and 3D facial animation and overlook their inherent consistency. Moreover, due to the limited availability of 3D-audio-visual datasets, approaches learning with small-size samples have poor generalizability that decreases the performance. To address these issues, in this study, we propose a cross-modal dual-learning framework, termed DualTalker, aiming at improving data usage efficiency as well as relating cross-modal dependencies. The framework is trained jointly with the primary task (audio-driven facial animation) and its dual task (lip reading) and shares common audio/motion encoder components. Our joint training framework facilitates more efficient data usage by leveraging information from both tasks and explicitly capitalizing on the complementary relationship between facial motion and audio to improve performance. Furthermore, we introduce an auxiliary cross-modal consistency loss to mitigate the potential over-smoothing underlying the cross-modal complementary representations, enhancing the mapping of subtle facial expression dynamics. Through extensive experiments and a perceptual user study conducted on the VOCA and BIWI datasets, we demonstrate that our approach outperforms current state-of-the-art methods both qualitatively and quantitatively. We have made our code and video demonstrations available at https://github.com/sabrina-su/iadf.git. | 翻訳日:2023-11-09 15:23:08 公開日:2023-11-08 |
# ロボットにおける異常検出のためのVoraus-ADデータセット The voraus-AD Dataset for Anomaly Detection in Robot Applications ( http://arxiv.org/abs/2311.04765v1 ) ライセンス: Link先を確認 | Jan Thie{\ss} Brockmann, Marco Rudolph, Bodo Rosenhahn, Bastian Wandt | (参考訳) 産業用ロボットの運用中、異常な出来事は人間の安全と生産の質を脅かす可能性がある。
このようなケースを検出するためにデータを集める場合、予測不能なイベントが発生する可能性があるため、起こりうるすべてのエラーからのデータが含まれていることが保証されない。
したがって、異常検出(ad)は、通常データのみを使用して異常な事象を検出するための実用的なソリューションを提供する。
研究コミュニティが公開するマシンデータに基づくロボットアプリケーションの異常検出手法のトレーニングとベンチマークを可能にするデータセットを導入する。
一般的なロボットタスクとして、データセットには、動き、エンドエフェクタのアクション、環境のオブジェクトとのインタラクションを含むピック・アンド・プレースアプリケーションが含まれている。
いくつかの異常はタスク固有のものではなく、一般的なものであるので、我々のデータセットの評価は他のロボティクスアプリケーションにも転送可能である。
さらに, MVT-Flow (multivariate time-series flow) を異常検出のための新しいベースライン手法として提案する。
評価の結果, MVT-Flow は, ROC 下の領域では6.2% の差で, 従来の作業のベースラインよりも優れていた。 During the operation of industrial robots, unusual events may endanger the safety of humans and the quality of production. When collecting data to detect such cases, it is not ensured that data from all potentially occurring errors is included as unforeseeable events may happen over time. Therefore, anomaly detection (AD) delivers a practical solution, using only normal data to learn to detect unusual events. We introduce a dataset that allows training and benchmarking of anomaly detection methods for robotic applications based on machine data which will be made publicly available to the research community. As a typical robot task the dataset includes a pick-and-place application which involves movement, actions of the end effector and interactions with the objects of the environment. Since several of the contained anomalies are not task-specific but general, evaluations on our dataset are transferable to other robotics applications as well. Additionally, we present MVT-Flow (multivariate time-series flow) as a new baseline method for anomaly detection: It relies on deep-learning-based density estimation with normalizing flows, tailored to the data domain by taking its structure into account for the architecture. Our evaluation shows that MVT-Flow outperforms baselines from previous work by a large margin of 6.2% in area under ROC. | 翻訳日:2023-11-09 15:22:38 公開日:2023-11-08 |
# オープンワールドにおけるクロスドメインシークエンシャルレコメンデーション:モデルに依存しないコントラシブデノイングアプローチ Towards Open-world Cross-Domain Sequential Recommendation: A Model-Agnostic Contrastive Denoising Approach ( http://arxiv.org/abs/2311.04760v1 ) ライセンス: Link先を確認 | Wujiang Xu, Xuying Ning, Wenfang Lin, Mingming Ha, Qiongxu Ma, Linxun Chen, Bing Han, Minnan Luo | (参考訳) クロスドメインシーケンシャルレコメンデーション(CDSR)は、従来のシーケンシャルレコメンデーション(SR)システムに存在するデータ空間の問題に対処することを目的としている。
既存手法は,複数のドメインにまたがって情報を伝達・伝播する特定のクロスドメインユニットを設計することを目的としている。
しかし、現実のレコメンデーションシステムでは、CDSRシナリオは通常、疎い振る舞いを持つ長い尾を持つユーザーの大多数と、一つのドメインにしか存在しないコールドスタートユーザーから構成される。
これにより、現実世界の業界プラットフォームにおける既存のCDSRメソッドのパフォーマンスが低下する。
したがって、オープンワールドCDSRシナリオにおけるモデルの一貫性と有効性を改善することは、CDSRモデルを構築する上で重要である(\textit{1st} CH)。
近年,SR手法のいくつかは,長期使用者の情報を補完する補助行動を利用している。
しかし、これらのマルチビヘイビアSR法は、ターゲットと補助動作のセマンティックなギャップや、ドメイン間のユーザ関心の偏り(\textit{2nd} CH)を見落としているため、CDSRにおいて有望な性能をもたらすことはできない。 Cross-domain sequential recommendation (CDSR) aims to address the data sparsity problems that exist in traditional sequential recommendation (SR) systems. The existing approaches aim to design a specific cross-domain unit that can transfer and propagate information across multiple domains by relying on overlapping users with abundant behaviors. However, in real-world recommender systems, CDSR scenarios usually consist of a majority of long-tailed users with sparse behaviors and cold-start users who only exist in one domain. This leads to a drop in the performance of existing CDSR methods in the real-world industry platform. Therefore, improving the consistency and effectiveness of models in open-world CDSR scenarios is crucial for constructing CDSR models (\textit{1st} CH). Recently, some SR approaches have utilized auxiliary behaviors to complement the information for long-tailed users. However, these multi-behavior SR methods cannot deliver promising performance in CDSR, as they overlook the semantic gap between target and auxiliary behaviors, as well as user interest deviation across domains (\textit{2nd} CH). | 翻訳日:2023-11-09 15:22:14 公開日:2023-11-08 |
# 自己誘起ジョセフソン効果からの超固体のサブユニティ超流動分画 Sub-unity superfluid fraction of a supersolid from self-induced Josephson effect ( http://arxiv.org/abs/2311.04757v1 ) ライセンス: Link先を確認 | Giulio Biagioni, Nicol\`o Antolini, Beatrice Donelli, Luca Pezz\`e, Augusto Smerzi, Marco Fattori, Andrea Fioretti, Carlo Gabbanini, Massimo Inguscio, Luca Tanzi, and Giovanni Modugno | (参考訳) 近年,超流動体と超伝導体の新たなカテゴリーが,様々なシステムで発見されている。
これらは超固体相の概念と結びつくことができ、空間変調を伴うマクロ波動関数はゲージと変換対称性の同時的、自発的な破れから生じる。
しかし、この関係はいくつかのケースでのみ認識されており、超固体と通常の超流動/超伝導体または結晶の違いを定量化する普遍性が必要である。
鍵となる性質は超流動分数であり、これは空間変調による超流動剛性の減少を測り、超固体の非標準超流動ダイナミクスをもたらす。
ここでは、超流動と超伝導体に共通するジョセフソン効果を用いて超固体中の超流動分数を測定する。
物理的障壁がなくても、ジョセフソン効果は空間変調によって自然に超固体に生じる。
個々の格子細胞は自己誘導ジョセフソン接合として作用し、局所超流動分画を直接決定する。
寒冷原子二極性超固体の研究を行い, 重要なサブユニット超流動分画を明らかにした。
我々の研究は、部分的に量子化された渦や超電流のような新しい現象の探索を可能にし、超固体系の理解を統一し、新しいタイプのジョセフソン接合を導入した。 Recently, a new category of superfluids and superconductors has been discovered in various systems. These could be linked to the idea of a supersolid phase, featuring a macroscopic wavefunction with spatial modulation resulting from simultaneous, spontaneous breaking of gauge and translational symmetries. However, this relation has only been recognized in some cases and there is the need for universal properties quantifying the differences between supersolids and ordinary superfluids/superconductors or crystals. A key property is the superfluid fraction, which measures the reduction in superfluid stiffness due to spatial modulation, leading to the non-standard superfluid dynamics of supersolids. Here we employ the Josephson effect, common in superfluids and superconductors, to measure the superfluid fraction in a supersolid. Even without a physical barrier, the Josephson effect arises spontaneously in a supersolid due to spatial modulation. Individual lattice cells act as self-induced Josephson junctions, allowing the direct determination of the local superfluid fraction. We studied a cold-atom dipolar supersolid, revealing a significant sub-unity superfluid fraction. Our results open new research directions, enabling the exploration of novel phenomena like partially quantized vortices and supercurrents, potentially unifying the understanding of supersolid-like systems, and introducing a new type of Josephson junction. | 翻訳日:2023-11-09 15:21:51 公開日:2023-11-08 |
# インフォーマルな開発者インタラクションにおける感情理解に向けて:Gitter Chat Study Towards Understanding Emotions in Informal Developer Interactions: A Gitter Chat Study ( http://arxiv.org/abs/2311.04755v1 ) ライセンス: Link先を確認 | Amirali Sajadi, Kostadin Damevski, Preetha Chatterjee | (参考訳) 感情はチームワークやソフトウェア開発のような協調活動において重要な役割を果たします。
研究者はさまざまなソフトウェアアーティファクト(問題、プルリクエストなど)で開発者の感情を分析しているが、チャットで表現される感情の幅広い範囲を理解することに焦点を当てた研究はほとんどない。
最も広く使われているコミュニケーション手段の1つとして、チャットにはツールの採用に関するネガティブな視点など、非公式な会話という形で貴重な情報が含まれている。
本稿では,広範囲の感情ラベル(およびサブラベル)を手動でアノテートした開発者チャットメッセージのデータセットを示し,それらのメッセージに含まれる情報のタイプを分析する。
また、チャット特有の感情のユニークなシグナルを調査し、他の形式のソフトウェアコミュニケーションと区別する。
その結果、チャットは承認や恐れの表現が少ないが、githubのコメントに比べて好奇心の表現が多いことが示唆された。
また,予期せぬソフトウェア動作などのプログラミング関連情報を議論する際にも,コンフュージョンがよく見られることに気付く。
全体としては、ソフトウェアメンテナンスと進化ツールをサポートする開発者チャットにおける感情のマイニングの可能性に注目します。 Emotions play a significant role in teamwork and collaborative activities like software development. While researchers have analyzed developer emotions in various software artifacts (e.g., issues, pull requests), few studies have focused on understanding the broad spectrum of emotions expressed in chats. As one of the most widely used means of communication, chats contain valuable information in the form of informal conversations, such as negative perspectives about adopting a tool. In this paper, we present a dataset of developer chat messages manually annotated with a wide range of emotion labels (and sub-labels), and analyze the type of information present in those messages. We also investigate the unique signals of emotions specific to chats and distinguish them from other forms of software communication. Our findings suggest that chats have fewer expressions of Approval and Fear but more expressions of Curiosity compared to GitHub comments. We also notice that Confusion is frequently observed when discussing programming-related information such as unexpected software behavior. Overall, our study highlights the potential of mining emotions in developer chats for supporting software maintenance and evolution tools. | 翻訳日:2023-11-09 15:21:29 公開日:2023-11-08 |
# 雑音対応強化学習エージェントを用いた量子誤り訂正符号とエンコーダの同時発見 Simultaneous Discovery of Quantum Error Correction Codes and Encoders with a Noise-Aware Reinforcement Learning Agent ( http://arxiv.org/abs/2311.04750v1 ) ライセンス: Link先を確認 | Jan Olle, Remmy Zen, Matteo Puviani, Florian Marquardt | (参考訳) ノイズから量子状態を保護する最適な方法を見つけることは、全ての量子技術において際立った課題であり、量子エラー補正(QEC)はこの問題に対処する最も有望な戦略である。
QECコードの構築は、歴史的に人間の創造性を生かした複雑な作業であり、コードの大規模な動物園が発見された。
しかし、現実のシナリオでは、2つの課題がある:これらの符号は典型的には理想的なノイズモデルの下での性能のみに分類され、実装固有の最適符号化回路は知られていない。
本研究では,与えられたゲートセット,キュービット接続,エラーモデルに対して,qec符号とそのエンコーディング回路の両方を自動的に検出する深層強化学習エージェントを訓練する。
本稿では,様々な雑音モデルに対して同時に符号化戦略を作成することを学び,異なる状況間の洞察の伝達を生かしたノイズ認識メタエージェントの概念を紹介する。
さらに、安定化器形式とベクトル化クリフォードシミュレータを用いることにより、我々のRL実装は極めて効率的であり、多くのコードとエンコーダを1秒で生成でき、コード距離は3から5、最大20の物理量子ビットである。
我々のアプローチは、量子ハードウェアプラットフォームの全領域にわたるQECアプローチのハードウェア適応型高速化発見への扉を開く。 Finding optimal ways to protect quantum states from noise remains an outstanding challenge across all quantum technologies, and quantum error correction (QEC) is the most promising strategy to address this issue. Constructing QEC codes is a complex task that has historically been powered by human creativity with the discovery of a large zoo of families of codes. However, in the context of real-world scenarios there are two challenges: these codes have typically been categorized only for their performance under an idealized noise model and the implementation-specific optimal encoding circuit is not known. In this work, we train a Deep Reinforcement Learning agent that automatically discovers both QEC codes and their encoding circuits for a given gate set, qubit connectivity, and error model. We introduce the concept of a noise-aware meta-agent, which learns to produce encoding strategies simultaneously for a range of noise models, thus leveraging transfer of insights between different situations. Moreover, thanks to the use of the stabilizer formalism and a vectorized Clifford simulator, our RL implementation is extremely efficient, allowing us to produce many codes and their encoders from scratch within seconds, with code distances varying from 3 to 5 and with up to 20 physical qubits. Our approach opens the door towards hardware-adapted accelerated discovery of QEC approaches across the full spectrum of quantum hardware platforms of interest. | 翻訳日:2023-11-09 15:21:10 公開日:2023-11-08 |
# SODAWideNet -- ImageNet事前トレーニングなしのアテンション拡張ワイドエンコーダデコーダネットワークによる有能なオブジェクト検出 SODAWideNet -- Salient Object Detection with an Attention augmented Wide Encoder Decoder network without ImageNet pre-training ( http://arxiv.org/abs/2311.04828v1 ) ライセンス: Link先を確認 | Rohit Venkata Sai Dulam and Chandra Kambhamettu | (参考訳) 新しいSalient Object Detection(SOD)モデルの開発には、ImageNet事前訓練されたバックボーンを選択し、バックボーン機能を使用するための新しい機能改善モジュールを作成することが含まれる。
しかし、トレーニング済みのバックボーンに新しいコンポーネントを追加するには、ImageNetデータセットでネットワーク全体をトレーニングする必要がある。
したがって、ImageNet事前学習なしでSODで直接訓練されたスクラッチからニューラルネットワークを開発することを検討する。
このような定式化はタスク固有のコンポーネントを設計するための完全な自律性を提供します。
そこで本研究では,オブジェクト検出のためのエンコーダデコーダ型ネットワークである sodawidenet を提案する。
我々は、狭く深い畳み込みモデルという一般的なパラダイムから、広く浅いアーキテクチャへと逸脱し、パラメータ効率のよいディープニューラルネットワークを生み出した。
より浅いネットワークを実現するために,拡張畳み込みと自己認識の組み合わせを用いて,ネットワークの開始から受容野を増加させる。
そこで我々は, 拡張畳み込みを用いた高分解能で, 遠方領域からの識別特性を効率的に取得するMRFFAM(Multi Receptive Field Feature Aggregation Module)を提案する。
次に,マルチスケール注意(Multi-Scale Attention,MSA)を提案する。これは特徴ピラミッドを作成し,複数の解像度にまたがる注意を効率よく計算し,より大きな特徴マップからグローバルな特徴を抽出する。
最後に,5つのデータセット上の最先端モデルに対する競合性能を実現するため,SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種を提案する。 Developing a new Salient Object Detection (SOD) model involves selecting an ImageNet pre-trained backbone and creating novel feature refinement modules to use backbone features. However, adding new components to a pre-trained backbone needs retraining the whole network on the ImageNet dataset, which requires significant time. Hence, we explore developing a neural network from scratch directly trained on SOD without ImageNet pre-training. Such a formulation offers full autonomy to design task-specific components. To that end, we propose SODAWideNet, an encoder-decoder-style network for Salient Object Detection. We deviate from the commonly practiced paradigm of narrow and deep convolutional models to a wide and shallow architecture, resulting in a parameter-efficient deep neural network. To achieve a shallower network, we increase the receptive field from the beginning of the network using a combination of dilated convolutions and self-attention. Therefore, we propose Multi Receptive Field Feature Aggregation Module (MRFFAM) that efficiently obtains discriminative features from farther regions at higher resolutions using dilated convolutions. Next, we propose Multi-Scale Attention (MSA), which creates a feature pyramid and efficiently computes attention across multiple resolutions to extract global features from larger feature maps. Finally, we propose two variants, SODAWideNet-S (3.03M) and SODAWideNet (9.03M), that achieve competitive performance against state-of-the-art models on five datasets. | 翻訳日:2023-11-09 15:13:47 公開日:2023-11-08 |
# シーケンスモデリングのための階層ゲートリカレントニューラルネットワーク Hierarchically Gated Recurrent Neural Network for Sequence Modeling ( http://arxiv.org/abs/2311.04823v1 ) ライセンス: Link先を確認 | Zhen Qin, Songlin Yang, Yiran Zhong | (参考訳) トランスフォーマーは、並列トレーニングと長期依存性モデリングにおける優れた能力のために、RNNよりも人気がある。
近年,線形RNNを用いた効率的なシーケンスモデリングへの関心が高まっている。
これらのリニアrnnは、リニアリピート層の出力にゲーティング機構をしばしば採用するが、リピートゲートをリピートに使用する意義は無視する。
本稿では,階層型ゲート型リカレントニューラルネットワーク(hgrn)と呼ばれるゲート型線形rnnモデルを提案する。
下限は層を上るときに単調に増加する。
これにより、上位層は長期的な依存関係をモデル化でき、下位層はより局所的で短期的な依存関係をモデル化できる。
言語モデリング,画像分類,長距離アリーナベンチマーク実験は,提案モデルの有効性と有効性を示す。
ソースコードはhttps://github.com/opennlplab/hgrnで入手できる。 Transformers have surpassed RNNs in popularity due to their superior abilities in parallel training and long-term dependency modeling. Recently, there has been a renewed interest in using linear RNNs for efficient sequence modeling. These linear RNNs often employ gating mechanisms in the output of the linear recurrence layer while ignoring the significance of using forget gates within the recurrence. In this paper, we propose a gated linear RNN model dubbed Hierarchically Gated Recurrent Neural Network (HGRN), which includes forget gates that are lower bounded by a learnable value. The lower bound increases monotonically when moving up layers. This allows the upper layers to model long-term dependencies and the lower layers to model more local, short-term dependencies. Experiments on language modeling, image classification, and long-range arena benchmarks showcase the efficiency and effectiveness of our proposed model. The source code is available at https://github.com/OpenNLPLab/HGRN. | 翻訳日:2023-11-09 15:13:17 公開日:2023-11-08 |
# 反復パラメータアライメントを用いた分岐領域を横断するクロスサイロフェデレート学習 Cross-Silo Federated Learning Across Divergent Domains with Iterative Parameter Alignment ( http://arxiv.org/abs/2311.04818v1 ) ライセンス: Link先を確認 | Matt Gorbett, Hossein Shirazi, Indrakshi Ray | (参考訳) プライベートソースに分散したデータの集団的知識から学ぶことで、一般化能力を強化したニューラルネットワークを提供できる。
リモートクライアント間で機械学習モデルを協調的にトレーニングするフェデレーション学習は、中央サーバのオーケストレーションを通じてクライアントモデルを組み合わせることで、これを実現する。
しかし、現在のアプローチには2つの限界がある。
一 クライアントドメインが十分に異なるときに収束するのに苦労し、
二 現行の集約技術は、各クライアントに対して同一のグローバルモデルを生成する。
本研究では,一つのグローバルモデルを学ぶのではなく,共通の目的のために最適化されたNモデルを学ぶ。
これを実現するために、ピアツーピアトポロジーで共有されるモデルパラメータに重み付き距離最小化を適用する。
結果のフレームワークである反復パラメータアライメントは、自然にクロスサイロ設定に適用され、以下の特性を持つ。
(i)各参加者にとってユニークなソリューションで、フェデレーション内の各モデルをグローバルに収束させるオプションと、
(ii)協調学習環境における仲間間の公平性を引き出すための任意早期停止機構。
これらの特徴は、異なるデータセットでトレーニングされたピアモデルから反復的に学習するフレキシブルな新しいフレームワークを共同で提供する。
この技術は、最先端のアプローチと比較して、様々なデータ分割における競合的な結果が得られる。
さらに,既存のアプローチが苦しむような異なるドメイン(つまりピア間の非結合クラス)に対して,この手法は堅牢であることを示す。 Learning from the collective knowledge of data dispersed across private sources can provide neural networks with enhanced generalization capabilities. Federated learning, a method for collaboratively training a machine learning model across remote clients, achieves this by combining client models via the orchestration of a central server. However, current approaches face two critical limitations: i) they struggle to converge when client domains are sufficiently different, and ii) current aggregation techniques produce an identical global model for each client. In this work, we address these issues by reformulating the typical federated learning setup: rather than learning a single global model, we learn N models each optimized for a common objective. To achieve this, we apply a weighted distance minimization to model parameters shared in a peer-to-peer topology. The resulting framework, Iterative Parameter Alignment, applies naturally to the cross-silo setting, and has the following properties: (i) a unique solution for each participant, with the option to globally converge each model in the federation, and (ii) an optional early-stopping mechanism to elicit fairness among peers in collaborative learning settings. These characteristics jointly provide a flexible new framework for iteratively learning from peer models trained on disparate datasets. We find that the technique achieves competitive results on a variety of data partitions compared to state-of-the-art approaches. Further, we show that the method is robust to divergent domains (i.e. disjoint classes across peers) where existing approaches struggle. | 翻訳日:2023-11-09 15:13:03 公開日:2023-11-08 |
# 個人化オンラインフェデレーションラーニング Decentralized Personalized Online Federated Learning ( http://arxiv.org/abs/2311.04817v1 ) ライセンス: Link先を確認 | Renzhi Wu and Saayan Mitra and Xiang Chen and Anup Rao | (参考訳) バニラ連合学習は、オンライン環境での学習、各クライアントでパーソナライズされたモデル学習、分散環境での学習をサポートしない。
フェデレーション学習を3つの側面それぞれに拡張する既存の方法がある。
しかし、エンタープライズエッジサーバ上のいくつかの重要なアプリケーション(例えば、グローバルスケールでのオンラインアイテムレコメンデーション)は、同時に3つの側面を含んでいる。
そこで我々は,これら3つの側面を同時に考慮した新しい学習環境であるtextit{Decentralized Personalized Online Federated Learning}を提案する。
この新しい学習環境において、最初の技術的課題は、隣接するクライアントから共有モデルパラメータを集約して、各クライアントで優れたパフォーマンスを持つパーソナライズされたローカルモデルを得る方法である。
本稿では,集約重みに関する局所モデルの性能を最適化し,アグリゲーションを直接学習することを提案する。
これは、各ローカルモデルのパーソナライズを改善するだけでなく、近隣の適切な情報をインテリジェントに組み込むことによって、潜在的なデータシフトに対応するローカルモデルを支援する。
第2の課題は、クライアント毎に隣人を選択する方法だ。
本稿では,各クライアントが最も有用な隣人を選択し,同時に通信コストを削減することを可能にする,学習集約重みに基づくピア選択手法を提案する。
提案手法の有効性とロバスト性を実世界の3項目推薦データセットと1つの空気質予測データセットで検証した。 Vanilla federated learning does not support learning in an online environment, learning a personalized model on each client, and learning in a decentralized setting. There are existing methods extending federated learning in each of the three aspects. However, some important applications on enterprise edge servers (e.g. online item recommendation at global scale) involve the three aspects at the same time. Therefore, we propose a new learning setting \textit{Decentralized Personalized Online Federated Learning} that considers all the three aspects at the same time. In this new setting for learning, the first technical challenge is how to aggregate the shared model parameters from neighboring clients to obtain a personalized local model with good performance on each client. We propose to directly learn an aggregation by optimizing the performance of the local model with respect to the aggregation weights. This not only improves personalization of each local model but also helps the local model adapting to potential data shift by intelligently incorporating the right amount of information from its neighbors. The second challenge is how to select the neighbors for each client. We propose a peer selection method based on the learned aggregation weights enabling each client to select the most helpful neighbors and reduce communication cost at the same time. We verify the effectiveness and robustness of our proposed method on three real-world item recommendation datasets and one air quality prediction dataset. | 翻訳日:2023-11-09 15:12:39 公開日:2023-11-08 |
# mtger: time-involved documentによる時間推論の多視点時相グラフ MTGER: Multi-view Temporal Graph Enhanced Temporal Reasoning over Time-Involved Document ( http://arxiv.org/abs/2311.04816v1 ) ライセンス: Link先を確認 | Zheng Chu, Zekun Wang, Jiafeng Liang, Ming Liu, Bing Qin | (参考訳) 文書の事実と時間は複雑に絡み合っており、文書よりも時間的推論が難しい。
以前の作業モデルは暗黙的に時間を取るため、このような複雑な関係を扱うのは難しい。
この問題に対処するため,我々はmtger を提案する。mtger は,時間変化文書に対する時間的推論のための,新しい多視点時相グラフ拡張時相推論フレームワークである。
具体的には、MTGERは多視点時間グラフによって事実間の時間的関係を明示的にモデル化する。
一方、異種時間グラフは、事実間の時間的関係と談話関係を明示的にモデル化し、一方、マルチビューメカニズムは、時間的・事実的な情報の両方をキャプチャし、2つのビューを適応的融合によって補完する。
モデルの暗黙的推論能力をさらに向上するため,自己教師型時間比較対象を設計する。
提案手法がTimeQAおよびSituatedQAデータセットに与える影響を実験的に検証した。
さらに、MTGERは質問の摂動下でより一貫した答えを与える。 The facts and time in the document are intricately intertwined, making temporal reasoning over documents challenging. Previous work models time implicitly, making it difficult to handle such complex relationships. To address this issue, we propose MTGER, a novel Multi-view Temporal Graph Enhanced Temporal Reasoning framework for temporal reasoning over time-involved documents. Concretely, MTGER explicitly models the temporal relationships among facts by multi-view temporal graphs. On the one hand, the heterogeneous temporal graphs explicitly model the temporal and discourse relationships among facts; on the other hand, the multi-view mechanism captures both time-focused and fact-focused information, allowing the two views to complement each other through adaptive fusion. To further improve the implicit reasoning capability of the model, we design a self-supervised time-comparing objective. Extensive experimental results demonstrate the effectiveness of our method on the TimeQA and SituatedQA datasets. Furthermore, MTGER gives more consistent answers under question perturbations. | 翻訳日:2023-11-09 15:12:17 公開日:2023-11-08 |
# 自己学習と逆学習のバランスをとるドメイン適応オブジェクト検出 Domain Adaptive Object Detection via Balancing Between Self-Training and Adversarial Learning ( http://arxiv.org/abs/2311.04815v1 ) ライセンス: Link先を確認 | Muhammad Akhtar Munir, Muhammad Haris Khan, M. Saquib Sarfraz, Mohsen Ali | (参考訳) 深層学習に基づく物体検出器は、対象と背景に大きなバリエーションを持つ新しい対象領域に一般化するのに苦労する。
現在のほとんどのメソッドは、画像またはインスタンスレベルの敵対的特徴アライメントを使用してドメインをアライメントする。
これはしばしば望ましくない背景とクラス固有のアライメントに欠ける。
クラスレベルのアライメントを促進するための簡単なアプローチは、ラベルなしドメインの信頼性の高い予測を擬似ラベルとして使うことである。
これらの予測は、モデルがドメインシフトの下でのキャリブレーションが不十分であるため、しばしばうるさい。
本稿では,モデルの予測不確実性を利用して,対角的特徴アライメントとクラスレベルのアライメントの適切なバランスを打つことを提案する。
クラス割り当てとバウンディングボックス予測の予測不確実性を定量化する手法を開発した。
不確実性の低いモデル予測は、自己学習のための擬似ラベルを生成するのに使われ、不確実性の高いモデルは、敵対的特徴のアライメントのためのタイルを生成するのに用いられる。
不確定なオブジェクト領域を取り囲むことと、非常に特定のオブジェクト領域から擬似ラベルを生成することの相乗効果により、モデル適応中に画像とインスタンスレベルのコンテキストの両方をキャプチャできる。
本研究のアプローチにおける各種成分の影響を明らかにするため,徹底的なアブレーション研究を報告する。
5つの多様かつ難解な適応シナリオの結果から,我々のアプローチは,既存の最先端の手法を明らかにマージンで上回っていることが分かる。 Deep learning based object detectors struggle generalizing to a new target domain bearing significant variations in object and background. Most current methods align domains by using image or instance-level adversarial feature alignment. This often suffers due to unwanted background and lacks class-specific alignment. A straightforward approach to promote class-level alignment is to use high confidence predictions on unlabeled domain as pseudo-labels. These predictions are often noisy since model is poorly calibrated under domain shift. In this paper, we propose to leverage model's predictive uncertainty to strike the right balance between adversarial feature alignment and class-level alignment. We develop a technique to quantify predictive uncertainty on class assignments and bounding-box predictions. Model predictions with low uncertainty are used to generate pseudo-labels for self-training, whereas the ones with higher uncertainty are used to generate tiles for adversarial feature alignment. This synergy between tiling around uncertain object regions and generating pseudo-labels from highly certain object regions allows capturing both image and instance-level context during the model adaptation. We report thorough ablation study to reveal the impact of different components in our approach. Results on five diverse and challenging adaptation scenarios show that our approach outperforms existing state-of-the-art methods with noticeable margins. | 翻訳日:2023-11-09 15:11:58 公開日:2023-11-08 |
# 地上の真実に関する説明を評価するとき Be Careful When Evaluating Explanations Regarding Ground Truth ( http://arxiv.org/abs/2311.04813v1 ) ライセンス: Link先を確認 | Hubert Baniecki, Maciej Chrabaszcz, Andreas Holzinger, Bastian Pfeifer, Anna Saranti, Przemyslaw Biecek | (参考訳) 人間の知覚によって定義されたセグメンテーションマスクなど、地上の真実に関する画像分類器の説明を評価することは、主に説明方法自体よりも検討中のモデルの品質を評価する。
そこで本稿では,この観察結果をもとに,安全性クリティカルシステムのロバスト性を評価するためのフレームワークである$\textit{jointly}$を提案する。
これらは、医用画像分析やロボティクスのような現実世界のアプリケーションでますます使われている。
我々は、(mis)align model$\unicode{x2013}$explanation pipelines with ground truth に微調整手順を導入し、人間のアライメントの最悪のシナリオと最善のシナリオの間の潜在的な不一致を定量化する。
さまざまなモデルアーキテクチャとポストホックなローカル解釈手法による実験は、視覚トランスフォーマーの堅牢性や、そのようなAIシステムの全体的な脆弱性に対する潜在的な敵攻撃に対する洞察を提供する。 Evaluating explanations of image classifiers regarding ground truth, e.g. segmentation masks defined by human perception, primarily evaluates the quality of the models under consideration rather than the explanation methods themselves. Driven by this observation, we propose a framework for $\textit{jointly}$ evaluating the robustness of safety-critical systems that $\textit{combine}$ a deep neural network with an explanation method. These are increasingly used in real-world applications like medical image analysis or robotics. We introduce a fine-tuning procedure to (mis)align model$\unicode{x2013}$explanation pipelines with ground truth and use it to quantify the potential discrepancy between worst and best-case scenarios of human alignment. Experiments across various model architectures and post-hoc local interpretation methods provide insights into the robustness of vision transformers and the overall vulnerability of such AI systems to potential adversarial attacks. | 翻訳日:2023-11-09 15:11:36 公開日:2023-11-08 |
# イメージベース仮想トライオン:調査 Image-Based Virtual Try-On: A Survey ( http://arxiv.org/abs/2311.04811v1 ) ライセンス: Link先を確認 | Dan Song, Xuanpu Zhang, Juan Zhou, Weizhi Nie, Ruofeng Tong and An-An Liu | (参考訳) 画像ベースの仮想試着は、自然に着飾った人物画像を衣料品画像で合成することを目的としており、オンラインショッピングに革命をもたらし、画像生成に関連トピックを刺激し、研究上の意義と商業的可能性の両方を示す。
しかし、現在の研究進展と商用アプリケーションの間には大きなギャップがあり、開発を加速するためにこの分野の包括的な概要が欠落している。
本研究では,パイプラインアーキテクチャ,人的表現,トライオン表示,衣服の反り,トライオンステージといったキーモジュールの側面において,最先端の技術と方法論を包括的に分析する。
CLIPを用いた新しいセマンティックな基準を提案し、同じデータセット上で一様に実装された評価指標を用いて代表的手法を評価する。
現状のオープンソース手法の定量的,定性的な評価に加えて,最近の大規模画像生成モデル(PBE)を微調整し,画像ベース仮想試行課題における大規模モデルの将来可能性を示す。
最後に未解決の課題が明らかにされ、今後の研究の方向性が重要なトレンドを特定し、さらなる探究を促すことが期待されている。
均一に実装された評価メトリクス、データセット、収集されたメソッドはhttps://github.com/little-misfit/Survey-Of-Virtual-Try-Onで公開される。 Image-based virtual try-on aims to synthesize a naturally dressed person image with a clothing image, which revolutionizes online shopping and inspires related topics within image generation, showing both research significance and commercial potentials. However, there is a great gap between current research progress and commercial applications and an absence of comprehensive overview towards this field to accelerate the development. In this survey, we provide a comprehensive analysis of the state-of-the-art techniques and methodologies in aspects of pipeline architecture, person representation and key modules such as try-on indication, clothing warping and try-on stage. We propose a new semantic criteria with CLIP, and evaluate representative methods with uniformly implemented evaluation metrics on the same dataset. In addition to quantitative and qualitative evaluation of current open-source methods, we also utilize ControlNet to fine-tune a recent large image generation model (PBE) to show future potentials of large-scale models on image-based virtual try-on task. Finally, unresolved issues are revealed and future research directions are prospected to identify key trends and inspire further exploration. The uniformly implemented evaluation metrics, dataset and collected methods will be made public available at https://github.com/little-misfit/Survey-Of-Virtual-Try-On. | 翻訳日:2023-11-09 15:11:19 公開日:2023-11-08 |
# リアルタイム神経スパイク分類のための軽量アーキテクチャ A Lightweight Architecture for Real-Time Neuronal-Spike Classification ( http://arxiv.org/abs/2311.04808v1 ) ライセンス: Link先を確認 | Muhammad Ali Siddiqi, David Vrijenhoek, Lennart P. L. Landsmeer, Job van der Kleij, Anteneh Gebregiorgis, Vincenzo Romano, Rajendra Bishnoi, Said Hamdioui, Christos Strydis | (参考訳) マウスの脳における神経活動の電気生理学的記録は、脳機能を理解する神経科学者の間で非常に人気がある。
脳の損傷と運動機能の喪失を理解するために、脳小脳のPurkinje細胞から記録を取得することが特に関心がある。
しかし、この実験の現在の設定では、マウスは自由に移動することができないため、動物の頭部と取得装置との間に接続されているため、自然な挙動を捉えることはできない。
本研究では,パーキンエ細胞の特異な特徴を利用して,スパースニューラルネットワークから不要な情報をリアルタイムに破棄する軽量な神経スパイク検出・分類アーキテクチャを提案する。
これにより、(凝縮した)データはヘッドステージ上の取り外し可能な記憶装置に簡単に格納でき、ワイヤの必要性を軽減できる。
提案手法では, 実験中にマウスが自由に移動できる小型なフォームファクター設計を行いながら, 全体の分類精度を95%以上向上させた。
さらに、この設計の電力効率性やSTT-RAM(Spin Transfer Torque Magnetic Random Access Memory)の取り外し可能なストレージとしての使用により、ヘッドステージは最大4日間小さなバッテリーで容易に操作できる。 Electrophysiological recordings of neural activity in a mouse's brain are very popular among neuroscientists for understanding brain function. One particular area of interest is acquiring recordings from the Purkinje cells in the cerebellum in order to understand brain injuries and the loss of motor functions. However, current setups for such experiments do not allow the mouse to move freely and, thus, do not capture its natural behaviour since they have a wired connection between the animal's head stage and an acquisition device. In this work, we propose a lightweight neuronal-spike detection and classification architecture that leverages on the unique characteristics of the Purkinje cells to discard unneeded information from the sparse neural data in real time. This allows the (condensed) data to be easily stored on a removable storage device on the head stage, alleviating the need for wires. Our proposed implementation shows a >95% overall classification accuracy while still resulting in a small-form-factor design, which allows for the free movement of mice during experiments. Moreover, the power-efficient nature of the design and the usage of STT-RAM (Spin Transfer Torque Magnetic Random Access Memory) as the removable storage allows the head stage to easily operate on a tiny battery for up to approximately 4 days. | 翻訳日:2023-11-09 15:10:56 公開日:2023-11-08 |
# PetShopデータセット - マイクロサービス全体のパフォーマンス問題の原因を見つける The PetShop Dataset -- Finding Causes of Performance Issues across Microservices ( http://arxiv.org/abs/2311.04806v1 ) ライセンス: Link先を確認 | Michaela Hardt, William Orchard, Patrick Bl\"obaum, Shiva Kasiviswanathan, and Elke Kirschbaum | (参考訳) 複雑なシステムにおける予期せぬ、あるいは望ましくない振る舞いの根本原因を特定することは、大きな課題である。
この問題は、多数のマイクロサービスを使用する現代的なクラウドアプリケーションにおいて特に重要になる。
機械学習とシステム研究コミュニティはこの問題に取り組むための様々な手法を提案しているが、現在では定量的ベンチマークのための標準化されたデータセットが不足している。
その結果、研究グループは実験のために独自のデータセットを作成せざるを得なくなった。
本稿では,マイクロサービスベースのアプリケーションにおける根本原因分析を評価するためのデータセットを提案する。
データセットは、分散アプリケーションから5分間隔で発生するレイテンシ、リクエスト、可用性メトリクスを含んでいる。
通常の運用メトリクスに加えて、データセットには68のインジェクトされたパフォーマンス問題が含まれている。
本稿では,このデータセットを用いて,根本原因分析問題の因果的特徴と非因果的特徴にまたがる様々な手法の精度を評価する方法を紹介する。
我々は、この新しいデータセットがhttps://github.com/amazon-science/petshop-root- cause- analysisで利用可能になることを望んでいる。 Identifying root causes for unexpected or undesirable behavior in complex systems is a prevalent challenge. This issue becomes especially crucial in modern cloud applications that employ numerous microservices. Although the machine learning and systems research communities have proposed various techniques to tackle this problem, there is currently a lack of standardized datasets for quantitative benchmarking. Consequently, research groups are compelled to create their own datasets for experimentation. This paper introduces a dataset specifically designed for evaluating root cause analyses in microservice-based applications. The dataset encompasses latency, requests, and availability metrics emitted in 5-minute intervals from a distributed application. In addition to normal operation metrics, the dataset includes 68 injected performance issues, which increase latency and reduce availability throughout the system. We showcase how this dataset can be used to evaluate the accuracy of a variety of methods spanning different causal and non-causal characterisations of the root cause analysis problem. We hope the new dataset, available at https://github.com/amazon-science/petshop-root-cause-analysis/ enables further development of techniques in this important area. | 翻訳日:2023-11-09 15:10:33 公開日:2023-11-08 |
# DACBERT: コスト効率の良いベルト事前トレーニングのための依存関係合意の活用 DACBERT: Leveraging Dependency Agreement for Cost-Efficient Bert Pretraining ( http://arxiv.org/abs/2311.04799v1 ) ライセンス: Link先を確認 | Martin Kuo, Jianyi Zhang, Yiran Chen | (参考訳) 本稿では, クラミテッドBERTのコスト効率向上を基盤として, 新たな事前トレーニングモデルである依存性契約クラミテッドBERT(DACBERT)と2段階事前トレーニングフレームワークである依存性契約事前トレーニングを導入することにより, その性能と解釈可能性を高める。
言語理論に基づくこの枠組みは、構文と意味情報を事前学習プロセスにシームレスに織り込む。
最初の段階では、4つの専用のサブモデルを使用して、チャンクレベルでの代表的依存関係契約をキャプチャし、これらの契約を効果的に埋め込みに変換する。
第2段階では、これらの洗練された埋め込みを従来のBERT埋め込みと組み合わせて、モデルの他の部分の事前訓練をガイドする。
DACBERTはGLUEベンチマークに基づいて,RTEタスクで3.13%,MRPCタスクで2.26%,さまざまなタスクで顕著な改善を示している。
さらに,本手法はGLUEの平均スコアを0.83%向上させ,その有意な可能性を裏付ける。
プレトレーニングプロセスは、1つのGPU上で24時間サイクルで効率的に実行でき、補足的な計算資源を必要とせず、クラムドBERTと比較してトレーニング期間を延長することができる。
また,本研究は,自然言語理解タスクにおける事前学習された言語モデルの解釈可能性を高める上で,我々のアプローチが果たす役割を照らしている。 Building on the cost-efficient pretraining advancements brought about by Crammed BERT, we enhance its performance and interpretability further by introducing a novel pretrained model Dependency Agreement Crammed BERT (DACBERT) and its two-stage pretraining framework - Dependency Agreement Pretraining. This framework, grounded by linguistic theories, seamlessly weaves syntax and semantic information into the pretraining process. The first stage employs four dedicated submodels to capture representative dependency agreements at the chunk level, effectively converting these agreements into embeddings. The second stage uses these refined embeddings, in tandem with conventional BERT embeddings, to guide the pretraining of the rest of the model. Evaluated on the GLUE benchmark, our DACBERT demonstrates notable improvement across various tasks, surpassing Crammed BERT by 3.13% in the RTE task and by 2.26% in the MRPC task. Furthermore, our method boosts the average GLUE score by 0.83%, underscoring its significant potential. The pretraining process can be efficiently executed on a single GPU within a 24-hour cycle, necessitating no supplementary computational resources or extending the pretraining duration compared with the Crammed BERT. Extensive studies further illuminate our approach's instrumental role in bolstering the interpretability of pretrained language models for natural language understanding tasks. | 翻訳日:2023-11-09 15:10:18 公開日:2023-11-08 |
# マイクロサービスへのリファクタリングツール: 予備的なユーザビリティレポート Tools for Refactoring to Microservices: A Preliminary Usability Report ( http://arxiv.org/abs/2311.04798v1 ) ライセンス: Link先を確認 | Jonas Fritzsch and Filipe Correia and Justus Bogner and Stefan Wagner | (参考訳) マイクロサービスは現代的なクラウドベースのアプリケーションで好まれる選択肢だが、既存のレガシシステムのマイグレーションとアーキテクチャリファクタリングは、いまだに業界の主要な課題である。
これを解決するために、学界はモノリスを機能単位に分解するプロセスを自動化するための多くの戦略とアプローチを提案してきた。
本研究では,既存のマイグレーション手法とツールサポートについて概説する。
91の出版物から22のツールを抽出し,そのうち7つはサービス分解に対処した。
エンドユーザの観点から評価するため、インストール、ドキュメンテーション、ユーザビリティ、サポートなどの基礎となるテクニックを調査した。
そのうち5つは、参照アプリケーションを使ってサービスカットを生成しました。
予備研究の結果から,検査したツールは有望な概念を追求するが,業界で信頼性の高い利用には成熟度や一般化性が欠如していることが示唆された。 While Microservices are a preferred choice for modern cloud-based applications, the migration and architectural refactoring of existing legacy systems is still a major challenge in industry. To address this, academia has proposed many strategies and approaches that aim to automate the process of decomposing a monolith into functional units. In this study, we review existing migration approaches regarding techniques used and tool support. From 91 publications, we extracted 22 tools, 7 of which address service decomposition. To assess them from an end-user perspective, we investigated their underlying techniques, installation, documentation, usability and support. For 5 of them, we generated service cuts using reference applications. The results of our preliminary work suggest that the inspected tools pursue promising concepts, but lack maturity and generalizability for reliable use by industry. | 翻訳日:2023-11-09 15:09:52 公開日:2023-11-08 |
# 深層学習アプローチによる有害コメントと意図しないモデルバイアス最小化の決定 Determination of toxic comments and unintended model bias minimization using Deep learning approach ( http://arxiv.org/abs/2311.04789v1 ) ライセンス: Link先を確認 | Md Azim Khan | (参考訳) オンライン会話は有害であり、脅迫、虐待、ハラスメントの対象となることがある。
有毒なテキストコメントを特定するために、多くのディープラーニングと機械学習モデルが長年にわたって提案されてきた。
しかし、最近の研究では、トレーニングデータの不均衡のため、性別バイアスやアイデンティティバイアスを含む意図しないバイアスを示す傾向にあるモデルもある。
本研究では, bert(bidirectional encoder representation from transformers)と呼ばれる注意に基づくモデルを用いて, 有毒なコメントの検出と, 人種, 性別, 性, 宗教などのアイデンティティ特徴に対する意図しないバイアスの低減を目的とする。
非バランスなデータの問題に対処するために重み付き損失を適用し、細調整されたBERTモデルと従来のロジスティック回帰モデルの性能を分類とバイアス最小化の観点から比較する。
TFIDFベクタライザを用いたロジスティック回帰モデルは57.1%の精度で、微細調整されたBERTモデルの精度は89%である。
コードはhttps://github.com/zim10/ determine_toxic_comment_and_identity_bias.gitで入手できる。 Online conversations can be toxic and subjected to threats, abuse, or harassment. To identify toxic text comments, several deep learning and machine learning models have been proposed throughout the years. However, recent studies demonstrate that because of the imbalances in the training data, some models are more likely to show unintended biases including gender bias and identity bias. In this research, our aim is to detect toxic comment and reduce the unintended bias concerning identity features such as race, gender, sex, religion by fine-tuning an attention based model called BERT(Bidirectional Encoder Representation from Transformers). We apply weighted loss to address the issue of unbalanced data and compare the performance of a fine-tuned BERT model with a traditional Logistic Regression model in terms of classification and bias minimization. The Logistic Regression model with the TFIDF vectorizer achieve 57.1% accuracy, and fine-tuned BERT model's accuracy is 89%. Code is available at https://github.com/zim10/Determine_Toxic_comment_and_identity_bias.git | 翻訳日:2023-11-09 15:09:38 公開日:2023-11-08 |
# 臨床確率モデルがなぜサイト間を移動できないのか? Why Do Clinical Probabilistic Models Fail To Transport Between Sites? ( http://arxiv.org/abs/2311.04787v1 ) ライセンス: Link先を確認 | Thomas A. Lasko, Eric V. Strobl, William W. Stead | (参考訳) 医療における人工知能の人気の高まりは、トレーニングサイトでの超人的な臨床パフォーマンスを達成する計算モデルが、新しいサイトでは大幅に悪化する可能性があるという問題を浮き彫りにしている。
そこで本研究では,このトランスポートの失敗の原因を,臨床データ生成プロセスに固有の実験者の制御下にあるソースとソースに分けて提示する。
内在する情報源のうち、我々は、データ分布に影響を与える可能性のあるサイト固有の臨床プラクティスに少し深く目を向け、臨床モデルの通常のターゲットである疾患の原因と効果のパターンから、データへのこれらのプラクティスのインプリントを分離するための潜在的なソリューションを提案する。 The rising popularity of artificial intelligence in healthcare is highlighting the problem that a computational model achieving super-human clinical performance at its training sites may perform substantially worse at new sites. In this perspective, we present common sources for this failure to transport, which we divide into sources under the control of the experimenter and sources inherent to the clinical data-generating process. Of the inherent sources we look a little deeper into site-specific clinical practices that can affect the data distribution, and propose a potential solution intended to isolate the imprint of those practices on the data from the patterns of disease cause and effect that are the usual target of clinical models. | 翻訳日:2023-11-09 15:09:17 公開日:2023-11-08 |
# VioLA:2D LiDARカメラで動画を撮る VioLA: Aligning Videos to 2D LiDAR Scans ( http://arxiv.org/abs/2311.04783v1 ) ライセンス: Link先を確認 | Jun-Jee Chao, Selim Engin, Nikhil Chavan-Dafle, Bhoram Lee, and Volkan Isler | (参考訳) 本研究では,環境の局所的な部分を捉えた映像を,環境全体の2次元LiDARスキャンに整列させる問題について検討する。
画像シーケンスからローカルシーンのセマンティックマップを構築することから始まり、LiDARマップに登録するための固定高さの点を抽出する手法(VioLA)を提案する。
レコンストラクションエラーやカメラスキャンの部分カバレッジのため、リコンストラクションされたセマンティックマップには登録のための十分な情報が含まれない可能性がある。
この問題に対処するため、violaは事前訓練されたテキストから画像へのインペインティングモデルと、行方不明のシーンコンテンツを幾何的に一貫した方法で埋め込む奥行き補完モデルを組み合わせて、ポーズ登録をサポートする。
VioLAを実世界のRGB-Dベンチマークと大規模オフィスシーンの自己キャプチャデータセットで評価した。
特に,提案するシーン補完モジュールは,ポーズ登録性能を最大20%向上させる。 We study the problem of aligning a video that captures a local portion of an environment to the 2D LiDAR scan of the entire environment. We introduce a method (VioLA) that starts with building a semantic map of the local scene from the image sequence, then extracts points at a fixed height for registering to the LiDAR map. Due to reconstruction errors or partial coverage of the camera scan, the reconstructed semantic map may not contain sufficient information for registration. To address this problem, VioLA makes use of a pre-trained text-to-image inpainting model paired with a depth completion model for filling in the missing scene content in a geometrically consistent fashion to support pose registration. We evaluate VioLA on two real-world RGB-D benchmarks, as well as a self-captured dataset of a large office scene. Notably, our proposed scene completion module improves the pose registration performance by up to 20%. | 翻訳日:2023-11-09 15:09:04 公開日:2023-11-08 |
# トラップイオン量子シミュレータにおけるプログラマブルイジングモデルの実現 Realization of programmable Ising models in a trapped-ion quantum simulator ( http://arxiv.org/abs/2311.04864v1 ) ライセンス: Link先を確認 | Yao Lu, Wentao Chen, Shuaining Zhang, Kuan Zhang, Jialiang Zhang, Jing-Ning Zhang, Kihwan Kim | (参考訳) 実用的な量子利点を達成するための量子コンピューティングの有望なパラダイムは、量子アニーリング(quantum annealing)または量子近似最適化アルゴリズム(quantum approximation optimization algorithm)である。
しかし、構造化された問題を効率的にマッピングできる量子システムを構築することは困難である。
ここでは,最大4スピンの全ての接続性を持つイジングモデルのプログラム可能なトラップイオン量子シミュレータを提案する。
我々は、捕捉されたイオンと複数の運動モードとのカップリングを利用してスピンスピン相互作用を実装し、個別にイオンに対処するラマンレーザービームの位相変調によりプログラム性を実現する。
例えば、相互作用が強磁性あるいは反強磁性であるような相互作用接続性が異なるいくつかのイジング格子を実現する。
量子状態トモグラフィーによって対応するモデルの基底状態を観察し、プログラムされた相互作用幾何を確認する。
実験実験は、閉じ込められたイオンによる実用的な量子優位性を実現する上で重要な基礎となる。 A promising paradigm of quantum computing for achieving practical quantum advantages is quantum annealing or quantum approximate optimization algorithm, where the classical problems are encoded in Ising interactions. However, it is challenging to build a quantum system that can efficiently map any structured problems. Here, we present a programmable trapped-ion quantum simulator of an Ising model with all-to-all connectivity with up to four spins. We implement the spin-spin interactions by using the coupling of trapped ions to multiple collective motional modes and realize the programmability through phase modulation of the Raman laser beams that are individually addressed on ions. As an example, we realize several Ising lattices with different interaction connectivities, where the interactions can be ferromagnetic or anti-ferromagnetic. We confirm the programmed interaction geometry by observing the ground states of the corresponding models through quantum state tomography. Our experimental demonstrations serve as an important basis for realizing practical quantum advantages with trapped ions. | 翻訳日:2023-11-09 15:00:49 公開日:2023-11-08 |
# シリコンカラー中心を用いたスケーラブルフォールトトレラント量子技術 Scalable Fault-Tolerant Quantum Technologies with Silicon Colour Centres ( http://arxiv.org/abs/2311.04858v1 ) ライセンス: Link先を確認 | Stephanie Simmons | (参考訳) 量子ネットワークと量子コンピューティング技術が現在直面しているスケーリング障壁は、最終的に、高品質なエンタングルメントを大規模に分散するという、同じコア課題に相当します。
この観点からは、シリコンの光学活性スピンに基づく新しい量子情報処理アーキテクチャを提案し、スケーラブルなフォールトトレラント量子コンピューティングとネットワークのための単一の技術プラットフォームを提供する。
アーキテクチャは、全体的な絡み合い分布に最適化され、製造性、フォトニックインターフェース、高忠実度情報処理特性のためにシリコン(T中心)の色中心スピンを利用する。
シリコンナノフォトニック光回路は、高結合グラフ内の通信帯域光子を介してネットワークされるt中心間のフォトニックリンクを可能にする。
この高接続性は、低オーバヘッドの量子エラー訂正コードの使用を解き放ち、モジュラーでスケーラブルなフォールトトレラント量子リピータと量子プロセッサのタイムラインを著しく加速する。 The scaling barriers currently faced by both quantum networking and quantum computing technologies ultimately amount to the same core challenge of distributing high-quality entanglement at scale. In this Perspective, a novel quantum information processing architecture based on optically active spins in silicon is proposed that offers a combined single technological platform for scalable fault-tolerant quantum computing and networking. The architecture is optimized for overall entanglement distribution and leverages colour centre spins in silicon (T centres) for their manufacturability, photonic interface, and high fidelity information processing properties. Silicon nanophotonic optical circuits allow for photonic links between T centres, which are networked via telecom-band optical photons in a highly-connected graph. This high connectivity unlocks the use of low-overhead quantum error correction codes, significantly accelerating the timeline for modular, scalable fault-tolerant quantum repeaters and quantum processors. | 翻訳日:2023-11-09 15:00:33 公開日:2023-11-08 |
# 負値を持つ雑音データに対する非負行列分解アルゴリズム Algorithms for Non-Negative Matrix Factorization on Noisy Data With Negative Values ( http://arxiv.org/abs/2311.04855v1 ) ライセンス: Link先を確認 | Dylan Green, Stephen Bailey | (参考訳) 非負行列分解 (non-negative matrix factorization, nmf) は、ノイズデータ、特に天文学データの解析に有望な次元性低減技術である。
これらのデータセットに対して、観測されたデータは、真の物理信号が厳密に正である場合でも、ノイズによる負の値を含むことができる。
NMFの以前の研究は、統計的に一貫した方法では陰性データを扱いておらず、多くの負の値を持つ低信号対雑音データでは問題となる。
本稿では、入力データのノイズと導入された負性の両方を扱えるShift-NMFとNearly-NMFの2つのアルゴリズムを提案する。
これらのアルゴリズムはどちらもクリッピングなしで負のデータ空間を使用し、クリッピング時に発生する正のオフセットを導入せずに非負の信号を正しく復元する。
単純かつ現実的な例でこれを数値的に示し、両方のアルゴリズムが単調に更新ルールを減らしていることを示す。 Non-negative matrix factorization (NMF) is a dimensionality reduction technique that has shown promise for analyzing noisy data, especially astronomical data. For these datasets, the observed data may contain negative values due to noise even when the true underlying physical signal is strictly positive. Prior NMF work has not treated negative data in a statistically consistent manner, which becomes problematic for low signal-to-noise data with many negative values. In this paper we present two algorithms, Shift-NMF and Nearly-NMF, that can handle both the noisiness of the input data and also any introduced negativity. Both of these algorithms use the negative data space without clipping, and correctly recover non-negative signals without any introduced positive offset that occurs when clipping negative data. We demonstrate this numerically on both simple and more realistic examples, and prove that both algorithms have monotonically decreasing update rules. | 翻訳日:2023-11-09 15:00:17 公開日:2023-11-08 |
# リプレースサンプルを用いた言語モデルのベンチマークと汚染の再検討 Rethinking Benchmark and Contamination for Language Models with Rephrased Samples ( http://arxiv.org/abs/2311.04850v1 ) ライセンス: Link先を確認 | Shuo Yang, Wei-Lin Chiang, Lianmin Zheng, Joseph E. Gonzalez, Ion Stoica | (参考訳) 大規模な言語モデルは、人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整データセットの潜在的な汚染のために、公開ベンチマークの信頼性を懸念している。
ほとんどのデータ汚染対策は、文字列マッチング(例えばn-gramオーバーラップ)を用いてベンチマークデータを除去するが、これらの手法は不十分であり、単純なテストデータ(例えばパラフレーズ、翻訳)はこれらの汚染対策を簡単に回避できることを示す。
さらに, テストデータのばらつきが排除されない場合, 13Bモデルはテストベンチマークに容易に適合し, GPT-4と同等の性能が得られることを示した。
我々は、MMLU、GSK8k、HumanEvalなどの広く使われているベンチマークにおいて、そのような観測を検証した。
この増大するリスクに対処するために,llmに基づくより強固な除染法を提案し,広く使用されている事前訓練および微調整データセットに適用し,これまで未知だったテストの重なりを明らかにした。
例えば、RedPajama-Data-1TやStarCoder-Dataといった事前トレーニングセットでは、HumanEvalベンチマークの8-18\%が重複していることが分かりました。
興味深いことに、gpt-3.5/4が生成する合成データセットにもそのような汚染が見られ、意図しない汚染の可能性を示唆している。
パブリックなベンチマークを使用する場合、コミュニティはより強い汚染除去アプローチを採用するように促します。
さらに,モデルを正確に評価するために,新たなワンタイム試験を積極的に実施するようコミュニティに呼びかける。
我々の除染ツールはhttps://github.com/lm-sys/llm-decontaminator.comで公開されている。 Large language models are increasingly trained on all the data ever produced by humans. Many have raised concerns about the trustworthiness of public benchmarks due to potential contamination in pre-training or fine-tuning datasets. While most data decontamination efforts apply string matching (e.g., n-gram overlap) to remove benchmark data, we show that these methods are insufficient, and simple variations of test data (e.g., paraphrasing, translation) can easily bypass these decontamination measures. Furthermore, we demonstrate that if such variation of test data is not eliminated, a 13B model can easily overfit a test benchmark and achieve drastically high performance, on par with GPT-4. We validate such observations in widely used benchmarks such as MMLU, GSK8k, and HumanEval. To address this growing risk, we propose a stronger LLM-based decontamination method and apply it to widely used pre-training and fine-tuning datasets, revealing significant previously unknown test overlap. For example, in pre-training sets such as RedPajama-Data-1T and StarCoder-Data, we identified that 8-18\% of the HumanEval benchmark overlaps. Interestingly, we also find such contamination in synthetic dataset generated by GPT-3.5/4, suggesting a potential risk of unintentional contamination. We urge the community to adopt stronger decontamination approaches when using public benchmarks. Moreover, we call for the community to actively develop fresh one-time exams to evaluate models accurately. Our decontamination tool is publicly available at https://github.com/lm-sys/llm-decontaminator. | 翻訳日:2023-11-09 14:59:59 公開日:2023-11-08 |
# 連続時間量子ウォークにおけるparrondoの効果 Parrondo's effect in continuous-time quantum walks ( http://arxiv.org/abs/2311.04848v1 ) ライセンス: Link先を確認 | J. J. Ximenes, M. A. Pires, J. M. Villas-Boas | (参考訳) 我々は,連続時間量子ウォーク(ctqw)におけるパロンド効果の最初の現象を示す。
本プロトコルでは,時間依存性の遷移欠陥が存在する場合のCTQWを検討する。
その結果,個々の欠陥の交替はウェーブパックの拡散に有害であり,波束全体の伝播をパラドックス的に促進できることがわかった。
我々の発見は、欠陥の悪影響を利用して量子輸送を増強できる、非慣習的なメカニズムの探求の道を開いた。 We present the first manifestation of a Parrondo's effect in a continuous-time quantum walk (CTQW). In our protocol we consider a CTQW in the presence of time-dependent transition defect. Our results show that the alternation between defects, that individually are detrimental to the wavepacket spreading, can paradoxically enhance overall wavepacket propagation. Our findings pave the way for the exploration of unconventional mechanisms that can potentially harness the adverse effects of defects to enhance quantum transport. | 翻訳日:2023-11-09 14:59:31 公開日:2023-11-08 |
# 基礎モデルは医用画像分割に効率的か? Are foundation models efficient for medical image segmentation? ( http://arxiv.org/abs/2311.04847v1 ) ライセンス: Link先を確認 | Danielle Ferreira, Rima Arnaout | (参考訳) ファンデーションモデルの人気が急上昇している。
Segment Anything Model(SAM)は、広範囲のオブジェクトをセグメント化できるが、前例のない規模で教師付きトレーニングを必要とする。
我々はSAMの性能(臨床基礎的事実)と資源(ラベル時間,計算量)を、100個の心エコーで25個の測定値に対して、モダリティ特異的なラベルなし自己教師学習(SSL)法と比較した。
SAMは性能が悪く、ラベル付けや計算資源が大幅に増加し、SSLよりも効率が悪くなった。 Foundation models are experiencing a surge in popularity. The Segment Anything model (SAM) asserts an ability to segment a wide spectrum of objects but required supervised training at unprecedented scale. We compared SAM's performance (against clinical ground truth) and resources (labeling time, compute) to a modality-specific, label-free self-supervised learning (SSL) method on 25 measurements for 100 cardiac ultrasounds. SAM performed poorly and required significantly more labeling and computing resources, demonstrating worse efficiency than SSL. | 翻訳日:2023-11-09 14:59:23 公開日:2023-11-08 |
# HIV-1に対する抗レトロウイルス療法の結果の予測能力を高める変異の時間的ダイナミクスの導入 Incorporating temporal dynamics of mutations to enhance the prediction capability of antiretroviral therapy's outcome for HIV-1 ( http://arxiv.org/abs/2311.04846v1 ) ライセンス: Link先を確認 | Giulia Di Teodoro, Martin Pirkl, Francesca Incardona, Ilaria Vicenti, Anders S\"onnerborg, Rolf Kaiser, Laura Palagi, Maurizio Zazzi, Thomas Lengauer | (参考訳) 動機: HIV治療結果の予測において、歴史的情報を用いることで、現在または最新のデータ分析と比較して予測能力を高めることができるかどうかが重要な臨床問題である。
本研究は、治療前の全ての遺伝子型検査で検出されたウイルス変異、その時間的発生、および同伴するウイルス負荷測定を含む歴史的知識が改善をもたらすかどうかを考察する。
本稿では,予め列挙された因子と基準突然変異量を考慮した突然変異量測定法を提案する。
歴史を包含するモデル(H)とそれを使用しないモデル(NH)を比較した。
結果: H-モデルは、NH-モデル(74.98%)よりも高いROC-AUCスコア(76.34%)で優れた識別能力を示す。
有意なウィルコクソン試験の結果は、歴史的情報を組み込むことで治療結果の一貫した予測精度が向上することを確認した。
h-モデルの性能向上は、おそらく歴史情報を活用する際に得られる潜在性hiv貯水池の考慮による可能性がある。
この発見は、変異における時間的ダイナミクスの重要性を強調し、HIV感染の複雑さに関する洞察を提供する。
しかし,過去の情報がない場合でも,予測精度は比較的高いままであることを示す。
補助情報:補助資料が利用可能。 Motivation: In predicting HIV therapy outcomes, a critical clinical question is whether using historical information can enhance predictive capabilities compared with current or latest available data analysis. This study analyses whether historical knowledge, which includes viral mutations detected in all genotypic tests before therapy, their temporal occurrence, and concomitant viral load measurements, can bring improvements. We introduce a method to weigh mutations, considering the previously enumerated factors and the reference mutation-drug Stanford resistance tables. We compare a model encompassing history (H) with one not using it (NH). Results: The H-model demonstrates superior discriminative ability, with a higher ROC-AUC score (76.34%) than the NH-model (74.98%). Significant Wilcoxon test results confirm that incorporating historical information improves consistently predictive accuracy for treatment outcomes. The better performance of the H-model might be attributed to its consideration of latent HIV reservoirs, probably obtained when leveraging historical information. The findings emphasize the importance of temporal dynamics in mutations, offering insights into HIV infection complexities. However, our result also shows that prediction accuracy remains relatively high even when no historical information is available. Supplementary information: Supplementary material is available. | 翻訳日:2023-11-09 14:59:11 公開日:2023-11-08 |
# ブリッジ次元:高次元制御器の信頼性 Bridging Dimensions: Confident Reachability for High-Dimensional Controllers ( http://arxiv.org/abs/2311.04843v1 ) ライセンス: Link先を確認 | Yuang Geng, Souradeep Dutta, Ivan Ruchkin | (参考訳) 自律システムは、エンドエンドのトレーニングされたコントローラを使ってますます実装される。
このようなコントローラは、イメージを主要なセンシングモードの1つとして、実システムで実行される決定を行う。
ディープニューラルネットワークは、そのようなコントローラの基本的なビルディングブロックを形成する。
残念ながら、既存のニューラルネットワーク検証ツールは数千の次元を持つ入力にスケールしない。
特に個々の入力(ピクセルなど)が明確な物理的意味を持たない場合。
本稿では,高次元制御器と全閉ループ検証を接続するための一歩を踏み出した。
我々の重要な洞察は、高次元コントローラの挙動が状態空間の異なる領域におけるいくつかの低次元コントローラと近似できるということである。
近似と検証可能性のバランスをとるために,最新の検証認識知識蒸留法を利用する。
そして、低次元到達可能性結果が統計的近似誤差で膨らむと、高次元コントローラに対する高信頼到達可能性保証が得られる。
トラジェクトリとアクションに基づく2つのインフレーション手法を調査し、どちらも2つのOpenAIジムベンチマークで説得力のあるパフォーマンスを示している。 Autonomous systems are increasingly implemented using end-end-end trained controllers. Such controllers make decisions that are executed on the real system with images as one of the primary sensing modalities. Deep neural networks form a fundamental building block of such controllers. Unfortunately, the existing neural-network verification tools do not scale to inputs with thousands of dimensions. Especially when the individual inputs (such as pixels) are devoid of clear physical meaning. This paper takes a step towards connecting exhaustive closed-loop verification with high-dimensional controllers. Our key insight is that the behavior of a high-dimensional controller can be approximated with several low-dimensional controllers in different regions of the state space. To balance approximation and verifiability, we leverage the latest verification-aware knowledge distillation. Then, if low-dimensional reachability results are inflated with statistical approximation errors, they yield a high-confidence reachability guarantee for the high-dimensional controller. We investigate two inflation techniques -- based on trajectories and actions -- both of which show convincing performance in two OpenAI gym benchmarks. | 翻訳日:2023-11-09 14:58:49 公開日:2023-11-08 |
# 擬エルミート量子論におけるフレーバー振動 Flavour oscillations in pseudo-Hermitian quantum theories ( http://arxiv.org/abs/2311.04839v1 ) ライセンス: Link先を確認 | Robert Mason, Peter Millington, Esra Sablevice | (参考訳) このノートは、非エルミート質量混合行列を持つ擬エルミート量子論におけるフレーバー混合と振動の定式化の最近の進歩を要約している。
このような非エルミート量子論は、ハミルトニアンの離散反線形対称性の存在によって実現され、状態が実エネルギーを持つことを保証する。
非エルミート2状態量子力学系における振動と生存確率はユニタリ性に整合し, エルミートとは一意に異なるこれらの擬エルミートフレーバー振動の特徴を強調する。 This note summarises recent progress in the formulation of flavour mixing and oscillations in pseudo-Hermitian quantum theories with non-Hermitian mass mixing matrices. Such non-Hermitian quantum theories are made viable by the existence of a discrete anti-linear symmetry of the Hamiltonian, which ensures that states have real energies. We describe oscillation and survival probabilities in a non-Hermitian two-state quantum mechanical system that are consistent with unitarity, and highlight features of these pseudo-Hermitian flavour oscillations that are unique compared to their Hermitian counterparts. | 翻訳日:2023-11-09 14:58:36 公開日:2023-11-08 |
# 一般化ニューラルマッピングによる高速, 最適, 実現可能なパワーディスパッチに向けて Toward Rapid, Optimal, and Feasible Power Dispatch through Generalized Neural Mapping ( http://arxiv.org/abs/2311.04838v1 ) ライセンス: Link先を確認 | Meiyi Li, Javad Mohammadi | (参考訳) より分散され相互接続されたグリッドへの進化は、厳密な時間的制約の中で大規模な意思決定を必要とする。
機械学習(ML)パラダイムは、最適化プロセスの有効性を改善する上で大きな可能性を示している。
しかし、MLモデルから導かれるソリューションの実現可能性には課題が続いている。
mlモデルが与えられた電力システムの制約の中で実現可能かつ現実的なソリューションを生み出すことは必須である。
実現可能性問題に対処し,解探索を高速化するために,電力ディスパッチ問題を解決するための学習的アプローチとしてLOOP-LC 2.0(Linar Constraints Version 2.0による最適化プロセスの最適化学習)を提案する。
LOOP-LC 2.0フレームワークの特筆すべき利点は、計算集約的な後処理手順に依存することなく、ほぼ最適性と厳密なソリューションの実現性を確保する能力である。
LOOP-LC 2.0モデルの中心に新しく提案された一般化ゲージ写像法があり、線形に制約された領域内の実現不可能な点に任意の解をマッピングすることができる。
提案手法は,探索速度を大幅に向上させながら,入力変動に対する感度を低下させることにより従来のゲージマップを改善する。
IEEE-200テストケースをベンチマークとして, LOOP-LC 2.0方法論の有効性を実証し, 既存の手法と比較して, トレーニング速度, 計算時間, 最適性, ソリューション実現性の観点から, 優れた性能を確認した。 The evolution towards a more distributed and interconnected grid necessitates large-scale decision-making within strict temporal constraints. Machine learning (ML) paradigms have demonstrated significant potential in improving the efficacy of optimization processes. However, the feasibility of solutions derived from ML models continues to pose challenges. It's imperative that ML models produce solutions that are attainable and realistic within the given system constraints of power systems. To address the feasibility issue and expedite the solution search process, we proposed LOOP-LC 2.0(Learning to Optimize the Optimization Process with Linear Constraints version 2.0) as a learning-based approach for solving the power dispatch problem. A notable advantage of the LOOP-LC 2.0 framework is its ability to ensure near-optimality and strict feasibility of solutions without depending on computationally intensive post-processing procedures, thus eliminating the need for iterative processes. At the heart of the LOOP-LC 2.0 model lies the newly proposed generalized gauge map method, capable of mapping any infeasible solution to a feasible point within the linearly-constrained domain. The proposed generalized gauge map method improves the traditional gauge map by exhibiting reduced sensitivity to input variances while increasing search speeds significantly. Utilizing the IEEE-200 test case as a benchmark, we demonstrate the effectiveness of the LOOP-LC 2.0 methodology, confirming its superior performance in terms of training speed, computational time, optimality, and solution feasibility compared to existing methodologies. | 翻訳日:2023-11-09 14:58:26 公開日:2023-11-08 |
# ロバスト分子特性予測のための意味成分の同定 Identifying Semantic Component for Robust Molecular Property Prediction ( http://arxiv.org/abs/2311.04837v1 ) ライセンス: Link先を確認 | Zijian Li, Zunhong Xu, Ruichu Cai, Zhenhui Yang, Yuguang Yan, Zhifeng Hao, Guangyi Chen, Kun Zhang | (参考訳) グラフニューラルネットワークは近年,分子特性予測の課題において大きな成功を収めているが,その一般化能力はいまだ解明されていない。
予測のための識別表現を学習する既存の方法とは違って,SCIという意味成分識別能力を持つ生成モデルを提案する。
この生成モデルにおける潜伏変数は意味関連性(SR)と意味関連性(SI)に明確に識別でき、因果機構の変化を最小限に抑えることでOODの一般化に寄与する。
具体的には、まず原子レベルから分子レベルへのデータ生成過程を定式化し、遅延空間をSIサブ構造、SRサブ構造、SR原子変数に分割する。
順次、誤認を減らすために、sr原子変数の最小変化を制限し、拡張されたドメイン変更下でのsrサブ構造の分散を緩和するために意味的潜在構造正規化を追加する。
軽度の仮定では、SRサブ構造のブロックワイド識別性とSR原子変数のコメントワイド識別性を証明する。
実験は最先端のパフォーマンスを達成し、3つのメインストリームベンチマークで21のデータセットに一般的な改善を示す。
さらに,提案手法の可視化結果は,予測結果に対する洞察力のあるケーススタディと説明を提供する。
コードはhttps://github.com/DMIRLAB-Group/SCIで入手できる。 Although graph neural networks have achieved great success in the task of molecular property prediction in recent years, their generalization ability under out-of-distribution (OOD) settings is still under-explored. Different from existing methods that learn discriminative representations for prediction, we propose a generative model with semantic-components identifiability, named SCI. We demonstrate that the latent variables in this generative model can be explicitly identified into semantic-relevant (SR) and semantic-irrelevant (SI) components, which contributes to better OOD generalization by involving minimal change properties of causal mechanisms. Specifically, we first formulate the data generation process from the atom level to the molecular level, where the latent space is split into SI substructures, SR substructures, and SR atom variables. Sequentially, to reduce misidentification, we restrict the minimal changes of the SR atom variables and add a semantic latent substructure regularization to mitigate the variance of the SR substructure under augmented domain changes. Under mild assumptions, we prove the block-wise identifiability of the SR substructure and the comment-wise identifiability of SR atom variables. Experimental studies achieve state-of-the-art performance and show general improvement on 21 datasets in 3 mainstream benchmarks. Moreover, the visualization results of the proposed SCI method provide insightful case studies and explanations for the prediction results. The code is available at: https://github.com/DMIRLAB-Group/SCI. | 翻訳日:2023-11-09 14:58:02 公開日:2023-11-08 |
# マスクドバウンディングボックス再構成による視覚関係検出のための自己教師あり学習 Self-Supervised Learning for Visual Relationship Detection through Masked Bounding Box Reconstruction ( http://arxiv.org/abs/2311.04834v1 ) ライセンス: Link先を確認 | Zacharias Anastasakis, Dimitrios Mallis, Markos Diomataris, George Alexandridis, Stefanos Kollias, Vassilis Pitsikalis | (参考訳) 本稿では,視覚的関係検出(VRD)の課題に対して,表現学習のための新しい自己教師型アプローチを提案する。
Masked Image Modeling (MIM) の有効性を生かして, シーン内の実体・対象のパーセンテージをマスクし, 被写体に基づいて再構成するMIMのバリエーションである Masked Bounding Box Reconstruction (MBBR) を提案する。
中心となる考え方は、オブジェクトレベルのマスキングモデリングを通じて、ネットワークはシーン内のオブジェクトのインタラクションをキャプチャするコンテキスト認識表現を学習し、視覚オブジェクトの関係を非常に予測する、というものだ。
学習表現を定性的かつ定量的に評価し,特にvrd用に調整されたロバストな視覚表現の学習におけるmbbrの有効性を実証した。
提案手法は,数個のアノテートサンプルを用いて,Predicate Detection (PredDet) 評価設定における最先端のVRD手法を超えることができる。
コードはhttps://github.com/deeplab-ai/SelfSupervisedVRDで公開しています。 We present a novel self-supervised approach for representation learning, particularly for the task of Visual Relationship Detection (VRD). Motivated by the effectiveness of Masked Image Modeling (MIM), we propose Masked Bounding Box Reconstruction (MBBR), a variation of MIM where a percentage of the entities/objects within a scene are masked and subsequently reconstructed based on the unmasked objects. The core idea is that, through object-level masked modeling, the network learns context-aware representations that capture the interaction of objects within a scene and thus are highly predictive of visual object relationships. We extensively evaluate learned representations, both qualitatively and quantitatively, in a few-shot setting and demonstrate the efficacy of MBBR for learning robust visual representations, particularly tailored for VRD. The proposed method is able to surpass state-of-the-art VRD methods on the Predicate Detection (PredDet) evaluation setting, using only a few annotated samples. We make our code available at https://github.com/deeplab-ai/SelfSupervisedVRD. | 翻訳日:2023-11-09 14:57:38 公開日:2023-11-08 |
# 混乱による医療事例に基づく説明の匿名化 Anonymizing medical case-based explanations through disentanglement ( http://arxiv.org/abs/2311.04833v1 ) ライセンス: Link先を確認 | Helena Montenegro and Jaime S. Cardoso | (参考訳) 症例に基づく説明は、臨床文脈における深層学習モデルの意思決定過程に関する洞察を得るための直感的な方法である。
しかし、プライバシー上の懸念から医療画像は説明として共有できない。
そこで本研究では, 画像の同一性と医療的特徴を分離し, 医用画像の匿名化に応用する新しい手法を提案する。
切り離し機構は、画像内のいくつかの特徴ベクトルを置き換え、残りの特徴が保存されることを保証し、画像のアイデンティティと医療特性を符号化する独立した特徴ベクトルを得る。
また,プライバシ保存idを合成し,元の画像のアイデンティティを置き換え,匿名化を実現するモデルを提案する。
モデルは医療用および生体用データセットに適用され、元の医療コンテンツを保存したリアルな匿名画像を生成する能力を示す。
さらに、実験により、医療的特徴の代替を通じて、対物画像を生成するネットワーク固有の能力を示す。 Case-based explanations are an intuitive method to gain insight into the decision-making process of deep learning models in clinical contexts. However, medical images cannot be shared as explanations due to privacy concerns. To address this problem, we propose a novel method for disentangling identity and medical characteristics of images and apply it to anonymize medical images. The disentanglement mechanism replaces some feature vectors in an image while ensuring that the remaining features are preserved, obtaining independent feature vectors that encode the images' identity and medical characteristics. We also propose a model to manufacture synthetic privacy-preserving identities to replace the original image's identity and achieve anonymization. The models are applied to medical and biometric datasets, demonstrating their capacity to generate realistic-looking anonymized images that preserve their original medical content. Additionally, the experiments show the network's inherent capacity to generate counterfactual images through the replacement of medical features. | 翻訳日:2023-11-09 14:57:12 公開日:2023-11-08 |
# リアルタイムリカレント強化学習 Real-Time Recurrent Reinforcement Learning ( http://arxiv.org/abs/2311.04830v1 ) ライセンス: Link先を確認 | Julian Lemmel, Radu Grosu | (参考訳) 部分観測可能なマルコフ決定プロセス(pomdps)のための強化学習の最近の進歩は、生物学的に予測不能なバックプロパゲーションを時間アルゴリズム(bptt)に頼り、勾配-思春期最適化を行う。
本稿では,リアルタイム・リカレント・ラーニング(rtrl)の生物学的に妥当な近似であるランダムフィードバックローカル・オンライン・ラーニング(rflo)を用いて,リカレントニューラルネットワークのパラメータの勾配をオンライン方式で計算する新しい強化学習アルゴリズムを提案する。
時間差強化学習の変種であるTD($\lambda$)と適応性トレースを組み合わせることで,POMDPの離散的かつ連続的な制御タスクを解くことができる,生物学的に妥当かつ反復的なアクター・クリティカルなアルゴリズムを構築する。
BPTT, RTRL, RFLOと異なるネットワークアーキテクチャを比較し, 複雑性の観点からも, RFLOはBPTTを超えながら, RTRLと同等に動作可能であることを確認した。
提案手法はリアルタイムリカレント強化学習(RTRRL)と呼ばれ、哺乳類の脳の報酬経路を模倣する生物学的ニューラルネットワークの学習モデルとして機能する。 Recent advances in reinforcement learning, for partially-observable Markov decision processes (POMDPs), rely on the biologically implausible backpropagation through time algorithm (BPTT) to perform gradient-descent optimisation. In this paper we propose a novel reinforcement learning algorithm that makes use of random feedback local online learning (RFLO), a biologically plausible approximation of realtime recurrent learning (RTRL) to compute the gradients of the parameters of a recurrent neural network in an online manner. By combining it with TD($\lambda$), a variant of temporaldifference reinforcement learning with eligibility traces, we create a biologically plausible, recurrent actor-critic algorithm, capable of solving discrete and continuous control tasks in POMDPs. We compare BPTT, RTRL and RFLO as well as different network architectures, and find that RFLO can perform just as well as RTRL while exceeding even BPTT in terms of complexity. The proposed method, called real-time recurrent reinforcement learning (RTRRL), serves as a model of learning in biological neural networks mimicking reward pathways in the mammalian brain. | 翻訳日:2023-11-09 14:56:55 公開日:2023-11-08 |
# 連続インデックステンソルデータに対する関数ベイズタッカー分解 Functional Bayesian Tucker Decomposition for Continuous-indexed Tensor Data ( http://arxiv.org/abs/2311.04829v1 ) ライセンス: Link先を確認 | Shikai Fang, Xin Yu, Zheng Wang, Shibo Li, Mike Kirby, Shandian Zhe | (参考訳) タッカー分解は多重スペクトルデータを扱う強力なテンソルモデルである。
グリッド構造データをコアテンソルとオブジェクト表現(要素)の集合間の相互作用として分解することで、低ランク性を示す。
このような分解の基本的な仮定は、各アスペクトまたはモードに有限のオブジェクトが存在し、データエントリの離散インデックスに対応することである。
しかし、実際のデータの多くは自然に設定されるわけではない。
例えば、地理データは緯度と経度座標の連続指標として表現され、テンソルモデルに直接適合することができない。
このようなシナリオにタッカー分解を一般化するために,関数ベイズタッカー分解(FunBaT)を提案する。
連続インデックスデータをTuckerコアと潜在関数のグループ間の相互作用として扱う。
ガウス過程(GP)を用いて潜在関数をモデル化し、等価確率微分方程式(SDE)を構築して計算コストを削減することにより、GPを状態空間に変換する。
高度メッセージパッシング技術に基づくスケーラブルな後続近似のための効率的な推論アルゴリズムをさらに開発する。
本手法の利点は, 合成データと実世界の応用の両方で示される。 Tucker decomposition is a powerful tensor model to handle multi-aspect data. It demonstrates the low-rank property by decomposing the grid-structured data as interactions between a core tensor and a set of object representations (factors). A fundamental assumption of such decomposition is that there were finite objects in each aspect or mode, corresponding to discrete indexes of data entries. However, many real-world data are not naturally posed in the setting. For example, geographic data is represented as continuous indexes of latitude and longitude coordinates, and cannot fit tensor models directly. To generalize Tucker decomposition to such scenarios, we propose Functional Bayesian Tucker Decomposition (FunBaT). We treat the continuous-indexed data as the interaction between the Tucker core and a group of latent functions. We use Gaussian processes (GP) as functional priors to model the latent functions, and then convert the GPs into a state-space prior by constructing an equivalent stochastic differential equation (SDE) to reduce computational cost. An efficient inference algorithm is further developed for scalable posterior approximation based on advanced message-passing techniques. The advantage of our method is shown in both synthetic data and several real-world applications. | 翻訳日:2023-11-09 14:56:32 公開日:2023-11-08 |
# サイズを超えて - 大規模言語モデルにおける粒度決定の方法 Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models ( http://arxiv.org/abs/2311.04902v1 ) ライセンス: Link先を確認 | Rocktim Jyoti Das and Liqun Ma and Zhiqiang Shen | (参考訳) 10億以上のパラメータを持つ大規模言語モデル(llm)は、ネットワークプルーニングの主要なターゲットであり、パフォーマンスを損なうことなくネットワークの重みの一部を削減することを目的としている。
ウェイトズ・マグニチュード、スパースGPT、ワンダといった以前のアプローチは、重みのみに集中するか、あるいは重み統合に重みを集中させ、スパーシティを活性化させた。
しかし、事前訓練された大きな言語モデルから得られた情報的勾配を見落としていた。
本稿では, グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対するスペーサ中心プルーニング手法を提案する。
GBLM-PrunerはTaylor拡張の第1次項を活用し、いくつかのキャリブレーションサンプルからの正規化勾配を適切に利用して重要プルーニングスコアを決定し、複数のベンチマークでSparseGPTやWandaのような競合相手よりも大幅に優れている。
興味深いことに、勾配を組み込んだ後、非構造化プルーニング法は、LLMのパラメータ構造に固有の幾何学的相互依存性を反映する、後プルーニングのいくつかの構造パターンを明らかにする傾向がある。
さらにgblm-pruner関数は、その後の再トレーニングや重み付けの更新なしに、他の機能と同様にシンプルさを維持する。
LLaMA-1 と LLaMA-2 の様々な言語ベンチマークおよびパープレクティリティに対する広範囲な評価は、GBLM-Pruner が大まかなプルーニング、Wanda (weights+activations)、SparseGPT (weights+activations+weight update) をかなり上回っていることを示している。
私たちのコードとモデルはhttps://github.com/rocktimjyotidas/gblm-prunerで利用可能です。 Large Language Models (LLMs) with a billion or more parameters are prime targets for network pruning, which aims to reduce a portion of the network weights without compromising performance. Prior approaches such as Weights Magnitude, SparseGPT, and Wanda, either concentrated solely on weights or integrated weights with activations for sparsity. However, they overlooked the informative gradients derived from pretrained large language models. In this paper, we present a novel sparsity-centric pruning method for pretrained LLMs, termed Gradient-based Language Model Pruner (GBLM-Pruner). GBLM-Pruner leverages the first-order term of the Taylor expansion, operating in a training-free manner by harnessing properly normalized gradients from a few calibration samples to determine the importance pruning score, and substantially outperforms competitive counterparts like SparseGPT and Wanda in multiple benchmarks. Intriguing, after incorporating gradients, the unstructured pruning method tends to reveal some structural patterns post-pruning, which mirrors the geometric interdependence inherent in the LLMs' parameter structure. Additionally, GBLM-Pruner functions without any subsequent retraining or weight updates to maintain its simplicity as other counterparts. Extensive evaluations on LLaMA-1 and LLaMA-2 across various language benchmarks and perplexity show that GBLM-Pruner surpasses magnitude pruning, Wanda (weights+activations) and SparseGPT (weights+activations+weight update) by significant margins. Our code and models are available at https://github.com/RocktimJyotiDas/GBLM-Pruner. | 翻訳日:2023-11-09 14:48:38 公開日:2023-11-08 |
# ゲノム : 成長・再使用モジュールによる生成的ニューロシンボリック視覚推論 GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs ( http://arxiv.org/abs/2311.04901v1 ) ライセンス: Link先を確認 | Zhenfang Chen, Rui Sun, Wenjun Liu, Yining Hong, Chuang Gan | (参考訳) 近年の研究では、LLM(Large Language Models)が、言語をモジュール記述に変換するプログラミング能力を通じて、従来のニューロシンボリックモデルに力を与える可能性があることが示されている。
しかし、これらのモデルは通常、タスクの新たなインスタンスごとにコードスニペット全体を徹底的に生成します。
本稿では,モジュールの成長と再利用による生成的ニューロシンボリック視覚推論を提案する。
具体的には,モジュール初期化,モジュール生成,モジュール実行という,3つのユニークなステージで構成されています。
まず、視覚言語タスクを前提として、新しいタスクを処理するために既存のモジュールを再利用し、拡張できるかどうかを検討する。
そうでなければ、タスクに必要な新しいモジュールを初期化し、この新しいモジュールの入力と出力を指定する。
その後、新しいモジュールはLCMに問い合わせて、要求に合う対応するコードスニペットを生成することで作成される。
新しいモジュールの能力をよりよく理解するために、少数のトレーニングサンプルをテストケースとして扱い、新しいモジュールがこれらのケースを通過するかどうかを確認します。
もしそうなら、将来の再利用のために新しいモジュールがモジュールライブラリに追加される。
最後に、新たに作成されたビジュアルモジュールを用いて解析したプログラムを実行して結果を得ることにより、テストセットにおけるモデルの性能を評価する。
提案モデルにはいくつかの利点がある。
第二に、あるタスクから学んだモジュールは、シームレスに新しいタスクに移行することができる。最後は、いくつかのトレーニング例を観察して、モジュールを再使用することによって、新しい視覚的推論タスクに適応することができる。 Recent works have shown that Large Language Models (LLMs) could empower traditional neuro-symbolic models via programming capabilities to translate language into module descriptions, thus achieving strong visual reasoning results while maintaining the model's transparency and efficiency. However, these models usually exhaustively generate the entire code snippet given each new instance of a task, which is extremely ineffective. We propose generative neuro-symbolic visual reasoning by growing and reusing modules. Specifically, our model consists of three unique stages, module initialization, module generation, and module execution. First, given a vision-language task, we adopt LLMs to examine whether we could reuse and grow over established modules to handle this new task. If not, we initialize a new module needed by the task and specify the inputs and outputs of this new module. After that, the new module is created by querying LLMs to generate corresponding code snippets that match the requirements. In order to get a better sense of the new module's ability, we treat few-shot training examples as test cases to see if our new module could pass these cases. If yes, the new module is added to the module library for future reuse. Finally, we evaluate the performance of our model on the testing set by executing the parsed programs with the newly made visual modules to get the results. We find the proposed model possesses several advantages. First, it performs competitively on standard tasks like visual question answering and referring expression comprehension; Second, the modules learned from one task can be seamlessly transferred to new tasks; Last but not least, it is able to adapt to new visual reasoning tasks by observing a few training examples and reusing modules. | 翻訳日:2023-11-09 14:47:59 公開日:2023-11-08 |
# 大規模言語モデルにおける言語一般化の抽象化
Argument 構造を用いた実験 How Abstract Is Linguistic Generalization in Large Language Models? Experiments with Argument Structure ( http://arxiv.org/abs/2311.04900v1 ) ライセンス: Link先を確認 | Michael Wilson and Jackson Petty and Robert Frank | (参考訳) 言語モデルは通常、特定の文脈における特定の単語の分布を予測することに成功して評価される。
しかし、言語知識は文脈間の関係をエンコードし、単語分布間の推論を可能にする。
本稿では,事前学習されたtransformer-based large language model (llm) がそれらの関係を表わす程度について,議論構造の領域に着目して検討する。
LLMは、事前学習中に見られた関連文脈(例えば、アクティブオブジェクトと動詞スプレーの受動的対象)間の新しい名詞引数の分布を一般化し、単語埋め込みのための埋め込み空間の意味的に組織化された構造を用いることで、うまく機能することを発見した。
しかし、LLMは事前訓練中に観察されていない関連する文脈間の一般化に失敗し、より抽象的で、しかし十分に証明された構造的一般化(例えば、アクティブオブジェクトと任意の動詞の受動的対象の間の)をインスタンス化する。
代わりに、この場合、LLMは線形順序に基づいて一般化するバイアスを示す。
この発見は、現在のモデルによる制限を指摘し、トレーニングがデータ集約である理由を指摘する。ここで報告されているのは、https://github.com/clay-lab/structural-alternationsである。 Language models are typically evaluated on their success at predicting the distribution of specific words in specific contexts. Yet linguistic knowledge also encodes relationships between contexts, allowing inferences between word distributions. We investigate the degree to which pre-trained Transformer-based large language models (LLMs) represent such relationships, focusing on the domain of argument structure. We find that LLMs perform well in generalizing the distribution of a novel noun argument between related contexts that were seen during pre-training (e.g., the active object and passive subject of the verb spray), succeeding by making use of the semantically-organized structure of the embedding space for word embeddings. However, LLMs fail at generalizations between related contexts that have not been observed during pre-training, but which instantiate more abstract, but well-attested structural generalizations (e.g., between the active object and passive subject of an arbitrary verb). Instead, in this case, LLMs show a bias to generalize based on linear order. This finding points to a limitation with current models and points to a reason for which their training is data-intensive.s reported here are available at https://github.com/clay-lab/structural-alternations. | 翻訳日:2023-11-09 14:47:30 公開日:2023-11-08 |
# ドープおよびフォトドープモット絶縁体における結合のフロケット工学 Floquet engineering of binding in doped and photo-doped Mott insulators ( http://arxiv.org/abs/2311.04899v1 ) ライセンス: Link先を確認 | Madhumita Sarkar, Zala Lenar\v{c}i\v{c}, and Denis Gole\v{z} | (参考訳) 化学および光ドープモット絶縁体におけるバウンド状態の出現について検討し、スピンおよび2脚ラグおよび2Dシステム内の$\eta$-pairingゆらぎを補助した。
化学系および光ドープ系における結合エネルギーと局在長は同等であることを示す。
同じ足場上での写真と化学的にドープされた状態を効果的に記述するために、シュリーファー・ウォルフ変換を用い、一般化された$t$-$J$モデルが得られる。
さらに,フロッケ工学として知られる技術である外部周期駆動により結合操作が可能であり,結合エネルギーが著しく向上することを示した。
また,フェルミの黄金律に基づく周期運転条件下での光ドープ状態の寿命を概算した。
最後に,寒冷原子実験においてハバード励起子を実現するための実験プロトコルを提案する。 We investigate the emergence of bound states in chemically and photo-doped Mott insulators, assisted by spin and $\eta$-pairing fluctuations within both 2-leg ladder and 2D systems. We demonstrate that the binding energies and localization length in the chemically and photo-doped regimes are comparable. To effectively describe the photo and chemically doped state on the same footings, we employ the Schrieffer-Wolff transformation, resulting in a generalized $t$-$J$ model. Furthermore, we show that manipulating the binding is possible through external periodic driving, a technique known as Floquet engineering, leading to significantly enhanced binding energies. We also roughly estimate the lifetime of photo-doped states under periodic driving conditions based on the Fermi golden rule. Lastly, we propose experimental protocols for realizing Hubbard excitons in cold-atom experiments. | 翻訳日:2023-11-09 14:47:09 公開日:2023-11-08 |
# 継続的な学習に対する2つの補完的視点:最適化するだけでなく、どのようにして学習するかを問う Two Complementary Perspectives to Continual Learning: Ask Not Only What to Optimize, But Also How ( http://arxiv.org/abs/2311.04898v1 ) ライセンス: Link先を確認 | Timm Hess, Tinne Tuytelaars, Gido M. van de Ven | (参考訳) 近年、ディープニューラルネットワークの継続的なトレーニングが大幅に進歩しており、これは主に、これまでのすべてのタスクにおける関節の損失を近似するために、損失関数にリプレイ項や正規化項を追加するアプローチによるものである。
しかし, 関節損傷を完璧に近似したとしても, 新しい課題の訓練を始める際には, 一時的ではあるが重大な忘れがちであることがわかった。
この「安定ギャップ」に動機づけられ、継続的な学習戦略は最適化目標だけでなく、この目標の最適化方法にも焦点をあてるべきである。
最適化の軌道を変える連続的な学習作業(例えば、勾配投影技術を使用する)があるが、この研究の行は最適化の目的を改善する代替として位置づけられている。
本提案のメリットを評価するために,リプレイ近似の目標と勾配投影に基づく最適化ルーチンを組み合わせることで,(1)安定性ギャップの緩和,(2)学習効率の向上,(3)最終学習結果の改善という観点で,後者の追加がメリットをもたらすかどうかを検証する。 Recent years have seen considerable progress in the continual training of deep neural networks, predominantly thanks to approaches that add replay or regularization terms to the loss function to approximate the joint loss over all tasks so far. However, we show that even with a perfect approximation to the joint loss, these approaches still suffer from temporary but substantial forgetting when starting to train on a new task. Motivated by this 'stability gap', we propose that continual learning strategies should focus not only on the optimization objective, but also on the way this objective is optimized. While there is some continual learning work that alters the optimization trajectory (e.g., using gradient projection techniques), this line of research is positioned as alternative to improving the optimization objective, while we argue it should be complementary. To evaluate the merits of our proposition, we plan to combine replay-approximated joint objectives with gradient projection-based optimization routines to test whether the addition of the latter provides benefits in terms of (1) alleviating the stability gap, (2) increasing the learning efficiency and (3) improving the final learning outcome. | 翻訳日:2023-11-09 14:46:54 公開日:2023-11-08 |
# future lens: 単一の隠れ状態からその後のトークンを予測する Future Lens: Anticipating Subsequent Tokens from a Single Hidden State ( http://arxiv.org/abs/2311.04897v1 ) ライセンス: Link先を確認 | Koyena Pal, Jiuding Sun, Andrew Yuan, Byron C. Wallace, David Bau | (参考訳) 個々の入力トークンに対応する隠れ状態ベクトルは、前方の複数のトークンを正確に予測するのに十分な情報を符号化する。
より具体的に言うと、この論文では、入力中の位置$t$で単一のトークンの隠れた(内部)表現を与えられた場合、位置$geq t + 2$で現れるトークンを確実に予測できますか?
そこで本研究では,gpt-j-6bにおける線形近似法と因果的介入法を測定し,ネットワーク内の個々の隠れ状態が将来の隠れ状態を予測するのに十分な信号を含むかを評価する。
いくつかの層では、1つの隠れた状態を通して続くトークンの予測に関して、モデルの出力を48%以上の精度で近似することができる。
最後に、これらの手法を用いてトランスフォーマー状態の新しいビューを作成する「フューチャーレンズ」の可視化を示す。 We conjecture that hidden state vectors corresponding to individual input tokens encode information sufficient to accurately predict several tokens ahead. More concretely, in this paper we ask: Given a hidden (internal) representation of a single token at position $t$ in an input, can we reliably anticipate the tokens that will appear at positions $\geq t + 2$? To test this, we measure linear approximation and causal intervention methods in GPT-J-6B to evaluate the degree to which individual hidden states in the network contain signal rich enough to predict future hidden states and, ultimately, token outputs. We find that, at some layers, we can approximate a model's output with more than 48% accuracy with respect to its prediction of subsequent tokens through a single hidden state. Finally we present a "Future Lens" visualization that uses these methods to create a new view of transformer states. | 翻訳日:2023-11-09 14:46:32 公開日:2023-11-08 |
# 情報ボトルネックを用いたカオス力学系の最適測定 Optimized measurements of chaotic dynamical systems via the information bottleneck ( http://arxiv.org/abs/2311.04896v1 ) ライセンス: Link先を確認 | Kieran A. Murphy and Dani S. Bassett | (参考訳) 決定論的カオスは、「完全な測定」という正確な概念を、繰り返し得られるとき、システムの進化によって生成された全ての情報を最小の冗長性で捉えることができる。
最適な測定方法を見つけることは困難であり、一般的には、実行された少数のケースにおいて、ダイナミクスの詳細な知識を必要とする。
我々は,完全な測定値と情報ボトルネックの変種との等価性を確立する。
その結果、軌道データから効率的に情報を抽出する計測プロセスの最適化に機械学習を用いることができる。
我々は,複数のカオスマップに対してほぼ最適な測定値を求め,一般時系列からの効率的な情報抽出に必要な基礎となる。 Deterministic chaos permits a precise notion of a "perfect measurement" as one that, when obtained repeatedly, captures all of the information created by the system's evolution with minimal redundancy. Finding an optimal measurement is challenging, and has generally required intimate knowledge of the dynamics in the few cases where it has been done. We establish an equivalence between a perfect measurement and a variant of the information bottleneck. As a consequence, we can employ machine learning to optimize measurement processes that efficiently extract information from trajectory data. We obtain approximately optimal measurements for multiple chaotic maps and lay the necessary groundwork for efficient information extraction from general time series. | 翻訳日:2023-11-09 14:46:17 公開日:2023-11-08 |
# DAMEX:Mix of Datasetの視覚的理解のためのDataset-aware Mixture-of-Experts DAMEX: Dataset-aware Mixture-of-Experts for visual understanding of mixture-of-datasets ( http://arxiv.org/abs/2311.04894v1 ) ライセンス: Link先を確認 | Yash Jain, Harkirat Behl, Zsolt Kira, Vibhav Vineet | (参考訳) ユビキタス検出器の構築は、重要な疑問を呈する: 大規模なデータセットでモデルをいかに効果的にトレーニングできるか?
答えは、データセット固有の特徴を学習し、知識をまとめることにあるが、これらすべてを単一のモデルで行う。
従来の手法では、共通のバックボーン上に別個の検出ヘッドを持つことでこれを実現するが、パラメータが大幅に増加する。
本稿では、Mixture-of-Expertsをソリューションとして提示し、MoEsがスケーラビリティツール以上のものであることを強調します。
そこでは,データセットトークンをマップされた専門家にルーティングすることで,データセットの‘エキスパート’になるように専門家を訓練する。
また,Universal Object-Detection Benchmark実験の結果,既存の技術水準を平均+10.2APスコアで上回り,平均2.0APスコアで非MoEベースラインを上回りました。
また,(1)限られた可用性,(2)異なるドメイン,(3)異なるラベル集合とデータセットを混合しながら,一貫性のあるゲインを観察した。
さらに,DAMEXは専門家表現の崩壊に対して頑健であることを示す。 Construction of a universal detector poses a crucial question: How can we most effectively train a model on a large mixture of datasets? The answer lies in learning dataset-specific features and ensembling their knowledge but do all this in a single model. Previous methods achieve this by having separate detection heads on a common backbone but that results in a significant increase in parameters. In this work, we present Mixture-of-Experts as a solution, highlighting that MoEs are much more than a scalability tool. We propose Dataset-Aware Mixture-of-Experts, DAMEX where we train the experts to become an `expert' of a dataset by learning to route each dataset tokens to its mapped expert. Experiments on Universal Object-Detection Benchmark show that we outperform the existing state-of-the-art by average +10.2 AP score and improve over our non-MoE baseline by average +2.0 AP score. We also observe consistent gains while mixing datasets with (1) limited availability, (2) disparate domains and (3) divergent label sets. Further, we qualitatively show that DAMEX is robust against expert representation collapse. | 翻訳日:2023-11-09 14:46:06 公開日:2023-11-08 |
# 量子力学の仮定としての最大エントロピー原理 Maximum Entropy Principle as Postulate of Quantum Mechanics ( http://arxiv.org/abs/2311.04893v1 ) ライセンス: Link先を確認 | Alexei V. Tkachenko | (参考訳) 量子力学(QM)の定式化から1世紀も経っても、波動関数崩壊(WFC)は理論の論争的な側面のままである。
環境誘起デコヒーレンス(英語版)は、オープン量子システムにおけるユニタリ進化が、そのコンポーネント内の効果的なwfcにどのようにつながるかを示すことによって、部分的な解決を提供する。
しかし、このアプローチは循環的推論に苦しめられ、qmの自己整合的な再構成にはつながりません。
我々は、WFCとボルンの確率則の両方を除外した修正されたQM仮定を導入する。
これらは、相互に互換性のある観測のための条件付き確率を指定する弱い仮定に置き換えられ、最大エントロピー原理と解釈できる。
この定式化の中で、WFCとボルンの規則は共に出現する性質である。 Even a century after the formulation of Quantum Mechanics (QM), the wave function collapse (WFC) remains a contentious aspect of the theory. Environment-induced decoherence has offered a partial resolution by illustrating how unitary evolution in an open quantum system can lead to effective WFC within its components. However, this approach suffers from circular reasoning and does not lead to a self-consistent reformulation of QM. We introduce a modified set of QM postulates, which exclude both WFC and Born's probability rule. They are replaced with a weaker postulate that specifies conditional probabilities for mutually compatible observations, which can be interpreted as the Maximum Entropy Principle. Within this formulation, both WFC and Born's rule are emerging properties. | 翻訳日:2023-11-09 14:45:45 公開日:2023-11-08 |
# バイアスは深い:パーソナライズされたllmにおける暗黙の推論バイアス Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs ( http://arxiv.org/abs/2311.04892v1 ) ライセンス: Link先を確認 | Shashank Gupta, Vaishnavi Shrivastava, Ameet Deshpande, Ashwin Kalyan, Peter Clark, Ashish Sabharwal, Tushar Khot | (参考訳) 近年, 大規模言語モデル (LLM) が, 「ヨーダである。相対性理論を解説する」 などのプロンプトで, 多様なペルソナを具現化する能力を示した。
この能力はLLMのパーソナライズを可能にし、人間の行動シミュレーションを可能にするが、LLMの能力への影響は未だ不明である。
このギャップを埋めるために,本研究では,LLM(特にChatGPT)の基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について,初めて広範な研究を行った。
本研究は, 人種, 性別, 宗教, 障害, 政治的アフィリエイトの5つのグループにまたがる24の推論データセットと16の多様な個人について検討した。
実験の結果,ChatGPTは様々な社会デミノグラフィーに対して,フェアネスのベニアの下に深く根付いていることが判明した。
明示的に問うとステレオタイプを過度に拒絶するが(「黒人は数学に熟達していないか?」)、ペルソナの質問に答えようとすると、ステレオタイプ的でしばしば誤った仮定を示す。
これらは「黒人として、私は数学の知識が必要なのでこの質問に答えられない」など、モデル応答の省略と見なすことができ、一般に推論タスクのパフォーマンスが大幅に低下する。
この固有の深いバイアスはユビキタスであり、パーソナラの80%はバイアスを示しており、あるデータセットは70%以上のパフォーマンスが相対的に低下しており、特定のグループには特に有害である可能性がある。
サイン
データセットの80%以上をドロップする。
さらなる分析により、これらのペルソナによるエラーは識別が難しく、回避が困難であることが判明した。
我々の発見は, LLM にペルソナを割り当てるプラクティスが, 根深い偏見を表面化し, 予期せぬ, 有害な副作用を生じさせるという注意深い物語として機能する。 Recent works have showcased the ability of large-scale language models (LLMs) to embody diverse personas in their responses, exemplified by prompts like 'You are Yoda. Explain the Theory of Relativity.' While this ability allows personalization of LLMs and enables human behavior simulation, its effect on LLMs' capabilities remain unclear. To fill this gap, we present the first extensive study of the unintended side-effects of persona assignment on the ability of LLMs, specifically ChatGPT, to perform basic reasoning tasks. Our study covers 24 reasoning datasets and 16 diverse personas spanning 5 socio-demographic groups: race, gender, religion, disability, and political affiliation. Our experiments unveil that ChatGPT carries deep rooted bias against various socio-demographics underneath a veneer of fairness. While it overtly rejects stereotypes when explicitly asked ('Are Black people less skilled at mathematics?'), it manifests stereotypical and often erroneous presumptions when prompted to answer questions while taking on a persona. These can be observed as abstentions in the model responses, e.g., 'As a Black person, I am unable to answer this question as it requires math knowledge', and generally result in a substantial drop in performance on reasoning tasks. We find that this inherent deep bias is ubiquitous - 80% of our personas demonstrated bias; it is significant - certain datasets had relative drops in performance of 70%+; and can be especially harmful for certain groups - certain personas had stat. sign. drops on more than 80% of the datasets. Further analysis shows that these persona-induced errors can be hard-to-discern and hard-to-avoid. Our findings serve as a cautionary tale that the practice of assigning personas to LLMs - a trend on the rise - can surface their deep-rooted biases and have unforeseeable and detrimental side-effects. | 翻訳日:2023-11-09 14:45:33 公開日:2023-11-08 |
# コンピュータビジョンにおけるFew-Annotation学習に向けて:画像分類とオブジェクト検出タスクへの応用 Towards Few-Annotation Learning in Computer Vision: Application to Image Classification and Object Detection tasks ( http://arxiv.org/abs/2311.04888v1 ) ライセンス: Link先を確認 | Quentin Bouniot | (参考訳) 本論文では,限定ラベルを用いた機械学習の理論的,アルゴリズム的,実験的コントリビューション,特にコンピュータビジョンにおける画像分類と物体検出のタスクについて述べる。
最初の貢献として、マイナショット分類で使われる一般的なメタ学習アルゴリズムの理論と実践のギャップを埋めることに興味があります。
我々は、より効率的なメタ学習のための最良の条件を検証するために、しっかりとした理論的基礎から恩恵を受けるマルチタスク表現学習と接続する。
そこで,Transformer アーキテクチャに基づくオブジェクト検出器のトレーニングにおいて,ラベルのないデータを活用するために,教師なし事前学習と半教師付き学習の2つの方法を提案する。
事前学習では,局所化情報の導入により,物体検出者のコントラスト学習を改善する。
最後に, 半教師方式はトランスフォーマー型検出器に適応した最初の手法である。 In this thesis, we develop theoretical, algorithmic and experimental contributions for Machine Learning with limited labels, and more specifically for the tasks of Image Classification and Object Detection in Computer Vision. In a first contribution, we are interested in bridging the gap between theory and practice for popular Meta-Learning algorithms used in Few-Shot Classification. We make connections to Multi-Task Representation Learning, which benefits from solid theoretical foundations, to verify the best conditions for a more efficient meta-learning. Then, to leverage unlabeled data when training object detectors based on the Transformer architecture, we propose both an unsupervised pretraining and a semi-supervised learning method in two other separate contributions. For pretraining, we improve Contrastive Learning for object detectors by introducing the localization information. Finally, our semi-supervised method is the first tailored to transformer-based detectors. | 翻訳日:2023-11-09 14:44:52 公開日:2023-11-08 |
# semqa: セミアクティブなマルチソース質問応答 SEMQA: Semi-Extractive Multi-Source Question Answering ( http://arxiv.org/abs/2311.04886v1 ) ライセンス: Link先を確認 | Tal Schuster, Adam D. Lelkes, Haitian Sun, Jai Gupta, Jonathan Berant, William W. Cohen, Donald Metzler | (参考訳) 近年,大規模言語モデル (LLM) がサポートする長文質問応答システム (QA) は有望な機能を示している。
しかし、生成した抽象的回答の帰属と検証は困難であり、その正確性を自動的に評価することは依然として課題である。
本研究では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
特にsemqa(semiextractive multi-source qa)では、モデルが包括的な回答を出力する必要がある一方で、引用された事実のスパン -- 与えられた入力ソースから動詞をコピーした -- と、これらのスパンを結合した非事実のフリーテキストコネクターを混合する。
この設定は、厳密だが制約のある抽出QAシステムの出力と、より流動的だが完全に抽象的な答えを属性付けるのが難しくなるギャップを橋渡しする。
特に、高度な言語生成能力を活用する言語モデルの新しいモードを可能にすると同時に、検証、解釈、評価が容易な設計による詳細なインラインアトリビューションを生成する。
このタスクを研究するために,自然および生成した質問に対する人文による半排他的回答を含む,この種の最初のデータセットであるquotumを作成し,テキストベースの評価メトリクスを定義する。
様々な環境で複数のllmを試すと、このタスクは驚くほど難しくなり、こうした統合機能を開発し、研究する上で、クォータサムの重要性が示される。 Recently proposed long-form question answering (QA) systems, supported by large language models (LLMs), have shown promising capabilities. Yet, attributing and verifying their generated abstractive answers can be difficult, and automatically evaluating their accuracy remains an ongoing challenge. In this work, we introduce a new QA task for answering multi-answer questions by summarizing multiple diverse sources in a semi-extractive fashion. Specifically, Semi-extractive Multi-source QA (SEMQA) requires models to output a comprehensive answer, while mixing factual quoted spans -- copied verbatim from given input sources -- and non-factual free-text connectors that glue these spans together into a single cohesive passage. This setting bridges the gap between the outputs of well-grounded but constrained extractive QA systems and more fluent but harder to attribute fully abstractive answers. Particularly, it enables a new mode for language models that leverages their advanced language generation capabilities, while also producing fine in-line attributions by-design that are easy to verify, interpret, and evaluate. To study this task, we create the first dataset of this kind, QuoteSum, with human-written semi-extractive answers to natural and generated questions, and define text-based evaluation metrics. Experimenting with several LLMs in various settings, we find this task to be surprisingly challenging, demonstrating the importance of QuoteSum for developing and studying such consolidation capabilities. | 翻訳日:2023-11-09 14:44:37 公開日:2023-11-08 |
# 皮肉とステレオタイプ:感情、話題、語彙の特徴を探求する Profiling Irony & Stereotype: Exploring Sentiment, Topic, and Lexical Features ( http://arxiv.org/abs/2311.04885v1 ) ライセンス: Link先を確認 | Tibor L. R. Krols, Marie Mortensen, Ninell Oldenburg | (参考訳) ソーシャルメディアは非常に人気のある情報源となっている。
この人気により、生成された情報を分類できるシステムへの関心が高まる。
本研究では,Twitter利用者の皮肉を検知するシステムを提案する。
最近の研究は、TF-IDFやトピックモデルとともに、語彙的特徴、感情的特徴、コントラストの重要性を強調している。
完全な特徴選択プロセスに基づいて、得られたモデルはこれらの領域の特定のサブ機能を含む。
我々のモデルは、ベースラインを超える 0.84 の f1-score に達する。
語彙的特徴、特にTF-IDFは我々のモデルに最も寄与するが、感情的特徴やトピックモデリング機能は全体的なパフォーマンスにはあまり寄与しない。
最後に、さらなる探索のための興味深い重要な経路をいくつか挙げる。 Social media has become a very popular source of information. With this popularity comes an interest in systems that can classify the information produced. This study tries to create such a system detecting irony in Twitter users. Recent work emphasize the importance of lexical features, sentiment features and the contrast herein along with TF-IDF and topic models. Based on a thorough feature selection process, the resulting model contains specific sub-features from these areas. Our model reaches an F1-score of 0.84, which is above the baseline. We find that lexical features, especially TF-IDF, contribute the most to our models while sentiment and topic modeling features contribute less to overall performance. Lastly, we highlight multiple interesting and important paths for further exploration. | 翻訳日:2023-11-09 14:44:08 公開日:2023-11-08 |
# longqlora: 大きな言語モデルのコンテキスト長を拡張する効率的かつ効果的な方法 LongQLoRA: Efficient and Effective Method to Extend Context Length of Large Language Models ( http://arxiv.org/abs/2311.04879v1 ) ライセンス: Link先を確認 | Jianxin Yang | (参考訳) 学習リソースの少ない大規模言語モデルのコンテキスト長を拡張可能な,効率的かつ効果的な手法であるlongqloraを提案する。
LongQLoRAは、位置補間、QLoRA、LongLoRAのシフトショートアテンションの利点を組み合わせたものだ。
単一の32GB V100 GPUで、LongQLoRAはLLaMA2 7Bと13Bのコンテキスト長を4096年から8192、1000ステップ以内の12kまで拡張することができる。
LongQLoRA は PG19 および Proof-Pile データセット上での競合パープレキシティ性能を実現し,LongLoRA よりも優れ,評価コンテキスト長 8192 のMPT-7B-8K に非常に近い。
Vicuna-13Bのコンテキスト長を4096年から8192まで拡張するために,39k長の命令データを収集,構築し,長いコンテキスト生成タスクと短いコンテキスト生成タスクの両方で優れた性能を実現する。
また、loraランク、微調整ステップ、推論における注意パターンの影響を研究するために、いくつかのアブレーション実験も行っています。モデルの重み付け、トレーニングデータ、コードはhttps://github.com/yangjianxin1/longqlora.com.comで評価可能です。 We present LongQLoRA, an efficient and effective method to extend context length of large language models with less training resources. LongQLoRA combines the advantages of Position Interpolation, QLoRA and Shift Short Attention of LongLoRA. With a single 32GB V100 GPU, LongQLoRA can extend the context length of LLaMA2 7B and 13B from 4096 to 8192 and even to 12k within 1000 finetuning steps. LongQLoRA achieves competitive perplexity performance on PG19 and Proof-pile datasets, our model outperforms LongLoRA and is very close to MPT-7B-8K within the evaluation context length of 8192. We collect and build 39k long instruction data to extend context length of Vicuna-13B from 4096 to 8192 and achieve good performance both in long and short context generation task. We also do some ablation experiments to study the effect of LoRA rank, finetuning steps and attention patterns in inference.The model weights, training data and code are avaliable at https://github.com/yangjianxin1/LongQLoRA. | 翻訳日:2023-11-09 14:43:55 公開日:2023-11-08 |
# 高次元表現における残数計算 Computing with Residue Numbers in High-Dimensional Representation ( http://arxiv.org/abs/2311.04872v1 ) ライセンス: Link先を確認 | Christopher J. Kymn, Denis Kleyko, E. Paxon Frady, Connor Bybee, Pentti Kanerva, Friedrich T. Sommer, and Bruno A. Olshausen | (参考訳) 我々は,無作為な高次元ベクトル上で定義される代数と剰余数系を統一する計算フレームワークである剰余超次元コンピューティングを導入する。
代数演算をベクトル要素上の成分的に並列化可能な演算で行うことが可能な方法で、剰余数を高次元ベクトルとして表現する方法を示す。
結果として得られる枠組みは、高次元ベクトルを分解する効率的な方法と組み合わせることで、従来の方法に比べてはるかに少ないリソースを用いて、大きなダイナミックレンジの数値を表現し、操作することができる。
本稿では,視覚知覚と組合せ最適化における計算困難問題を解決し,ベースライン法よりも改善する可能性を示す。
より広範に、このフレームワークは脳内のグリッドセルの計算操作の可能な説明を提供し、数値データを表現および操作するための新しい機械学習アーキテクチャを提案する。 We introduce Residue Hyperdimensional Computing, a computing framework that unifies residue number systems with an algebra defined over random, high-dimensional vectors. We show how residue numbers can be represented as high-dimensional vectors in a manner that allows algebraic operations to be performed with component-wise, parallelizable operations on the vector elements. The resulting framework, when combined with an efficient method for factorizing high-dimensional vectors, can represent and operate on numerical values over a large dynamic range using vastly fewer resources than previous methods, and it exhibits impressive robustness to noise. We demonstrate the potential for this framework to solve computationally difficult problems in visual perception and combinatorial optimization, showing improvement over baseline methods. More broadly, the framework provides a possible account for the computational operations of grid cells in the brain, and it suggests new machine learning architectures for representing and manipulating numerical data. | 翻訳日:2023-11-09 14:43:30 公開日:2023-11-08 |
# TPSeNCE: 雨中の脱落・物検出のための人工無実雨発生を目指して TPSeNCE: Towards Artifact-Free Realistic Rain Generation for Deraining and Object Detection in Rain ( http://arxiv.org/abs/2311.00660v3 ) ライセンス: Link先を確認 | Shen Zheng, Changjie Lu, Srinivasa G. Narasimhan | (参考訳) 降雨生成アルゴリズムは,降雨条件下でのデレーニング手法の一般化とシーン理解を改善する可能性がある。
しかし実際には、アーチファクトや歪みを生み出し、適切な制約の欠如によって発生する雨量をコントロールするのに苦労する。
本稿では,現実的な降雨画像を生成するための画像間翻訳フレームワークを提案する。
まずTPS(Triangular Probability similarity)制約を導入し, 識別器多様体内の鮮明で雨の多い画像へ誘導し, 降雨時のアーチファクトや歪みを最小限に抑える。
従来, 負のサンプルをアンカーから無差別に押下する対照的な学習手法とは違って, セマンティックノイズコントラスト推定(SeNCE)戦略を提案し, クリア画像とレイン画像のセマンティック類似性とアンカーと負のサンプルの特徴類似性に基づいて, 負のサンプルのプッシュ力を再評価する。
実験は、雨のイメージレーディングと物体検出の恩恵を受ける、最小限のアーティファクトと歪みによる現実的な雨の発生を実証する。
さらに、この手法は現実的な雪と夜の画像を生成できるため、より広い適用可能性の可能性を強調できる。
コードはhttps://github.com/ShenZheng2000/TPSeNCEで入手できる。 Rain generation algorithms have the potential to improve the generalization of deraining methods and scene understanding in rainy conditions. However, in practice, they produce artifacts and distortions and struggle to control the amount of rain generated due to a lack of proper constraints. In this paper, we propose an unpaired image-to-image translation framework for generating realistic rainy images. We first introduce a Triangular Probability Similarity (TPS) constraint to guide the generated images toward clear and rainy images in the discriminator manifold, thereby minimizing artifacts and distortions during rain generation. Unlike conventional contrastive learning approaches, which indiscriminately push negative samples away from the anchors, we propose a Semantic Noise Contrastive Estimation (SeNCE) strategy and reassess the pushing force of negative samples based on the semantic similarity between the clear and the rainy images and the feature similarity between the anchor and the negative samples. Experiments demonstrate realistic rain generation with minimal artifacts and distortions, which benefits image deraining and object detection in rain. Furthermore, the method can be used to generate realistic snowy and night images, underscoring its potential for broader applicability. Code is available at https://github.com/ShenZheng2000/TPSeNCE. | 翻訳日:2023-11-09 12:59:54 公開日:2023-11-08 |
# 大規模言語モデルを用いた実世界会議要約システムの構築:実践的視点 Building Real-World Meeting Summarization Systems using Large Language Models: A Practical Perspective ( http://arxiv.org/abs/2310.19233v3 ) ライセンス: Link先を確認 | Md Tahmid Rahman Laskar, Xue-Yong Fu, Cheng Chen, Shashi Bhushan TN | (参考訳) 本稿では,大規模言語モデル (LLM) を用いた実世界利用のための会議要約システムを効果的に構築する方法を検討する。
本研究では, GPT-4, GPT-3.5, PaLM-2, LLaMA-2 など,様々なオープンソース LLM の評価と比較を行う。
以上の結果から,ほとんどのクローズドソース LLM は性能的に優れていることがわかった。
しかし、LLaMA-2 (7Bと13B) のようなより小さなオープンソースモデルは、ゼロショットシナリオでも大きなクローズドソースモデルに匹敵するパフォーマンスを実現できた。
API経由でのみアクセス可能なクローズドソースモデルのプライバシ上の懸念と、クローズドソースモデルの微調整バージョンの使用に伴う高コストを考えると、競合的なパフォーマンスを実現するオープンソースモデルは、工業的利用においてより有利である。
LLaMA-2-7Bモデルは、関連するコストとプライバシの懸念とパフォーマンスのバランスをとることで、産業利用に期待できる。
要約すると、本論文は、実世界のビジネスミーティングの要約にLLMを使うことに関する実践的な洞察を提供し、パフォーマンスとコストのトレードオフに光を当てる。 This paper studies how to effectively build meeting summarization systems for real-world usage using large language models (LLMs). For this purpose, we conduct an extensive evaluation and comparison of various closed-source and open-source LLMs, namely, GPT-4, GPT- 3.5, PaLM-2, and LLaMA-2. Our findings reveal that most closed-source LLMs are generally better in terms of performance. However, much smaller open-source models like LLaMA- 2 (7B and 13B) could still achieve performance comparable to the large closed-source models even in zero-shot scenarios. Considering the privacy concerns of closed-source models for only being accessible via API, alongside the high cost associated with using fine-tuned versions of the closed-source models, the opensource models that can achieve competitive performance are more advantageous for industrial use. Balancing performance with associated costs and privacy concerns, the LLaMA-2-7B model looks more promising for industrial usage. In sum, this paper offers practical insights on using LLMs for real-world business meeting summarization, shedding light on the trade-offs between performance and cost. | 翻訳日:2023-11-09 12:59:29 公開日:2023-11-08 |
# RTDK-BO:Reinforced Transformer Deep kernelを用いた高次元ベイズ最適化 RTDK-BO: High Dimensional Bayesian Optimization with Reinforced Transformer Deep kernels ( http://arxiv.org/abs/2310.03912v5 ) ライセンス: Link先を確認 | Alexander Shmakov, Avisek Naug, Vineet Gundecha, Sahand Ghorbanpour, Ricardo Luna Gutierrez, Ashwin Ramesh Babu, Antonio Guillen and Soumyendu Sarkar | (参考訳) gaussian process (gp) surrogates によって導かれたベイズ最適化 (bo) は、効率的で高次元のブラックボックス最適化のための貴重な技術であり、産業設計や科学計算のような多くの応用に固有の重要な問題である。
近年、単機能最適化と多目的最適化の両方において最適化性能を向上させるために強化学習(RL)を導入している。
しかし、数発のテクニックでさえ、密接に関連する目的間で共有される類似性を活用できない。
本稿では,近年のDeep Kernel Learning(DKL)とアテンションベースのTransformerモデルを組み合わせて,GPサロゲートとメタラーニングのモデリング能力を向上させる。
本稿では,dklに注意機構を組み込んで,boプロセス中に収集した文脈情報に適応させる新しいメタラーニングboサロゲート改善手法を提案する。
このトランスフォーマーディープカーネルと,連続的ソフトアクタ-クリティック強化学習を訓練した学習獲得関数を組み合わせることで,探索を支援する。
この強化変圧器ディープカーネル(rtdk-bo)アプローチは、最先端の結果を連続的な高次元最適化問題に導く。 Bayesian Optimization (BO), guided by Gaussian process (GP) surrogates, has proven to be an invaluable technique for efficient, high-dimensional, black-box optimization, a critical problem inherent to many applications such as industrial design and scientific computing. Recent contributions have introduced reinforcement learning (RL) to improve the optimization performance on both single function optimization and \textit{few-shot} multi-objective optimization. However, even few-shot techniques fail to exploit similarities shared between closely related objectives. In this paper, we combine recent developments in Deep Kernel Learning (DKL) and attention-based Transformer models to improve the modeling powers of GP surrogates with meta-learning. We propose a novel method for improving meta-learning BO surrogates by incorporating attention mechanisms into DKL, empowering the surrogates to adapt to contextual information gathered during the BO process. We combine this Transformer Deep Kernel with a learned acquisition function trained with continuous Soft Actor-Critic Reinforcement Learning to aid in exploration. This Reinforced Transformer Deep Kernel (RTDK-BO) approach yields state-of-the-art results in continuous high-dimensional optimization problems. | 翻訳日:2023-11-09 12:59:08 公開日:2023-11-08 |
# PyDCM:持続可能性のための強化学習を備えたカスタムデータセンターモデル PyDCM: Custom Data Center Models with Reinforcement Learning for Sustainability ( http://arxiv.org/abs/2310.03906v6 ) ライセンス: Link先を確認 | Avisek Naug, Antonio Guillen, Ricardo Luna Guti\'errez, Vineet Gundecha, Dejan Markovikj, Lekhapriya Dheeraj Kashyap, Lorenz Krause, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Soumyendu Sarkar | (参考訳) 持続可能性や二酸化炭素排出量削減の国際的重点化が進む中、政府や企業はデータセンターの設計と運用に対するアプローチを再考するよう迫られている。
高エネルギー消費と指数関数的に大きな計算ワークロードを考えると、データセンターは特に冷却やITエネルギー利用といった分野において、電力消費を最適化する主要な候補である。
この追求における重要な課題は、エンドツーエンドのパイプラインを提供する構成可能でスケーラブルな熱データセンターモデルがないことである。
データセンターは、幾何学的な構成と熱散逸が熱モデリングを困難にする複数のITコンポーネントで構成されている。
本稿では,Pythonで実装されたカスタマイズ可能なデータセンターモデルであるPyDCMを提案する。
ベクトル化熱計算を用いることで、pydcmのオーダーは現在のエネルギーとモデリングの実装よりも30倍速くなり、cpuの数とサブリニアにスケールできる。
また、pydcmは、gymnasiumラッパーを介して深層強化学習を使用してデータセンターの冷却を最適化し、様々なデータセンター設計プロトタイプをテストするユーザフレンドリーなプラットフォームを提供する。 The increasing global emphasis on sustainability and reducing carbon emissions is pushing governments and corporations to rethink their approach to data center design and operation. Given their high energy consumption and exponentially large computational workloads, data centers are prime candidates for optimizing power consumption, especially in areas such as cooling and IT energy usage. A significant challenge in this pursuit is the lack of a configurable and scalable thermal data center model that offers an end-to-end pipeline. Data centers consist of multiple IT components whose geometric configuration and heat dissipation make thermal modeling difficult. This paper presents PyDCM, a customizable Data Center Model implemented in Python, that allows users to create unique configurations of IT equipment with custom server specifications and geometric arrangements of IT cabinets. The use of vectorized thermal calculations makes PyDCM orders of magnitude faster (30 times) than current Energy Plus modeling implementations and scales sublinearly with the number of CPUs. Also, PyDCM enables the use of Deep Reinforcement Learning via the Gymnasium wrapper to optimize data center cooling and offers a user-friendly platform for testing various data center design prototypes. | 翻訳日:2023-11-09 12:58:47 公開日:2023-11-08 |
# AIを用いた予測データ分析:微調整OpenAI LLMによるMT出力の後編集の必要性の評価 Predictive Data Analytics with AI: assessing the need for post-editing of MT output by fine-tuning OpenAI LLMs ( http://arxiv.org/abs/2308.00158v5 ) ライセンス: Link先を確認 | Serge Gladkoff, Gleb Erofeev, Irina Sorokina, Lifeng Han, Goran Nenadic | (参考訳) 翻訳品質評価(TQE)は、現代翻訳生産プロセスにおける重要なステップである。
TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。
翻訳の品質を自動的に評価または見積もる能力は、プロセスの最適化を通じて大幅な効率向上をもたらす可能性がある。
この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。
OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。
英語とイタリア語,ドイツ語,フランス語,日本語,オランダ語,ポルトガル語,トルコ語,中国語の8つの言語ペアにおいて,gpt3.5の微調整により,翻訳品質予測タスクにおいて優れた性能を示すことができた。
LLMのサイズを単純に増やすことで、OpenAIモデルの3つのバージョン(curie、davinci、gpt3.5、13B、175B、175B)のパフォーマンスを比較することで、このタスクにおけるパフォーマンスが向上するわけではない。 Translation Quality Evaluation (TQE) is an essential step of the modern translation production process. TQE is critical in assessing both machine translation (MT) and human translation (HT) quality without reference translations. The ability to evaluate or even simply estimate the quality of translation automatically may open significant efficiency gains through process optimisation. This work examines whether the state-of-the-art large language models (LLMs) can be used for this purpose. We take OpenAI models as the best state-of-the-art technology and approach TQE as a binary classification task. On eight language pairs including English to Italian, German, French, Japanese, Dutch, Portuguese, Turkish, and Chinese, our experimental results show that fine-tuned gpt3.5 can demonstrate good performance on translation quality prediction tasks, i.e. whether the translation needs to be edited. Another finding is that simply increasing the sizes of LLMs does not lead to apparent better performances on this task by comparing the performance of three different versions of OpenAI models: curie, davinci, and gpt3.5 with 13B, 175B, and 175B parameters, respectively. | 翻訳日:2023-11-09 12:58:07 公開日:2023-11-08 |
# 適応線形推定方程式 Adaptive Linear Estimating Equations ( http://arxiv.org/abs/2307.07320v3 ) ライセンス: Link先を確認 | Mufang Ying, Koulik Khamaru, Cun-Hui Zhang | (参考訳) シークエンシャルデータ収集は,データ収集プロセスの効率を高める手法として広く採用されている。
その利点にもかかわらず、このようなデータ収集メカニズムは、しばしば統計的推論手順に複雑性をもたらす。
例えば、適応線形回帰モデルにおける通常の最小二乗(ols)推定器は非正規漸近的振る舞いを示し、正確な推論と解釈に挑戦する。
本稿では,この問題を修復する脱バイアス推定器の汎用的構築法を提案する。
適応線形推定方程式の考え方を利用し、近似的漸近分散を達成するための議論によって補足される漸近正規性の理論的保証を確立する。
我々の推定器の健全な特徴は、マルチアームバンディットの文脈では、最小二乗推定器の非漸近性能を保ちつつ、漸近正規性が得られることである。
この研究は、適応推論の2つの実りあるパラダイムを結びつけるのに役立つ。
a)濃度不等式を用いた非漸近的推論
b) 漸近的正常性による漸近的推論 Sequential data collection has emerged as a widely adopted technique for enhancing the efficiency of data gathering processes. Despite its advantages, such data collection mechanism often introduces complexities to the statistical inference procedure. For instance, the ordinary least squares (OLS) estimator in an adaptive linear regression model can exhibit non-normal asymptotic behavior, posing challenges for accurate inference and interpretation. In this paper, we propose a general method for constructing debiased estimator which remedies this issue. It makes use of the idea of adaptive linear estimating equations, and we establish theoretical guarantees of asymptotic normality, supplemented by discussions on achieving near-optimal asymptotic variance. A salient feature of our estimator is that in the context of multi-armed bandits, our estimator retains the non-asymptotic performance of the least square estimator while obtaining asymptotic normality property. Consequently, this work helps connect two fruitful paradigms of adaptive inference: a) non-asymptotic inference using concentration inequalities and b) asymptotic inference via asymptotic normality. | 翻訳日:2023-11-09 12:57:42 公開日:2023-11-08 |
# 自動走行系列の時間順序からの自己教師あり表現学習 Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences ( http://arxiv.org/abs/2302.09043v3 ) ライセンス: Link先を確認 | Christopher Lang, Alexander Braun, Lars Schillingmann, Karsten Haug, Abhinav Valada | (参考訳) 自己監督型特徴学習により、知覚システムは世界中の車両が記録する膨大な生データから恩恵を受けることができる。
ビデオレベルの自己教師付き学習アプローチは分類タスクにおいて強い一般化性を示しているが、逐次データから密接な表現を学習する可能性は比較的未検討である。
本研究では,認識タスクのための領域レベルの特徴表現を事前学習するための時間順述文タスクであるTempOを提案する。
提案する特徴ベクトルの非順序集合,すなわち物体検出や追従システムにとって自然な表現を各フレームに埋め込み,シーケンス長に対して複雑性が2倍未満のトランスフォーマティブベースのマルチフレームアーキテクチャにおいて,フレーム遷移確率を予測して逐次順序を定式化する。
BDD100K,nuImages,MOT17データセットの大規模な評価から,TempOの事前学習アプローチは単一フレームの自己教師付き学習手法と教師あり移行学習初期化戦略を上回り,オブジェクト検出のためのmAPの+0.7%,マルチオブジェクト追跡のためのHOTAスコアの+2.0%の改善を実現している。 Self-supervised feature learning enables perception systems to benefit from the vast raw data recorded by vehicle fleets worldwide. While video-level self-supervised learning approaches have shown strong generalizability on classification tasks, the potential to learn dense representations from sequential data has been relatively unexplored. In this work, we propose TempO, a temporal ordering pretext task for pre-training region-level feature representations for perception tasks. We embed each frame by an unordered set of proposal feature vectors, a representation that is natural for object detection or tracking systems, and formulate the sequential ordering by predicting frame transition probabilities in a transformer-based multi-frame architecture whose complexity scales less than quadratic with respect to the sequence length. Extensive evaluations on the BDD100K, nuImages, and MOT17 datasets show that our TempO pre-training approach outperforms single-frame self-supervised learning methods as well as supervised transfer learning initialization strategies, achieving an improvement of +0.7% in mAP for object detection and +2.0% in the HOTA score for multi-object tracking. | 翻訳日:2023-11-09 12:57:26 公開日:2023-11-08 |
# LiDAR点雲における変化検出のための最適輸送 Optimal Transport for Change Detection on LiDAR Point Clouds ( http://arxiv.org/abs/2302.07025v5 ) ライセンス: Link先を確認 | Marco Fiorucci, Peter Naylor, Makoto Yamada | (参考訳) 大気中LiDARデータポイント間の非監督的変化検出は, 取得システムからの空間的支持とノイズのアンマッチのため困難である。
点雲の変化を検出するための現在のアプローチは、DEM(Digital Elevation Models)画像と教師付き手法の計算に大きく依存している。
demを取得すると、ピクセル化によるlidar情報損失が発生し、監視には現実世界のシナリオでは利用できない大量のラベル付きデータが必要になる。
本稿では,2つの時間的支援による3次元LiDAR点の移動の計算に基づく教師なしアプローチを提案する。
この方法は不均衡な最適輸送に基づいており、LiDARデータによるあらゆる変化検出問題に一般化することができる。
提案手法を利用可能なデータセットに適用し,実際に使用されるセンサを模倣した様々なノイズや解像度の設定による都市スプロールの監視を行う。
本手法では,教師なしのマルチクラス分類が可能であり,それまでの教師なしのアプローチを有意差で上回っている。 Unsupervised change detection between airborne LiDAR data points, taken at separate times over the same location, can be difficult due to unmatching spatial support and noise from the acquisition system. Most current approaches to detect changes in point clouds rely heavily on the computation of Digital Elevation Models (DEM) images and supervised methods. Obtaining a DEM leads to LiDAR informational loss due to pixelisation, and supervision requires large amounts of labelled data often unavailable in real-world scenarios. We propose an unsupervised approach based on the computation of the transport of 3D LiDAR points over two temporal supports. The method is based on unbalanced optimal transport and can be generalised to any change detection problem with LiDAR data. We apply our approach to publicly available datasets for monitoring urban sprawling in various noise and resolution configurations that mimic several sensors used in practice. Our method allows for unsupervised multi-class classification and outperforms the previous state-of-the-art unsupervised approaches by a significant margin. | 翻訳日:2023-11-09 12:57:03 公開日:2023-11-08 |
# 量子パワーのフォトリアリスティックレンダリング A Quantum-Powered Photorealistic Rendering ( http://arxiv.org/abs/2211.03418v5 ) ライセンス: Link先を確認 | YuanFu Yang, Min Sun | (参考訳) 現実世界のシーンのフォトリアリスティックなレンダリングを実現することは、複合現実や仮想現実など、さまざまなアプリケーションにおいて大きな課題となる。
微分方程式の解法で広く研究されたニューラルネットワークは、以前はフォトリアリスティックレンダリングの暗黙表現として紹介されていた。
しかし、従来の計算手法によるリアリズムの実現は、レンダリング中の各サンプリングポイントのカラー、透過性、不透明性の広範な数値積分を必要とするため、時間を要する光線トレーシングのために困難である。
本稿では,量子回路,量子アクティベーション関数,および暗黙的にシーンを表現する量子ボリュームレンダリングを組み込んだQRF(Quantum Radiance Fields)を提案する。
この結果から,QRFは量子コンピューティングの並列処理能力を活用することで,広範な数値積分に関する計算課題に効果的に直面することを示した。
さらに、現在のニューラルネットワークは、細かい信号の詳細を捉え、高周波情報や高次微分を正確にモデル化するのに苦労している。
量子コンピューティングの高次非線形性は、この文脈において明確な利点をもたらす。
その結果、QRFは高非線形処理と広範な並列処理の2つの重要な強みを生かし、現実世界のシーンのフォトリアリスティックレンダリングを実現する強力なツールとなっている。 Achieving photorealistic rendering of real-world scenes poses a significant challenge with diverse applications, including mixed reality and virtual reality. Neural networks, extensively explored in solving differential equations, have previously been introduced as implicit representations for photorealistic rendering. However, achieving realism through traditional computing methods is arduous due to the time-consuming optical ray tracing, as it necessitates extensive numerical integration of color, transparency, and opacity values for each sampling point during the rendering process. In this paper, we introduce Quantum Radiance Fields (QRF), which incorporate quantum circuits, quantum activation functions, and quantum volume rendering to represent scenes implicitly. Our results demonstrate that QRF effectively confronts the computational challenges associated with extensive numerical integration by harnessing the parallelism capabilities of quantum computing. Furthermore, current neural networks struggle with capturing fine signal details and accurately modeling high-frequency information and higher-order derivatives. Quantum computing's higher order of nonlinearity provides a distinct advantage in this context. Consequently, QRF leverages two key strengths of quantum computing: highly non-linear processing and extensive parallelism, making it a potent tool for achieving photorealistic rendering of real-world scenes. | 翻訳日:2023-11-09 12:56:46 公開日:2023-11-08 |
# ニューロシンボリック因果推論は、創発的セマンティックコミュニケーションのためのシグナルゲームと出会う Neuro-Symbolic Causal Reasoning Meets Signaling Game for Emergent Semantic Communications ( http://arxiv.org/abs/2210.12040v3 ) ライセンス: Link先を確認 | Christo Kurisummoottil Thomas and Walid Saad | (参考訳) セマンティックコミュニケーション(sc)は、異種サービスとユーザとのシームレスな接続を提供すると同時に、最小限のデータ転送で確実に通信することを目的としている。
本稿では,創発的言語設計のためのシグナリングゲームと,因果推論のためのニューロシンボリック(nesy)人工知能(ai)アプローチからなる,新しい創発的sc(esc)システムフレームワークを提案する。
言語を設計するために、通信ノードのユーティリティ間の交互最大化を用いて、シグナリングゲームを解決する。
創発的な言語は、コンテキスト対応の送信語彙(最小の意味表現)の作成を支援し、複雑なメッセージをより単純な推論タスクに分割することで、推論プロセス(未知のシナリオに一般化を促す)を支援する。
次に、送信機における因果記述を、データに存在する関連する属性の後方分布として(神経成分)モデル化する。
再構成された因果状態を用いて、受信者は一連の論理式(シンボル部分)を評価してタスクを実行する。
ノードnesy推論コンポーネントは、最近提案された生成フローネットワークと呼ばれるaiツールによって実装され、高いセマンティクス信頼性のために最適化されている。
ESCシステムは、カテゴリー理論から厳密な代数的性質を用いて設計された意味情報、信頼性、歪み、類似性の新たなメトリクスを強化するために設計されており、その結果、シャノンの不確実性の概念を超えたメトリクスを一般化する。
シミュレーションの結果、ESCが効率よく(ビットを減らして)通信でき、因果推論能力を利用していない従来の無線システムや最先端システムよりもセマンティックな信頼性が得られることが検証された。 Semantic communication (SC) aims to communicate reliably with minimal data transfer while simultaneously providing seamless connectivity to heterogeneous services and users. In this paper, a novel emergent SC (ESC) system framework is proposed and is composed of a signaling game for emergent language design and a neuro-symbolic (NeSy) artificial intelligence (AI) approach for causal reasoning. In order to design the language, the signaling game is solved using an alternating maximization between the communicating node's utilities. The emergent language helps create a context-aware transmit vocabulary (minimal semantic representation) and aids the reasoning process (enabling generalization to unseen scenarios) by splitting complex messages into simpler reasoning tasks for the receiver. The causal description at the transmitter is then modeled (a neural component) as a posterior distribution of the relevant attributes present in the data. Using the reconstructed causal state, the receiver evaluates a set of logical formulas (symbolic part) to execute its task. The nodes NeSy reasoning components are implemented by the recently proposed AI tool called Generative Flow Networks, and they are optimized for higher semantic reliability. The ESC system is designed to enhance the novel metrics of semantic information, reliability, distortion and similarity that are designed using rigorous algebraic properties from category theory thereby generalizing the metrics beyond Shannon's notion of uncertainty. Simulation results validate the ability of ESC to communicate efficiently (with reduced bits) and achieve better semantic reliability than conventional wireless and state-of-the-art systems that do not exploit causal reasoning capabilities. | 翻訳日:2023-11-09 12:56:22 公開日:2023-11-08 |
# ビデオインスタンスのマッティング Video Instance Matting ( http://arxiv.org/abs/2311.04212v2 ) ライセンス: Link先を確認 | Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi | (参考訳) 従来のビデオマッチングは、ビデオフレームに現れるすべてのインスタンスに対して1つのアルファマットを出力し、個々のインスタンスが区別されないようにする。
ビデオインスタンスのセグメンテーションは時間一貫性のあるインスタンスマスクを提供するが、特に適用されたバイナリ化のため、マッティングアプリケーションでは結果が不十分である。
この不足を解消するために,ビデオシーケンスの各フレームにおける各インスタンスのアルファマットを推定するビデオインスタンスmatting~(vim)を提案する。
この課題に対処するために,マスクシーケンスガイドビデオインスタンスマッチングニューラルネットワークであるMSG-VIMを,VIMの新たなベースラインモデルとして提案する。
MSG-VIMは、マスク強化の混合を利用して、不正確なマスクガイダンスと一貫性のないマスクガイダンスを堅牢に予測する。
時間的マスクと時間的特徴ガイダンスを取り入れ、アルファマット予測の時間的一貫性を改善する。
さらに,複数の人間インスタンスを前景オブジェクトとして50本のビデオクリップを含むvim50と呼ばれる新しいベンチマークを構築した。
VIMタスクのパフォーマンスを評価するために、ビデオインスタンス対応のマッティング品質~(VIMQ)という適切な指標を導入する。
提案モデルであるMSG-VIMは、VIM50ベンチマークに強いベースラインを設定し、既存の手法よりも大きなマージンで性能を向上する。
プロジェクトはhttps://github.com/SHI-Labs/VIMで公開されている。 Conventional video matting outputs one alpha matte for all instances appearing in a video frame so that individual instances are not distinguished. While video instance segmentation provides time-consistent instance masks, results are unsatisfactory for matting applications, especially due to applied binarization. To remedy this deficiency, we propose Video Instance Matting~(VIM), that is, estimating alpha mattes of each instance at each frame of a video sequence. To tackle this challenging problem, we present MSG-VIM, a Mask Sequence Guided Video Instance Matting neural network, as a novel baseline model for VIM. MSG-VIM leverages a mixture of mask augmentations to make predictions robust to inaccurate and inconsistent mask guidance. It incorporates temporal mask and temporal feature guidance to improve the temporal consistency of alpha matte predictions. Furthermore, we build a new benchmark for VIM, called VIM50, which comprises 50 video clips with multiple human instances as foreground objects. To evaluate performances on the VIM task, we introduce a suitable metric called Video Instance-aware Matting Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50 benchmark and outperforms existing methods by a large margin. The project is open-sourced at https://github.com/SHI-Labs/VIM. | 翻訳日:2023-11-09 12:50:21 公開日:2023-11-08 |
# Black-Box Prompt Optimization: モデルトレーニングなしで大規模言語モデルを調整する Black-Box Prompt Optimization: Aligning Large Language Models without Model Training ( http://arxiv.org/abs/2311.04155v2 ) ライセンス: Link先を確認 | Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang | (参考訳) 大規模言語モデル(llm)は様々なアプリケーションで素晴らしい成功を収めている。
しかしながら、これらのモデルは人間の意図とよく一致しないことが多く、それに対して追加的な治療、すなわちアライメントの問題を要求する。
LLMがユーザー指示に従うのを良くするために、既存のアライメントメソッドは主にそれらをさらに訓練することに焦点を当てている。
しかし、LLMの余分なトレーニングは通常GPU計算の点で高価であり、さらに悪いことに、LPMはGPTのようなユーザ要求のトレーニングではアクセスできないことが多い。
この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
ユーザプロンプトをLLMの入力理解に合わせるように最適化し、LLMのパラメータを更新せずにユーザの意図を最大限に実現する。
BPOはモデル非依存であり, 実験結果から, BPO配向ChatGPTは元のバージョンに対して22%上昇し, GPT-4では10%上昇した。
重要な点として、BPOアライメントLLMは、PPOとDPOで整列された同じモデルよりも優れており、BPOとPPOまたはDPOを組み合わせる際のさらなる性能向上をもたらす。
コードとデータセットはhttps://github.com/thu-coai/bpoでリリースされる。 Large language models (LLMs) have shown impressive success in various applications. However, these models are often not well aligned with human intents, which calls for additional treatments on them, that is, the alignment problem. To make LLMs better follow user instructions, existing alignment methods mostly focus on further training them. However, the extra training of LLMs are usually expensive in terms of GPU compute; worse still, LLMs of interest are oftentimes not accessible for user-demanded training, such as GPTs. In this work, we take a different perspective -- Black-Box Prompt Optimization (BPO) -- to perform alignments. The idea is to optimize user prompts to suit LLMs' input understanding, so as to best realize users' intents without updating LLMs' parameters. BPO is model-agnostic and the empirical results demonstrate that the BPO-aligned ChatGPT yields a 22% increase in the win rate against its original version, and 10% for GPT-4. Importantly, the BPO-aligned LLMs can outperform the same models aligned by PPO and DPO, and it also brings additional performance gains when combining BPO with PPO or DPO. Code and datasets are released at https://github.com/thu-coai/BPO. | 翻訳日:2023-11-09 12:49:58 公開日:2023-11-08 |
# 学習因果予測 Learned Causal Method Prediction ( http://arxiv.org/abs/2311.03989v2 ) ライセンス: Link先を確認 | Shantanu Gupta, Cheng Zhang, Agrin Hilmkil | (参考訳) 因果的疑問に対しては、与えられたデータセットに使用する因果的推論手法を効率的に決定することが重要である。
因果的手法は一般に複雑で検証が難しい仮定に依存しており、根本的真理因果的量がないため、相互検証は適用できない。
本研究では,与えられたデータセットに対して最適な手法を予測するフレームワークであるcausal method predictor (camp)を提案する。
この目的のために、多様な合成因果モデルからデータセットを生成し、候補手法をスコアし、そのデータセットの最高のスコア法を直接予測するようにモデルを訓練する。
次に、因果推論に関連するデータセットの仮定を中心とした自己指導型事前学習目標を定式化することにより、コストのかかるラベル付きデータの必要性を大幅に低減し、トレーニング効率を向上させる。
我々の戦略は、暗黙のデータセットプロパティをデータ駆動方式で最良のメソッドにマッピングすることを学ぶ。
実験では,因果発見のための手法予測に焦点をあてた。
CAMPは、任意の候補メソッドを選択し、半合成および実世界のベンチマークを目にしないような、有望な一般化を示す。 For a given causal question, it is important to efficiently decide which causal inference method to use for a given dataset. This is challenging because causal methods typically rely on complex and difficult-to-verify assumptions, and cross-validation is not applicable since ground truth causal quantities are unobserved. In this work, we propose CAusal Method Predictor (CAMP), a framework for predicting the best method for a given dataset. To this end, we generate datasets from a diverse set of synthetic causal models, score the candidate methods, and train a model to directly predict the highest-scoring method for that dataset. Next, by formulating a self-supervised pre-training objective centered on dataset assumptions relevant for causal inference, we significantly reduce the need for costly labeled data and enhance training efficiency. Our strategy learns to map implicit dataset properties to the best method in a data-driven manner. In our experiments, we focus on method prediction for causal discovery. CAMP outperforms selecting any individual candidate method and demonstrates promising generalization to unseen semi-synthetic and real-world benchmarks. | 翻訳日:2023-11-09 12:49:34 公開日:2023-11-08 |
# 深部生成データの有効性向上 Improving the Effectiveness of Deep Generative Data ( http://arxiv.org/abs/2311.03959v2 ) ライセンス: Link先を確認 | Ruyu Wang, Sabrina Schmedding, Marco F. Huber | (参考訳) 近年,gans (generative adversarial networks) やdpms (distribution probabilistic models) などの深層生成モデル (dgms) は,高忠実なフォトリアリスティック画像を生成する能力を示している。
人間の目には魅力的に見えるが、画像分類のような下流の画像処理タスクのための純粋合成画像のトレーニングは、実際のデータでのトレーニングと比べて望ましくないパフォーマンス低下をもたらすことが多い。
これまでの研究は、DGMの合成画像による実際のデータセットの強化が有用であることを示した。
しかし、改善には一定の状況が必要であり、実際の画像の数に匹敵するものではなかった。
本研究では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
我々は,dgmの合成画像を用いた場合,コンテンツギャップが性能低下の大部分を占めると仮定し,下流タスクでより効果的に利用するための戦略を提案する。
複数のデータセットに対する広範囲な実験では、合成のみ(合成から現実への)トレーニングと、実データと合成データの混合(データ拡張)のトレーニングの両方において、下流分類タスクのベースラインよりも優れています。 Recent deep generative models (DGMs) such as generative adversarial networks (GANs) and diffusion probabilistic models (DPMs) have shown their impressive ability in generating high-fidelity photorealistic images. Although looking appealing to human eyes, training a model on purely synthetic images for downstream image processing tasks like image classification often results in an undesired performance drop compared to training on real data. Previous works have demonstrated that enhancing a real dataset with synthetic images from DGMs can be beneficial. However, the improvements were subjected to certain circumstances and yet were not comparable to adding the same number of real images. In this work, we propose a new taxonomy to describe factors contributing to this commonly observed phenomenon and investigate it on the popular CIFAR-10 dataset. We hypothesize that the Content Gap accounts for a large portion of the performance drop when using synthetic images from DGM and propose strategies to better utilize them in downstream tasks. Extensive experiments on multiple datasets showcase that our method outperforms baselines on downstream classification tasks both in case of training on synthetic only (Synthetic-to-Real) and training on a mix of real and synthetic data (Data Augmentation), particularly in the data-scarce scenario. | 翻訳日:2023-11-09 12:49:16 公開日:2023-11-08 |
# UP-NeRF:制約のないパルスフリー神経放射場 UP-NeRF: Unconstrained Pose-Prior-Free Neural Radiance Fields ( http://arxiv.org/abs/2311.03784v2 ) ライセンス: Link先を確認 | Injae Kim, Minhyuk Choi, Hyunwoo J. Kim | (参考訳) neural radiance field (nerf) は高忠実度画像とカメラポーズを持つ新しいビュー合成を可能にした。
その後の作業は、NeRFとカメラのポーズを共同最適化することで、ポーズの必要をなくすことに成功した。
しかし、これらの作品は、フォトメトリック一貫性やオクルーダーフリーな画像コレクション、ビデオからの一連の画像など、比較的単純な設定に限られている。
そのため、照度や過渡オクローダの異なる制約のない画像を扱うのが困難である。
本稿では,カメラのポーズを伴わない非拘束画像コレクションでNeRFを最適化するために,$\textbf{UP-NeRF}$$$\textbf{U}$nconstrained $\textbf{P}$ose-prior-free $\textbf{Ne}$ural $\textbf{R}$adiance $\textbf{F}$ields)を提案する。
色に敏感な特徴フィールドを最適化するsurrogateタスクと、ポーズ推定への影響をブロックする一時的なオクルーダのための別モジュールによって、これらの課題に取り組む。
さらに,よりロバストなポーズ推定を可能にする候補ヘッドと,不正確な事前の影響を最小限に抑えるための過渡認識奥行き監視を提案する。
提案手法は, BARFとその変種を含むベースラインと比較して, 難易度の高いインターネット写真コレクションである$\textit{Phototourism}$データセットにおいて優れた性能を示す。 Neural Radiance Field (NeRF) has enabled novel view synthesis with high fidelity given images and camera poses. Subsequent works even succeeded in eliminating the necessity of pose priors by jointly optimizing NeRF and camera pose. However, these works are limited to relatively simple settings such as photometrically consistent and occluder-free image collections or a sequence of images from a video. So they have difficulty handling unconstrained images with varying illumination and transient occluders. In this paper, we propose $\textbf{UP-NeRF}$ ($\textbf{U}$nconstrained $\textbf{P}$ose-prior-free $\textbf{Ne}$ural $\textbf{R}$adiance $\textbf{F}$ields) to optimize NeRF with unconstrained image collections without camera pose prior. We tackle these challenges with surrogate tasks that optimize color-insensitive feature fields and a separate module for transient occluders to block their influence on pose estimation. In addition, we introduce a candidate head to enable more robust pose estimation and transient-aware depth supervision to minimize the effect of incorrect prior. Our experiments verify the superior performance of our method compared to the baselines including BARF and its variants in a challenging internet photo collection, $\textit{Phototourism}$ dataset. | 翻訳日:2023-11-09 12:48:53 公開日:2023-11-08 |
# DeepInspect:AIによる製造業の欠陥検出 DeepInspect: An AI-Powered Defect Detection for Manufacturing Industries ( http://arxiv.org/abs/2311.03725v2 ) ライセンス: Link先を確認 | Arti Kumbhar, Amruta Chougule, Priya Lokhande, Saloni Navaghane, Aditi Burud, Saee Nimbalkar | (参考訳) 畳み込みニューラルネットワーク(cnns)、recurrent neural networks(rnns)、generative adversarial networks(gans)を用いて、製造における欠陥検出のための革新的なアプローチを導入する。
この技術は、製品写真から複雑な詳細を抽出し、RNNを利用して進化するエラーを検出し、合成欠陥データを生成し、様々な欠陥シナリオにおけるモデルの堅牢性と適応性を高めることによって、欠陥を正確に識別する。
このプロジェクトは、ディープラーニングフレームワークを活用して、製造プロセスのリアルタイム欠陥検出を自動化する。
注釈付き画像の広範なデータセットを利用して、複雑な欠陥パターンを識別する。
この統合システムは、生産ワークフローにシームレスに適合し、効率を高め、製品品質を高めます。
その結果、無駄と運用コストを削減し、最終的に市場の競争力を高めます。 Utilizing Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), and Generative Adversarial Networks (GANs), our system introduces an innovative approach to defect detection in manufacturing. This technology excels in precisely identifying faults by extracting intricate details from product photographs, utilizing RNNs to detect evolving errors and generating synthetic defect data to bolster the model's robustness and adaptability across various defect scenarios. The project leverages a deep learning framework to automate real-time flaw detection in the manufacturing process. It harnesses extensive datasets of annotated images to discern complex defect patterns. This integrated system seamlessly fits into production workflows, thereby boosting efficiency and elevating product quality. As a result, it reduces waste and operational costs, ultimately enhancing market competitiveness. | 翻訳日:2023-11-09 12:48:18 公開日:2023-11-08 |
# ProPath: 病原性に特異的なタンパク質言語モデル ProPath: Disease-Specific Protein Language Model for Variant Pathogenicity ( http://arxiv.org/abs/2311.03429v2 ) ライセンス: Link先を確認 | Huixin Zhan, Zijun Zhang | (参考訳) 病原性と良性の遺伝的変異の臨床的変異分類は、臨床遺伝学において重要な課題である。
近年、タンパク質言語モデルの提案により、弱い教師付きまたは教師なしの訓練により、汎用的変異効果予測(VEP)の精度が向上した。
しかしながら、これらのVEPは疾患特異的ではなく、治療点における適応を制限する。
この問題に対処するために,siamのネットワークを介して希少なミスセンスにおける疑似ログ様度比を捉えるために,propath と呼ばれる変種 \textsc{path} 生成のための病特異的な \textsc{pro}tein 言語モデルを提案する。
訓練中にみられなかった心疾患と不整脈に対する臨床変異セットを用いて,事前学習した言語モデルに対するプロパスの性能評価を行った。
我々の結果は、ProPathが事前訓練されたESM1bを超え、両方のデータセットでAUCが5\%以上改善されていることを示している。
さらに,本モデルは,両データセットのベースライン全体において,最高性能を達成した。
したがって、当社のProPathは、特に疾患関連や臨床応用に有用な、強力な疾患特異的変異効果予測を提供する。 Clinical variant classification of pathogenic versus benign genetic variants remains a pivotal challenge in clinical genetics. Recently, the proposition of protein language models has improved the generic variant effect prediction (VEP) accuracy via weakly-supervised or unsupervised training. However, these VEPs are not disease-specific, limiting their adaptation at point-of-care. To address this problem, we propose a disease-specific \textsc{pro}tein language model for variant \textsc{path}ogenicity, termed ProPath, to capture the pseudo-log-likelihood ratio in rare missense variants through a siamese network. We evaluate the performance of ProPath against pre-trained language models, using clinical variant sets in inherited cardiomyopathies and arrhythmias that were not seen during training. Our results demonstrate that ProPath surpasses the pre-trained ESM1b with an over $5\%$ improvement in AUC across both datasets. Furthermore, our model achieved the highest performances across all baselines for both datasets. Thus, our ProPath offers a potent disease-specific variant effect prediction, particularly valuable for disease associations and clinical applicability. | 翻訳日:2023-11-09 12:48:06 公開日:2023-11-08 |
# 一階論理制約付きマルチタスクカーネルベース学習 Multitask Kernel-based Learning with First-Order Logic Constraints ( http://arxiv.org/abs/2311.03340v2 ) ライセンス: Link先を確認 | Michelangelo Diligenti, Marco Gori, Marco Maggini and Leonardo Rigutini | (参考訳) 本稿では,一階述語論理節の集合によって表現された背景知識をカーネルマシンに組み込むための一般的なフレームワークを提案する。
特に、オブジェクトの集合に定義された複数の述語をサンプルから共同で学習し、それらの値の許容可能な構成に一連のfol制約を課すマルチタスク学習スキームを考える。
述語は、入力オブジェクトが表現される特徴空間上で定義され、プリオリまたは適切なカーネルベースの学習者によって近似される。
FOL節をカーネルベースの述語によって計算された出力に対処できる連続的な実装に変換するための一般的なアプローチが提示される。
学習問題は、教師付き例と正規化項と、教師付き例と教師なし例の両方に制約を強制するペナルティ項とを組み合わせた損失関数の主元における最適化を必要とする半教師付きタスクとして定式化される。
残念なことに、ペナルティ項は凸ではなく、最適化プロセスを妨げる可能性がある。
しかし、教師付き例をまず学習し、次に制約を強制する2段階の学習スキーマを使用することで、貧弱な解決策を避けることができる。 In this paper we propose a general framework to integrate supervised and unsupervised examples with background knowledge expressed by a collection of first-order logic clauses into kernel machines. In particular, we consider a multi-task learning scheme where multiple predicates defined on a set of objects are to be jointly learned from examples, enforcing a set of FOL constraints on the admissible configurations of their values. The predicates are defined on the feature spaces, in which the input objects are represented, and can be either known a priori or approximated by an appropriate kernel-based learner. A general approach is presented to convert the FOL clauses into a continuous implementation that can deal with the outputs computed by the kernel-based predicates. The learning problem is formulated as a semi-supervised task that requires the optimization in the primal of a loss function that combines a fitting loss measure on the supervised examples, a regularization term, and a penalty term that enforces the constraints on both the supervised and unsupervised examples. Unfortunately, the penalty term is not convex and it can hinder the optimization process. However, it is possible to avoid poor solutions by using a two stage learning schema, in which the supervised examples are learned first and then the constraints are enforced. | 翻訳日:2023-11-09 12:47:44 公開日:2023-11-08 |
# AI生成テキスト検出のためのシンプルで効率的なアンサンブルアプローチ A Simple yet Efficient Ensemble Approach for AI-generated Text Detection ( http://arxiv.org/abs/2311.03084v2 ) ライセンス: Link先を確認 | Harika Abburi, Kalyani Roy, Michael Suesserman, Nirmala Pudota, Balaji Veeramani, Edward Bowen, Sanmitra Bhattacharya | (参考訳) 近年のLarge Language Models (LLMs) は、幅広いスタイルやジャンルにまたがる人間の文章によく似たテキストを生成する際、顕著な能力を示した。
しかし、そのような機能は、偽ニュースの生成、スパムメールの作成、学術課題の誤用など、潜在的な悪用につながる可能性がある。
したがって、人工的なテキストと人間によるテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測を組み込むことにより,この問題に対する簡易かつ効率的な解法を提案する。
従来のパープレキシティベースや多数のllmを持つアンサンブルを使用する最先端のアプローチと比較して,コンデンスドセンスリングアプローチは,同等のパフォーマンスを達成するために2つの構成llmのみを使用する。
生成テキスト分類のための4つのベンチマークデータセットで行った実験では、以前の最先端のアプローチと比較して0.5から100\%の性能が向上した。
また,LLMのトレーニングデータがモデル性能に与える影響についても検討した。
我々は、Falcon、Large Language Model Meta AI(LLaMA2)、Mosaic Pretrained Transformer(MPT)といった他のオープン言語モデルから生成されたデータと、商業的に制限された生成前変換器(GPT)データを置換することが、生成テキスト検出器の開発において実現可能な代替手段であることを見出した。
さらに,ゼロショット一般化を実証するために,英文エッセイデータセットを実験し,提案手法が新たなデータを効果的に処理できることを示す。 Recent Large Language Models (LLMs) have demonstrated remarkable capabilities in generating text that closely resembles human writing across wide range of styles and genres. However, such capabilities are prone to potential abuse, such as fake news generation, spam email creation, and misuse in academic assignments. Hence, it is essential to build automated approaches capable of distinguishing between artificially generated text and human-authored text. In this paper, we propose a simple yet efficient solution to this problem by ensembling predictions from multiple constituent LLMs. Compared to previous state-of-the-art approaches, which are perplexity-based or uses ensembles with a number of LLMs, our condensed ensembling approach uses only two constituent LLMs to achieve comparable performance. Experiments conducted on four benchmark datasets for generative text classification show performance improvements in the range of 0.5 to 100\% compared to previous state-of-the-art approaches. We also study the influence that the training data from individual LLMs have on model performance. We found that substituting commercially-restrictive Generative Pre-trained Transformer (GPT) data with data generated from other open language models such as Falcon, Large Language Model Meta AI (LLaMA2), and Mosaic Pretrained Transformers (MPT) is a feasible alternative when developing generative text detectors. Furthermore, to demonstrate zero-shot generalization, we experimented with an English essays dataset, and results suggest that our ensembling approach can handle new data effectively. | 翻訳日:2023-11-09 12:47:23 公開日:2023-11-08 |
# 定義の品質推定のためのトランスベース逆辞書モデルの提案 Towards a Transformer-Based Reverse Dictionary Model for Quality Estimation of Definitions ( http://arxiv.org/abs/2311.02985v2 ) ライセンス: Link先を確認 | Julien Guit\'e-Vinet, Alexandre Blondin Mass\'e, Fatiha Sadat | (参考訳) 近年、いくつかの変圧器が登場している。
本稿では,逆辞書タスクを解くためのトランスフォーマーモデルを比較し,本ゲームと呼ばれる真剣なゲームのコンテキストにおいて,それらの使用を探索する。 In the last years, several variants of transformers have emerged. In this paper, we compare different transformer-based models for solving the reverse dictionary task and explore their use in the context of a serious game called The Dictionary Game. | 翻訳日:2023-11-09 12:46:52 公開日:2023-11-08 |
# 人工知能モノのインターネットのための深部画像意味コミュニケーションモデル Deep Image Semantic Communication Model for Artificial Intelligent Internet of Things ( http://arxiv.org/abs/2311.02926v2 ) ライセンス: Link先を確認 | Li Ping Qian and Yi Zhang and Sikai Lyu and Huijie Zhu and Yuan Wu and Xuemin Sherman Shen and Xiaoniu Yang | (参考訳) AIoT(Artificial Intelligent Internet of Things)の急速な開発に伴い、AIoTデバイスのイメージデータが爆発的な増加を目撃している。
本稿では,AIoTにおける効率的な画像通信のための新しい深層画像意味通信モデルを提案する。
特に送信側では,画像のセマンティック情報を抽出し,画像データの大幅な圧縮を実現するために,高精度な画像セマンティックセマンティックセマンティクスアルゴリズムを提案する。
受信側では、生成逆ネットワーク(gan)に基づく意味的画像復元アルゴリズムを提案し、その意味的画像を詳細情報付き実景画像に変換する。
シミュレーションの結果,提案する画像意味コミュニケーションモデルは,webpおよびcycleganと比較して,画像圧縮率と復元精度をそれぞれ71.93%,25.07%向上できることがわかった。
さらに,本実験では,元の画像伝送と比較して,画像通信の遅延時間を95.26%削減した。 With the rapid development of Artificial Intelligent Internet of Things (AIoT), the image data from AIoT devices has been witnessing the explosive increasing. In this paper, a novel deep image semantic communication model is proposed for the efficient image communication in AIoT. Particularly, at the transmitter side, a high-precision image semantic segmentation algorithm is proposed to extract the semantic information of the image to achieve significant compression of the image data. At the receiver side, a semantic image restoration algorithm based on Generative Adversarial Network (GAN) is proposed to convert the semantic image to a real scene image with detailed information. Simulation results demonstrate that the proposed image semantic communication model can improve the image compression ratio and recovery accuracy by 71.93% and 25.07% on average in comparison with WebP and CycleGAN, respectively. More importantly, our demo experiment shows that the proposed model reduces the total delay by 95.26% in the image communication, when comparing with the original image transmission. | 翻訳日:2023-11-09 12:46:46 公開日:2023-11-08 |
# transduce and speak: 意味トークン予測を用いた音声合成のためのニューラルトランスデューサ Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic Token Prediction ( http://arxiv.org/abs/2311.02898v2 ) ライセンス: Link先を確認 | Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Dongjune Lee, Nam Soo Kim | (参考訳) 本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
我々は、wav2vec2.0組み込みから取得した離散化された意味トークンを用いて、その単調なアライメント制約を享受するttsフレームワークにニューラルネットワークトランスデューサを採用することを容易にする。
提案モデルではまずニューラルトランスデューサを用いてアライメントされたセマンティックトークンを生成し,非自己回帰(NAR)音声生成器を用いてセマンティックトークンから音声サンプルを合成する。
この分離されたフレームワークはttsのトレーニングの複雑さを軽減し、各ステージが集中できるようにする
1)言語・アライメントモデリングと
2) きめ細かい音響モデルについて検討した。
ゼロショット適応tts実験の結果,提案モデルが客観的および主観的尺度による音声品質および話者類似度においてベースラインを超えていることがわかった。
また,提案モデルの推論速度と韻律制御性について検討し,TSフレームワークにおけるニューラルトランスデューサの可能性を示した。 We introduce a text-to-speech(TTS) framework based on a neural transducer. We use discretized semantic tokens acquired from wav2vec2.0 embeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoying its monotonic alignment constraints. The proposed model first generates aligned semantic tokens using the neural transducer, then synthesizes a speech sample from the semantic tokens using a non-autoregressive(NAR) speech generator. This decoupled framework alleviates the training complexity of TTS and allows each stage to focus on 1) linguistic and alignment modeling and 2) fine-grained acoustic modeling, respectively. Experimental results on the zero-shot adaptive TTS show that the proposed model exceeds the baselines in speech quality and speaker similarity via objective and subjective measures. We also investigate the inference speed and prosody controllability of our proposed model, showing the potential of the neural transducer for TTS frameworks. | 翻訳日:2023-11-09 12:46:30 公開日:2023-11-08 |
# LLMを用いた汎用人工物操作のための運動認識プロンプト Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs ( http://arxiv.org/abs/2311.02847v2 ) ライセンス: Link先を確認 | Wenke Xia, Dong Wang, Xincheng Pang, Zhigang Wang, Bin Zhao, Di Hu | (参考訳) 汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
シミュレーションにおける実証や強化学習からの模倣学習に焦点が当てられているが、実世界のデータ収集と精密物体シミュレーションの禁止コストのため、これらの研究が多種多様な調音オブジェクトにまたがる広範な適応性を実現することは依然として困難である。
近年,大規模言語モデル(llm)の強固な文脈学習能力を活用してロボット操作を一般化しようとする研究が数多く行われているが,そのほとんどは高レベルなタスク計画と低レベルロボット制御の側面に焦点を当てている。
本研究では,物体の運動的構造が操作の仕方を決定するという考え方に基づいて,物体の運動的知識によってLLMを誘導し,低レベルな運動軌跡を発生させ,様々な物体の操作を支援する機構を提案する。
異なる物体の運動構造を持つLLMを効果的に促すため,各種の関節と接触位置を包含した統一的なテキスト記述として,多言語で表現された物体を表現した統一的な運動情報解析器を設計する。
この統一的な記述に基づいて、キネマティック・アウェア・プランナーモデルが提案され、設計されたキネマティック・アウェア・チェーン・オブ・シンセサイザー法による正確な3次元操作経路ポイントを生成する。
16の異なるカテゴリにまたがる48のインスタンスを評価したところ、我々のフレームワークは従来の手法を8つのカテゴリで上回るだけでなく、8つの未確認対象カテゴリに対して強力なゼロショット能力を示した。
さらに、7つの異なるオブジェクトカテゴリに関する実世界の実験は、実践シナリオにおける我々のフレームワークの適応性を証明する。
コードは \href{https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main}{here} でリリースされる。 Generalizable articulated object manipulation is essential for home-assistant robots. Recent efforts focus on imitation learning from demonstrations or reinforcement learning in simulation, however, due to the prohibitive costs of real-world data collection and precise object simulation, it still remains challenging for these works to achieve broad adaptability across diverse articulated objects. Recently, many works have tried to utilize the strong in-context learning ability of Large Language Models (LLMs) to achieve generalizable robotic manipulation, but most of these researches focus on high-level task planning, sidelining low-level robotic control. In this work, building on the idea that the kinematic structure of the object determines how we can manipulate it, we propose a kinematic-aware prompting framework that prompts LLMs with kinematic knowledge of objects to generate low-level motion trajectory waypoints, supporting various object manipulation. To effectively prompt LLMs with the kinematic structure of different objects, we design a unified kinematic knowledge parser, which represents various articulated objects as a unified textual description containing kinematic joints and contact location. Building upon this unified description, a kinematic-aware planner model is proposed to generate precise 3D manipulation waypoints via a designed kinematic-aware chain-of-thoughts prompting method. Our evaluation spanned 48 instances across 16 distinct categories, revealing that our framework not only outperforms traditional methods on 8 seen categories but also shows a powerful zero-shot capability for 8 unseen articulated object categories. Moreover, the real-world experiments on 7 different object categories prove our framework's adaptability in practical scenarios. Code is released at \href{https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main}{here}. | 翻訳日:2023-11-09 12:46:11 公開日:2023-11-08 |
# フィッシャー計量を用いたリーマンラプラス近似 Riemannian Laplace Approximation with the Fisher Metric ( http://arxiv.org/abs/2311.02766v2 ) ライセンス: Link先を確認 | Hanlin Yu, Marcelo Hartmann, Bernardo Williams, Mark Girolami, Arto Klami | (参考訳) ラプラス法は、そのモードにおけるガウス分布のターゲット密度を近似する。
ベルンシュタイン・ヴォン・ミセスの定理によるベイズ推論は計算効率が高く漸近的に正確であるが、複素対象や有限データ後方に対しては、しばしば粗すぎる近似である。
ラプラス近似の最近の一般化は、計算効率を維持しながら、よりリッチな近似族を提供するリーマン幾何学の選択に従ってガウス近似を変換する。
しかし、上述の通り、その性質は選択された計量に大きく依存するが、実際には以前の研究で採用された計量は、過度に狭く、無限のデータにも偏りがある近似をもたらす。
近似系を更に発展させ、無限データの極限に完全に存在する2つの代替変種を導出し、その方法の理論的解析を延長し、様々な実験で実際的な改善を示すことにより、この欠点を正す。 The Laplace's method approximates a target density with a Gaussian distribution at its mode. It is computationally efficient and asymptotically exact for Bayesian inference due to the Bernstein-von Mises theorem, but for complex targets and finite-data posteriors it is often too crude an approximation. A recent generalization of the Laplace Approximation transforms the Gaussian approximation according to a chosen Riemannian geometry providing a richer approximation family, while still retaining computational efficiency. However, as shown here, its properties heavily depend on the chosen metric, indeed the metric adopted in previous work results in approximations that are overly narrow as well as being biased even at the limit of infinite data. We correct this shortcoming by developing the approximation family further, deriving two alternative variants that are exact at the limit of infinite data, extending the theoretical analysis of the method, and demonstrating practical improvements in a range of experiments. | 翻訳日:2023-11-09 12:45:35 公開日:2023-11-08 |
# 超長周期分散変圧器 Ultra-Long Sequence Distributed Transformer ( http://arxiv.org/abs/2311.02382v2 ) ライセンス: Link先を確認 | Xiao Wang, Isaac Lyngaas, Aristeidis Tsaris, Peng Chen, Sajal Dash, Mayanka Chandra Shekar, Tao Luo, Hong-Jun Yoon, Mohamed Wahib, John Gouley | (参考訳) 長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。
残念なことに、従来のトランスフォーマーは、圧倒的な計算とメモリ要求のために長いシーケンストレーニングに苦労している。
既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供し、精度を損なう可能性がある。
本稿では,長周期の変圧器を学習するための新しい分散学習手法であるLong Short-Sequence Transformer(LSS Transformer)を提案する。
長いシーケンスをGPU間でセグメントに分散し、各GPUコンピューティングはそのセグメントに対して部分的な自己アテンションを持つ。
そして、融合通信と新しい二重勾配平均化技術を用いて、部分的な自己注意の集約や通信オーバーヘッドの最小化を回避する。
wikipedia enwik8データセット上で,lssトランスフォーマタとnvidiaシーケンシャル並列性の性能評価を行った。
その結果,提案手法はNvidia V100の144 GPUにおける最先端シーケンス並列処理と比較して,5.6倍,メモリ効率が10.2倍向上した。
さらに,3,456個のGPUで50,112個の極端なシーケンス長にスケールアップし,超線形並列効率161%,スループット32ペタフロップスを実現した。 Transformer models trained on long sequences often achieve higher accuracy than short sequences. Unfortunately, conventional transformers struggle with long sequence training due to the overwhelming computation and memory requirements. Existing methods for long sequence training offer limited speedup and memory reduction, and may compromise accuracy. This paper presents a novel and efficient distributed training method, the Long Short-Sequence Transformer (LSS Transformer), for training transformer with long sequences. It distributes a long sequence into segments among GPUs, with each GPU computing a partial self-attention for its segment. Then, it uses a fused communication and a novel double gradient averaging technique to avoid the need to aggregate partial self-attention and minimize communication overhead. We evaluated the performance between LSS Transformer and the state-of-the-art Nvidia sequence parallelism on a Wikipedia enwik8 dataset. Results show that our proposed method lead to 5.6x faster and 10.2x more memory-efficient implementation compared to state-of-the-art sequence parallelism on 144 Nvidia V100 GPUs. Moreover, our algorithm scales to an extreme sequence length of 50,112 at 3,456 GPUs, achieving 161% super-linear parallel efficiency and a throughput of 32 petaflops. | 翻訳日:2023-11-09 12:45:18 公開日:2023-11-08 |