このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240606となっている論文です。

PDF登録状況(公開日: 20240606)

TitleAuthorsAbstract論文公表日・翻訳日
# 臨界点へのクエンチ後の一般化時間エントロピーの、ロシミットエコー、二重ユニタリティの出現とスケーリング

Loschmidt echo, emerging dual unitarity and scaling of generalized temporal entropies after quenches to the critical point ( http://arxiv.org/abs/2405.14706v2 )

ライセンス: Link先を確認
Stefano Carignano, Luca Tagliacozzo, (参考訳) クエンチ後の積状態から共形不変臨界点へのロシミットエコーは共形場理論(CFT)を用いて予測できる。 このような予測をテンソルネットワークで確認し,良好な一致を見出す。 特に、CFTが進化の新たな二元性を意味することを予測し、確認することができる。 本稿では、中央電荷、演算子含量、一般化時間エントロピーを含む基礎となるCFTの普遍的情報を抽出する方法を示す。 我々の結果は, 最先端テンソルネットワークアルゴリズムを用いることで, クエンチの持続時間とともに多項式的に増大する資源しか必要とせず, 数値的に効率よく解ける不平衡シナリオの例を示すことを示唆している。

The Loschmidt echo of a product state after a quench to a conformal invariant critical point can be predicted by using conformal field theories (CFT). We check such prediction with tensor networks, finding excellent agreement. In particular, we are able to predict and confirm that the CFT imply an emerging dual-unitarity of the evolution. We show how to extract the universal information of the underlying CFT including, the central charge, the operator content, and the generalized temporal entropies. Our results also imply that, using state-of-the art tensor networks algorithms, such calculations only require resources that increase polynomially with the duration of the quench, thus providing an example of numerically efficiently solvable out-of-equilibrium scenario.
翻訳日:2024-07-22 23:17:48 公開日:2024-06-06
# 偏微分方程式を解くためのチェビシェフスペクトルニューラルネットワーク

Chebyshev Spectral Neural Networks for Solving Partial Differential Equations ( http://arxiv.org/abs/2407.03347v1 )

ライセンス: Link先を確認
Pengsong Yin, Shuo Ling, Wenjun Ying, (参考訳) 本研究の目的は,Chebyshevスペクトル法ニューラルネットワーク(CSNN)モデルを用いて微分方程式を解くことである。 このアプローチでは、チェビシェフスペクトル法を用いて境界条件を満たすニューロンを構成する単一層ニューラルネットワークを用いる。 この研究は、フィードフォワードニューラルネットワークモデルとエラーバックプロパゲーション原理を用いて、損失関数の計算に自動微分(AD)を利用する。 この方法では,非スパース線形系を解く必要がなく,アルゴリズムの実装や高次元問題の解決に便利である。 ユニークなサンプリング法とニューロンアーキテクチャは、ニューラルネットワークのトレーニング効率と精度を著しく向上させる。 さらに、複数のネットワークがチェビシェフスペクトル法によりより複雑な領域の方程式を処理できる。 楕円偏微分方程式を用いて,CSNNモデルの数値効率と精度について検討し,よく知られた物理インフォームドニューラルネットワーク(PINN)法と比較した。

The purpose of this study is to utilize the Chebyshev spectral method neural network(CSNN) model to solve differential equations. This approach employs a single-layer neural network wherein Chebyshev spectral methods are used to construct neurons satisfying boundary conditions. The study uses a feedforward neural network model and error backpropagation principles, utilizing automatic differentiation (AD) to compute the loss function. This method avoids the need to solve non-sparse linear systems, making it convenient for algorithm implementation and solving high-dimensional problems. The unique sampling method and neuron architecture significantly enhance the training efficiency and accuracy of the neural network. Furthermore, multiple networks enables the Chebyshev spectral method to handle equations on more complex domains. The numerical efficiency and accuracy of the CSNN model are investigated through testing on elliptic partial differential equations, and it is compared with the well-known Physics-Informed Neural Network(PINN) method.
翻訳日:2024-07-22 22:09:04 公開日:2024-06-06
# $i$Trust: Ising Machineによる信頼度最適化

$i$Trust: Trust-Region Optimisation with Ising Machines ( http://arxiv.org/abs/2407.04715v1 )

ライセンス: Link先を確認
Sayantan Pramanik, Kaumudibikash Goswami, Sourav Chatterjee, M Girish Chandra, (参考訳) 本研究では,ボックス制約による信頼領域に基づく最適化を実現するため,Ising マシンの既往の応用を提案する。 これは、切断された伝達関数を持つ光電子発振器ベースのコヒーレントIsingマシンの特定の形態を考慮し、信頼領域最適化を容易にするための適切な修正を提案することで実現される。 この拡張には、非対称結合と線形項の包含、ノイズの変調、収束を改善するために凸投影との整合性が含まれる。 修正イジングマシンの収束は、凸性または凸性の合理的な仮定の下で示されている。 修正されたイジングマシンの数学的構造と信頼領域法を用いて、変分量子アルゴリズムにおけるパラメータの最適化や機械学習などの多くのシナリオにおいて、制約のない最適化問題を効果的に解決する新しい信頼領域法を設計している。 したがって、この命題は古典的および量子古典的なハイブリッドシナリオの両方に有用である。 最後に、Isingマシンベースの信頼領域法の収束も解析的に証明され、その実現可能性を確立した。

In this work, we present a heretofore unseen application of Ising machines to perform trust region-based optimisation with box constraints. This is done by considering a specific form of opto-electronic oscillator-based coherent Ising machines with clipped transfer functions, and proposing appropriate modifications to facilitate trust-region optimisation. The enhancements include the inclusion of non-symmetric coupling and linear terms, modulation of noise, and compatibility with convex-projections to improve its convergence. The convergence of the modified Ising machine has been shown under the reasonable assumptions of convexity or invexity. The mathematical structures of the modified Ising machine and trust-region methods have been exploited to design a new trust-region method to effectively solve unconstrained optimisation problems in many scenarios, such as machine learning and optimisation of parameters in variational quantum algorithms. Hence, the proposition is useful for both classical and quantum-classical hybrid scenarios. Finally, the convergence of the Ising machine-based trust-region method, has also been proven analytically, establishing the feasibility of the technique.
翻訳日:2024-07-22 16:25:52 公開日:2024-06-06
# COTS再構成MPSoCを用いた混合精度量子ニューラルネットワークを用いた実時間宇宙機ポース推定

Real-Time Spacecraft Pose Estimation Using Mixed-Precision Quantized Neural Network on COTS Reconfigurable MPSoC ( http://arxiv.org/abs/2407.06170v1 )

ライセンス: Link先を確認
Julien Posso, Guy Bois, Yvon Savaria, (参考訳) 本稿では、商用の Xilinx MPSoC のFPGA コンポーネント上に実装された混合精度量子化ニューラルネットワークを用いて、実時間宇宙船のポーズ推定における先駆的なアプローチを提案する。 我々の共同設計手法は、量子化に対する階層的なニューラルネットワーク感度を評価するための新しい評価手法を含み、精度、レイテンシ、FPGAリソース利用の最適バランスを容易にする。 FINNライブラリを利用することで、オンチップウェイトとアクティベーション機能を統合し、レイテンシとエネルギー消費を最小限に抑える、高速FPGAデータフローアクセラレータを開発した。 我々の実装は7.7倍、エネルギー効率は既存の宇宙船の最もよく報告された値の19.5倍である。 さらに、我々の貢献には、そのようなアルゴリズムを初めてリアルタイムでオープンソースに実装することが含まれており、効率的な宇宙船ポーズ推定アルゴリズムを広く利用できるようにするための大きな進歩を示している。 ソースコードはhttps://github.com/possoj/FPGA-SpacePoseで入手できる。

This article presents a pioneering approach to real-time spacecraft pose estimation, utilizing a mixed-precision quantized neural network implemented on the FPGA components of a commercially available Xilinx MPSoC, renowned for its suitability in space applications. Our co-design methodology includes a novel evaluation technique for assessing the layer-wise neural network sensitivity to quantization, facilitating an optimal balance between accuracy, latency, and FPGA resource utilization. Utilizing the FINN library, we developed a bespoke FPGA dataflow accelerator that integrates on-chip weights and activation functions to minimize latency and energy consumption. Our implementation is 7.7 times faster and 19.5 times more energy-efficient than the best-reported values in the existing spacecraft pose estimation literature. Furthermore, our contribution includes the first real-time, open-source implementation of such algorithms, marking a significant advancement in making efficient spacecraft pose estimation algorithms widely accessible. The source code is available at https://github.com/possoj/FPGA-SpacePose.
翻訳日:2024-07-22 14:07:46 公開日:2024-06-06
# グラフ用アルゴリズムのスペクトルツールキット:技術報告(2)

Spectral Toolkit of Algorithms for Graphs: Technical Report (2) ( http://arxiv.org/abs/2407.07096v1 )

ライセンス: Link先を確認
Peter Macgregor, He Sun, (参考訳) Spectral Toolkit of Algorithms for Graphs (STAG)は、効率的なグラフアルゴリズムのためのオープンソースのライブラリである。 本技術報告では、局所性に敏感なハッシュ、カーネル密度推定、高速スペクトルクラスタリングについて、新たに実装されたコンポーネントについて述べる。 このレポートには、新しく実装されたアルゴリズムのユーザガイド、新機能の実験とデモ、開発の背後にあるいくつかの技術的考察が含まれている。

Spectral Toolkit of Algorithms for Graphs (STAG) is an open-source library for efficient graph algorithms. This technical report presents the newly implemented component on locality sensitive hashing, kernel density estimation, and fast spectral clustering. The report includes a user's guide to the newly implemented algorithms, experiments and demonstrations of the new functionality, and several technical considerations behind our development.
翻訳日:2024-07-22 13:58:01 公開日:2024-06-06
# 物理インフォームドニューラルネットワークを用いたレオロジーのための時間差分方程式の逆フレームワーク

Physics-Informed Neural Network based inverse framework for time-fractional differential equations for rheology ( http://arxiv.org/abs/2407.09496v1 )

ライセンス: Link先を確認
Sukirt Thakur, Harsa Mitra, Arezoo M. Ardekani, (参考訳) 時間差分方程式は、特に生体輸送やレオロジーのような分野において、記憶効果によって特徴づけられる複雑な現象を捉えるための堅牢な枠組みを提供する。 しかし、分数微分を含む逆問題の解決は、安定性と特異性に関連する問題を含む顕著な課題を提示する。 Physics-Informed Neural Networks (PINN) は、逆問題を解決する効果的なツールとして登場したが、既存のほとんどのPINNフレームワークは、主に整数順序の導関数に焦点を当てている。 本研究では, PINNの適用範囲を広げ, 時間差分を含む逆問題, 特に2つの問題に対処する。 1)異常拡散及び異常拡散 2) 分数粘弾性構成方程式 数値的に生成されたデータセットと実験データの両方を活用することで、濃度依存の一般化拡散係数とパラメータをマクスウェル分数モデルでキャリブレーションする。 我々は、観測データの標準偏差でスケールする、調整された残留損失関数を考案する。 異常拡散処理におけるフレームワークの有効性を厳格に検証する。 集中データセットに25%のガウスノイズを導入した後も,我々のフレームワークは顕著な堅牢性を示した。 特に,一般拡散係数と分数導関数の順序を推定する相対誤差は,すべての場合において10%以下であり,本手法のレジリエンスと精度を裏付けるものである。 別の検査例では、3つのブタ組織サンプルの緩和係数を予測し、10%未満の相対誤差を連続的に達成した。 さらに, この枠組みは, 異常拡散と非線形分数粘弾性のモデル化において有望であることを示す。

Time-fractional differential equations offer a robust framework for capturing intricate phenomena characterized by memory effects, particularly in fields like biotransport and rheology. However, solving inverse problems involving fractional derivatives presents notable challenges, including issues related to stability and uniqueness. While Physics-Informed Neural Networks (PINNs) have emerged as effective tools for solving inverse problems, most existing PINN frameworks primarily focus on integer-ordered derivatives. In this study, we extend the application of PINNs to address inverse problems involving time-fractional derivatives, specifically targeting two problems: 1) anomalous diffusion and 2) fractional viscoelastic constitutive equation. Leveraging both numerically generated datasets and experimental data, we calibrate the concentration-dependent generalized diffusion coefficient and parameters for the fractional Maxwell model. We devise a tailored residual loss function that scales with the standard deviation of observed data. We rigorously test our framework's efficacy in handling anomalous diffusion. Even after introducing 25% Gaussian noise to the concentration dataset, our framework demonstrates remarkable robustness. Notably, the relative error in predicting the generalized diffusion coefficient and the order of the fractional derivative is less than 10% for all cases, underscoring the resilience and accuracy of our approach. In another test case, we predict relaxation moduli for three pig tissue samples, consistently achieving relative errors below 10%. Furthermore, our framework exhibits promise in modeling anomalous diffusion and non-linear fractional viscoelasticity.
翻訳日:2024-07-22 13:38:25 公開日:2024-06-06
# CIRCUITSYNTH:回路トポロジー合成のための大規模言語モデルの活用

CIRCUITSYNTH: Leveraging Large Language Models for Circuit Topology Synthesis ( http://arxiv.org/abs/2407.10977v1 )

ライセンス: Link先を確認
Prashanth Vijayaraghavan, Luyao Shi, Ehsan Degan, Xin Zhang, (参考訳) 回路トポロジ生成は電子回路の設計において重要な役割を担い、回路の基本機能に影響を与える。 本稿では,LLMを利用して有効な回路トポロジの自動合成を容易にする手法であるCIRCUITSYNTHを紹介する。 CIRCUITSYNTHは、有効回路構成と無効回路構成の両方からなるデータセットを用いて、回路トポロジー生成と回路トポロジーリファインメントを含む洗練された2相手法を用いる。 CIRCUITSYNTH は様々な微調整 LLM 変種と比較して有効であることを示す実験結果を得た。 提案手法は,回路効率の向上と出力電圧の指定を目的とした今後の研究の基盤として,回路トポロジの自動生成を実現し,性能の向上と設計要件の遵守を実現する。

Circuit topology generation plays a crucial role in the design of electronic circuits, influencing the fundamental functionality of the circuit. In this paper, we introduce CIRCUITSYNTH, a novel approach that harnesses LLMs to facilitate the automated synthesis of valid circuit topologies. With a dataset comprising both valid and invalid circuit configurations, CIRCUITSYNTH employs a sophisticated two-phase methodology, comprising Circuit Topology Generation and Circuit Topology Refinement. Experimental results demonstrate the effectiveness of CIRCUITSYNTH compared to various fine-tuned LLM variants. Our approach lays the foundation for future research aimed at enhancing circuit efficiency and specifying output voltage, thus enabling the automated generation of circuit topologies with improved performance and adherence to design requirements.
翻訳日:2024-07-22 12:49:16 公開日:2024-06-06
# 信頼理論の再検討によるピアサポートシステムにおける信頼要件の強化

A Vision to Enhance Trust Requirements for Peer Support Systems by Revisiting Trust Theories ( http://arxiv.org/abs/2407.11197v1 )

ライセンス: Link先を確認
Yasaman Gheidar, Lysanne Lessard, Yao Yao, (参考訳) このビジョンペーパーは、新型コロナウイルスのパンデミックによって悪化する医療従事者(HCW)に影響を及ぼすメンタルヘルスの危機に焦点を当て、ストレスや燃え尽き症候群などの心理的問題を引き起こす。 ピアサポートプログラム(PSP)は、これらの問題を緩和するために認められた介入である。 これらのプログラムは、利便性とアクセシビリティを高めるために、ピアサポートシステム(PSS)を通じて事実上配信されることが増えている。 しかし、これらのシステムに対するHCWの認識は、情報の共有、安全性の欠如、参加率の低下を恐れ、これらのシステムが目標を達成する能力に挑戦する。 信頼に値するシステムの要件と特性に関する豊富な研究の体系に従って、我々はHCWのPSSへの信頼の高まりがこれらの課題に対処できると仮定する。 しかし、現存する研究は、信頼に値する要件がより制御可能で操作が容易であると見なされるため、知覚的信頼よりも客観的に定義された信頼性に焦点が当てられている。 本研究は, 認知信頼理論に固定された信頼枠組みを, 認識された信頼のタイプと先行者に解き放つ異なる分野から提案することで, 知覚信頼の要求を引き出す新しいアプローチを提案する。 このアプローチにより、すでに提案されている信頼できるシステム以外の信頼要件の特定が可能になり、HCWに対するPSSの有効性を向上させるための強力な基盤となる。 キーワード:信頼要件、要求評価、ピアサポートシステム、医療従事者

This vision paper focuses on the mental health crisis impacting healthcare workers (HCWs), which exacerbated by the COVID-19 pandemic, leads to increased stress and psychological issues like burnout. Peer Support Programs (PSP) are a recognized intervention for mitigating these issues. These programs are increasingly being delivered virtually through Peer Support Systems (PSS) for increased convenience and accessibility. However, HCWs perception of these systems results in fear of information sharing, perceived lack of safety, and low participation rate, which challenges these systems ability to achieve their goals. In line with the rich body of research on the requirements and properties of trustworthy systems, we posit that increasing HCWs trust in PSS could address these challenges. However, extant research focuses on objectively defined trustworthiness rather than perceptual trust because trustworthy requirements are viewed as more controllable and easier to operationalize. This study proposes a novel approach to elicit perceptual trust requirements by proposing a trust framework anchored in recognized trust theories from different disciplines that unpacks trust into its recognized types and their antecedents. This approach allows the identification of trust requirements beyond those already proposed for trustworthy systems, providing a strong foundation for improving the effectiveness of PSS for HCWs. Keywords: Trust Requirements, Requirements elicitation, Peer support systems, Healthcare workers
翻訳日:2024-07-22 12:00:08 公開日:2024-06-06
# スポーツにおけるデジタル双生児 : 概念,分類,挑戦,実践可能性

Digital twins in sport: Concepts, Taxonomies, Challenges and Practical Potentials ( http://arxiv.org/abs/2407.11990v1 )

ライセンス: Link先を確認
Tilen Hliš, Iztok Fister, Iztok Fister Jr, (参考訳) 2019年のGartnerのリストによると、デジタル双生児は10の戦略的技術トレンドに属しており、特にIndustrial 4.0の導入で大きな拡大に直面している。 一方スポーツは、健康的な生活様式の欠如に苦しむ現代人の絶え間ない仲間になっている。 スポーツにおけるデジタルツインの応用は、スポーツトレーニングの分野だけでなく、競技中にアスリートを管理する分野にも劇的な変化をもたらした。 本稿では,スポーツにおけるデジタル双生児のドメインを,この領域に出現した論文に基づいてレビューする。 まず、デジタルツインの概念について概説する。 その後、デジタル双生児の分類が指名される。 これらの分類学によると、関連する論文の収集が分析され、デジタル双生児の実例が露出する。 このレビューは、デジタル双生児が現代のスポーツ分野の変化にどのように影響するか、そして将来デジタル双生児を待つ挑戦と機会について、議論で締めくくられている。

Digital twins belong to ten of the strategic technology trends according to the Gartner list from 2019, and have encountered a big expansion, especially with the introduction of Industry 4.0. Sport, on the other hand, has become a constant companion of the modern human suffering a lack of a healthy way of life. The application of digital twins in sport has brought dramatic changes not only in the domain of sport training, but also in managing athletes during competitions, searching for strategical solutions before and tactical solutions during the games by coaches. In this paper, the domain of digital twins in sport is reviewed based on papers which have emerged in this area. At first, the concept of a digital twin is discussed in general. Then, taxonomies of digital twins are appointed. According to these taxonomies, the collection of relevant papers is analyzed, and some real examples of digital twins are exposed. The review finishes with a discussion about how the digital twins affect changes in the modern sport disciplines, and what challenges and opportunities await the digital twins in the future.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-06
# AIにインスパイアされた? 概念的自動車設計を支援する新しい生成AIシステム

Inspired by AI? A Novel Generative AI System To Assist Conceptual Automotive Design ( http://arxiv.org/abs/2407.11991v1 )

ライセンス: Link先を確認
Ye Wang, Nicole B. Damen, Thomas Gale, Voho Seo, Hooman Shayani, (参考訳) デザインインスピレーションは、デザインの方向性を確立するだけでなく、感情を呼び起こし、概念設計プロセス中に意味を伝えるためにも不可欠である。 多くの実践的デザイナーはPinterestのようなプラットフォーム上でテキストベースの検索を使用してイメージのアイデアを集め、続いて紙にスケッチしたり、デジタルツールを使ってコンセプトを開発したりする。 拡散モデルのような新しい生成AI技術は、テキストとイメージインスピレーションインプットに基づいてデザイン概念を迅速に生成し、その後、AIが生成したデザイン概念を新たなインスピレーション源として使用することで、これらのプロセスを合理化するための有望な道を提供する。 しかし、これらの生成AIテクニックを設計コンテキストに直接適用することは困難である。 第一に、生成型AIツールは特定のスタイルに偏りを示し、その結果、設計出力の多様性が欠如する可能性がある。 第二に、これらのツールはデザインコンテキストにおいて、テキストや画像の微妙な意味を理解するのに苦労する可能性がある。 最後に、設計チーム内で確立された設計プロセスと統合されていないことは、断片化されたユースケースをもたらす可能性がある。 これらの課題に焦点をあてて、経験豊富な自動車デザイナーチームによるワークショップ、調査、データ拡張を行い、テキストや画像にインスパイアされたコンセプトの生成における現在のプラクティスと、コンセプト生成ワークフローをサポートするための生成AIシステムのための望ましいインタラクションモードを調査しました。 最後に,概念的自動車設計を支援するために,拡散モデルに基づく新しい生成AIシステムを開発した。

Design inspiration is crucial for establishing the direction of a design as well as evoking feelings and conveying meanings during the conceptual design process. Many practice designers use text-based searches on platforms like Pinterest to gather image ideas, followed by sketching on paper or using digital tools to develop concepts. Emerging generative AI techniques, such as diffusion models, offer a promising avenue to streamline these processes by swiftly generating design concepts based on text and image inspiration inputs, subsequently using the AI generated design concepts as fresh sources of inspiration for further concept development. However, applying these generative AI techniques directly within a design context has challenges. Firstly, generative AI tools may exhibit a bias towards particular styles, resulting in a lack of diversity of design outputs. Secondly, these tools may struggle to grasp the nuanced meanings of texts or images in a design context. Lastly, the lack of integration with established design processes within design teams can result in fragmented use scenarios. Focusing on these challenges, we conducted workshops, surveys, and data augmentation involving teams of experienced automotive designers to investigate their current practices in generating concepts inspired by texts and images, as well as their preferred interaction modes for generative AI systems to support the concept generation workflow. Finally, we developed a novel generative AI system based on diffusion models to assist conceptual automotive design.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-06
# LLMを用いたリーダボード生成における効果的なコンテキスト選択--実証的研究

Effective Context Selection in LLM-based Leaderboard Generation: An Empirical Study ( http://arxiv.org/abs/2407.02409v1 )

ライセンス: Link先を確認
Salomon Kabongo, Jennifer D'Souza, Sören Auer, (参考訳) 本稿では,Large Language Models (LLMs) が人工知能(AI)研究リーダーボード(Task, Dataset, Metric, Score)の抽出作業における効率に与える影響について検討する。 本稿では,この課題をテキスト生成の目標として定義し,FLAN-T5コレクションを微調整する手法を導入することにより,従来の自然言語推論(NLI)アプローチを超越して,事前に定義された分類法を使わずに新たな開発に適応する手法を提案する。 そこで本研究では,LLMの精度向上と幻覚の低減に有効なコンテキスト選択が重要であることを示すとともに,AIリーダボードの信頼性と効率性向上のための新たな経路を提供する。 この貢献は、リーダーボード生成の最先端だけでなく、LCMベースの情報抽出における共通の課題を軽減するための戦略にも光を当てている。

This paper explores the impact of context selection on the efficiency of Large Language Models (LLMs) in generating Artificial Intelligence (AI) research leaderboards, a task defined as the extraction of (Task, Dataset, Metric, Score) quadruples from scholarly articles. By framing this challenge as a text generation objective and employing instruction finetuning with the FLAN-T5 collection, we introduce a novel method that surpasses traditional Natural Language Inference (NLI) approaches in adapting to new developments without a predefined taxonomy. Through experimentation with three distinct context types of varying selectivity and length, our study demonstrates the importance of effective context selection in enhancing LLM accuracy and reducing hallucinations, providing a new pathway for the reliable and efficient generation of AI leaderboards. This contribution not only advances the state of the art in leaderboard generation but also sheds light on strategies to mitigate common challenges in LLM-based information extraction.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-06
# 高分解能・高分解能狭帯域磁気イメージングのための量子ダイヤモンド顕微鏡

Quantum Diamond Microscope for Narrowband Magnetic Imaging with High Spatial and Spectral Resolution ( http://arxiv.org/abs/2406.15450v1 )

ライセンス: Link先を確認
Zechuan Yin, Jiashen Tang, Connor A. Hart, John W. Blanchard, Xinyan Xiang, Saipriya Satyajit, Smriti Bhalerao, Tao Tao, Stephen J. DeVience, Ronald L. Walsworth, (参考訳) 量子ダイヤモンド顕微鏡(QDM)は、最近開発されたマイクロスケールの空間分解能を持つ磁場の近接場イメージング技術である。 本研究では,QDMを狭帯域計測プロトコルとロックインカメラと統合し,マイクロコイルが生成する高周波(RF)磁界パターンをスペクトル分解能$\approx1$\,Hzで撮像する。 RF-QDMは、MHzスケールで簡単に調整可能な中心検出周波数を持つマルチ周波数イメージングを提供し、混在するスペクトルピークとスペクトル的に分離された信号の空間的識別を可能にする。 本発明の機器は空間分解能$\approx2\,\mathrm{\mu m}$, field-of-view$\approx300\times300\,\mathrm{\mu m^2}$, 狭帯域フィールド$\sim{1}\,$nT$\cdot$Hz$^{-1/2}$を有する。 空間ノイズは、信号平均化および/または空間ビンニングによりピコテスラスケールに低減することができる。 RF-QDMは、実空間NMRイメージング、AC感受性マッピング、インピーダンストモグラフィー、電子回路の解析、空間渦電流に基づく検査の潜在的な応用とともに、ミクロンスケールでの狭帯域磁場パターンの振幅、周波数、位相の同時撮像を可能にする。

The quantum diamond microscope (QDM) is a recently developed technology for near-field imaging of magnetic fields with micron-scale spatial resolution. In the present work, we integrate a QDM with a narrowband measurement protocol and a lock-in camera; and demonstrate imaging of radiofrequency (RF) magnetic field patterns produced by microcoils, with spectral resolution $\approx1$\,Hz. This RF-QDM provides multi-frequency imaging with a central detection frequency that is easily tunable over the MHz-scale, allowing spatial discrimination of both crowded spectral peaks and spectrally well-separated signals. The present instrument has spatial resolution $\approx2\,\mathrm{\mu m}$, field-of-view $\approx300\times300\,\mathrm{\mu m^2}$, and per-pixel sensitivity to narrowband fields $\sim{1}\,$nT$\cdot$Hz$^{-1/2}$. Spatial noise can be reduced to the picotesla scale by signal averaging and/or spatial binning. The RF-QDM enables simultaneous imaging of the amplitude, frequency, and phase of narrowband magnetic field patterns at the micron-scale, with potential applications in real-space NMR imaging, AC susceptibility mapping, impedance tomography, analysis of electronic circuits, and spatial eddy-current-based inspection.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-06
# 気候変動の影響とショアライン適応下における沿岸洪水予測のための深い視線に基づく枠組み

Deep Vision-Based Framework for Coastal Flood Prediction Under Climate Change Impacts and Shoreline Adaptations ( http://arxiv.org/abs/2406.15451v1 )

ライセンス: Link先を確認
Areg Karapetyan, Aaron Chung Hin Chow, Samer Madanat, (参考訳) 気候変動による脅威の増大、特に海面上昇(SLR)を踏まえ、計算的に効率的な手段の必要性は、潜在的沿岸洪水の危険性を推定し分析する必要性が高まっている。 データ駆動型教師あり学習法は、プロセスを大幅に高速化できる有望な候補として機能し、従来の物理ベースの流体力学シミュレータに関連する計算ボトルネックを解消する。 しかし, 高精度で信頼性の高い沿岸洪水予測モデル, 特に深層学習(DL)技術に基づくモデルの開発は, 1) 訓練データの不足, (2) 詳細な浸水マッピングに必要な高次元出力の2つの大きな問題に悩まされている。 この障壁を取り除くために,我々は高忠実度ディープビジョンに基づく沿岸洪水予測モデルを低データ設定でトレーニングするための体系的な枠組みを提案する。 提案したワークフローは、完全にトランスフォーマーベースのアーキテクチャと追加の注意ゲートを備えた畳み込みニューラルネットワーク(CNN)を含む、さまざまな既存の視覚モデル上でテストする。 さらに,沿岸域の洪水予測問題に特化して,深層CNNアーキテクチャを導入する。 このモデルは、リソース制約のあるシナリオとアクセシビリティの側面に対応するために、そのコンパクト性に特化して設計された。 開発したDLモデルの性能は、一般的に採用されている測地回帰法や従来の機械学習(ML)アプローチに対して検証され、予測品質が大幅に向上した。 最後に,Abu Dhabi 沿岸の人工浸水分布図を物理に基づく流体力学シミュレータで作成し,将来的な沿岸浸水予測モデルを評価するためのベンチマークとして有効であることを示す。

In light of growing threats posed by climate change in general and sea level rise (SLR) in particular, the necessity for computationally efficient means to estimate and analyze potential coastal flood hazards has become increasingly pressing. Data-driven supervised learning methods serve as promising candidates that can dramatically expedite the process, thereby eliminating the computational bottleneck associated with traditional physics-based hydrodynamic simulators. Yet, the development of accurate and reliable coastal flood prediction models, especially those based on Deep Learning (DL) techniques, has been plagued with two major issues: (1) the scarcity of training data and (2) the high-dimensional output required for detailed inundation mapping. To remove this barrier, we present a systematic framework for training high-fidelity Deep Vision-based coastal flood prediction models in low-data settings. We test the proposed workflow on different existing vision models, including a fully transformer-based architecture and a Convolutional Neural Network (CNN) with additive attention gates. Additionally, we introduce a deep CNN architecture tailored specifically to the coastal flood prediction problem at hand. The model was designed with a particular focus on its compactness so as to cater to resource-constrained scenarios and accessibility aspects. The performance of the developed DL models is validated against commonly adopted geostatistical regression methods and traditional Machine Learning (ML) approaches, demonstrating substantial improvement in prediction quality. Lastly, we round up the contributions by providing a meticulously curated dataset of synthetic flood inundation maps of Abu Dhabi's coast produced with a physics-based hydrodynamic simulator, which can serve as a benchmark for evaluating future coastal flood prediction models.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-06
# ヒトモデルを用いたマウスの睡眠自動安定度に及ぼす時間的文脈の影響評価

Evaluating the Influence of Temporal Context on Automatic Mouse Sleep Staging through the Application of Human Models ( http://arxiv.org/abs/2406.16911v1 )

ライセンス: Link先を確認
Javier García Ciudad, Morten Mørup, Birgitte Rahbek Kornum, Alexander Neergaard Zahid, (参考訳) ヒトの睡眠ステージリングモデルでは、入力の時間的文脈を数十分の範囲に拡張することで、最近性能改善が示されている。 対照的に、マウス睡眠ステージングモデルの時間的文脈は、典型的には数十秒の順序である。 長期の睡眠パターンは明らかになっていないが、現在のマウス睡眠ステージングモデルよりも時間的文脈を増大させるとパフォーマンスが向上する可能性がある。 本研究では, 長期依存を考慮に入れた最近の2つの高機能ヒト睡眠ステージモデルを用いて, 3匹のマウスコホートで15分間の睡眠時間増加の影響について検討した。 これらは、それぞれ12秒と20秒のローカルコンテキストを使用する2つの著名なマウス睡眠ステージモデルと比較される。 28秒までの文脈の増加は、特にREM睡眠における睡眠ステージ分類性能に肯定的な影響を及ぼすことが観察された。 しかし、影響はより長いコンテキストウィンドウに限られている。 人間の睡眠スコアリングモデルの1つ、L-SeqSleepNetは、すべてのコホートにおいてマウスモデルの両方を上回っている。 これは、マウスの睡眠ステージングが、現在よりも時間的コンテキストの恩恵を受けることを示唆している。

In human sleep staging models, augmenting the temporal context of the input to the range of tens of minutes has recently demonstrated performance improvement. In contrast, the temporal context of mouse sleep staging models is typically in the order of tens of seconds. While long-term time patterns are less clear in mouse sleep, increasing the temporal context further than that of the current mouse sleep staging models might still result in a performance increase, given that the current methods only model very short term patterns. In this study, we examine the influence of increasing the temporal context in mouse sleep staging up to 15 minutes in three mouse cohorts using two recent and high-performing human sleep staging models that account for long-term dependencies. These are compared to two prominent mouse sleep staging models that use a local context of 12 s and 20 s, respectively. An increase in context up to 28 s is observed to have a positive impact on sleep stage classification performance, especially in REM sleep. However, the impact is limited for longer context windows. One of the human sleep scoring models, L-SeqSleepNet, outperforms both mouse models in all cohorts. This suggests that mouse sleep staging can benefit from more temporal context than currently used.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-06
# シーン分類層に基づくセンチネル2の空間的・時間的カバレッジの評価

Assessment of Sentinel-2 spatial and temporal coverage based on the scene classification layer ( http://arxiv.org/abs/2406.18584v1 )

ライセンス: Link先を確認
Cristhian Sanchez, Francisco Mena, Marcela Charfuelan, Marlon Nuske, Andreas Dengel, (参考訳) センチネル-2(S2)衛星の打ち上げ以来、多くのMLモデルがこのデータを様々な用途に利用してきた。 S2製品内のシーン分類層(SCL)は、クラウドカバレッジの高いイメージをフィルタリングするなど、トレーニングのための豊富な情報を提供する。 しかし、これにはより多くの可能性がある。 本稿では,SITSで表現され,S2ベースのSCLデータを用いて計算された領域のクリーンな光カバレッジを評価する手法を提案する。 提案手法は,手動しきい値とSCLの特定のラベルを用いて,時系列の空間的および時間的カバレッジのパーセンテージと高い/低い評価を割り当てる。 強化農業におけるAI4EO課題を評価した結果,MLモデルの予測結果と相関関係があることが判明した。 空間的・時間的範囲が低い地域での分類は、高い範囲の地域よりも悪い。 最後に,この手法をグローバルデータセットLandCoverNetの全大陸にわたって適用した。

Since the launch of the Sentinel-2 (S2) satellites, many ML models have used the data for diverse applications. The scene classification layer (SCL) inside the S2 product provides rich information for training, such as filtering images with high cloud coverage. However, there is more potential in this. We propose a technique to assess the clean optical coverage of a region, expressed by a SITS and calculated with the S2-based SCL data. With a manual threshold and specific labels in the SCL, the proposed technique assigns a percentage of spatial and temporal coverage across the time series and a high/low assessment. By evaluating the AI4EO challenge for Enhanced Agriculture, we show that the assessment is correlated to the predictive results of ML models. The classification results in a region with low spatial and temporal coverage is worse than in a region with high coverage. Finally, we applied the technique across all continents of the global dataset LandCoverNet.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-06
# フレキシブルなViG:フレキシブルなオブジェクト認識のための自己満足度学習

Flexible ViG: Learning the Self-Saliency for Flexible Object Recognition ( http://arxiv.org/abs/2406.18585v1 )

ライセンス: Link先を確認
Lin Zuo, Kunshan Yang, Xianlong Tian, Kunbin He, Yongqi Ding, Mengmeng Jing, (参考訳) 既存のコンピュータビジョン手法は主に剛体物体の認識に焦点を当てているが、柔軟な物体の認識は未解明のままである。 柔軟性のある物体を認識することは、本質的に多様な形状や大きさ、半透明な特性、曖昧な境界、微妙なクラス間の違いなど、大きな課題を生んでいる。 本稿では,これらの問題の主な原因は,対象サリエンシの欠如にあると主張する。 この目的のために,フレキシブルビジョングラフニューラルネットワーク (FViG) を提案する。 具体的には、フレキシブルな物体の形状や大きさの変化に適応する隣り合うノードの重みを抽出することで、チャネル認識の精度を最大化することを提案する。 一方,センタロイドノードの周辺情報を集約するため,クラスタリングに基づく空間認識の精度を最大化し,表現学習のための局所的コンテキスト情報を導入する。 フレキシブルオブジェクト認識の性能を徹底的に検証するために、現実のシナリオやオンラインから収集されたフレキシブルオブジェクトのさまざまなイメージからなるフレキシブルデータセット(FDA)を初めて提案する。 フレキシブルデータセットで評価した広範囲な実験は、フレキシブルオブジェクトの識別性を高めるための手法の有効性を実証する。

Existing computer vision methods mainly focus on the recognition of rigid objects, whereas the recognition of flexible objects remains unexplored. Recognizing flexible objects poses significant challenges due to their inherently diverse shapes and sizes, translucent attributes, ambiguous boundaries, and subtle inter-class differences. In this paper, we claim that these problems primarily arise from the lack of object saliency. To this end, we propose the Flexible Vision Graph Neural Network (FViG) to optimize the self-saliency and thereby improve the discrimination of the representations for flexible objects. Specifically, on one hand, we propose to maximize the channel-aware saliency by extracting the weight of neighboring nodes, which adapts to the shape and size variations in flexible objects. On the other hand, we maximize the spatial-aware saliency based on clustering to aggregate neighborhood information for the centroid nodes, which introduces local context information for the representation learning. To verify the performance of flexible objects recognition thoroughly, for the first time we propose the Flexible Dataset (FDA), which consists of various images of flexible objects collected from real-world scenarios or online. Extensive experiments evaluated on our Flexible Dataset demonstrate the effectiveness of our method on enhancing the discrimination of flexible objects.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-06
# 精度の高いカット・アンド・ペースト:道路損傷検出のための内容と視認性データ強化

Cut-and-Paste with Precision: a Content and Perspective-aware Data Augmentation for Road Damage Detection ( http://arxiv.org/abs/2406.18586v1 )

ライセンス: Link先を確認
Punnawat Siripathitti, Florent Forest, Olga Fink, (参考訳) 道路舗装の損傷は、亀裂、穴、スポーリングなどの問題に発展し、道路構造物の完全性、安全性、耐久性に重大な課題を生んでいる。 道路インフラストラクチャの状況と構造的健全性を維持するためには,これらの損傷の進化を検知し,監視することが不可欠である。 近年、道路監視アプリケーションにおいて、画像に基づく損傷検出のための様々なデータ駆動手法が研究されている。 道路被害検知チャレンジ(RDDC2018)の実施で注目され、様々な国のストリートビュー画像における物体検出装置の競争を奨励した。 リードチームは、主にYOLOとFaster R-CNNシリーズに基づいて、アンサンブルモデルの有効性を実証してきた。 データ拡張はまた、ランダムなフリップ、トリミング、パッチのカット、カット&ペーストのオブジェクトインスタンスなどの変換を含む、コンピュータビジョンフィールド内のオブジェクト検出のメリットも示している。 道路の損傷に対するカット・アンド・ペーストの適用は、データの多様性を高めるための有望なアプローチであるようだ。 しかし、ランダムな画像からオブジェクトのインスタンスをサンプリングし、対象画像にランダムな位置に貼り付ける標準的なカット・アンド・ペースト技術は、道路損傷検出に限られた効果を示した。 本手法は, 道路の位置を見落とし, サンプル画像と対象画像との視点差を無視し, 非現実的な拡張画像を生成する。 本研究では、コンテンツ認識(画像中の道路の真の位置を考慮)と視点認識(インジェクションされた損傷と対象画像の視点の違いを考慮)の両方を考慮したカット・アンド・ペースト向上手法を提案する。

Damage to road pavement can develop into cracks, potholes, spallings, and other issues posing significant challenges to the integrity, safety, and durability of the road structure. Detecting and monitoring the evolution of these damages is crucial for maintaining the condition and structural health of road infrastructure. In recent years, researchers have explored various data-driven methods for image-based damage detection in road monitoring applications. The field gained attention with the introduction of the Road Damage Detection Challenge (RDDC2018), encouraging competition in developing object detectors on street-view images from various countries. Leading teams have demonstrated the effectiveness of ensemble models, mostly based on the YOLO and Faster R-CNN series. Data augmentations have also shown benefits in object detection within the computer vision field, including transformations such as random flipping, cropping, cutting out patches, as well as cut-and-pasting object instances. Applying cut-and-paste augmentation to road damages appears to be a promising approach to increase data diversity. However, the standard cut-and-paste technique, which involves sampling an object instance from a random image and pasting it at a random location onto the target image, has demonstrated limited effectiveness for road damage detection. This method overlooks the location of the road and disregards the difference in perspective between the sampled damage and the target image, resulting in unrealistic augmented images. In this work, we propose an improved Cut-and-Paste augmentation technique that is both content-aware (i.e. considers the true location of the road in the image) and perspective-aware (i.e. takes into account the difference in perspective between the injected damage and the target image).
翻訳日:2024-07-01 05:40:31 公開日:2024-06-06
# Nomic Embed Vision: 潜在空間を広げる

Nomic Embed Vision: Expanding the Latent Space ( http://arxiv.org/abs/2406.18587v1 )

ライセンス: Link先を確認
Zach Nussbaum, Brandon Duderstadt, Andriy Mulyar, (参考訳) この技術報告では、高度に高性能でオープンコードでオープンウェイトな画像埋め込みモデルであるnomic-embed-visionのトレーニングについて述べる。 マイノミック・エンベッド・ビジョン(nomic-embed-vision)とマイノミック・エンベッド・テキスト(nomic-embed-text)は、視覚、言語、マルチモーダルタスクにまたがるハイパフォーマンスを実現するための最初の統合潜在空間である。

This technical report describes the training of nomic-embed-vision, a highly performant, open-code, open-weights image embedding model that shares the same latent space as nomic-embed-text. Together, nomic-embed-vision and nomic-embed-text form the first unified latent space to achieve high performance across vision, language, and multimodal tasks.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-06
# GLINT-RU:逐次リコメンダシステムのための軽量インテリジェントリカレントユニット

GLINT-RU: Gated Lightweight Intelligent Recurrent Units for Sequential Recommender Systems ( http://arxiv.org/abs/2406.10244v1 )

ライセンス: Link先を確認
Sheng Zhang, Maolin Wang, Xiangyu Zhao, (参考訳) 人工知能の急速に発展する分野において、トランスフォーマーベースのモデルはシーケンシャル・レコメンダー・システム(SRS)の文脈において大きな注目を集めており、ユーザーとイテムの相互作用を捉えるのに顕著な習熟性を示している。 しかし、このような注意に基づくフレームワークは計算オーバーヘッドが大きくなり、推論時間が延長される。 そこで本研究では,SRSにおける効率的なGRUモジュールの可能性をさらに活用するための先駆的な手法として,高密度選択型GRU(Gated Recurrent Units)モジュールを活用して推論速度を高速化する,新しい効率的なシーケンシャルレコメンデーションフレームワークGLINT-RUを提案する。 GRUモジュールはGLINT-RUの中心に位置し、推論時間とGPUメモリ使用量の削減に重要な役割を果たしている。 本フレームワークは,高密度選択ゲートの統合により,長期および短期の項目依存を適切に捕捉し,項目スコアを適応的に生成する。 GLINT-RUはさらにミキシングブロックを統合し、グローバルなユーザとイテムのインタラクション情報を豊かにすることで、レコメンデーションの品質を高めている。 さらに,情報を深くフィルタする多層パーセプトロン(MLP)を設計する。 GLINT-RUの有効性と有効性を明らかにするために、3つのデータセットに関する大規模な実験を行った。 我々のGLINT-RUは、リカレントニューラルネットワーク(RNN)、トランスフォーマー、MLP、ステートスペースモデル(SSM)に基づく既存のベースラインよりも優れた予測速度と予測精度を実現している。 これらの結果は、リコメンデータシステム領域における更新アプローチとしてのGLINT-RUの可能性を強調し、シーケンシャルなレコメンデーションにおける新しい標準を確立した。

In the rapidly evolving field of artificial intelligence, transformer-based models have gained significant attention in the context of Sequential Recommender Systems (SRSs), demonstrating remarkable proficiency in capturing user-item interactions. However, such attention-based frameworks result in substantial computational overhead and extended inference time. To address this problem, this paper proposes a novel efficient sequential recommendation framework GLINT-RU that leverages dense selective Gated Recurrent Units (GRU) module to accelerate the inference speed, which is a pioneering work to further exploit the potential of efficient GRU modules in SRSs. The GRU module lies at the heart of GLINT-RU, playing a crucial role in substantially reducing both inference time and GPU memory usage. Through the integration of a dense selective gate, our framework adeptly captures both long-term and short-term item dependencies, enabling the adaptive generation of item scores. GLINT-RU further integrates a mixing block, enriching it with global user-item interaction information to bolster recommendation quality. Moreover, we design a gated Multi-layer Perceptron (MLP) for our framework where the information is deeply filtered. Extensive experiments on three datasets are conducted to highlight the effectiveness and efficiency of GLINT-RU. Our GLINT-RU achieves exceptional inference speed and prediction accuracy, outperforming existing baselines based on Recurrent Neural Network (RNN), Transformer, MLP and State Space Model (SSM). These results establish a new standard in sequential recommendation, highlighting the potential of GLINT-RU as a renewing approach in the realm of recommender systems.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-06
# スケールでの差別化可能なコンビニアルスケジューリング

Differentiable Combinatorial Scheduling at Scale ( http://arxiv.org/abs/2406.06593v1 )

ライセンス: Link先を確認
Mingju Liu, Yingjie Li, Jiaqi Yin, Zhiru Zhang, Cunxi Yu, (参考訳) 本稿では、チップ設計や高性能コンピューティングを含む重要な領域にまたがるNPハード問題である資源制約スケジューリングの複雑な問題に対処する。 従来のスケジューリング手法は、スケーラビリティと適用性の問題に悩まされることが多い。 本稿では,Gumbel-Softmax微分可能なサンプリング手法を用いて,微分可能な組合せスケジューリングフレームワークを用いた新しい手法を提案する。 この新しい技術は、線形プログラミング(LP)ベースのスケジューリングを完全に微分可能な定式化を可能にし、その適用範囲を幅広いLP定式化にまで広げる。 スケジューリングタスクの不等式制約をエンコードするために、任意の不等式制約を積極的にエンコードする \textit{constrained Gumbel Trick} を導入する。 そこで本手法は, 学習データを必要とせずに, 勾配降下による効率的な, スケーラブルなスケジューリングを容易にする。 CPLEX, Gurobi, CP-SATといった商用およびオープンソースソルバが提供する最先端のソリューションを大半を越え, スケジューリングの最適化効率を大幅に向上させる能力について, 実世界のベンチマークと実世界のベンチマークを比較した。

This paper addresses the complex issue of resource-constrained scheduling, an NP-hard problem that spans critical areas including chip design and high-performance computing. Traditional scheduling methods often stumble over scalability and applicability challenges. We propose a novel approach using a differentiable combinatorial scheduling framework, utilizing Gumbel-Softmax differentiable sampling technique. This new technical allows for a fully differentiable formulation of linear programming (LP) based scheduling, extending its application to a broader range of LP formulations. To encode inequality constraints for scheduling tasks, we introduce \textit{constrained Gumbel Trick}, which adeptly encodes arbitrary inequality constraints. Consequently, our method facilitates an efficient and scalable scheduling via gradient descent without the need for training data. Comparative evaluations on both synthetic and real-world benchmarks highlight our capability to significantly improve the optimization efficiency of scheduling, surpassing state-of-the-art solutions offered by commercial and open-source solvers such as CPLEX, Gurobi, and CP-SAT in the majority of the designs.
翻訳日:2024-06-12 21:14:20 公開日:2024-06-06
# Gated Cross-Attention Mechanism を用いた多モード安定核融合によるストックムーブメント予測

Stock Movement Prediction with Multimodal Stable Fusion via Gated Cross-Attention Mechanism ( http://arxiv.org/abs/2406.06594v1 )

ライセンス: Link先を確認
Chang Zong, Jian Shao, Weiming Lu, Yueting Zhuang, (参考訳) 株式移動の正確な予測は投資戦略にとって不可欠である。 株価は、財務指標、感情分析、ニュース文書、関係構造など、様々な種類の情報の影響を受けている。 しかし、先行する分析的アプローチは、マルチモーダルデータの複雑さを無視して、非モーダルまたはバイモーダルソースのみに対処する傾向にある。 ランドスケープのさらなる複雑化は、これらのモダリティ間のデータスパーシリティとセマンティックコンフリクトの問題であり、しばしば現在のモデルによって見落とされ、不安定なパフォーマンスと実用的な適用性を制限する。 これらの欠点に対処するため,ストックムーブメント予測のためのマルチモーダルインプットを堅牢に統合することを目的とした,マルチモーダル安定融合(Multimodal Staable Fusion with Gated Cross-Attention, MSGCA)という新しいアーキテクチャを導入する。 MSGCAフレームワークは,(1)インジケータシーケンス,動的文書,関係グラフを処理し,それらの特徴表現を標準化する三次符号化モジュール,(2)プライマリかつ一貫した特徴が一対のゲート型クロスアテンションネットワークを介して3つのモダリティのマルチモーダル融合を導くクロスフュージョンモジュール,(3)時間的および次元的削減により融合特徴を洗練し,正確な動き予測を行う予測モジュールの3つの積分成分から構成される。 実証的な評価では、MSGCAフレームワークは現在の先行手法を超えており、4つのマルチモーダルデータセットでそれぞれ8.1%、6.1%、21.7%、31.6%のパフォーマンス向上を達成した。

The accurate prediction of stock movements is crucial for investment strategies. Stock prices are subject to the influence of various forms of information, including financial indicators, sentiment analysis, news documents, and relational structures. Predominant analytical approaches, however, tend to address only unimodal or bimodal sources, neglecting the complexity of multimodal data. Further complicating the landscape are the issues of data sparsity and semantic conflicts between these modalities, which are frequently overlooked by current models, leading to unstable performance and limiting practical applicability. To address these shortcomings, this study introduces a novel architecture, named Multimodal Stable Fusion with Gated Cross-Attention (MSGCA), designed to robustly integrate multimodal input for stock movement prediction. The MSGCA framework consists of three integral components: (1) a trimodal encoding module, responsible for processing indicator sequences, dynamic documents, and a relational graph, and standardizing their feature representations; (2) a cross-feature fusion module, where primary and consistent features guide the multimodal fusion of the three modalities via a pair of gated cross-attention networks; and (3) a prediction module, which refines the fused features through temporal and dimensional reduction to execute precise movement forecasting. Empirical evaluations demonstrate that the MSGCA framework exceeds current leading methods, achieving performance gains of 8.1%, 6.1%, 21.7% and 31.6% on four multimodal datasets, respectively, attributed to its enhanced multimodal fusion stability.
翻訳日:2024-06-12 21:14:20 公開日:2024-06-06
# グラフニューラルネットワークを用いたネットワークディジタル双対の5Gネットワーク障害分類

Beyond 5G Network Failure Classification for Network Digital Twin Using Graph Neural Network ( http://arxiv.org/abs/2406.06595v1 )

ライセンス: Link先を確認
Abubakar Isah, Ibrahim Aliyu, Jaechan Shim, Hoyong Ryu, Jinsul Kim, (参考訳) ネットワークデジタルツイン(NDT)の第5世代(5G)コアネットワークは、多数のコンポーネントを持つ複雑なシステムであり、かなりのデータを生成する。 これらのデータを分析することは、希少な障害タイプのために困難になり、マルチクラスの分類では不均衡なクラスが発生する。 この問題に対処するために,NDT用に設計されたメッセージパッシングニューラルネットワーク(MPNN)にグラフフーリエ変換(GFT)を統合する新しい手法を提案する。 このアプローチは、クラス不均衡に対処するためにGFTを使用してデータをグラフに変換するが、MPNNはネットワークコンポーネント間の機能やモデルの依存関係を抽出する。 この組み合わせアプローチは、実およびシミュレートされたNDT環境での障害タイプを特定し、5Gおよび(B5G)ネットワークの正確な障害分類の可能性を示す。 さらに、MPNNは、エンドツーエンドの設定で隣人の間で複雑な局所構造を学ぶことに長けている。 大規模な実験により、提案手法は実ネットワークとNDT環境における複数の障害点における3つのマルチクラスドメインデータセットの障害タイプを識別できることが示された。 その結果,提案したGFT-MPNNはB5Gネットワークのネットワーク障害を正確に分類できることがわかった。

Fifth-generation (5G) core networks in network digital twins (NDTs) are complex systems with numerous components, generating considerable data. Analyzing these data can be challenging due to rare failure types, leading to imbalanced classes in multiclass classification. To address this problem, we propose a novel method of integrating a graph Fourier transform (GFT) into a message-passing neural network (MPNN) designed for NDTs. This approach transforms the data into a graph using the GFT to address class imbalance, whereas the MPNN extracts features and models dependencies between network components. This combined approach identifies failure types in real and simulated NDT environments, demonstrating its potential for accurate failure classification in 5G and beyond (B5G) networks. Moreover, the MPNN is adept at learning complex local structures among neighbors in an end-to-end setting. Extensive experiments have demonstrated that the proposed approach can identify failure types in three multiclass domain datasets at multiple failure points in real networks and NDT environments. The results demonstrate that the proposed GFT-MPNN can accurately classify network failures in B5G networks, especially when employed within NDTs to detect failure types.
翻訳日:2024-06-12 21:14:20 公開日:2024-06-06
# 大規模言語モデルはデータパイプラインの新しいインターフェースか?

Are Large Language Models the New Interface for Data Pipelines? ( http://arxiv.org/abs/2406.06596v1 )

ライセンス: Link先を確認
Sylvio Barbon Junior, Paolo Ceravolo, Sven Groppe, Mustafa Jarrar, Samira Maghool, Florence Sèdes, Soror Sahri, Maurice Van Keulen, (参考訳) 言語モデル(Language Model)とは、人間のコミュニケーションを理解し、生成するために設計された様々な種類のモデルを含む用語である。 大きな言語モデル(LLM)は、人間のような流布やコヒーレンスでテキストを処理できることから、大きな注目を集めている。 自然言語の理解と生成におけるLLMの機能とスケーラビリティ、汎用性、最先端のパフォーマンスを組み合わせることで、eXplainable Artificial Intelligence(XAI)、Automated Machine Learning(AutoML)、KG(Knowledge Graphs)など、さまざまなAI関連分野における革新的なアプリケーションを可能にする。 さらに、これらのモデルは価値ある洞察を抽出し、ビッグデータ分析(BDA)と呼ばれる大規模にデータ駆動型決定を下すことができると信じています。 本稿では、これらの技術間のシナジーを解き放つ方向について、より強力でインテリジェントなAIソリューションにつながり、人間、コンピュータ、知識を統合する幅広いアプリケーションやドメインにわたるデータパイプラインの改善を推進し、議論する。

A Language Model is a term that encompasses various types of models designed to understand and generate human communication. Large Language Models (LLMs) have gained significant attention due to their ability to process text with human-like fluency and coherence, making them valuable for a wide range of data-related tasks fashioned as pipelines. The capabilities of LLMs in natural language understanding and generation, combined with their scalability, versatility, and state-of-the-art performance, enable innovative applications across various AI-related fields, including eXplainable Artificial Intelligence (XAI), Automated Machine Learning (AutoML), and Knowledge Graphs (KG). Furthermore, we believe these models can extract valuable insights and make data-driven decisions at scale, a practice commonly referred to as Big Data Analytics (BDA). In this position paper, we provide some discussions in the direction of unlocking synergies among these technologies, which can lead to more powerful and intelligent AI solutions, driving improvements in data pipelines across a wide range of applications and domains integrating humans, computers, and knowledge.
翻訳日:2024-06-12 21:14:20 公開日:2024-06-06
# 1次元CNNに基づくフェデレートラーニングによるオンライン署名検証

1-D CNN-Based Online Signature Verification with Federated Learning ( http://arxiv.org/abs/2406.06597v1 )

ライセンス: Link先を確認
Lingfeng Zhang, Yuheng Guo, Yepeng Ding, Hiroyuki Sato, (参考訳) オンライン署名検証は、セキュリティインフラストラクチャにおいて重要な役割を果たす。 しかし、従来のオンライン署名検証モデルは、特にトレーニングプロセスにおいて、データのプライバシに重大なリスクをもたらす。 これらの懸念を軽減するために,オンライン署名検証に1次元畳み込みニューラルネットワーク(CNN)を活用する新しいフェデレーション学習フレームワークを提案する。 さらに,本実験では,1次元CNNとフェデレーション学習に関するフレームワークの有効性を実証した。 特に実験結果は,我々のフレームワークが強調している。 1) 局所的な計算資源を最小化する。 2) 実質的な初期化データによる転送効果を高める。 3) 素晴らしいスケーラビリティを示します。 集中型1-D CNNモデルは、EER(Equal Error Rate)が3.33%、精度が96.25%に達する。 一方、2、5、10のエージェントによる構成では、EERは5.42%、5.83%、そして5.63%となり、それぞれ95.21%、94.17%、94.06%となっている。

Online signature verification plays a pivotal role in security infrastructures. However, conventional online signature verification models pose significant risks to data privacy, especially during training processes. To mitigate these concerns, we propose a novel federated learning framework that leverages 1-D Convolutional Neural Networks (CNN) for online signature verification. Furthermore, our experiments demonstrate the effectiveness of our framework regarding 1-D CNN and federated learning. Particularly, the experiment results highlight that our framework 1) minimizes local computational resources; 2) enhances transfer effects with substantial initialization data; 3) presents remarkable scalability. The centralized 1-D CNN model achieves an Equal Error Rate (EER) of 3.33% and an accuracy of 96.25%. Meanwhile, configurations with 2, 5, and 10 agents yield EERs of 5.42%, 5.83%, and 5.63%, along with accuracies of 95.21%, 94.17%, and 94.06%, respectively.
翻訳日:2024-06-12 21:14:20 公開日:2024-06-06
# Qabas: オープンソースのアラビア辞書データベース

Qabas: An Open-Source Arabic Lexicographic Database ( http://arxiv.org/abs/2406.06598v1 )

ライセンス: Link先を確認
Mustafa Jarrar, Tymaa Hammouda, (参考訳) 我々は、NLPアプリケーション用に設計されたオープンソースのアラビア辞書であるQabasを紹介する。 カバの新規性は110レキシコンの合成にある。 具体的には、カバの語彙エントリ(レムマ)は110レキシコンからのレムマをリンクすることで組み立てられる。 さらに、Qabas lemmasは12個の形態学的に注釈付きコーパス(約2Mトークン)に関連付けられており、レキシコンやコーパスとリンクした最初のアラビアのレキシコンとなっている。 QabasはマッピングフレームワークとWebベースのツールを使って半自動で開発された。 他のレキシコンと比較すると、カバは最も広いアラビア語のレキシコンであり、約58Kのレキシコン(45Kの名目補題、12.5Kの動詞補題、473の関数語補題)を含んでいる。 Qabasはオープンソースで、https://sina.birzeit.edu/qabas.comで公開されている。

We present Qabas, a novel open-source Arabic lexicon designed for NLP applications. The novelty of Qabas lies in its synthesis of 110 lexicons. Specifically, Qabas lexical entries (lemmas) are assembled by linking lemmas from 110 lexicons. Furthermore, Qabas lemmas are also linked to 12 morphologically annotated corpora (about 2M tokens), making it the first Arabic lexicon to be linked to lexicons and corpora. Qabas was developed semi-automatically, utilizing a mapping framework and a web-based tool. Compared with other lexicons, Qabas stands as the most extensive Arabic lexicon, encompassing about 58K lemmas (45K nominal lemmas, 12.5K verbal lemmas, and 473 functional-word lemmas). Qabas is open-source and accessible online at https://sina.birzeit.edu/qabas.
翻訳日:2024-06-12 21:14:20 公開日:2024-06-06
# アンナ・カレニナ、LLMのプレトレーニングを実施

Anna Karenina Strikes Again: Pre-Trained LLM Embeddings May Favor High-Performing Learners ( http://arxiv.org/abs/2406.06599v1 )

ライセンス: Link先を確認
Abigail Gurin Schleifer, Beata Beigman Klebanov, Moriah Ariely, Giora Alexandron, (参考訳) LLM埋め込みを用いたオープンエンド質問に対する教師なし回答のクラスタリングは、新しい手法である。 本研究では,これまで専門家によって分析され,理論駆動型知識プロファイル (KPs) にまとめられた生物学におけるオープンエンド質問に対する学生の回答の文脈において,これを考察する。 これらのKPを、純粋にデータ駆動クラスタリング技術によって発見されたものと比べ、正解を含むものを除いて、ほとんどのKPの発見可能性の低いことを報告した。 我々は、この「発見可能性バイアス」を、事前学習されたLLM埋め込み空間におけるKPの表現に遡る。

Unsupervised clustering of student responses to open-ended questions into behavioral and cognitive profiles using pre-trained LLM embeddings is an emerging technique, but little is known about how well this captures pedagogically meaningful information. We investigate this in the context of student responses to open-ended questions in biology, which were previously analyzed and clustered by experts into theory-driven Knowledge Profiles (KPs). Comparing these KPs to ones discovered by purely data-driven clustering techniques, we report poor discoverability of most KPs, except for the ones including the correct answers. We trace this "discoverability bias" to the representations of KPs in the pre-trained LLM embeddings space.
翻訳日:2024-06-12 21:14:20 公開日:2024-06-06
# HORAE:マルチモーダルサービス規制を自動化するドメインに依存しないモデリング言語

HORAE: A Domain-Agnostic Modeling Language for Automating Multimodal Service Regulation ( http://arxiv.org/abs/2406.06600v1 )

ライセンス: Link先を確認
Yutao Sun, Mingshuai Chen, Kangjia Zhao, He Li, Jintao Chen, Linyu Yang, Zhongyi Wang, Tiancheng Zhao, Jianwei Yin, (参考訳) 人工知能は、サービス規制の分野に急速に浸透している。 この研究は、多様なドメインからなるマルチモーダル規制ルールをモデル化するための統一仕様言語であるHORAEの設計原則を提示する。 我々は、HORAEモデリングプロセスを自動化するHORAEという名前の細調整された大規模言語モデルをさらに活用することにより、HORAEがインテリジェントなサービス規制パイプラインを促進する方法を示し、完全に自動化されたインテリジェントなサービス規制のためのエンドツーエンドのフレームワークを提供する。

Artificial intelligence is rapidly encroaching on the field of service regulation. This work presents the design principles behind HORAE, a unified specification language to model multimodal regulation rules across a diverse set of domains. We show how HORAE facilitates an intelligent service regulation pipeline by further exploiting a fine-tuned large language model named HORAE that automates the HORAE modeling process, thereby yielding an end-to-end framework for fully automated intelligent service regulation.
翻訳日:2024-06-12 21:14:20 公開日:2024-06-06
# ヒューマン・イン・ザ・ループによるクロステキスト韻律伝達の改善

A Human-in-the-Loop Approach to Improving Cross-Text Prosody Transfer ( http://arxiv.org/abs/2406.06601v1 )

ライセンス: Link先を確認
Himanshu Maurya, Atli Sigurgeirsson, (参考訳) Text-To-Speech (TTS) の韻律変換モデルでは、参照発話を条件付けすることで、同じテキストに対して様々な韻律変換を生成することができる。 これらのモデルは、ターゲット発話と同一の参照で訓練される。 しかし、テキスト間の韻律伝達のように、参照発話が対象のテキストと異なる場合、これらのモデルは韻律をテキストから切り離すのに苦労し、結果として自然性が低下する。 そこで我々はHitL(Human-in-the-Loop)アプローチを提案する。 HitLユーザは、プロソディの健全な相関を調整し、そのプロソディを対象のテキストに対してより適切なものにするとともに、全体的な参照韻律効果を維持している。 人間の調整された韻律は、基準韻律を維持しつつ、目標テキストの57.8 %$に対してより適当と評価されている。 分析の結果,これらの改善にはユーザ作業の制限が十分であり,参照空間の近接性はテキスト間通信における信頼性の高い韻律的類似度尺度ではないことが示唆された。

Text-To-Speech (TTS) prosody transfer models can generate varied prosodic renditions, for the same text, by conditioning on a reference utterance. These models are trained with a reference that is identical to the target utterance. But when the reference utterance differs from the target text, as in cross-text prosody transfer, these models struggle to separate prosody from text, resulting in reduced perceived naturalness. To address this, we propose a Human-in-the-Loop (HitL) approach. HitL users adjust salient correlates of prosody to make the prosody more appropriate for the target text, while maintaining the overall reference prosodic effect. Human adjusted renditions maintain the reference prosody while being rated as more appropriate for the target text $57.8\%$ of the time. Our analysis suggests that limited user effort suffices for these improvements, and that closeness in the latent reference space is not a reliable prosodic similarity metric for the cross-text condition.
翻訳日:2024-06-12 21:14:20 公開日:2024-06-06
# 行動に着目した新エネルギー自動車の都市生態への影響のモデル化

Modeling of New Energy Vehicles' Impact on Urban Ecology Focusing on Behavior ( http://arxiv.org/abs/2406.06602v1 )

ライセンス: Link先を確認
Run-Xuan Tang, (参考訳) 新たなエネルギー車両の需要の急増は、エネルギーを節約し、排出を減らし、生態系の環境を良くするための衝動によって引き起こされる。 新しいエネルギー車両の行動分析および鉱業利用パターンを実行することにより、特定のパターンを特定することができる。 例えば、バッテリを過負荷にし、低バッテリ電力で運転し、過度の速度で運転すると、バッテリの性能に悪影響を及ぼす可能性がある。 このような運転行動が都市生態に与える影響を評価するため,新エネルギー車と環境との相互作用をシミュレートする環境計算モデリング手法が提案されている。 車両のライフサイクル全体とモデルシーケンスデータ内の生態環境の時系列データを拡張するために、ベイジアンオプティマイザを用いたLSTMモデルをシミュレーションに利用する。 分析の結果,運転行動不良が環境に及ぼす影響が示唆された。

The surging demand for new energy vehicles is driven by the imperative to conserve energy, reduce emissions, and enhance the ecological ambiance. By conducting behavioral analysis and mining usage patterns of new energy vehicles, particular patterns can be identified. For instance, overloading the battery, operating with low battery power, and driving at excessive speeds can all detrimentally affect the battery's performance. To assess the impact of such driving behavior on the urban ecology, an environmental computational modeling method has been proposed to simulate the interaction between new energy vehicles and the environment. To extend the time series data of the vehicle's entire life cycle and the ecological environment within the model sequence data, the LSTM model with Bayesian optimizer is utilized for simulation. The analysis revealed the detrimental effects of poor driving behavior on the environment.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-06
# FPN融合:線形複雑度時系列予測モデルの強化

FPN-fusion: Enhanced Linear Complexity Time Series Forecasting Model ( http://arxiv.org/abs/2406.06603v1 )

ライセンス: Link先を確認
Chu Li, Pingjia Xiao, Qiping Yuan, (参考訳) 本研究では,線形計算複雑性を考慮した新しい時系列予測モデルFPN-fusionを提案し,パラメータ数や計算要求を増大させることなくDLinerよりも優れた予測性能を示す。 まず、時系列データの特徴を効果的に把握するためにFPN(Feature Pyramid Network)が採用され、従来の分解からトレンドや季節的なコンポーネントへ変換される。 第二に、深部と浅部をシームレスに統合する多層核融合構造が開発されている。 FPN融合は、8つのオープンソースデータセットで32ケース中31ケースでDLinerを上回り、平均2乗誤差(MSE)は16.8%、平均絶対誤差(MAE)は11.8%となっている。 さらに、変換器ベースのPatchTSTと比較して、FPN融合は、32のテストプロジェクトにおけるPatchTSTの総計算負荷の8%しか使用せず、10のベストMSEと15のベストMAE結果を達成する。

This study presents a novel time series prediction model, FPN-fusion, designed with linear computational complexity, demonstrating superior predictive performance compared to DLiner without increasing parameter count or computational demands. Our model introduces two key innovations: first, a Feature Pyramid Network (FPN) is employed to effectively capture time series data characteristics, bypassing the traditional decomposition into trend and seasonal components. Second, a multi-level fusion structure is developed to integrate deep and shallow features seamlessly. Empirically, FPN-fusion outperforms DLiner in 31 out of 32 test cases on eight open-source datasets, with an average reduction of 16.8% in mean squared error (MSE) and 11.8% in mean absolute error (MAE). Additionally, compared to the transformer-based PatchTST, FPN-fusion achieves 10 best MSE and 15 best MAE results, using only 8% of PatchTST's total computational load in the 32 test projects.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-06
# データ効率の良いRLHFのためのプロトタイプリワードネットワーク

Prototypical Reward Network for Data-Efficient RLHF ( http://arxiv.org/abs/2406.06606v1 )

ライセンス: Link先を確認
Jinghan Zhang, Xiting Wang, Yiqiao Jin, Changyu Chen, Xinhao Zhang, Kunpeng Liu, (参考訳) Reinforcement Learning from Human Feedback (RLHF) の報酬モデルは、微調整されたLarge Language Models (LLMs) に有効であることが証明されている。 特に、RLHFに対する人的フィードバックの収集はリソース集約的であり、LLMや複雑なタスクのスケーラビリティの問題につながる可能性がある。 提案するフレームワークであるProto-RMは,人間からのフィードバックに制限された報酬モデルを改善するために,プロトタイプネットワークを活用している。 より少ないサンプルから安定かつ信頼性の高い構造学習を可能にすることにより、Proto-RMはLLMの適応性と人間の嗜好を解釈する精度を大幅に向上させる。 様々なデータセットに対する大規模な実験により、Proto-RMは、人間のフィードバックタスクにおける報酬モデルとLLMのパフォーマンスを著しく改善し、従来の手法と同等で、通常はより良い結果を得る一方で、データを大幅に少なくすることを示した。 データ制限のシナリオで。 この研究は、報酬モデルの効率を高め、制限されたフィードバック条件下での言語モデルの微調整を最適化するための有望な方向性を提供する。

The reward model for Reinforcement Learning from Human Feedback (RLHF) has proven effective in fine-tuning Large Language Models (LLMs). Notably, collecting human feedback for RLHF can be resource-intensive and lead to scalability issues for LLMs and complex tasks. Our proposed framework Proto-RM leverages prototypical networks to enhance reward models under limited human feedback. By enabling stable and reliable structural learning from fewer samples, Proto-RM significantly enhances LLMs' adaptability and accuracy in interpreting human preferences. Extensive experiments on various datasets demonstrate that Proto-RM significantly improves the performance of reward models and LLMs in human feedback tasks, achieving comparable and usually better results than traditional methods, while requiring significantly less data. in data-limited scenarios. This research offers a promising direction for enhancing the efficiency of reward models and optimizing the fine-tuning of language models under restricted feedback conditions.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-06
# 進行運転条件下における高能率故障検出のための連続テスト時間領域適応

Continuous Test-time Domain Adaptation for Efficient Fault Detection under Evolving Operating Conditions ( http://arxiv.org/abs/2406.06607v1 )

ライセンス: Link先を確認
Han Sun, Kevin Ammann, Stylianos Giannoulakis, Olga Fink, (参考訳) 故障検出は,正常な運転条件と異常を区別して故障を防止し,性能を最適化するために,産業システムにおいて不可欠である。 データ駆動方式は, 複雑な産業システムからの状況監視データの増加に伴い, 故障検出タスクとして人気が高まっている。 これらの進歩にもかかわらず、早期故障検出は現実世界のシナリオでは依然として課題である。 操作条件や環境の多様性が高いため、特にシステム操作の初期段階において、可能なすべての操作条件を表現できる包括的なトレーニングデータセットの収集が困難になる。 さらに、これらのバリエーションはしばしば時間とともに進化し、以前は見つからなかった、将来完全に新しいデータ分散へと繋がる可能性がある。 これらの課題は、異なるユニット間の直接的な知識伝達を防ぎ、トレーニングとテストデータ間の分散ギャップを生じさせ、実際のシナリオにおけるそれらのメソッドのパフォーマンス劣化を引き起こす。 これを解決するために、我々の研究は連続的なテスト時間領域適応のための新しいアプローチを導入している。 これにより、ドメインシフトやデータ代表性の問題に対処することで、早期の堅牢な異常検出が可能になる。 本稿では,入力変数をシステムパラメータと測定値に分離したTAAD(Test-time Domain Adaptation Anomaly Detection)フレームワークを提案する。 この方法は、進化する運用条件への効果的な適応を可能にし、特に少ないデータを持つシステムにおいて有益である。 本手法は, 実世界のポンプモニタリングデータセットを用いて, 故障検出における既存領域適応法よりも大幅に改善され, 精度と信頼性が向上した。

Fault detection is crucial in industrial systems to prevent failures and optimize performance by distinguishing abnormal from normal operating conditions. Data-driven methods have been gaining popularity for fault detection tasks as the amount of condition monitoring data from complex industrial systems increases. Despite these advances, early fault detection remains a challenge under real-world scenarios. The high variability of operating conditions and environments makes it difficult to collect comprehensive training datasets that can represent all possible operating conditions, especially in the early stages of system operation. Furthermore, these variations often evolve over time, potentially leading to entirely new data distributions in the future that were previously unseen. These challenges prevent direct knowledge transfer across different units and over time, leading to the distribution gap between training and testing data and inducing performance degradation of those methods in real-world scenarios. To overcome this, our work introduces a novel approach for continuous test-time domain adaptation. This enables early-stage robust anomaly detection by addressing domain shifts and limited data representativeness issues. We propose a Test-time domain Adaptation Anomaly Detection (TAAD) framework that separates input variables into system parameters and measurements, employing two domain adaptation modules to independently adapt to each input category. This method allows for effective adaptation to evolving operating conditions and is particularly beneficial in systems with scarce data. Our approach, tested on a real-world pump monitoring dataset, shows significant improvements over existing domain adaptation methods in fault detection, demonstrating enhanced accuracy and reliability.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-06
# Prompt Report: A Systematic Survey of Prompting Techniques

The Prompt Report: A Systematic Survey of Prompting Techniques ( http://arxiv.org/abs/2406.06608v1 )

ライセンス: Link先を確認
Sander Schulhoff, Michael Ilie, Nishant Balepur, Konstantine Kahadze, Amanda Liu, Chenglei Si, Yinheng Li, Aayush Gupta, HyoJung Han, Sevien Schulhoff, Pranav Sandeep Dulepet, Saurav Vidyadhara, Dayeon Ki, Sweta Agrawal, Chau Pham, Gerson Kroiz, Feileen Li, Hudson Tao, Ashay Srivastava, Hevander Da Costa, Saloni Gupta, Megan L. Rogers, Inna Goncearenco, Giuseppe Sarli, Igor Galynker, Denis Peskoff, Marine Carpuat, Jules White, Shyamal Anadkat, Alexander Hoyle, Philip Resnik, (参考訳) ジェネレーティブ・人工知能(GenAI)システムは、産業や研究環境のあらゆる部分に展開されている。 開発者とエンドユーザは、プロンプトやプロンプトエンジニアリングを使用して、これらのシステムと対話する。 プロンプトは広く研究されている概念であるが、この地域の急進性のために何がプロンプトを構成するのかについての矛盾する用語や質素な存在論的理解が存在する。 本稿では, プロンプトの分類を組立て, 利用分析を行うことにより, プロンプトの構造的理解を確立した。 本稿では,33の語彙の包括的語彙,58のテキストのみのプロンプト技術,40のモダリティのテクニックを提示する。 さらに、自然言語のプレフィックス・プロンプティングに関する文献全体をメタ分析する。

Generative Artificial Intelligence (GenAI) systems are being increasingly deployed across all parts of industry and research settings. Developers and end users interact with these systems through the use of prompting or prompt engineering. While prompting is a widespread and highly researched concept, there exists conflicting terminology and a poor ontological understanding of what constitutes a prompt due to the area's nascency. This paper establishes a structured understanding of prompts, by assembling a taxonomy of prompting techniques and analyzing their use. We present a comprehensive vocabulary of 33 vocabulary terms, a taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities. We further present a meta-analysis of the entire literature on natural language prefix-prompting.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-06
# データセット凝縮におけるスパーラス相関の改善

Ameliorate Spurious Correlations in Dataset Condensation ( http://arxiv.org/abs/2406.06609v1 )

ライセンス: Link先を確認
Justin Cui, Ruochen Wang, Yuanhao Xiong, Cho-Jui Hsieh, (参考訳) Dataset Condensationは、大規模なデータセットを小さな合成データセットに圧縮するテクニックとして登場し、下流でのトレーニング作業を容易にする。 本稿では,元のデータセット内のバイアスがデータセット凝縮の性能に与える影響について検討する。 色, 腐敗, 背景バイアスを伴う標準データセットに対する包括的実証評価により, 原データセットの色と背景バイアスは凝縮過程によって増幅され, 凝縮されたデータセット上で訓練されたモデルの性能が顕著に低下する一方, 腐敗バイアスは凝縮過程によって抑制されることがわかった。 データセット凝縮におけるバイアス増幅を低減するため,カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。 複数の実世界および合成データセットに対する実験結果から,提案手法の有効性が示された。 特に, バイアス-衝突比5%, IPC 50のCMNISTでは, バニラDMの23.8%と比較して91.5%の精度を実現し, 67.7%の精度向上を実現した。 本研究は,データセットの凝縮におけるバイアスに対処することの重要性を強調し,そのプロセスにおけるバイアス増幅に対処するための有望な道を提供するものである。

Dataset Condensation has emerged as a technique for compressing large datasets into smaller synthetic counterparts, facilitating downstream training tasks. In this paper, we study the impact of bias inside the original dataset on the performance of dataset condensation. With a comprehensive empirical evaluation on canonical datasets with color, corruption and background biases, we found that color and background biases in the original dataset will be amplified through the condensation process, resulting in a notable decline in the performance of models trained on the condensed dataset, while corruption bias is suppressed through the condensation process. To reduce bias amplification in dataset condensation, we introduce a simple yet highly effective approach based on a sample reweighting scheme utilizing kernel density estimation. Empirical results on multiple real-world and synthetic datasets demonstrate the effectiveness of the proposed method. Notably, on CMNIST with 5% bias-conflict ratio and IPC 50, our method achieves 91.5% test accuracy compared to 23.8% from vanilla DM, boosting the performance by 67.7%, whereas applying state-of-the-art debiasing method on the same dataset only achieves 53.7% accuracy. Our findings highlight the importance of addressing biases in dataset condensation and provide a promising avenue to address bias amplification in the process.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-06
# The Company a Word Keeps」を再解釈する : 説明可能な言語モデルとオントロジー的基盤言語モデルを目指して

Reinterpreting 'the Company a Word Keeps': Towards Explainable and Ontologically Grounded Language Models ( http://arxiv.org/abs/2406.06610v1 )

ライセンス: Link先を確認
Walid S. Saba, (参考訳) 我々は,大規模言語モデル(LLM)の相対的な成功は,記号的対準記号的議論の反映ではなく,大規模言語のリバースエンジニアリングのボトムアップ戦略を成功させるためのリフレクションであると主張している。 しかし、それらのサブシンボリックな性質のため、これらのシステムが言語について取得した知識は、常に何百万もの重みに埋もれてしまう。 さらに、その確率的性質のため、LLMは、様々な言語文脈において、緊張的、時間的、あるいはモーダル的文脈の推論を必要とする正しい推論を行うのに失敗することが多い。 これらの欠点を解消するために、LLMで採用されているのと同じボトムアップ戦略をシンボリック・セッティングで採用することを提案する。

We argue that the relative success of large language models (LLMs) is not a reflection on the symbolic vs. subsymbolic debate but a reflection on employing a successful bottom-up strategy of a reverse engineering of language at scale. However, and due to their subsymbolic nature whatever knowledge these systems acquire about language will always be buried in millions of weights none of which is meaningful on its own, rendering such systems utterly unexplainable. Furthermore, and due to their stochastic nature, LLMs will often fail in making the correct inferences in various linguistic contexts that require reasoning in intensional, temporal, or modal contexts. To remedy these shortcomings we suggest employing the same successful bottom-up strategy employed in LLMs but in a symbolic setting, resulting in explainable, language-agnostic, and ontologically grounded language models.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-06
# ハイブリッドB-Splineとニューラルネットワークオペレータの構築

Building Hybrid B-Spline And Neural Network Operators ( http://arxiv.org/abs/2406.06611v1 )

ライセンス: Link先を確認
Raffaele Romagnoli, Jasmine Ratchford, Mark H. Klein, (参考訳) 制御システムは、自動車、航空機、ミサイルといった様々な領域にまたがるサイバー物理システムの安全性を確保するために不可欠である。 CPSの保護は、安全クリティカルな条件を継続的に監視し、確実に安全な方法で応答するランタイム方法論を必要とする。 多くの安全アプローチの基本的な側面は、システムの将来の振る舞いを予測することである。 しかし、これを実現するには、リアルタイムに動作可能な正確なモデルが必要である。 本稿では,B-スプラインの誘導バイアスとデータ駆動型ニューラルネットワークを組み合わせて,CPS行動のリアルタイム予測を容易にする手法を提案する。 我々は,我々のハイブリッドB-スプラインニューラル演算子を導入し,普遍近似器としての機能を確立し,近似誤差に厳密な境界を与える。 これらの知見は、幅広い非線形自律システムに適用可能であり、12次元状態空間を持つ制御された6自由度四重極(DOF)の実験によって検証される。 さらに、実世界のシナリオにおいて、各アーキテクチャに関連する実用性とトレードオフを明らかにするために、異なるネットワークアーキテクチャ、特に完全連結ネットワーク(FCNN)とリカレントニューラルネットワーク(RNN)の比較分析を行う。

Control systems are indispensable for ensuring the safety of cyber-physical systems (CPS), spanning various domains such as automobiles, airplanes, and missiles. Safeguarding CPS necessitates runtime methodologies that continuously monitor safety-critical conditions and respond in a verifiably safe manner. A fundamental aspect of many safety approaches involves predicting the future behavior of systems. However, achieving this requires accurate models that can operate in real time. Motivated by DeepONets, we propose a novel strategy that combines the inductive bias of B-splines with data-driven neural networks to facilitate real-time predictions of CPS behavior. We introduce our hybrid B-spline neural operator, establishing its capability as a universal approximator and providing rigorous bounds on the approximation error. These findings are applicable to a broad class of nonlinear autonomous systems and are validated through experimentation on a controlled 6-degree-of-freedom (DOF) quadrotor with a 12 dimensional state space. Furthermore, we conduct a comparative analysis of different network architectures, specifically fully connected networks (FCNN) and recurrent neural networks (RNN), to elucidate the practical utility and trade-offs associated with each architecture in real-world scenarios.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-06
# SEE-2-SOUND:ゼロショット空間環境-空間音

SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound ( http://arxiv.org/abs/2406.06612v1 )

ライセンス: Link先を確認
Rishit Dagli, Shivesh Prakash, Robert Wu, Houman Khosravani, (参考訳) 視覚と聴覚の複合感覚体験の生成は、没入型コンテンツの消費に不可欠である。 ニューラル生成モデルの最近の進歩により、画像、テキスト、音声、ビデオなど、複数のモードにわたる高解像度コンテンツの作成が可能になった。 これらの成功にもかかわらず、生成した視覚コンテンツを補完する高品質な空間オーディオの生成には大きなギャップが残っている。 さらに、現在の音声生成モデルは、自然な音声や音声や音楽を生成するのに優れているが、没入感のある体験に必要な空間的オーディオキューの統合には不足している。 本研究では,(1)関心の視覚領域を識別するゼロショット手法であるSEE-2-SOUND,(2)これらの要素を3次元空間に配置すること,(3)モノオーディオを生成すること,(4)空間オーディオに統合することを提案する。 本フレームワークを用いて,インターネットから高画質ビデオ,画像,ダイナミック画像,および学習手法によって生成されたメディアに対して,空間音声を生成するための説得力のある結果を提示する。

Generating combined visual and auditory sensory experiences is critical for the consumption of immersive content. Recent advances in neural generative models have enabled the creation of high-resolution content across multiple modalities such as images, text, speech, and videos. Despite these successes, there remains a significant gap in the generation of high-quality spatial audio that complements generated visual content. Furthermore, current audio generation models excel in either generating natural audio or speech or music but fall short in integrating spatial audio cues necessary for immersive experiences. In this work, we introduce SEE-2-SOUND, a zero-shot approach that decomposes the task into (1) identifying visual regions of interest; (2) locating these elements in 3D space; (3) generating mono-audio for each; and (4) integrating them into spatial audio. Using our framework, we demonstrate compelling results for generating spatial audio for high-quality videos, images, and dynamic images from the internet, as well as media generated by learned approaches.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-06
# 深層学習におけるオッカムラザーの幾何学的モデリング

A Geometric Modeling of Occam's Razor in Deep Learning ( http://arxiv.org/abs/1905.11027v6 )

ライセンス: Link先を確認
Ke Sun, Frank Nielsen, (参考訳) なぜディープニューラルネットワーク(DNN)は高次元パラメータ空間の恩恵を受けるのか? それらの大きなパラメータの複雑さと実際のパフォーマンスは、より興味深いものであり、正規モデルに対するモデル選択の標準理論では説明できない。 本研究では,この現象を研究するための幾何学的フレーバー付き情報理論手法を提案する。 すなわち、フィッシャー情報行列の有意な次元の数を考慮し、ニューラルネットワークモデルのパラメータ空間の局所的変動次元を導入し、特異半リーマン幾何学の枠組みを用いてパラメータ空間を多様体としてモデル化する。 我々は,DNNのパラメータの多さにもかかわらず,その特異性解析に基づいて,深部ニューラルネットワークモデルの短い記述長を求めるモデル複雑性尺度を導出する。

Why do deep neural networks (DNNs) benefit from very high dimensional parameter spaces? Their huge parameter complexities vs. stunning performances in practice is all the more intriguing and not explainable using the standard theory of model selection for regular models. In this work, we propose a geometrically flavored information-theoretic approach to study this phenomenon. Namely, we introduce the locally varying dimensionality of the parameter space of neural network models by considering the number of significant dimensions of the Fisher information matrix, and model the parameter space as a manifold using the framework of singular semi-Riemannian geometry. We derive model complexity measures which yield short description lengths for deep neural network models based on their singularity analysis thus explaining the good performance of DNNs despite their large number of parameters.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-06
# 偏微分方程式の解作用素に対するワンショット学習

One-shot learning for solution operators of partial differential equations ( http://arxiv.org/abs/2104.05512v3 )

ライセンス: Link先を確認
Anran Jiao, Haiyang He, Rishikesh Ranade, Jay Pathak, Lu Lu, (参考訳) データから偏微分方程式(PDE)で表される物理系の方程式を学習し、解くことは、科学と工学の様々な分野において中心的な課題である。 従来のPDEの数値解法は複雑なシステムでは計算コストがかかり、物理系の完全なPDEが必要となる。 一方、現在のデータ駆動機械学習手法では、PDEソリューション演算子の代理モデルを学ぶために大量のデータを必要とする。 本稿では,1つのPDEソリューション,すなわちワンショット学習のみを必要とする,最初のソリューション演算子学習法を提案する。 PDEの局所性の原理を活用することにより、計算領域全体ではなく小さな局所領域を考察し、局所解演算子を定義する。 次に、局所解演算子をニューラルネットワークを用いてトレーニングし、メッシュベースの固定点反復(FPI)、メッシュフリーな局所解演算型ニューラルネットワーク(LOINN)、あるいは補正付き局所解演算型ニューラルネットワーク(cLOINN)を介して新しい入力関数の解を予測する。 本手法は, 線形あるいは非線形PDE, 複素測地上で定義されたPDE, およびPDEシステムを含む多種多種多種多様PDEで検証し, これらの様々なシナリオにおける本手法の有効性と一般化能力を実証した。

Learning and solving governing equations of a physical system, represented by partial differential equations (PDEs), from data is a central challenge in a variety of areas of science and engineering. Traditional numerical methods for solving PDEs can be computationally expensive for complex systems and require the complete PDEs of the physical system. On the other hand, current data-driven machine learning methods require a large amount of data to learn a surrogate model of the PDE solution operator, which could be impractical. Here, we propose the first solution operator learning method that only requires one PDE solution, i.e., one-shot learning. By leveraging the principle of locality of PDEs, we consider small local domains instead of the entire computational domain and define a local solution operator. The local solution operator is then trained using a neural network, and utilized to predict the solution of a new input function via mesh-based fixed-point iteration (FPI), meshfree local-solution-operator informed neural network (LOINN) or local-solution-operator informed neural network with correction (cLOINN). We test our method on diverse PDEs, including linear or nonlinear PDEs, PDEs defined on complex geometries, and PDE systems, demonstrating the effectiveness and generalization capabilities of our method across these varied scenarios.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-06
# シャノン制限データ移動を用いたRFフォトニックディープラーニングプロセッサ

RF-Photonic Deep Learning Processor with Shannon-Limited Data Movement ( http://arxiv.org/abs/2207.06883v2 )

ライセンス: Link先を確認
Ronald Davis III, Zaijun Chen, Ryan Hamerly, Dirk Englund, (参考訳) エドホルムの法則は、通信におけるデータレートと帯域幅の指数的な増加を予測し、次の6Gの展開について真実であると予測されている。 この問題を複雑にしているのは、信号処理用のDNNを含むディープニューラルネットワーク(DNN)計算の需要が指数関数的に増加することである。 しかし、トランジスタベースのエレクトロニクスの限界によるムーアの法則の減速は、これらの高度な通信に対する要求を満たすために、完全に新しい計算パラダイムが要求されることを意味している。 光ニューラルネットワーク(ONN)は、超低レイテンシとエネルギー消費を備えたDNNアクセラレーターを約束している。 しかし、最先端のONNはスケーラビリティに苦慮し、線形非線形演算とインライン非線形演算を実装している。 ここでは、周波数領域のデータを符号化し、光電乗算を用いて1ショットで行列ベクトル積を得る乗算型アナログ周波数変換ONN(MAFT-ONN)を導入し、各層における全てのニューロンの非線形活性化に単一電気光学変調器を用いる。 RF信号の完全アナログ深度を計算し、85%の精度で単発変調分類を行い、5連続測定で95%まで精度を向上できるハードウェアアクセラレータを試作した。 さらに、周波数領域有限インパルス応答(FIR)線形時間不変(LTI)演算を実証し、従来の信号処理とAI信号処理の強力な組み合わせを可能にする。 また、MNIST桁分類のための400万近い完全アナログ乗算および累積を計算することで、アーキテクチャのスケーラビリティを実証する。 我々の遅延推定モデルは、シャノン容量制限アナログデータ移動により、MAFT-ONNは理論的なピーク性能で動作している従来のRF受信機よりも数百倍高速であることを示している。

Edholm's Law predicts exponential growth in data rate and spectrum bandwidth for communications and is forecasted to remain true for the upcoming deployment of 6G. Compounding this issue is the exponentially increasing demand for deep neural network (DNN) compute, including DNNs for signal processing. However, the slowing of Moore's Law due to the limitations of transistor-based electronics means that completely new paradigms for computing will be required to meet these increasing demands for advanced communications. Optical neural networks (ONNs) are promising DNN accelerators with ultra-low latency and energy consumption. Yet state-of-the-art ONNs struggle with scalability and implementing linear with in-line nonlinear operations. Here we introduce our multiplicative analog frequency transform ONN (MAFT-ONN) that encodes the data in the frequency domain, achieves matrix-vector products in a single shot using photoelectric multiplication, and uses a single electro-optic modulator for the nonlinear activation of all neurons in each layer. We experimentally demonstrate the first hardware accelerator that computes fully-analog deep learning on raw RF signals, performing single-shot modulation classification with 85% accuracy, where a 'majority vote' multi-measurement scheme can boost the accuracy to 95% within 5 consecutive measurements. In addition, we demonstrate frequency-domain finite impulse response (FIR) linear-time-invariant (LTI) operations, enabling a powerful combination of traditional and AI signal processing. We also demonstrate the scalability of our architecture by computing nearly 4 million fully-analog multiplies-and-accumulates for MNIST digit classification. Our latency estimation model shows that due to the Shannon capacity-limited analog data movement, MAFT-ONN is hundreds of times faster than traditional RF receivers operating at their theoretical peak performance.
翻訳日:2024-06-10 23:21:09 公開日:2024-06-06
# SIMPLE:$k$-subsetサンプリングのための勾配推定器

SIMPLE: A Gradient Estimator for $k$-Subset Sampling ( http://arxiv.org/abs/2210.01941v2 )

ライセンス: Link先を確認
Kareem Ahmed, Zhe Zeng, Mathias Niepert, Guy Van den Broeck, (参考訳) $k$-subsetのサンプリングは機械学習においてユビキタスであり、スパーシティによる正規化と解釈を可能にしている。 この課題は、エンドツーエンドの学習に適した$k$-subsetサンプリングのレンダリングにある。 これは典型的には、バックプロパゲーションを可能にするために再パラメータ化されたサンプルを緩和することであり、高いバイアスと高い分散をもたらすリスクがある。 この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。 これは、真の勾配のプロキシとして効率的に計算された、正確な辺辺に関する勾配と結合する。 勾配推定器 SIMPLE は,k = 1$ のときのストレートスルー Gumbel 推定器を含む最先端推定器と比較して,バイアスやばらつきが低いことを示す。 実験結果から,線形回帰を説明・スパースする学習性能が向上した。 我々は,$k$-subset分布の正確なELBOを計算し,SOTAと比較して損失を著しく低減するアルゴリズムを提案する。

$k$-subset sampling is ubiquitous in machine learning, enabling regularization and interpretability through sparsity. The challenge lies in rendering $k$-subset sampling amenable to end-to-end learning. This has typically involved relaxing the reparameterized samples to allow for backpropagation, with the risk of introducing high bias and high variance. In this work, we fall back to discrete $k$-subset sampling on the forward pass. This is coupled with using the gradient with respect to the exact marginals, computed efficiently, as a proxy for the true gradient. We show that our gradient estimator, SIMPLE, exhibits lower bias and variance compared to state-of-the-art estimators, including the straight-through Gumbel estimator when $k = 1$. Empirical results show improved performance on learning to explain and sparse linear regression. We provide an algorithm for computing the exact ELBO for the $k$-subset distribution, obtaining significantly lower loss compared to SOTA.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-06
# 有限サム最小値問題に対する分散確率勾配勾配勾配

Decentralized Stochastic Gradient Descent Ascent for Finite-Sum Minimax Problems ( http://arxiv.org/abs/2212.02724v2 )

ライセンス: Link先を確認
Hongchang Gao, (参考訳) 最小限の最適化問題は、多くの機械学習モデルに広く応用されているため、近年、大きな注目を集めている。 ミニマックス問題を解決するために,様々な確率最適化手法が提案されている。 しかし、そのほとんどは、トレーニングデータが複数のワーカーに分散される分散設定を無視している。 本稿では,有限サム最小値問題に対する分散確率勾配勾配昇降法を開発した。 特に、分散還元勾配を用いることで、サンプル複雑性とサンプル複雑性を$O(\frac{\sqrt{n}\kappa^3}{(1-\lambda)^2\epsilon^2})$O(\frac{\kappa^3}{(1-\lambda)^2\epsilon^2})$convex-strongly-concave minimax問題に対する通信複雑性を達成できる。 我々の研究は、我々が知る限り、この種のミニマックス問題の理論的複雑さを最初に達成したものである。 最終的に,本手法をAUCの最大化に適用し,実験結果から本手法の有効性を確認した。

Minimax optimization problems have attracted significant attention in recent years due to their widespread application in numerous machine learning models. To solve the minimax problem, a wide variety of stochastic optimization methods have been proposed. However, most of them ignore the distributed setting where the training data is distributed on multiple workers. In this paper, we developed a novel decentralized stochastic gradient descent ascent method for the finite-sum minimax problem. In particular, by employing the variance-reduced gradient, our method can achieve $O(\frac{\sqrt{n}\kappa^3}{(1-\lambda)^2\epsilon^2})$ sample complexity and $O(\frac{\kappa^3}{(1-\lambda)^2\epsilon^2})$ communication complexity for the nonconvex-strongly-concave minimax problem. As far as we know, our work is the first one to achieve such theoretical complexities for this kind of minimax problem. At last, we apply our method to AUC maximization, and the experimental results confirm the effectiveness of our method.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-06
# Web3におけるデジタル継承:ポロキャット・クサマ生態系におけるソウルバウンドトークンとソーシャルリカバリパレットの事例研究

Digital Inheritance in Web3: A Case Study of Soulbound Tokens and the Social Recovery Pallet within the Polkadot and Kusama Ecosystems ( http://arxiv.org/abs/2301.11074v3 )

ライセンス: Link先を確認
Justin Goldston, Tomer Jordi Chaffer, Justyna Osowska, Charles von Goins II, (参考訳) 近年、ソーシャルメディアユーザーやブロックチェーンエコシステム間のデジタル継承に関する議論が活発化している。 その結果、ソーシャルメディアのコンテンツ暗号通貨や非偽造トークンなどのデジタル資産は、ますます価値と普及し、テスターの死や無能力化によって、これらの資産を移動するための明確かつ安全なメカニズムが必要とされるようになった。 本研究では,PolkadotおよびKusamaブロックチェーンネットワークのユースケースとして,ソウルバウンドトークンとソーシャルリカバリパレットを用いたデジタル継承フレームワークを提案する。 本研究で論じられた知見は、ソウルバウンドトークンとソーシャルリカバリパレットがデジタル継承計画の作成に有望な解決策を提供する一方で、テスタのデジタルエグゼキュータや開発者にとって重要な考察がもたらされることを示唆している。 人工知能や量子コンピューティングといった他の技術の潜在的な影響とリスクを十分に理解するためには、さらなる研究が必要であるが、この研究は、ユーザがデジタル継承戦略を計画し始め、開発者がより直感的なソリューションを開発するためのプライマーを提供する。

In recent years discussions centered around digital inheritance have increased among social media users and across blockchain ecosystems. As a result digital assets such as social media content cryptocurrencies and non-fungible tokens have become increasingly valuable and widespread, leading to the need for clear and secure mechanisms for transferring these assets upon the testators death or incapacitation. This study proposes a framework for digital inheritance using soulbound tokens and the social recovery pallet as a use case in the Polkadot and Kusama blockchain networks. The findings discussed within this study suggest that while soulbound tokens and the social recovery pallet offer a promising solution for creating a digital inheritance plan the findings also raise important considerations for testators digital executors and developers. While further research is needed to fully understand the potential impacts and risks of other technologies such as artificial intelligence and quantum computing this study provides a primer for users to begin planning a digital inheritance strategy and for developers to develop a more intuitive solution.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-06
# SplineCam: ディープネットワーク形状と決定境界の正確な可視化とキャラクタリゼーション

SplineCam: Exact Visualization and Characterization of Deep Network Geometry and Decision Boundaries ( http://arxiv.org/abs/2302.12828v2 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Randall Balestriero, Guha Balakrishnan, Richard Baraniuk, (参考訳) 現在のディープ・ネットワーク(DN)の可視化と解釈可能性の手法は、データのどの次元が関連する予測に責任があるかを評価することや、特定のDN単位や表現に最もよく一致する新しいデータ特徴やサンプルを生成することなど、データ空間の可視化に大きく依存している。 本稿では、データ空間の特定領域上でDNマッピングの幾何(決定境界を含む)を計算するための、初めて証明可能な正確な手法を開発することにより、さらに一歩進める。 連続ピアース・ワイズ・リニア(CPWL)スプラインDNの理論を活用することで、サンプリングやアーキテクチャの単純化といった近似に頼ることなく、正確にDNs幾何を計算する。 SplineCamは、(leaky-)ReLU、絶対値、最大値、最大プーリングを含むCPWL非線形性に基づく任意のDNアーキテクチャに適用でき、暗黙の神経表現のような回帰DNにも適用できる。 SplineCamは、決定境界の可視化とキャラクタリゼーションの他に、アーキテクチャの比較、一般化可能性の測定、多様体の内外における決定境界からのサンプルも可能にする。 プロジェクトウェブサイト: bit.ly/splinecam

Current Deep Network (DN) visualization and interpretability methods rely heavily on data space visualizations such as scoring which dimensions of the data are responsible for their associated prediction or generating new data features or samples that best match a given DN unit or representation. In this paper, we go one step further by developing the first provably exact method for computing the geometry of a DN's mapping - including its decision boundary - over a specified region of the data space. By leveraging the theory of Continuous Piece-Wise Linear (CPWL) spline DNs, SplineCam exactly computes a DNs geometry without resorting to approximations such as sampling or architecture simplification. SplineCam applies to any DN architecture based on CPWL nonlinearities, including (leaky-)ReLU, absolute value, maxout, and max-pooling and can also be applied to regression DNs such as implicit neural representations. Beyond decision boundary visualization and characterization, SplineCam enables one to compare architectures, measure generalizability and sample from the decision boundary on or off the manifold. Project Website: bit.ly/splinecam.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-06
# メビウス帯上の量子線中の電子状態

Electronic states in quantum wires on a Möbius strip ( http://arxiv.org/abs/2303.05647v2 )

ライセンス: Link先を確認
J. J. L. R. Pinto, J. E. G. Silva, C. A. S. Almeida, (参考訳) M\ "{o}bius strip" に沿ったワイヤに拘束された2次元非相対論的電子ガス(TDEG)の特性について検討した。 我々は、ストリップの幅を越えて、ストリップの周りのワイヤと横方向のワイヤについて検討した。 各方向について、曲率が電子状態とその対応するエネルギースペクトルをどのように変化させるかを検討する。 ストリップの中心では、表面の周りのワイヤは、ストリップ半径$a$に依存する量子環を形成する。 ストリップの端のワイヤは、内側のエッジが外側のエッジになる。 したがって、曲率によってワイヤの中央に局所化された状態が得られる。 ストリップ幅に沿って、有効ポテンシャルはパリティ対称性の破れを示し、ストリップの片側に境界状態が局在する。

We study the properties of a two-dimensional non-relativistic electron gas (TDEG) constrained on wires along a M\"{o}bius strip. We considered wires around the strip and along the transverse direction, across the width of the strip. For each direction, we investigate how the curvature modifies the electronic states and their corresponding energy spectrum. At the center of the strip, the wires around the surface form quantum rings whose spectrum depends on the strip radius $a$. For wires at the edge of the strip, the inner edge turns into the outer edge. Accordingly, the curvature yields localized states in the middle of the wire. Along the strip width, the effective potential exhibits a parity symmetry breaking leading to the localization of the bound state on one side of the strip.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-06
# 最大領域独立表現は伝達学習を改善する

Maximal Domain Independent Representations Improve Transfer Learning ( http://arxiv.org/abs/2306.00262v3 )

ライセンス: Link先を確認
Adrian Shuai Li, Elisa Bertino, Xuan-Hong Dang, Ankush Singla, Yuhai Tu, Mark N Wegman, (参考訳) 最も効果的なドメイン適応(DA)は、データ表現をドメイン独立表現(DIRep)とドメイン依存表現(DDRep)に分解することである。 ラベル付きソース画像のDIRepを用いて分類器を訓練する。 DIRepはドメイン不変であるため、分類器は"転送"され、ターゲットドメインのラベルを全く(または少数)持たない予測を行う。 しかし、ターゲットドメインの分類に有用な情報は、DDRepにおいて、Domain-Separation-Networks (DSN)のような現在のDAアルゴリズムで"隠蔽"することができる。 DSNがDIRepとDDRepの直交性を強制する弱い制約により、この隠蔽が可能となり、パフォーマンスが低下する可能性がある。 そこで我々は,DDRepに対するKL発散損失を用いて,転送学習性能を向上させる最大DIRepを生成することにより,DDRepの最小化に強い制約を課す新しいアルゴリズムを開発した。 合成データセットを用いることで, DSN の初期化による制約の弱さが, DA 性能の劣る部分最適解に繋がることを示した。 Officeを含むいくつかの標準ベンチマーク画像データセットを用いて、最先端アルゴリズムに対するアプローチの等速性能を実証する。 さらに、事前訓練されたモデルとの互換性を強調し、実世界のシナリオにおける適用性と汎用性を拡張します。

The most effective domain adaptation (DA) involves the decomposition of data representation into a domain independent representation (DIRep), and a domain dependent representation (DDRep). A classifier is trained by using the DIRep of the labeled source images. Since the DIRep is domain invariant, the classifier can be "transferred" to make predictions for the target domain with no (or few) labels. However, information useful for classification in the target domain can "hide" in the DDRep in current DA algorithms such as Domain-Separation-Networks (DSN). DSN's weak constraint to enforce orthogonality of DIRep and DDRep, allows this hiding and can result in poor performance. To address this shortcoming, we developed a new algorithm wherein a stronger constraint is imposed to minimize the DDRep by using a KL divergent loss for the DDRep in order to create the maximal DIRep that enhances transfer learning performance. By using synthetic data sets, we show explicitly that depending on initialization DSN with its weaker constraint can lead to sub-optimal solutions with poorer DA performance whereas our algorithm with maximal DIRep is robust against such perturbations. We demonstrate the equal-or-better performance of our approach against state-of-the-art algorithms by using several standard benchmark image datasets including Office. We further highlight the compatibility of our algorithm with pretrained models, extending its applicability and versatility in real-world scenarios.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-06
# 視線を信じないで - 機能の可視化の信頼性について

Don't trust your eyes: on the (un)reliability of feature visualizations ( http://arxiv.org/abs/2306.04719v6 )

ライセンス: Link先を確認
Robert Geirhos, Roland S. Zimmermann, Blair Bilodeau, Wieland Brendel, Been Kim, (参考訳) ニューラルネットワークはどのようにピクセルからパターンを抽出するか? 特徴視覚化は、最適化を通じて高度に活性化されたパターンを可視化することによって、この重要な質問に答えようとしている。 今日では、可視化手法が、機械的解釈可能性の一種として、ニューラルネットワークの内部動作に関する私たちの知識の基礎を形成しています。 機能ビジュアライゼーションはどの程度信頼できるのか? 我々は,自然入力上での通常のネットワーク動作から完全に切り離された任意のパターンを示すために,特徴可視化を騙すネットワーク回路の開発に着手する。 特徴視覚化は標準入力とは全く異なる処理を受けており、ニューラルネットワークが自然言語をどのように処理するかを「説明」する能力に疑問を呈している。 これは機能ビジュアライゼーションの正当性チェックとして使用できる。 特徴視覚化によって確実に理解できる関数の集合は極めて小さく、一般的なブラックボックスニューラルネットワークを含まないことを証明して、経験的知見を裏付ける。 そのため、より信頼性の高い特徴視覚化を実現するために、特定の構造を強制するネットワークの開発が期待できる。

How do neural networks extract patterns from pixels? Feature visualizations attempt to answer this important question by visualizing highly activating patterns through optimization. Today, visualization methods form the foundation of our knowledge about the internal workings of neural networks, as a type of mechanistic interpretability. Here we ask: How reliable are feature visualizations? We start our investigation by developing network circuits that trick feature visualizations into showing arbitrary patterns that are completely disconnected from normal network behavior on natural input. We then provide evidence for a similar phenomenon occurring in standard, unmanipulated networks: feature visualizations are processed very differently from standard input, casting doubt on their ability to "explain" how neural networks process natural images. This can be used as a sanity check for feature visualizations. We underpin our empirical findings by theory proving that the set of functions that can be reliably understood by feature visualization is extremely small and does not include general black-box neural networks. Therefore, a promising way forward could be the development of networks that enforce certain structures in order to ensure more reliable feature visualizations.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-06
# DiNADO: 言語モデルを制御するためのノーム距離ニューラル分解型Oracle

DiNADO: Norm-Disentangled Neurally-Decomposed Oracles for Controlling Language Models ( http://arxiv.org/abs/2306.11825v2 )

ライセンス: Link先を確認
Sidi Lu, Wenbo Zhao, Chenyang Tao, Arpit Gupta, Shanchan Wu, Tagyoung Chung, Nanyun Peng, (参考訳) NeurAlly-Decomposed Oracle (NADO)は、大きな言語モデルで制御可能な生成のための強力なアプローチである。 適切なモデリング能力を持つエントロピー最大化された閉形式最適解への保証された収束を達成しつつ、破滅的な忘れを避けるように設計されている。 成功にもかかわらず、NADOを幅広いシナリオに適用する場合、いくつかの課題が生じる。 バニラNADOは低確率制御信号の勾配消滅に悩まされており、ベルマン方程式の確率バージョンを満たすための正規化に非常に依存している。 さらに、NADOのバニラ実装ではいくつかのトランスフォーマー層が導入されており、特にLoRAのようなファインチューンベースのモデル適応手法と比較して、容量が限られている。 本稿では,DiNADOアルゴリズムの改良版であるDiNADO(norm-Disentangled NeurAlly-Decomposed Oracles)を提案する。 実験結果と理論的結果の両方で,DiNADOが優れたキャパシティ,安定性,柔軟性を実現する方法について深く議論する。 機械翻訳における形式制御と語彙制約付き生成タスクCommonGenの実験は、改善の重要性を示している。

NeurAlly-Decomposed Oracle (NADO) is a powerful approach for controllable generation with large language models. It is designed to avoid catastrophic forgetting while achieving guaranteed convergence to an entropy-maximized closed-form optimal solution with reasonable modeling capacity. Despite the success, several challenges arise when apply NADO to a wide range of scenarios. Vanilla NADO suffers from gradient vanishing for low-probability control signals and is highly reliant on a regularization to satisfy the stochastic version of Bellman equation. In addition, the vanilla implementation of NADO introduces a few additional transformer layers, suffering from a limited capacity especially compared to other finetune-based model adaptation methods like LoRA. In this paper, we propose a improved version of the NADO algorithm, namely DiNADO (norm-Disentangled NeurAlly-Decomposed Oracles), which improves the performance of the NADO algorithm through disentangling the step-wise global norm over the approximated oracle $R$-value for all potential next-tokens, allowing DiNADO to be combined with finetuning methods like LoRA. We discuss in depth how DiNADO achieves better capacity, stability and flexibility with both empirical and theoretical results. Experiments on formality control in machine translation and the lexically constrained generation task CommonGen demonstrates the significance of the improvements.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-06
# コントラスト分布法によるオープンドメインテキスト評価

Open-Domain Text Evaluation via Contrastive Distribution Methods ( http://arxiv.org/abs/2306.11879v3 )

ライセンス: Link先を確認
Sidi Lu, Hongyi Liu, Asli Celikyilmaz, Tianlu Wang, Nanyun Peng, (参考訳) 大規模事前学習言語モデル(LLM)のパワーによって駆動されるオープンドメインテキスト生成の最近の進歩は、顕著な性能を示している。 しかし、これらのモデルの生成品質を評価することは依然として困難である。 本稿では,CDM(Contrastive Distribution Methods)と呼ばれるオープンドメインテキスト生成手法を提案する。 モデルパラメータの増加とLLM性能の向上の接続を活用して、CDMは2つの確率分布の_contrast_から品質指標へのマッピングを生成する。 オープンドメインテキスト生成評価のためのCDMを2つのパラダイムで検討する。 1) _Generative_CDMは、2つの言語モデルの分布のコントラストを利用して、識別器ベースのメトリクスを訓練するための合成例を生成する。 2) _Discriminative_CDMは2つの言語モデル間の分布格差を直接利用して評価を行う。 マルチターン対話におけるコヒーレンス評価と,制御可能な生成のためのコモンセンス評価に関する実験は,既存の自動評価指標よりもCDMの方が優れた相関関係を示し,我々のアプローチの強い性能と一般化性を強調した。

Recent advancements in open-domain text generation, driven by the power of large pre-trained language models (LLMs), have demonstrated remarkable performance. However, assessing these models' generation quality remains a challenge. In this paper, we introduce a novel method for evaluating open-domain text generation called Contrastive Distribution Methods (CDM). Leveraging the connection between increasing model parameters and enhanced LLM performance, CDM creates a mapping from the _contrast_ of two probabilistic distributions -- one known to be superior to the other -- to quality measures. We investigate CDM for open-domain text generation evaluation under two paradigms: 1) _Generative_ CDM, which harnesses the contrast of two language models' distributions to generate synthetic examples for training discriminator-based metrics; 2) _Discriminative_ CDM, which directly uses distribution disparities between two language models for evaluation. Our experiments on coherence evaluation for multi-turn dialogue and commonsense evaluation for controllable generation demonstrate CDM's superior correlate with human judgment than existing automatic evaluation metrics, highlighting the strong performance and generalizability of our approach.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-06
# 低エネルギー分散の量子状態に対する行列積状態近似

Matrix product state approximations to quantum states of low energy variance ( http://arxiv.org/abs/2307.05200v2 )

ライセンス: Link先を確認
Kshiti Sneh Rai, J. Ignacio Cirac, Álvaro M. Alhambra, (参考訳) 有限エネルギー密度と消滅する小さなエネルギーゆらぎを持つ一次元系の純粋量子状態を効率的にシミュレートする方法を示す。 結合次元が大きくなるにつれてエネルギー差が減少する行列積状態を生成するテンソルネットワークアルゴリズムの性能について検討する。 我々の結果は、$\propto 1/\log N$ 程度の分散は多項式結合次元で達成できることを示唆している。 これにより、体積法則を示す典型的な固有状態とは対照的に、スペクトルの大部分にまだ適度な絡み合いエントロピーを持つ非常に狭い状態が存在することが証明される。 我々の主要な技術ツールはスピン系に対するベリー・エッシーの定理であり、積状態のエネルギー分布に対する中心極限定理の強化である。 また、この定理のより単純な証明と、独立した関心を持つべき誤差スケーリングのわずかな改善も与えている。

We show how to efficiently simulate pure quantum states in one dimensional systems that have both finite energy density and vanishingly small energy fluctuations. We do so by studying the performance of a tensor network algorithm that produces matrix product states whose energy variance decreases as the bond dimension increases. Our results imply that variances as small as $\propto 1/\log N$ can be achieved with polynomial bond dimension. With this, we prove that there exist states with a very narrow support in the bulk of the spectrum that still have moderate entanglement entropy, in contrast with typical eigenstates that display a volume law. Our main technical tool is the Berry-Esseen theorem for spin systems, a strengthening of the central limit theorem for the energy distribution of product states. We also give a simpler proof of that theorem, together with slight improvements in the error scaling, which should be of independent interest.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-06
# AIによる仕事の未来を創り出す--オンライン労働市場からの実証的証拠

"Generate" the Future of Work through AI: Empirical Evidence from Online Labor Markets ( http://arxiv.org/abs/2308.05201v2 )

ライセンス: Link先を確認
Jin Liu, Xingchen Xu, Xi Nan, Yongjun Li, Yong Tan, (参考訳) 大規模言語モデル(LLM)ベースの生成AIであるChatGPTは、さまざまな下流タスクに対してゼロショット学習能力を示す第1世代の人工知能(AGI)であると考えられている。 汎用的で創発的な性質のため、労働力学への影響は複雑で予測が難しい。 卓越したオンライン労働市場からの広範なデータセットを活用することで、ChatGPTの中核機能に直接露出していないものと比較して、テキスト関連およびプログラミング関連の仕事に関連するサブマーケットの労働需要、供給、取引の減少が明らかになる。 一方、これらの影響を受けたサブマーケットは、残りの仕事の複雑さが顕著に増加し、フリーランサーの間で競争が激化している。 興味深いことに,本研究の成果は,これまでテキスト関連業務に携わっていたフリーランサーのプログラミング関連機会への転換に起因した,プログラミング関連の労働供給の最小化が比較的少ないことを示唆している。 期間ごとのジョブの多様性はより制限される傾向にあるが、テキストからプログラミングへのスキル移行に成功している人は、ChatGPTの全体的な市場収縮の影響に対する弾力性を示す。 我々の論文は、AIの労働市場への影響と個人の反応に対する重要な洞察を提供し、この変革的技術がもたらす課題と機会に対処するための積極的な介入の必要性を強調している。

Large Language Model (LLM) based generative AI, such as ChatGPT, is considered the first generation of Artificial General Intelligence (AGI), exhibiting zero-shot learning abilities for a wide variety of downstream tasks. Due to its general-purpose and emergent nature, its impact on labor dynamics becomes complex and difficult to anticipate. Leveraging an extensive dataset from a prominent online labor market, we uncover a post-ChatGPT decline in labor demand, supply, and transactions for submarkets pertaining to text-related and programming-related jobs, in comparison to those not directly exposed to ChatGPT's core functionalities. Meanwhile, these affected submarkets exhibit a discernible increase in the complexity of the remaining jobs and a heightened level of competition among freelancers. Intriguingly, our findings indicate that the diminution in the labor supply pertaining to programming is comparatively less pronounced, a phenomenon ascribed to the transition of freelancers previously engaged in text-related tasks now bidding for programming-related opportunities. Although the per-period job diversity freelancers apply for tends to be more limited, those who successfully navigate skill transitions from text to programming demonstrate greater resilience to ChatGPT's overall market contraction impact. As AI becomes increasingly versatile and potent, our paper offers crucial insights into AI's influence on labor markets and individuals' reactions, underscoring the necessity for proactive interventions to address the challenges and opportunities presented by this transformative technology.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-06
# 量子エンハンスド実験における絡み合い遷移

Entanglement transitions in quantum-enhanced experiments ( http://arxiv.org/abs/2310.03061v3 )

ライセンス: Link先を確認
Shane P. Kelly, Jamir Marino, (参考訳) 関心のシステムから情報を伝達し、量子コンピュータで処理する量子強化実験は、従来の実験よりもサンプリングタスクにおいて指数関数的に有利になる可能性があり、射影的または弱い測定結果のみを古典的なコンピュータに格納する。 本研究では、従来の実験で発生する測定誘起相転移~(MIPT)と同様に、量子化実験も絡み合い相転移を示すことを実証する。 本研究では、2つの量子ビットに対して独立に作用し、一方の量子ビットの量子状態を計測装置に記録し、他方の量子ビットの量子状態を環境と消去するノイズ伝達演算を導入する。 次に,雑音伝達の速度で調整された絡み合い遷移を示すランダムなブロックワーク回路を構築する。 雑音伝達の臨界速度以下では、システムと装置の領域間で広範囲の絡み合いが発生するが、臨界速度を超えると、絡み合いは領域法のスケーリングを満足する。 我々の研究は、量子エンハンスメントの遷移を示すために量子エンハンスメント実験の前提条件を明確にし、量子エンハンスメントセンシングと創発的エンハンスメント現象を結びつける基盤となる枠組みを確立する。

A quantum-enhanced experiment, in which information is transduced from a system of interest and processed on a quantum computer, has the possibility of exponential advantage in sampling tasks over a traditional experiment, where only the measurement outcomes of projective or weak measurements are stored on a classical computer. In this work, we demonstrate that, similar to the measurement induced phase transition~(MIPT) occurring in traditional experiments, quantum-enhanced experiments can also show entanglement phase transitions. We introduce a noisy transduction operation which replaces projective measurements and acts independently on two qubits, recording the quantum state of one qubit in the measurement apparatus, while erasing the quantum state of the other qubit with the environment. We then construct a random brickwork circuit which shows an entanglement transition tuned by the rate of noisy transduction operations. Below the critical rate of noisy transduction, an extensive amount of entanglement is generated between regions of the system and apparatus, while above the critical rate, entanglement satisfies area law scaling. Our work delineates the prerequisites for quantum-enhanced experiments to manifest entanglement transitions, thereby establishing a foundational framework that connects quantum-enhanced sensing with emergent entanglement phenomena.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-06
# リーニューロン : 半単純リー代数のための随伴同変ニューラルネットワーク

Lie Neurons: Adjoint-Equivariant Neural Networks for Semisimple Lie Algebras ( http://arxiv.org/abs/2310.04521v3 )

ライセンス: Link先を確認
Tzu-Yuan Lin, Minghan Zhu, Maani Ghaffari, (参考訳) 本稿では,任意の半単純リー代数のデータを入力として取り込む同変ニューラルネットワークを提案する。 対応する群はリー代数を随伴演算として作用し、提案したネットワーク随伴-同変を導出する。 我々のフレームワークは、3次元ユークリッド空間からリー代数空間への単純な$\mathrm{SO}(3)$-equivariant Networkであるベクトルニューロンを一般化し、キリング形式の不変性の上に構築する。 さらに,モデリング能力を拡張した新しいリーブラケット層と幾何チャネル混合層を提案する。 $\mathfrak{so}(3)$, $\mathfrak{sl}(3)$, $\mathfrak{sp}(4)$ Lie algebras on various tasks, including fit equivariant and invariant function, learning system dynamics, point cloud registration, and homography-based shape classification。 提案する同変ネットワークは,様々な領域で適用性と競争性を示す。

This paper proposes an equivariant neural network that takes data in any semi-simple Lie algebra as input. The corresponding group acts on the Lie algebra as adjoint operations, making our proposed network adjoint-equivariant. Our framework generalizes the Vector Neurons, a simple $\mathrm{SO}(3)$-equivariant network, from 3-D Euclidean space to Lie algebra spaces, building upon the invariance property of the Killing form. Furthermore, we propose novel Lie bracket layers and geometric channel mixing layers that extend the modeling capacity. Experiments are conducted for the $\mathfrak{so}(3)$, $\mathfrak{sl}(3)$, and $\mathfrak{sp}(4)$ Lie algebras on various tasks, including fitting equivariant and invariant functions, learning system dynamics, point cloud registration, and homography-based shape classification. Our proposed equivariant network shows wide applicability and competitive performance in various domains.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-06
# コンピュータサイエンス教育における継続的な改善を可能にする適応実験の可能性

Opportunities for Adaptive Experiments to Enable Continuous Improvement in Computer Science Education ( http://arxiv.org/abs/2310.12324v2 )

ライセンス: Link先を確認
Ilya Musabirov, Angela Zavaleta-Bernuy, Pan Chen, Michael Liut, Joseph Jay Williams, (参考訳) 代替教育戦略やコース改善のランダム化A/B比較は、インストラクターによる意思決定に有用な実証的証拠を与える可能性がある。 しかし、従来の実験は、データを迅速に活用するための直接的な経路を提供しておらず、実験の学生が最良の条件を経験する可能性を高めている。 先端技術企業における製品開発における機械学習と実験の利用からインスピレーションを得て、適応的な実験が継続的なコース改善にどのように役立つかを考察する。 適応実験では、異なる条件が学生に展開されるにつれて、データは分析され、活用される。 これは、機械学習アルゴリズムを使用して、生徒の学習経験や成果を改善する上で、どのアクションがより有益なのかを特定することができる。 これらのアルゴリズムは、その後の学生との相互作用において最も効果的な条件を動的に展開し、学生のニーズをより良く支援することができる。 本稿では、CS1コースにおけるオンライン宿題問題における自己説明プロンプトの追加について、従来の実験と適応実験を並べて比較するケーススタディで説明する。 本研究は,教育環境における継続的な改善を実現するために,ブリッジング研究と実践における適応実験の重要性を探求する手法である。

Randomized A/B comparisons of alternative pedagogical strategies or other course improvements could provide useful empirical evidence for instructor decision-making. However, traditional experiments do not provide a straightforward pathway to rapidly utilize data, increasing the chances that students in an experiment experience the best conditions. Drawing inspiration from the use of machine learning and experimentation in product development at leading technology companies, we explore how adaptive experimentation might aid continuous course improvement. In adaptive experiments, data is analyzed and utilized as different conditions are deployed to students. This can be achieved using machine learning algorithms to identify which actions are more beneficial in improving students' learning experiences and outcomes. These algorithms can then dynamically deploy the most effective conditions in subsequent interactions with students, resulting in better support for students' needs. We illustrate this approach with a case study that provides a side-by-side comparison of traditional and adaptive experiments on adding self-explanation prompts in online homework problems in a CS1 course. This work paves the way for exploring the importance of adaptive experiments in bridging research and practice to achieve continuous improvement in educational settings.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-06
# データ分布比の推定による離散拡散モデリング

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution ( http://arxiv.org/abs/2310.16834v3 )

ライセンス: Link先を確認
Aaron Lou, Chenlin Meng, Stefano Ermon, (参考訳) 多くの生成的モデリングタスクの基盤となる性能にもかかわらず、拡散モデルは自然言語のような離散データ領域では不足している。 重要なことに、標準拡散モデルは、スコアマッチングの確立された理論に依存しているが、これを離散構造に一般化しようとする試みは、同じ経験的利得を得られていない。 本研究では,離散空間に自然に一致するスコアを拡張し,離散拡散モデルを構築するためにシームレスに統合し,性能を大幅に向上させる新たな損失であるスコアエントロピーを提案することによって,このギャップを埋める。 実験では,標準言語モデリングタスクにおいて,Score Entropy Discrete Diffusion Model (SEDD) を検証した。 同等のモデルサイズでは、SEDDは既存の言語拡散パラダイム(パープレキシティを25ドル~75ドル\%削減)を破り、特にGPT-2よりも優れた自動回帰モデルと競合する。 さらに、自己回帰的なモドールと比較して、SEDDは温度スケーリングのような分散アニーリング技術(約6ドル~8ドル)を必要とせずに忠実なテキストを生成する。

Despite their groundbreaking performance for many generative modeling tasks, diffusion models have fallen short on discrete data domains such as natural language. Crucially, standard diffusion models rely on the well-established theory of score matching, but efforts to generalize this to discrete structures have not yielded the same empirical gains. In this work, we bridge this gap by proposing score entropy, a novel loss that naturally extends score matching to discrete spaces, integrates seamlessly to build discrete diffusion models, and significantly boosts performance. Experimentally, we test our Score Entropy Discrete Diffusion models (SEDD) on standard language modeling tasks. For comparable model sizes, SEDD beats existing language diffusion paradigms (reducing perplexity by $25$-$75$\%) and is competitive with autoregressive models, in particular outperforming GPT-2. Furthermore, compared to autoregressive mdoels, SEDD generates faithful text without requiring distribution annealing techniques like temperature scaling (around $6$-$8\times$ better generative perplexity than un-annealed GPT-2), can trade compute and quality (similar quality with $32\times$ fewer network evaluations), and enables controllable infilling (matching nucleus sampling quality while enabling other strategies besides left to right prompting).
翻訳日:2024-06-10 20:46:33 公開日:2024-06-06
# バイオインストラクト:バイオメディカル自然言語処理のための大規模言語モデルのチューニング

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing ( http://arxiv.org/abs/2310.19975v3 )

ライセンス: Link先を確認
Hieu Tran, Zhichao Yang, Zonghai Yao, Hong Yu, (参考訳) ドメイン固有の命令データセットを導入し、マルチタスク学習原則と組み合わせることで、バイオメディカル自然言語処理(BioNLP)における大規模言語モデル(LLM)の性能を向上させる。 The Bio Instruct, including 25005 instructions to instruction-tune LLMs (LLaMA 1 & 2, 7B & 13B version)。 命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。 パラメータ効率の良い微調整にLoRA(Lo-Rank Adaptation)を用いた。 次に,複数のBioNLPタスクを用いて,これらの命令調整LLMを評価し,質問応答(QA),情報抽出(IE),テキスト生成(GEN)の3つのカテゴリに分類した。 また,命令のカテゴリ(QA,IE,生成)がモデルの性能に与える影響についても検討した。 命令調整なしのLLMと比較して、命令調整されたLLMは、QAが17.3%、IEが5.7%、ジェネレーションタスクが96%という顕著なパフォーマンス向上を示した。 LLaMA 1は,LLaMA 1から細調整された生物領域のLLaMA 1モデルと,ドメイン固有データやタスクの多種多様さを比較検討した結果,LLaMA 1モデルと競合するか,あるいは他のLLMモデルを上回った。 また,命令の微調整を密接に関連したタスクで行うと,性能向上が著しく向上することを示した。 本研究はマルチタスク学習の観察と一致し,2つの課題間の相乗効果が示唆された。 BioInstructデータセットは貴重なリソースとして機能し、LLMをチューニングすることで、最高のBioNLPアプリケーションを実現する。

To enhance the performance of large language models (LLMs) in biomedical natural language processing (BioNLP) by introducing a domain-specific instruction dataset and examining its impact when combined with multi-task learning principles. We created the BioInstruct, comprising 25,005 instructions to instruction-tune LLMs(LLaMA 1 & 2, 7B & 13B version). The instructions were created by prompting the GPT-4 language model with three-seed samples randomly drawn from an 80 human curated instructions. We employed Low-Rank Adaptation(LoRA) for parameter-efficient fine-tuning. We then evaluated these instruction-tuned LLMs on several BioNLP tasks, which can be grouped into three major categories: question answering(QA), information extraction(IE), and text generation(GEN). We also examined whether categories(e.g., QA, IE, and generation) of instructions impact model performance. Comparing with LLMs without instruction-tuned, our instruction-tuned LLMs demonstrated marked performance gains: 17.3% in QA, 5.7% in IE, and 96% in Generation tasks. Our 7B-parameter instruction-tuned LLaMA 1 model was competitive or even surpassed other LLMs in the biomedical domain that were also fine-tuned from LLaMA 1 with vast domain-specific data or a variety of tasks. Our results also show that the performance gain is significantly higher when instruction fine-tuning is conducted with closely related tasks. Our findings align with the observations of multi-task learning, suggesting the synergies between two tasks. The BioInstruct dataset serves as a valuable resource and instruction tuned LLMs lead to the best performing BioNLP applications.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-06
# キャビティQEDシミュレータのスピンガラスダイナミクスにおける量子-古典的交叉

Quantum-to-classical crossover in the spin glass dynamics of cavity QED simulators ( http://arxiv.org/abs/2311.05682v3 )

ライセンス: Link先を確認
Hossein Hosseinabadi, Darrick E. Chang, Jamir Marino, (参考訳) フラストレーションされた多体スピンボソン問題のクエンチダイナミクスを解くことにより,スピンガラス秩序の動的形成におけるスピンサイズの役割を解明する。 特に、量子および古典的なスピングラスが著しく異なる進化を示すのを観察する。 前者はスピンガラスオーダーパラメータのスピンサイズへの指数的依存性とともに磁化の急激な緩和を示し、後者はスピンサイズに依存しない長寿命予熱磁化とスピンガラスオーダーパラメータを有する。 量子-古典交叉は鋭く、比較的小さなスピンに対して起こり、量子状態の不安定さを浮き彫りにする。 さらに、相互作用のボソニック媒質の周波数が横磁場の値に近づくと、スピンガラスの秩序が共鳴的に向上することを示す。 我々の予測は、平衡から離れた自由度が$SU(2)$$の全てのスピングラス系に関係しており、最近開発された多モード空洞QED実験で検証することができる。

By solving the quench dynamics of a frustrated many-body spin-boson problem, we investigate the role of spin size on the dynamical formation of spin glass order. In particular, we observe that quantum and classical spin glasses exhibit markedly different evolution. The former displays a quick relaxation of magnetization together with an exponential dependence of the spin glass order parameter on spin size, while the latter has long-lasting prethermal magnetization and a spin glass order parameter independent of spin size. The quantum-to-classical crossover is sharp and occurs for relatively small spins, highlighting the fragility of the quantum regime. Furthermore, we show that spin glass order is resonantly enhanced when the frequency of the bosonic mediators of the interactions approaches the value of the transverse field. Our predictions are relevant for all spin glass systems with $SU(2)$ degrees of freedom away from equilibrium, and can be examined in recently developed multi-mode cavity QED experiments.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-06
# テセウスの船:LLMテキストにおける言い回しの例

A Ship of Theseus: Curious Cases of Paraphrasing in LLM-Generated Texts ( http://arxiv.org/abs/2311.08374v2 )

ライセンス: Link先を確認
Nafis Irtiza Tripto, Saranya Venkatraman, Dominik Macko, Robert Moro, Ivan Srba, Adaku Uchendu, Thai Le, Dongwon Lee, (参考訳) テキスト操作と言語変換の領域では、著者の疑問は興味深く、哲学的な探求の対象となっている。 テセウスのパラドックスの船のように、船が元の板を交換した時に同じままであるかどうかを考えると、我々の研究は興味深い疑問に突き当たっている。 特に、Large Language Models (LLMs) は、オリジナルコンテンツの生成と人間によるテキストの修正の両方において、顕著な熟練性を示しているため、LLMや類似のパラフレーズツールがテキストの言い換えに使用される場合において、著者の決定に関して重要な疑問が浮かび上がっている。 そこで我々は、この複雑なパズルを解き明かすために、言語と著者の海を哲学的に旅する。 計算手法を用いて,テキスト分類モデルにおいて,逐次的なパラフレーズ反復による性能低下は,原作者のスタイルから逸脱する程度と密接に関連していることが明らかとなり,著者の現在の概念の再考がもたらされる。

In the realm of text manipulation and linguistic transformation, the question of authorship has been a subject of fascination and philosophical inquiry. Much like the Ship of Theseus paradox, which ponders whether a ship remains the same when each of its original planks is replaced, our research delves into an intriguing question: Does a text retain its original authorship when it undergoes numerous paraphrasing iterations? Specifically, since Large Language Models (LLMs) have demonstrated remarkable proficiency in both the generation of original content and the modification of human-authored texts, a pivotal question emerges concerning the determination of authorship in instances where LLMs or similar paraphrasing tools are employed to rephrase the text--i.e., whether authorship should be attributed to the original human author or the AI-powered tool. Therefore, we embark on a philosophical voyage through the seas of language and authorship to unravel this intricate puzzle. Using a computational approach, we discover that the diminishing performance in text classification models, with each successive paraphrasing iteration, is closely associated with the extent of deviation from the original author's style, thus provoking a reconsideration of the current notion of authorship.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-06
# Fusion-Eval:LLMを用いた補助評価器の統合

Fusion-Eval: Integrating Assistant Evaluators with LLMs ( http://arxiv.org/abs/2311.09204v3 )

ライセンス: Link先を確認
Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng, (参考訳) 自然言語システムの評価は、特に自然言語理解と高レベルの推論の領域において、大きな課題を生んでいる。 本稿では,Large Language Models (LLMs) を利用した多様なアシスタント評価器からの洞察を統合する革新的なアプローチであるFusion-Evalを紹介する。 LLMは、補助評価器のスコアとともに評価する例を与えられる。 これらの評価者はそれぞれ、応答の異なる側面を評価することを専門としている。 Fusion-Eval は SummEval 上の人間と 0.962 のシステムレベルの Kendall-Tau 相関と TopicalChat 上の 0.744 のターンレベルの Spearman 相関を達成している。 これらの結果は、自然言語システム評価の領域においてFusion-Evalが持つ大きな可能性を浮き彫りにしている。

Evaluating natural language systems poses significant challenges, particularly in the realms of natural language understanding and high-level reasoning. In this paper, we introduce 'Fusion-Eval', an innovative approach that leverages Large Language Models (LLMs) to integrate insights from various assistant evaluators. The LLM is given the example to evaluate along with scores from the assistant evaluators. Each of these evaluators specializes in assessing distinct aspects of responses. Fusion-Eval achieves a 0.962 system-level Kendall-Tau correlation with humans on SummEval and a 0.744 turn-level Spearman correlation on TopicalChat, which is significantly higher than baseline methods. These results highlight Fusion-Eval's significant potential in the realm of natural language system evaluation.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-06
# NLPタスクの安全性アライメント:コンテキスト内攻撃としての弱アライズ

Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack ( http://arxiv.org/abs/2312.06924v2 )

ライセンス: Link先を確認
Yu Fu, Yufei Li, Wen Xiao, Cong Liu, Yue Dong, (参考訳) 大規模言語モデル(LLM)の有用性と安全性のバランスをとる最近の発展は、重要な疑問を提起している。 本研究は,敵攻撃によって得られた安全感性文書に着目し,各種NLPタスクの安全アライメントに有意な差異が認められた。 例えば、LLMは悪意のある長い文書を効果的に要約できるが、しばしば翻訳を拒む。 要約のような、より弱い安全アライメントを持つタスクを悪用する攻撃は、翻訳や質問応答(QA)など、従来より堅牢と考えられていたタスクの整合性を損なう可能性がある。 さらに、安全アライメントの少ない複数のNLPタスクの同時使用は、有害コンテンツを不注意に処理するLLMのリスクを増大させる。 我々は、これらの脆弱性を様々な安全対応LLM、特にLlama2モデル、GeminiとGPT-4で実証し、幅広いNLPタスクの安全アライメントを強化する緊急の必要性を示している。

Recent developments in balancing the usefulness and safety of Large Language Models (LLMs) have raised a critical question: Are mainstream NLP tasks adequately aligned with safety consideration? Our study, focusing on safety-sensitive documents obtained through adversarial attacks, reveals significant disparities in the safety alignment of various NLP tasks. For instance, LLMs can effectively summarize malicious long documents but often refuse to translate them. This discrepancy highlights a previously unidentified vulnerability: attacks exploiting tasks with weaker safety alignment, like summarization, can potentially compromise the integrity of tasks traditionally deemed more robust, such as translation and question-answering (QA). Moreover, the concurrent use of multiple NLP tasks with lesser safety alignment increases the risk of LLMs inadvertently processing harmful content. We demonstrate these vulnerabilities in various safety-aligned LLMs, particularly Llama2 models, Gemini and GPT-4, indicating an urgent need for strengthening safety alignments across a broad spectrum of NLP tasks.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-06
# プレコンディショニングによる高密度リニアシステムの解法

Solving Dense Linear Systems Faster Than via Preconditioning ( http://arxiv.org/abs/2312.08893v2 )

ライセンス: Link先を確認
Michał Dereziński, Jiaming Yang, (参考訳) Ax=b$, return $\tilde x$ such that $\|A\tilde x-b\|\leq \epsilon\|b\|$ in time: $$$\tilde O((n^2+nk^{\omega-1})\log1/\epsilon), $k$ is the number of singular value of $A$ than $O(1)$ times, $\omega < 2.372$ is the matrix multiplication exponent, $\tilde O$ hides a poly-logarithmic in $n factor。 k=O(n^{1-\theta})$(つまり、$A$はノイズのあるデータや正規化のために平坦なスペクトル、例えばg)を持つとき、これはシステムを直接解決するコストと共役勾配のような反復的手法を前処理するコストの両方を改善する。 特に、我々のアルゴリズムは$k=O(n^{0.729})$のときに$\tilde O(n^2)$ランタイムを持つ。 さらに、この結果はスパース正半定行列と最小二乗回帰に適応する。 主アルゴリズムはランダムなブロック座標降下法とみなすことができ、そこで鍵となる課題は、良い収束と高速な解定時間を確保することである。 本稿では, 基本対称多項式の偏極化理論を用いて, 座標ブロックを行列点過程を用いてサンプリングする場合に, 鋭い収束保証を確立する。 次に、マルコフ連鎖結合論を用いて、より安価なサンプリング方式で類似の収束が達成できることを示し、行列スケッチによるブロック座標降下更新を高速化する。

We give a stochastic optimization algorithm that solves a dense $n\times n$ real-valued linear system $Ax=b$, returning $\tilde x$ such that $\|A\tilde x-b\|\leq \epsilon\|b\|$ in time: $$\tilde O((n^2+nk^{\omega-1})\log1/\epsilon),$$ where $k$ is the number of singular values of $A$ larger than $O(1)$ times its smallest positive singular value, $\omega < 2.372$ is the matrix multiplication exponent, and $\tilde O$ hides a poly-logarithmic in $n$ factor. When $k=O(n^{1-\theta})$ (namely, $A$ has a flat-tailed spectrum, e.g., due to noisy data or regularization), this improves on both the cost of solving the system directly, as well as on the cost of preconditioning an iterative method such as conjugate gradient. In particular, our algorithm has an $\tilde O(n^2)$ runtime when $k=O(n^{0.729})$. We further adapt this result to sparse positive semidefinite matrices and least squares regression. Our main algorithm can be viewed as a randomized block coordinate descent method, where the key challenge is simultaneously ensuring good convergence and fast per-iteration time. In our analysis, we use theory of majorization for elementary symmetric polynomials to establish a sharp convergence guarantee when coordinate blocks are sampled using a determinantal point process. We then use a Markov chain coupling argument to show that similar convergence can be attained with a cheaper sampling scheme, and accelerate the block coordinate descent update via matrix sketching.
翻訳日:2024-06-10 20:27:03 公開日:2024-06-06
# 強結合光と物質に対する平衡場理論から遠ざかる:マルチモードキャビティQEDのフラストレーションのダイナミクス

Far from equilibrium field theory for strongly coupled light and matter: dynamics of frustrated multi-mode cavity QED ( http://arxiv.org/abs/2312.11624v4 )

ライセンス: Link先を確認
Hossein Hosseinabadi, Darrick E. Chang, Jamir Marino, (参考訳) 光物質界面は現在、駆動散逸条件下で量子相関状態を設計する能力に特徴付けられる新しい段階に入った。 この新しい世代の実験を推進するために、量子光学における従来のアプローチを超越することで、強い結合状態における非単体多体力学をモデル化する必要がある。 本研究では, 従来高エネルギー物理学で用いられていた関数積分法を適用し, 相互作用する光物質系の非平衡ダイナミクスを得る。 提案手法は, 時間的多項式コストで量子進化を記述するための非摂動的・保存的枠組みを提供する, 「二粒子既約」 (2PI) 実効作用の構築に基礎を置いている。 本研究は, フラストレーションを伴う多モード空洞量子力学(H. Hosseinabadi, D. Chang, J. Marino, arXiv:2311.05682]の文脈におけるスピンガラス形成の解析を補完する手法である。 最後に、多体量子光学における他の短期的プラットフォームを記述する技術の可能性と、この新しい種類の実験の予測の可能性について概説する。

Light-matter interfaces have now entered a new stage marked by the ability to engineer quantum correlated states under driven-dissipative conditions. To propel this new generation of experiments, we are confronted with the need to model non-unitary many-body dynamics in strongly coupled regimes, by transcending traditional approaches in quantum optics. In this work, we contribute to this program by adapting a functional integral technique, conventionally employed in high-energy physics, in order to obtain non-equilibrium dynamics for interacting light-matter systems. Our approach is grounded in constructing 'two-particle irreducible' (2PI) effective actions, which provide a non-perturbative and conserving framework for describing quantum evolution at a polynomial cost in time. We apply our method to complement the analysis of spin glass formation in the context of frustrated multi-mode cavity quantum electrodynamics, initiated in our accompanying work [H. Hosseinabadi, D. Chang, J. Marino, arXiv:2311.05682]. Finally, we outline the capability of the technique to describe other near-term platforms in many-body quantum optics, and its potential to make predictions for this new class of experiments.
翻訳日:2024-06-10 20:27:03 公開日:2024-06-06
# 自己コントラスト: 一貫性のない問題解決の観点からの反射性向上

Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives ( http://arxiv.org/abs/2401.02009v3 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Linjuan Wu, Qiuying Peng, Jun Wang, Yueting Zhuang, Weiming Lu, (参考訳) LLM(Large Language Model)のリフレクション能力は注目されている。 ポストホック・プロンプト戦略(例えば、反射と自己精製)は、自己評価または外部からのフィードバックに基づいてLSMの反応を洗練させる。 しかし、最近の研究では外部からのフィードバックがないため、LLMの内在反射は不安定である。 我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。 LLMは自己評価時に過剰な自信や高いランダム性を示し、頑固なフィードバックや一貫性のないフィードバックを与え、反射を弱める。 これを改善するために、私たちはセルフコントラスト(Self-Contrast)を提唱する。 要求に合わせて様々な解決の観点を適応的に探求し、違いを対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。 本手法は, 頑健なバイアスを軽減するため, LLM を多種多様な視点で適用する。 さらに、それらの相違は、LLMがしばしば見落としている潜在的な誤りや固有の不確実性を示している。 これらの反射はより正確で安定した反射を触媒することができる。 様々なLSMを用いた一連の推論および翻訳タスクの実験は、我々の戦略の有効性と汎用性を明らかにするのに役立ちます。

The reflection capacity of Large Language Model (LLM) has garnered extensive attention. A post-hoc prompting strategy, e.g., reflexion and self-refine, refines LLM's response based on self-evaluated or external feedback. However, recent research indicates without external feedback, LLM's intrinsic reflection is unstable. Our investigation unveils that the key bottleneck is the quality of the self-evaluated feedback. We find LLMs often exhibit overconfidence or high randomness when self-evaluate, offering stubborn or inconsistent feedback, which causes poor reflection. To remedy this, we advocate Self-Contrast: It adaptively explores diverse solving perspectives tailored to the request, contrasts the differences, and summarizes these discrepancies into a checklist which could be used to re-examine and eliminate discrepancies. Our method endows LLM with diverse perspectives to alleviate stubborn biases. Moreover, their discrepancies indicate potential errors or inherent uncertainties that LLM often overlooks. Reflecting upon these can catalyze more accurate and stable reflection. Experiments conducted on a series of reasoning and translation tasks with different LLMs serve to underscore the effectiveness and generality of our strategy.
翻訳日:2024-06-10 20:27:03 公開日:2024-06-06
# Patchscopes: 隠れた言語モデルの表現を検査するための統一フレームワーク

Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models ( http://arxiv.org/abs/2401.06102v4 )

ライセンス: Link先を確認
Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva, (参考訳) 大きな言語モデル(LLM)の内部表現を理解することは、モデルの振る舞いを説明し、人間の値との整合性を検証するのに役立つ。 人間の理解可能なテキストを生成する上でのLLMの能力を考えると,モデル自体を自然言語で内部表現を説明するために活用することを提案する。 我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い疑問にどのように答えられるかを示す。 本稿では,従来の表現を語彙空間に投影し,LLM計算に介入する手法の多くを,このフレームワークの例とみなすことができることを示す。 さらに、初期層検査の失敗や表現力の欠如といった欠点を、パッチスコープによって緩和することができる。 Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明する、マルチホップ推論エラー修正などの新しい可能性も開放している。

Understanding the internal representations of large language models (LLMs) can help explain models' behavior and verify their alignment with human values. Given the capabilities of LLMs in generating human-understandable text, we propose leveraging the model itself to explain its internal representations in natural language. We introduce a framework called Patchscopes and show how it can be used to answer a wide range of questions about an LLM's computation. We show that many prior interpretability methods based on projecting representations into the vocabulary space and intervening on the LLM computation can be viewed as instances of this framework. Moreover, several of their shortcomings such as failure in inspecting early layers or lack of expressivity can be mitigated by Patchscopes. Beyond unifying prior inspection techniques, Patchscopes also opens up new possibilities such as using a more capable model to explain the representations of a smaller model, and multihop reasoning error correction.
翻訳日:2024-06-10 20:27:02 公開日:2024-06-06
# Mind Your Format: 文脈内学習改善の一貫性評価を目指して

Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements ( http://arxiv.org/abs/2401.06766v3 )

ライセンス: Link先を確認
Anton Voronov, Lena Wolf, Max Ryabinin, (参考訳) 大規模な言語モデルは、いくつかの例から新しいタスクを解くための驚くべき能力を示している。 プロンプトテンプレート、あるいはインプット例をフォーマットしてプロンプトを取得する方法は、コンテキスト内学習の重要な側面であるが、見過ごされがちである。 本研究では,テンプレート形式が文脈内学習性能に与える影響について,包括的に研究する。 我々は、21モデル(770Mから70Bパラメータ)と4つの標準分類データセットに対するプロンプトテンプレートの影響を評価した。 テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。 さらに重要なのは、最高のテンプレートは異なるセットアップ間でも、同じファミリーのモデル間でも転送しません。 この結果から,テンプレート選択を無視する評価手法が,異なる作業におけるテンプレートの相違による誤解を招く可能性が示唆された。 この問題を緩和する第一歩として、いくつかのテンプレートにまたがるモデル予測を集約するTemplate Ensemblesを提案する。 この単純なテスト時間拡張は、ランダムなテンプレートセットの選択に対して堅牢でありながら、平均的なパフォーマンスを高める。

Large language models demonstrate a remarkable capability for learning to solve new tasks from a few examples. The prompt template, or the way the input examples are formatted to obtain the prompt, is an important yet often overlooked aspect of in-context learning. In this work, we conduct a comprehensive study of the template format's influence on the in-context learning performance. We evaluate the impact of the prompt template across 21 models (from 770M to 70B parameters) and 4 standard classification datasets. We show that a poor choice of the template can reduce the performance of the strongest models and inference methods to a random guess level. More importantly, the best templates do not transfer between different setups and even between models of the same family. Our findings show that the currently prevalent approach to evaluation, which ignores template selection, may give misleading results due to different templates in different works. As a first step towards mitigating this issue, we propose Template Ensembles that aggregate model predictions across several templates. This simple test-time augmentation boosts average performance while being robust to the choice of random set of templates.
翻訳日:2024-06-10 20:27:02 公開日:2024-06-06
# HyperSense:エネルギー効率の良いスパースデータ処理のための超次元知能センシング

HyperSense: Hyperdimensional Intelligent Sensing for Energy-Efficient Sparse Data Processing ( http://arxiv.org/abs/2401.10267v3 )

ライセンス: Link先を確認
Sanggeon Yun, Hanning Chen, Ryozo Masukawa, Hamza Errahmouni Barkam, Andrew Ding, Wenjun Huang, Arghavan Rezvani, Shaahin Angizi, Mohsen Imani, (参考訳) ハードウェアとソフトウェアを共同設計したHyperSenseは,センサデータのオブジェクト存在予測に基づいて,ADCモジュールのデータ生成率を効率的に制御する。 センサー量とデータレートをエスカレートすることで生じる課題に対処するため、HyperSenseはエネルギー効率の低いADCを使用して冗長なデジタルデータを削減し、機械学習システムコストを削減している。 ニューラルインスパイアされた超次元コンピューティング(HDC)を活用して、HyperSenseはリアルタイムの生の低精度センサーデータを解析し、ノイズ、メモリ中心性、リアルタイム学習を扱う利点を提供する。 提案するHyperSenseモデルは,物体検出のための高性能ソフトウェアとリアルタイムハードウェア予測を組み合わせ,インテリジェントセンサ制御という新しい概念を導入した。 AUC(Area Under the Curve)とROC(Area Under the Curve)曲線によって証明された,ソリューションの優れた性能を示すソフトウェアとハードウェアの総合評価を行った。 ハードウェア面では、HyperSense用に調整されたFPGAベースのドメイン固有アクセラレータはNVIDIA Jetson OrinのYOLOv4と比較して5.6倍の高速化を実現し、従来のシステムに比べて92.1%の省エネを実現しています。 これらの結果はHyperSenseの有効性と効率を裏付けるもので、多様なアプリケーションにわたるインテリジェントなセンシングとリアルタイムデータ処理のための有望なソリューションとして位置づけられている。

Introducing HyperSense, our co-designed hardware and software system efficiently controls Analog-to-Digital Converter (ADC) modules' data generation rate based on object presence predictions in sensor data. Addressing challenges posed by escalating sensor quantities and data rates, HyperSense reduces redundant digital data using energy-efficient low-precision ADC, diminishing machine learning system costs. Leveraging neurally-inspired HyperDimensional Computing (HDC), HyperSense analyzes real-time raw low-precision sensor data, offering advantages in handling noise, memory-centricity, and real-time learning. Our proposed HyperSense model combines high-performance software for object detection with real-time hardware prediction, introducing the novel concept of Intelligent Sensor Control. Comprehensive software and hardware evaluations demonstrate our solution's superior performance, evidenced by the highest Area Under the Curve (AUC) and sharpest Receiver Operating Characteristic (ROC) curve among lightweight models. Hardware-wise, our FPGA-based domain-specific accelerator tailored for HyperSense achieves a 5.6x speedup compared to YOLOv4 on NVIDIA Jetson Orin while showing up to 92.1% energy saving compared to the conventional system. These results underscore HyperSense's effectiveness and efficiency, positioning it as a promising solution for intelligent sensing and real-time data processing across diverse applications.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-06
# WebVoyager: 大規模マルチモーダルモデルによるエンドツーエンドWebエージェントの構築

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models ( http://arxiv.org/abs/2401.13919v4 )

ライセンス: Link先を確認
Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、現実のシナリオにおける自律的アプリケーションの開発を特徴とする新しい時代へと導いてきた。 既存のWebエージェントは、通常、1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。 このギャップを埋めるために、WebVoyagerを紹介します。これは、LMM(Large Multimodal Model)を利用した革新的なWebエージェントで、現実世界のWebサイトと対話することで、エンド・ツー・エンドでのユーザーインストラクションを完了します。 さらに,15のWebサイトから実世界のタスクをコンパイルし,GPT-4Vのマルチモーダル理解機能を活用した自動評価プロトコルを導入し,オープンエンドWebエージェントの評価を行う。 GPT-4 (All Tools) と WebVoyager (text-only) の両方の性能をはるかに上回り,WebVoyager の異常な性能を裏付けるものである。 提案した自動評価基準は,人的判断と85.3%の一致を達成し,Webエージェントの信頼性と正確な評価を行う上での有効性を示した。

The rapid advancement of large language models (LLMs) has led to a new era marked by the development of autonomous applications in real-world scenarios, which drives innovation in creating advanced web agents. Existing web agents typically only handle one input modality and are evaluated only in simplified web simulators or static web snapshots, greatly limiting their applicability in real-world scenarios. To bridge this gap, we introduce WebVoyager, an innovative Large Multimodal Model (LMM) powered web agent that can complete user instructions end-to-end by interacting with real-world websites. Moreover, we establish a new benchmark by compiling real-world tasks from 15 popular websites and introduce an automatic evaluation protocol leveraging multimodal understanding abilities of GPT-4V to evaluate open-ended web agents. We show that WebVoyager achieves a 59.1% task success rate on our benchmark, significantly surpassing the performance of both GPT-4 (All Tools) and the WebVoyager (text-only) setups, underscoring the exceptional capability of WebVoyager. The proposed automatic evaluation metric achieves 85.3% agreement with human judgment, indicating its effectiveness in providing reliable and accurate assessments of web agents.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-06
# Dolma: 言語モデル事前学習のための3兆ドルのオープンコーパス

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research ( http://arxiv.org/abs/2402.00159v2 )

ライセンス: Link先を確認
Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo, (参考訳) 現在の最高のパフォーマンス言語モデルをトレーニングするために使用される事前学習コーパスに関する情報はほとんど議論されていない: 商用モデルは、そのデータをほとんど詳細にせず、オープンモデルでさえ、それを再現するためのトレーニングデータやレシピを伴わずに、しばしばリリースされる。 結果として、トレーニングデータがモデル能力や制限に与える影響を理解するなど、言語モデリングに関する科学的研究を行ない、進展させることが困難である。 言語モデル事前学習の科学的研究を促進するため,Webコンテンツ,科学論文,コード,パブリックドメイン書籍,ソーシャルメディア,百科事典資料の多種多様な混在から構築された3トリルの英語コーパスであるDolmaをキュレートし,公開する。 我々は、Dolmaの設計原則、その構築の詳細、内容の要約を含む、広範囲に文書化している。 我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。 最後に,データキュレーションツールキットをオープンソース化し,データの再現を可能にするとともに,大規模データキュレーションのさらなる研究を支援する。

Information about pretraining corpora used to train the current best-performing language models is seldom discussed: commercial models rarely detail their data, and even open models are often released without accompanying training data or recipes to reproduce them. As a result, it is challenging to conduct and advance scientific research on language modeling, such as understanding how training data impacts model capabilities and limitations. To facilitate scientific research on language model pretraining, we curate and release Dolma, a three-trillion-token English corpus, built from a diverse mixture of web content, scientific papers, code, public-domain books, social media, and encyclopedic materials. We extensively document Dolma, including its design principles, details about its construction, and a summary of its contents. We present analyses and experimental results on intermediate states of Dolma to share what we have learned about important data curation practices. Finally, we open-source our data curation toolkit to enable reproduction of our work as well as support further research in large-scale data curation.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-06
# ニューラル・オプティカル・トランスポートによる分布のバリーセンターの推定

Estimating Barycenters of Distributions with Neural Optimal Transport ( http://arxiv.org/abs/2402.03828v2 )

ライセンス: Link先を確認
Alexander Kolesov, Petr Mokrov, Igor Udovichenko, Milena Gazdieva, Gudmund Pammer, Evgeny Burnaev, Alexander Korotin, (参考訳) 確率測定の集合が与えられた場合、実践者は基準分布を適切に集約する「平均」分布を見つける必要がある。 そのような平均の理論的に魅力的な概念は、ワッサーシュタイン・バリーセンターであり、これは我々の研究の主焦点である。 最適輸送(OT)の二重定式化を基礎として,ワッサーシュタイン・バリセンタ問題を解くための新しいスケーラブルなアプローチを提案する。 提案手法は,近年のニューラルOT解法に基づいており,二段階の対角学習目標を持ち,一般的なコスト関数に対して機能する。 バリセンタのタスクを利用する典型的な逆アルゴリズムは三段階最適化を利用しており、主に2次コストに重点を置いているため、これらは我々の手法の重要な利点である。 また,提案手法の理論的誤差境界を定め,その適用性や有効性を示す。 ソースコードはhttps://github.com/justkolesov/NOTBarycentersで公開されています。

Given a collection of probability measures, a practitioner sometimes needs to find an "average" distribution which adequately aggregates reference distributions. A theoretically appealing notion of such an average is the Wasserstein barycenter, which is the primal focus of our work. By building upon the dual formulation of Optimal Transport (OT), we propose a new scalable approach for solving the Wasserstein barycenter problem. Our methodology is based on the recent Neural OT solver: it has bi-level adversarial learning objective and works for general cost functions. These are key advantages of our method since the typical adversarial algorithms leveraging barycenter tasks utilize tri-level optimization and focus mostly on quadratic cost. We also establish theoretical error bounds for our proposed approach and showcase its applicability and effectiveness in illustrative scenarios and image data setups. Our source code is available at https://github.com/justkolesov/NOTBarycenters.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-06
# 言語モデルによるフィードバックループは、コンテキスト内リワードハッキングを駆動する

Feedback Loops With Language Models Drive In-Context Reward Hacking ( http://arxiv.org/abs/2402.06627v3 )

ライセンス: Link先を確認
Alexander Pan, Erik Jones, Meena Jagadeesan, Jacob Steinhardt, (参考訳) 言語モデルは、Webページに読み書きするAPIをクエリし、人間の振る舞いを形作るコンテンツを生成し、自律的なエージェントとしてシステムコマンドを実行する。 これらの相互作用はフィードバックループを形成し、LLM出力は世界に影響を与える。 本研究では、フィードバックループがコンテキスト内報酬ハック(ICRH)を引き起こす可能性を示し、テスト時のLLMは(潜在的に暗黙的な)目的を最適化するが、プロセス中に負の副作用を生じさせる。 例えば、Twitterのエンゲージメントを高めるために展開されたLLMエージェントを考えてみましょう。 ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。 これらのプロセスでは、静的データセットの評価は不十分であり、フィードバック効果を見逃しているため、最も有害な振る舞いをキャプチャすることはできない。 ICRHのインスタンス数を増やすために,評価のための3つの推奨事項を提供する。 AI開発が加速するにつれて、フィードバックループの効果が増大し、LCMの振る舞いを形作る上での役割を理解する必要性が高まる。

Language models influence the external world: they query APIs that read and write to web pages, generate content that shapes human behavior, and run system commands as autonomous agents. These interactions form feedback loops: LLM outputs affect the world, which in turn affect subsequent LLM outputs. In this work, we show that feedback loops can cause in-context reward hacking (ICRH), where the LLM at test-time optimizes a (potentially implicit) objective but creates negative side effects in the process. For example, consider an LLM agent deployed to increase Twitter engagement; the LLM may retrieve its previous tweets into the context window and make them more controversial, increasing engagement but also toxicity. We identify and study two processes that lead to ICRH: output-refinement and policy-refinement. For these processes, evaluations on static datasets are insufficient -- they miss the feedback effects and thus cannot capture the most harmful behavior. In response, we provide three recommendations for evaluation to capture more instances of ICRH. As AI development accelerates, the effects of feedback loops will proliferate, increasing the need to understand their role in shaping LLM behavior.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-06
# 密度行列作用素のクリロフ複雑性

Krylov complexity of density matrix operators ( http://arxiv.org/abs/2402.09522v3 )

ライセンス: Link先を確認
Pawel Caputa, Hyun-Sik Jeong, Sinong Liu, Juan F. Pedraza, Le-Chen Qu, (参考訳) 量子システムの複雑性の定量化は近年、Krylovの複雑性(C_K$)やSpreadの複雑性(C_S$)など、関心の高まりを目撃している。 本研究では,密度行列演算子で表される状態の複雑さを考慮し,それらの相互作用を考察する。 問題の設定後、一般的な2次元ヒルベルト空間、量子ビット状態、量子調和振動子、ランダム行列理論にまたがる解析的および数値的な例を分析し、洞察力のある関係を明らかにする。 一般的な純状態については, (I) モーメント生成関数と生存振幅の対応, (II) 早期に$C_K$ と $2C_S$ の等価性を示す。 さらに、極大に絡み合った純粋状態に対しては、$C_K$ のモーメント生成関数がスペクトル形式因子となり、遅くとも$C_K$ は単に$N$次元ヒルベルト空間内の$N\geq2$ に対して $NC_S$ に関係している。 特に、$C_K = 2C_S$が$N=2$のとき、すべての時間にわたって保持されることを確認する。 ランダム行列理論のレンズを通して、中間時の複雑度間のずれを議論し、生存振幅のレベルにおける平均的アプローチの微妙さを強調する。

Quantifying complexity in quantum systems has witnessed a surge of interest in recent years, with Krylov-based measures such as Krylov complexity ($C_K$) and Spread complexity ($C_S$) gaining prominence. In this study, we investigate their interplay by considering the complexity of states represented by density matrix operators. After setting up the problem, we analyze a handful of analytical and numerical examples spanning generic two-dimensional Hilbert spaces, qubit states, quantum harmonic oscillators, and random matrix theories, uncovering insightful relationships. For generic pure states, our analysis reveals two key findings: (I) a correspondence between moment-generating functions (of Lanczos coefficients) and survival amplitudes, and (II) an early-time equivalence between $C_K$ and $2C_S$. Furthermore, for maximally entangled pure states, we find that the moment-generating function of $C_K$ becomes the Spectral Form Factor and, at late-times, $C_K$ is simply related to $NC_S$ for $N\geq2$ within the $N$-dimensional Hilbert space. Notably, we confirm that $C_K = 2C_S$ holds across all times when $N=2$. Through the lens of random matrix theories, we also discuss deviations between complexities at intermediate times and highlight subtleties in the averaging approach at the level of the survival amplitude.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-06
# TOAD: 多様な応答スタイルを持つタスク指向自動ダイアログ

TOAD: Task-Oriented Automatic Dialogs with Diverse Response Styles ( http://arxiv.org/abs/2402.10137v3 )

ライセンス: Link先を確認
Yinhong Liu, Yimai Fang, David Vandyke, Nigel Collier, (参考訳) 大規模言語モデル(LLM)の最近の進歩を踏まえると、次世代の仮想アシスタントに対する期待には、さまざまな利用シナリオにおける自然性と適応性の向上が含まれている。 しかし、タスク指向ダイアログ(TOD)のための高品質なアノテートデータの作成は遅く、コストがかかると認識されている。 これらの課題に対処するために,新しいスケーラブルなTODデータセットであるTask-Oriented Automatic Dialogs(TOAD)と,その自動生成パイプラインを紹介する。 TOADデータセットは、現実的なアプリケーションコンテキストのインタラクションをシミュレートし、さまざまなシステムレスポンススタイルオプションを提供する。 システム応答スタイルの2つの側面は、冗長度レベルとユーザの表現ミラーリングである。 我々はTOADを2つの応答生成タスクでベンチマークし、その結果、ユーザ表現ミラーリングなしでより冗長な応答や応答をモデリングすることがより困難であることを示した。

In light of recent advances in large language models (LLMs), the expectations for the next generation of virtual assistants include enhanced naturalness and adaptability across diverse usage scenarios. However, the creation of high-quality annotated data for Task-Oriented Dialog (TOD) is recognized to be slow and costly. To address these challenges, we introduce Task-Oriented Automatic Dialogs (TOAD), a novel and scalable TOD dataset along with its automatic generation pipeline. The TOAD dataset simulates realistic app context interaction and provide a variety of system response style options. Two aspects of system response styles are considered, verbosity level and users' expression mirroring. We benchmark TOAD on two response generation tasks, and the results show that modeling more verbose responses or responses without user expression mirroring is more challenging.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-06
# ゴールドスタンダードアンサーを使わずにLLM幻覚を計測・低減する

Measuring and Reducing LLM Hallucination without Gold-Standard Answers ( http://arxiv.org/abs/2402.10412v2 )

ライセンス: Link先を確認
Jiaheng Wei, Yuanshun Yao, Jean-Francois Ton, Hongyi Guo, Andrew Estornell, Yang Liu, (参考訳) LLM幻覚(英: LLM Hallucination)とは、LLMの信頼性と信頼性に対する大きな脅威である。 この複雑な問題を解決するための最初のステップは、それを測定することです。 しかし、既存の幻覚測定基準では、人間によって書かれた「ベスト」または「正しい」回答という、ゴールド標準の回答を持つベンチマークデータセットが必要である。 このような要求により幻覚測定はコストがかかり、ヒューマンエラーが生じる。 本研究は,金標準解が存在しない場合のシナリオに特化して設計された,革新的幻覚尺度であるFactualness Evaluations via Weighting LLMs (FEWL)を提案する。 FEWL は金標準回答のプロキシとして機能する既製の LLM の回答を利用する。 鍵となる課題は、LLMの専門知識を資源的に定量化する方法である。 FEWLにはある程度の理論的保証があり、基準LDMよりも正確な幻覚対策が可能であることを実証的に示している。 また、FEWLを利用して、コンテキスト内学習と教師付き微調整の両方を通して幻覚を減らす方法を示す。 Truthful-QA, CHALE, HaluEvalデータセットの大規模な実験結果から, FEWLの有効性が示された。

LLM hallucination, i.e. generating factually incorrect yet seemingly convincing answers, is currently a major threat to the trustworthiness and reliability of LLMs. The first step towards solving this complicated problem is to measure it. However, existing hallucination metrics require having a benchmark dataset with gold-standard answers, i.e. "best" or "correct" answers written by humans. Such requirements make hallucination measurement costly and prone to human errors. In this work, we propose Factualness Evaluations via Weighting LLMs (FEWL), an innovative hallucination metric that is specifically designed for the scenario when gold-standard answers are absent. FEWL leverages the answers from off-the-shelf LLMs that serve as a proxy of gold-standard answers. The key challenge is how to quantify the expertise of reference LLMs resourcefully. We show FEWL has certain theoretical guarantees and demonstrate empirically it gives more accurate hallucination measures than naively using reference LLMs. We also show how to leverage FEWL to reduce hallucination through both in-context learning and supervised fine-tuning. Extensive experiment results on Truthful-QA, CHALE, and HaluEval datasets demonstrate the effectiveness of FEWL.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-06
# 命の糸:談話モチーフによる機械生成テキストの検出

Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs ( http://arxiv.org/abs/2402.10586v2 )

ライセンス: Link先を確認
Zae Myung Kim, Kwang Hee Lee, Preston Zhu, Vipul Raheja, Dongyeop Kang, (参考訳) 大規模言語モデル (LLM) の出現に伴い、人造テキストと機械生成テキストの境界線はますます曖昧になっている。 本稿は,人間によって書かれたテキストにおける識別可能な言語的特徴とユニークな言語的特性の同定について,特にその表層構造を超えたテキストの基本的な言説構造を明らかにすることを目的としている。 新たな手法を導入し, 階層解析木と再帰的ハイパーグラフを用いて, LLMとヒトの双方が生成するテキストに特有の談話パターンを明らかにする。 実証的な結果は、LLMと人間の両方が、特定のドメインの影響を受けやすい談話パターンを生成する一方で、人間の文章は、異なるドメインにおける人間の文章のニュアンスな性質を反映して、より構造的な多様性を示すことを示している。 特に、階層的談話機能の導入は、アウト・オブ・ディストリビューションやパラフレーズ化されたサンプルであっても、人書きテキストと機械生成テキストの区別において、バイナリ分類器の全体的なパフォーマンスを向上させる。 このことは、テキストパターンの分析に階層的な談話的特徴を取り入れることの重要性を浮き彫りにする。 コードとデータセットはhttps://github.com/minnesotanlp/threads-of-subtletyで公開されている。

With the advent of large language models (LLM), the line between human-crafted and machine-generated texts has become increasingly blurred. This paper delves into the inquiry of identifying discernible and unique linguistic properties in texts that were written by humans, particularly uncovering the underlying discourse structures of texts beyond their surface structures. Introducing a novel methodology, we leverage hierarchical parse trees and recursive hypergraphs to unveil distinctive discourse patterns in texts produced by both LLMs and humans. Empirical findings demonstrate that, although both LLMs and humans generate distinct discourse patterns influenced by specific domains, human-written texts exhibit more structural variability, reflecting the nuanced nature of human writing in different domains. Notably, incorporating hierarchical discourse features enhances binary classifiers' overall performance in distinguishing between human-written and machine-generated texts, even on out-of-distribution and paraphrased samples. This underscores the significance of incorporating hierarchical discourse features in the analysis of text patterns. The code and dataset are available at https://github.com/minnesotanlp/threads-of-subtlety.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-06
# メカニズムの競合:言語モデルがファクトやカウンターファクトをどう扱うかの追跡

Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals ( http://arxiv.org/abs/2402.11655v2 )

ライセンス: Link先を確認
Francesco Ortu, Zhijing Jin, Diego Doimo, Mrinmaya Sachan, Alberto Cazzaniga, Bernhard Schölkopf, (参考訳) 解釈可能性の研究は、経験的成功と、大規模言語モデル(LLM)の内部動作に関する科学的理解のギャップを埋めることを目的としている。 しかし、既存の研究のほとんどは、モデルが事実の知識をコピーまたはリコールする方法など、単一のメカニズムの分析に重点を置いている。 本研究では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目したメカニズムの競合の定式化を提案し,最終予測においてその1つが支配的になる様子を追究する。 我々は,ロジト検査とアテンション修正という2つの解釈可能性手法を用いて,LLM内でのメカニズムの競合の方法と方法を明らかにする。 本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。 コード:https://github.com/francescortu/comp-mech。 データ:https://huggingface.co/datasets/francescortu/comp-mech。

Interpretability research aims to bridge the gap between empirical success and our scientific understanding of the inner workings of large language models (LLMs). However, most existing research focuses on analyzing a single mechanism, such as how models copy or recall factual knowledge. In this work, we propose a formulation of competition of mechanisms, which focuses on the interplay of multiple mechanisms instead of individual mechanisms and traces how one of them becomes dominant in the final prediction. We uncover how and where mechanisms compete within LLMs using two interpretability methods: logit inspection and attention modification. Our findings show traces of the mechanisms and their competition across various model components and reveal attention positions that effectively control the strength of certain mechanisms. Code: https://github.com/francescortu/comp-mech. Data: https://huggingface.co/datasets/francescortu/comp-mech.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-06
# 情報交換対称性の破れに対する測定誘起相転移の一般化

Generalizing measurement-induced phase transitions to information exchange symmetry breaking ( http://arxiv.org/abs/2402.13271v2 )

ライセンス: Link先を確認
Shane P. Kelly, Jamir Marino, (参考訳) 本研究では,監視システムの情報力学における相転移をもたらす量子バックアクションの条件について検討する。 本稿では,より一般的にシステムから量子コンピュータに量子情報を転送する,投射的測定とプローブからなるプローブを含む幅広い実験をキャプチャするフレームワークを提案する。 我々のフレームワークは、システム、装置、環境を結合するユニタリ進化のモデルを用いている。 情報力学は進化状態の R'enyi と von-Neumann エントロピーを用いて研究され、それらのレプリカ理論を構築する。 実験が持つことのできるレプリカ対称性を特定し、自発的対称性の破れについて議論する。 特に、自発対称性の破れが絡み合い遷移をもたらす最小部分群を同定する。 この対称性は、装置内の情報が環境に伝達される情報と同様にシステムの力学について情報化されている場合にのみ可能である。 我々はこの要件を情報交換対称性と呼び、エントロピーの関係でそれを定量化する。 次に、エンタングルメント遷移が、複製理論に言及することなく、情報交換対称性の自発的な破れとして理解されるかを示す。 その後、情報交換対称性の破れが示され、測定誘起相転移(MIPT)の現象を一般化する。 この理論は、ハール測度からユニタリが選択された場合において、付随するレター[1]で導入されたレンガ造りの量子強調実験に適用し、MIPTとは異なる普遍性を同定する。 この情報交換対称性の破れの概念はMIPTを一般化し、量子化実験における量子情報のダイナミクスを理解するための枠組みを提供する。

In this work we investigate the conditions for quantum back action to result in a phase transition in the information dynamics of a monitored system. We introduce a framework that captures a wide range of experiments encompassing probes comprised of projective measurements and probes which more generally transfer quantum information from the system to a quantum computer. Our framework explicitly uses a model of unitary evolution which couples system, apparatus and environment. Information dynamics is investigated using the R\'enyi and von-Neumann entropies of the evolving state, and we construct a replica theory for them. We identify the possible replica symmetries an experiment can possess and discuss their spontaneous symmetry breaking. In particular, we identify a minimum subgroup whose spontaneous symmetry breaking results in an entanglement transition. This symmetry is only possible when the information in the apparatus is as informative about the dynamics of the system as the information transferred to the environment. We call this requirement the information exchange symmetry and quantify it by a relationship between the entropies. We then show how the entanglement transition can be understood as the spontaneously breaking of the information exchange symmetry and without referring to the replica theory. Information exchange symmetry breaking is then shown to generalize the phenomenology of the measurement-induced phase transition (MIPT). We apply this theory to the brickwork quantum-enhanced experiment introduced in an accompanying Letter [1] in the case where the unitaries are chosen from the Haar measure, and identify a distinct universality from the MIPT. This notion of information exchange symmetry breaking generalizes the MIPT, and provides a framework for understanding the dynamics of quantum information in quantum-enhanced experiments.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-06
# グローバル表現におけるLLMアライメントの意図しない影響

Unintended Impacts of LLM Alignment on Global Representation ( http://arxiv.org/abs/2402.15018v2 )

ライセンス: Link先を確認
Michael J. Ryan, William Held, Diyi Yang, (参考訳) ユーザ向けアプリケーションにデプロイされる前に、開発者は、Reinforcement Learning From Human Feedback (RLHF)やDirect Preference Optimization (DPO)など、さまざまな手順を通じて、大規模言語モデル(LLM)をユーザの好みに合わせる。 これらの手順の現在の評価は、次の命令のベンチマーク、推論、真実性に焦点を当てている。 しかしながら、人間の嗜好は普遍的ではなく、特定の嗜好セットに合わせることは意図しない効果をもたらす可能性がある。 我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。 その結果,現在のアライメント手順は,英語方言とグローバルな意見の相違を生じさせることがわかった。 いくつかの言語でアライメントが改善されることがわかりました。 これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。 コードとデータはGithubで公開しています。

Before being deployed for user-facing applications, developers align Large Language Models (LLMs) to user preferences through a variety of procedures, such as Reinforcement Learning From Human Feedback (RLHF) and Direct Preference Optimization (DPO). Current evaluations of these procedures focus on benchmarks of instruction following, reasoning, and truthfulness. However, human preferences are not universal, and aligning to specific preference sets may have unintended effects. We explore how alignment impacts performance along three axes of global representation: English dialects, multilingualism, and opinions from and about countries worldwide. Our results show that current alignment procedures create disparities between English dialects and global opinions. We find alignment improves capabilities in several languages. We conclude by discussing design decisions that led to these unintended impacts and recommendations for more equitable preference tuning. We make our code and data publicly available on Github.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-06
# ディープ・ネットワークが常に成長している理由

Deep Networks Always Grok and Here is Why ( http://arxiv.org/abs/2402.15555v2 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk, (参考訳) グローキング(英: Grokking)または遅延一般化(英: delay generalization)とは、ディープニューラルネットワーク(DNN)における一般化が、ほぼゼロのトレーニングエラーを達成してから長く経過する現象である。 従来の研究では、DNNが大きなノームパラメータで初期化されたり、アルゴリズムデータセットでトレーニングされたトランスフォーマーなど、特定の制御された設定でグラッキングが発生することが報告されてきた。 我々は、CIFAR10上の畳み込みニューラルネットワーク(CNN)のトレーニングやImagenette上のResnetなど、グルーキングが実際にはるかに広く、幅広い実践的な環境で実現されていることを実証した。 補間や一般化から長い年月を経て, DNN が敵の例をつかみ, 頑健になるような, 遅延ロバスト性という新たな概念を導入する。 我々は,DNNの入出力マッピングの局所的複雑さに基づいて,遅延一般化と遅延ロバスト性の両方の出現を解析的に説明する。 我々の局所的複雑性は、DNN入力空間をタイル状にするいわゆる線形領域(いわゆるスプライン分割領域)の密度を測定し、トレーニングのための実用性向上尺度として機能する。 分類問題に対して, 線形領域は, トレーニングサンプル(DNNマッピングをよりスムーズにする) から決定境界(DNNマッピングをよりスムーズにする) へ移行した後に, トレーニング中に相転移することを示す最初の証拠を提供する。 グロッキングは、トレーニングポイント周辺のDNNマッピングの線形化により、入力空間の堅牢な分割として相転移が起こる。 ウェブサイト:https://bit.ly/grok-adversarial

Grokking, or delayed generalization, is a phenomenon where generalization in a deep neural network (DNN) occurs long after achieving near zero training error. Previous studies have reported the occurrence of grokking in specific controlled settings, such as DNNs initialized with large-norm parameters or transformers trained on algorithmic datasets. We demonstrate that grokking is actually much more widespread and materializes in a wide range of practical settings, such as training of a convolutional neural network (CNN) on CIFAR10 or a Resnet on Imagenette. We introduce the new concept of delayed robustness, whereby a DNN groks adversarial examples and becomes robust, long after interpolation and/or generalization. We develop an analytical explanation for the emergence of both delayed generalization and delayed robustness based on the local complexity of a DNN's input-output mapping. Our local complexity measures the density of so-called linear regions (aka, spline partition regions) that tile the DNN input space and serves as a utile progress measure for training. We provide the first evidence that, for classification problems, the linear regions undergo a phase transition during training whereafter they migrate away from the training samples (making the DNN mapping smoother there) and towards the decision boundary (making the DNN mapping less smooth there). Grokking occurs post phase transition as a robust partition of the input space thanks to the linearization of the DNN mapping around the training points. Website: https://bit.ly/grok-adversarial
翻訳日:2024-06-10 19:47:50 公開日:2024-06-06
# 逆翻訳による脱獄攻撃に対するLLMの防衛

Defending LLMs against Jailbreaking Attacks via Backtranslation ( http://arxiv.org/abs/2402.16459v3 )

ライセンス: Link先を確認
Yihan Wang, Zhouxing Shi, Andrew Bai, Cho-Jui Hsieh, (参考訳) 多くの大規模言語モデル(LLM)は、有害な要求を拒否するように訓練されているが、それでも、その有害な意図を隠すためにオリジナルのプロンプトを書き換えるジェイルブレイク攻撃に対して脆弱である。 本稿では, 'backtranslation' による脱獄攻撃に対して LLM を防御する新しい手法を提案する。 具体的には、ターゲットLSMが入力プロンプトから生成した初期応答を考慮し、その応答につながる可能性のある入力プロンプトを推論するよう言語モデルに促す。 推論されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向があり、これはLSMの応答に基づいて生成され、攻撃者が直接操作しないためである。 次に、再送信プロンプトでターゲットLSMを再度実行し、モデルが再送信プロンプトを拒否した場合、元のプロンプトを拒否する。 提案した防衛は,その有効性と有効性にいくつかの利点をもたらすと説明する。 我々は,我々の防衛がベースラインを著しく上回っていることを実証的に証明し,また,我々の防衛が良性入力プロンプトの生成品質にほとんど影響を与えていないことを実証した。 我々の実装は LLM jailbreaking Defense algorithm at \url{https://github.com/YihanWang617/llm-jailbreaking-defense} に基づいており、実験を再現するためのコードは \url{https://github.com/YihanWang617/LLM-Jailbreaking-Defense-Backtranslation} で利用可能である。

Although many large language models (LLMs) have been trained to refuse harmful requests, they are still vulnerable to jailbreaking attacks which rewrite the original prompt to conceal its harmful intent. In this paper, we propose a new method for defending LLMs against jailbreaking attacks by ``backtranslation''. Specifically, given an initial response generated by the target LLM from an input prompt, our backtranslation prompts a language model to infer an input prompt that can lead to the response. The inferred prompt is called the backtranslated prompt which tends to reveal the actual intent of the original prompt, since it is generated based on the LLM's response and not directly manipulated by the attacker. We then run the target LLM again on the backtranslated prompt, and we refuse the original prompt if the model refuses the backtranslated prompt. We explain that the proposed defense provides several benefits on its effectiveness and efficiency. We empirically demonstrate that our defense significantly outperforms the baselines, in the cases that are hard for the baselines, and our defense also has little impact on the generation quality for benign input prompts. Our implementation is based on our library for LLM jailbreaking defense algorithms at \url{https://github.com/YihanWang617/llm-jailbreaking-defense}, and the code for reproducing our experiments is available at \url{https://github.com/YihanWang617/LLM-Jailbreaking-Defense-Backtranslation}.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-06
# Agent-Pro: ポリシーレベルリフレクションと最適化による進化の学習

Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization ( http://arxiv.org/abs/2402.17574v3 )

ライセンス: Link先を確認
Wenqi Zhang, Ke Tang, Hai Wu, Mengna Wang, Yongliang Shen, Guiyang Hou, Zeqi Tan, Peng Li, Yueting Zhuang, Weiming Lu, (参考訳) 大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。 しかし、ほとんどのLSMベースのエージェントは、対話を通じて学習し、進化するエージェントではなく、高度な迅速なエンジニアリングを備えた特定のタスクソルバとして設計されている。 これらのタスクソルバは、手作業で作成したプロンプトを使用してタスクルールを通知し、LLMの動作を規制する。 そこで我々は,対話的な経験から豊富な専門知識を習得し,その行動方針を漸進的に向上させるLLMベースのエージェント,Agent-Proを提案する。 具体的には、政策進化のための動的信念の生成とリフレクションプロセスを含む。 エージェントプロは行動レベルの反映ではなく、過去の軌道や信念を反復的に反映し、その不合理な信念をより良い政策のために微調整する。 さらに、政策最適化のために奥行き優先探索が採用され、政策ペイオフの継続的な強化が保証される。 Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。 この結果から,Agent-Proは複雑でダイナミックなシーンで学習し,進化できることを示す。

Large Language Models (LLMs) exhibit robust problem-solving capabilities for diverse tasks. However, most LLM-based agents are designed as specific task solvers with sophisticated prompt engineering, rather than agents capable of learning and evolving through interactions. These task solvers necessitate manually crafted prompts to inform task rules and regulate LLM behaviors, inherently incapacitating to address complex dynamic scenarios e.g., large interactive games. In light of this, we propose Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization that can learn a wealth of expertise from interactive experiences and progressively elevate its behavioral policy. Specifically, it involves a dynamic belief generation and reflection process for policy evolution. Rather than action-level reflection, Agent-Pro iteratively reflects on past trajectories and beliefs, fine-tuning its irrational beliefs for a better policy. Moreover, a depth-first search is employed for policy optimization, ensuring continual enhancement in policy payoffs. Agent-Pro is evaluated across two games: Blackjack and Texas Hold'em, outperforming vanilla LLM and specialized models. Our results show Agent-Pro can learn and evolve in complex and dynamic scenes, which also benefits numerous LLM-based applications.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-06
# LLMにおけるアンラーニングのためのガードレールベースライン

Guardrail Baselines for Unlearning in LLMs ( http://arxiv.org/abs/2403.03329v2 )

ライセンス: Link先を確認
Pratiksha Thaker, Yash Maurya, Shengyuan Hu, Virginia Smith, Zhiwei Steven Wu, (参考訳) 最近の研究は、ファインタニングが大きな言語モデルから「未学習」の概念への有望なアプローチであることを実証している。 しかし、ファインチューニングは、一連の例を生成することと、モデルを更新するためにファインチューニングの繰り返しを実行することの両方を必要とするため、コストがかかる可能性がある。 本研究では, ファインタニングに匹敵する学習結果が得られることを示す。 我々は、より計算集約的な微調整法の性能を評価する際に、これらの軽量なベースラインを調べることを推奨する。 プロンプトやフィルタリングといった手法が、未学習の問題に対する普遍的な解決策であるとは主張していませんが、我々の研究は、ガードレールと微調整のパワーをより分離できる評価指標の必要性を示唆し、既存のメトリクスやベンチマークにおいて、ガードレールが意図せぬ振る舞いを露呈するシナリオを強調しています。

Recent work has demonstrated that finetuning is a promising approach to 'unlearn' concepts from large language models. However, finetuning can be expensive, as it requires both generating a set of examples and running iterations of finetuning to update the model. In this work, we show that simple guardrail-based approaches such as prompting and filtering can achieve unlearning results comparable to finetuning. We recommend that researchers investigate these lightweight baselines when evaluating the performance of more computationally intensive finetuning methods. While we do not claim that methods such as prompting or filtering are universal solutions to the problem of unlearning, our work suggests the need for evaluation metrics that can better separate the power of guardrails vs. finetuning, and highlights scenarios where guardrails expose possible unintended behavior in existing metrics and benchmarks.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-06
# Token-Level不確実性定量化による大規模言語モデルの出力のFact-Checking

Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification ( http://arxiv.org/abs/2403.04696v2 )

ライセンス: Link先を確認
Ekaterina Fadeeva, Aleksandr Rubashevskii, Artem Shelmanov, Sergey Petrakov, Haonan Li, Hamdy Mubarak, Evgenii Tsymbalov, Gleb Kuzmin, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov, (参考訳) 大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。 このような幻覚は危険であり、生成したテキストの事実的不正確さは、出力の残りが一般的に事実的に正しいため、ユーザーが発見するのは極めて困難である。 LLMを利用する現在のサービスは、通常、信頼できない世代を検出する手段を提供しない。 ここでは、このギャップを埋めることを目指しています。 特に,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。 不確実性スコアは、ニューラルネットワークまたはそのレイヤの出力にカプセル化された情報を利用して、信頼できない予測を検知し、LLM出力の原子的クレームをファクトチェックすることができることを示す。 さらに, トークンレベルの不確実性定量化手法を提案する。 提案手法は, モデルで表される特定のクレーム値の不確実性のみをCCP(Crim Conditioned Probability)で測定する。 バイオグラフィー生成の課題に関する実験は、7つのLLMと4つの言語のベースラインと比較してCCPの強い改善を示す。 人間の評価は、不確実性定量化に基づく事実チェックパイプラインが、外部知識を活用する事実チェックツールと競合していることを示している。

Large language models (LLMs) are notorious for hallucinating, i.e., producing erroneous claims in their output. Such hallucinations can be dangerous, as occasional factual inaccuracies in the generated text might be obscured by the rest of the output being generally factually correct, making it extremely hard for the users to spot them. Current services that leverage LLMs usually do not provide any means for detecting unreliable generations. Here, we aim to bridge this gap. In particular, we propose a novel fact-checking and hallucination detection pipeline based on token-level uncertainty quantification. Uncertainty scores leverage information encapsulated in the output of a neural network or its layers to detect unreliable predictions, and we show that they can be used to fact-check the atomic claims in the LLM output. Moreover, we present a novel token-level uncertainty quantification method that removes the impact of uncertainty about what claim to generate on the current step and what surface form to use. Our method Claim Conditioned Probability (CCP) measures only the uncertainty of a particular claim value expressed by the model. Experiments on the task of biography generation demonstrate strong improvements for CCP compared to the baselines for seven LLMs and four languages. Human evaluation reveals that the fact-checking pipeline based on uncertainty quantification is competitive with a fact-checking tool that leverages external knowledge.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-06
# 大規模言語モデルは医療コード言語を抽象化できるか?

Can Large Language Models abstract Medical Coded Language? ( http://arxiv.org/abs/2403.10822v3 )

ライセンス: Link先を確認
Simon A. Lee, Timothy Lindsey, (参考訳) 大規模言語モデル(LLM)は重要な研究領域となり、自動化請求と意思決定支援を合理化できる医療などの分野に有益な貢献をする可能性がある。 しかし、ICD-10のような特殊な符号化言語を頻繁に使用することで、LLMが正確で有意義な潜在表現を作成する際の潜在的な課題が提示される。 これにより、医療専門家の間では、患者の直接的な影響をもたらす可能性のある潜在的な不正確さや「幻覚」に対する懸念が高まる。 そこで本研究では,大規模言語モデル(LLM)が医療コードオントロジーを認識し,それらのコードから正確に名前を生成することができるかどうかを評価する。 GPT, LLaMA-2, メディトロンなどの一般医療用および生物用両方の生成モデルの能力と限界を, ドメイン固有の用語の習熟度に焦点をあてて評価した。 結果から,LLMは符号化言語に苦しむことが明らかとなったが,これらのモデルをより効果的に理屈に適応する方法についての洞察が得られた。

Large Language Models (LLMs) have become a pivotal research area, potentially making beneficial contributions in fields like healthcare where they can streamline automated billing and decision support. However, the frequent use of specialized coded languages like ICD-10, which are regularly updated and deviate from natural language formats, presents potential challenges for LLMs in creating accurate and meaningful latent representations. This raises concerns among healthcare professionals about potential inaccuracies or ``hallucinations" that could result in the direct impact of a patient. Therefore, this study evaluates whether large language models (LLMs) are aware of medical code ontologies and can accurately generate names from these codes. We assess the capabilities and limitations of both general and biomedical-specific generative models, such as GPT, LLaMA-2, and Meditron, focusing on their proficiency with domain-specific terminologies. While the results indicate that LLMs struggle with coded language, we offer insights on how to adapt these models to reason more effectively.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-06
# 未知の人工物体のディジタル双対構築のためのニューラルインプシティ表現

Neural Implicit Representation for Building Digital Twins of Unknown Articulated Objects ( http://arxiv.org/abs/2404.01440v2 )

ライセンス: Link先を確認
Yijia Weng, Bowen Wen, Jonathan Tremblay, Valts Blukis, Dieter Fox, Leonidas Guibas, Stan Birchfield, (参考訳) 本稿では2つのRGBDスキャンから未知の調音物体のディジタル双対を異なる調音状態で構築する問題に対処する。 我々は問題を2つの段階に分解し、それぞれ異なる側面に対処する。 提案手法は,まず各状態のオブジェクトレベル形状を再構成し,各状態を関連づける部分分割と関節節を含む基礎的調音モデルを復元する。 点レベルの対応を明示的にモデル化し,画像,3次元再構成,キネマティックスなどからの手がかりを活用することにより,従来よりも精度が高く安定した結果が得られる。 また、複数の可動部も扱っており、以前の物体の形や構造に依存していない。 プロジェクトページ:https://github.com/NVlabs/DigitalTwinArt

We address the problem of building digital twins of unknown articulated objects from two RGBD scans of the object at different articulation states. We decompose the problem into two stages, each addressing distinct aspects. Our method first reconstructs object-level shape at each state, then recovers the underlying articulation model including part segmentation and joint articulations that associate the two states. By explicitly modeling point-level correspondences and exploiting cues from images, 3D reconstructions, and kinematics, our method yields more accurate and stable results compared to prior work. It also handles more than one movable part and does not rely on any object shape or structure priors. Project page: https://github.com/NVlabs/DigitalTwinArt
翻訳日:2024-06-10 19:28:06 公開日:2024-06-06
# zk-SNARKによるプライバシー保護UPB決定プロセス検証

Privacy-Preserving UCB Decision Process Verification via zk-SNARKs ( http://arxiv.org/abs/2404.12186v3 )

ライセンス: Link先を確認
Xikun Jiang, He Lyu, Chenhao Ying, Yibin Xu, Boris Düdder, Yuan Luo, (参考訳) 機械学習の普及により、データのプライバシとアルゴリズムパラメータの保護と、マシンラーニングの検証可能性の確保のバランスを取る方法は、常に課題でした。 本研究では、強化学習とデータプライバシの交わりについて検討し、特に、Multi-Armed Bandit(MAB)問題とアッパー信頼境界(UCB)アルゴリズムに対処する。 我々は、Zero-Knowledge Succinct Non-Interactive Argument of Knowledge (zk-SNARKs) を用いて、UCBを強化する革新的なアルゴリズムzkUCBを紹介する。 zkUCBは、トレーニングデータとアルゴリズムパラメータの機密性を保護し、透明な UCB 決定を保証するために慎重に設計されている。 実験ではzkUCBの優れた性能が強調され、決定過程における情報エントロピーの低減に寄与する。 zkUCBの証明サイズと検証時間はzkUCBの実行ステップと線形にスケールする。 これはzkUCBがデータセキュリティと運用効率のバランスを保っていることを示している。 このアプローチは、複雑な意思決定プロセスにおけるデータのプライバシ強化に関する継続的な議論に大きく貢献し、プライバシに敏感なアプリケーションのための有望なソリューションを提供する。

With the increasingly widespread application of machine learning, how to strike a balance between protecting the privacy of data and algorithm parameters and ensuring the verifiability of machine learning has always been a challenge. This study explores the intersection of reinforcement learning and data privacy, specifically addressing the Multi-Armed Bandit (MAB) problem with the Upper Confidence Bound (UCB) algorithm. We introduce zkUCB, an innovative algorithm that employs the Zero-Knowledge Succinct Non-Interactive Argument of Knowledge (zk-SNARKs) to enhance UCB. zkUCB is carefully designed to safeguard the confidentiality of training data and algorithmic parameters, ensuring transparent UCB decision-making. Experiments highlight zkUCB's superior performance, attributing its enhanced reward to judicious quantization bit usage that reduces information entropy in the decision-making process. zkUCB's proof size and verification time scale linearly with the execution steps of zkUCB. This showcases zkUCB's adept balance between data security and operational efficiency. This approach contributes significantly to the ongoing discourse on reinforcing data privacy in complex decision-making processes, offering a promising solution for privacy-sensitive applications.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-06
# XFT: コードのインストラクションチューニングのパワーをシンプルにマージする

XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts ( http://arxiv.org/abs/2404.15247v2 )

ライセンス: Link先を確認
Yifeng Ding, Jiawei Liu, Yuxiang Wei, Terry Yue Zhuo, Lingming Zhang, (参考訳) 命令調整型コードLarge Language Models (LLM) の性能限界を解き放つために、Mixture-of-Experts (MoE) を単純にマージすることで、単純ながら強力なトレーニングスキームであるXFTを導入する。 バニラスパースアップサイクリングは命令チューニングを改善するのに失敗するが、XFTは新しいルーティングウェイト正規化戦略をスパースアップサイクリングに導入し、命令チューニングを大幅に向上させる。 アップサイクルMoEモデルを微調整した後、XFTは、アップサイクルMoEモデルを高密度モデルにコンパイルするための学習可能なモデルマージ機構を導入し、高密度モデル計算のみでアップサイクルMoEレベルのパフォーマンスを実現する。 1.3BモデルにXFTを適用することで、HumanEvalとHumanEval+でそれぞれ67.1と64.6 pass@1を持つ、最先端の小さなコード LLM (<3B) を新たに作成する。 同じデータとモデルアーキテクチャで、XFTはHumanEval+で教師付き微調整(SFT)を13%改善し、MBPP+、MultiPL-E、DS-1000で2%から13%改善した。 XFTは、Evol-InstructやOSS-Instructといった既存の技術と完全に直交しており、コード命令チューニングを改善するための新しい次元を開く。 コードはhttps://github.com/ise-uiuc/xft.comで入手できる。

We introduce XFT, a simple yet powerful training scheme, by simply merging upcycled Mixture-of-Experts (MoE) to unleash the performance limit of instruction-tuned code Large Language Models (LLMs). While vanilla sparse upcycling fails to improve instruction tuning, XFT introduces a shared expert mechanism with a novel routing weight normalization strategy into sparse upcycling, which significantly boosts instruction tuning. After fine-tuning the upcycled MoE model, XFT introduces a learnable model merging mechanism to compile the upcycled MoE model back to a dense model, achieving upcycled MoE-level performance with only dense-model compute. By applying XFT to a 1.3B model, we create a new state-of-the-art tiny code LLM (<3B) with 67.1 and 64.6 pass@1 on HumanEval and HumanEval+ respectively. With the same data and model architecture, XFT improves supervised fine-tuning (SFT) by 13% on HumanEval+, along with consistent improvements from 2% to 13% on MBPP+, MultiPL-E, and DS-1000, demonstrating its generalizability. XFT is fully orthogonal to existing techniques such as Evol-Instruct and OSS-Instruct, opening a new dimension for improving code instruction tuning. Codes are available at https://github.com/ise-uiuc/xft.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-06
# フィッシング試みの同定における大規模言語モデルの有効性の評価

Evaluating the Efficacy of Large Language Models in Identifying Phishing Attempts ( http://arxiv.org/abs/2404.15485v3 )

ライセンス: Link先を確認
Het Patel, Umair Rehman, Farkhund Iqbal, (参考訳) 何十年にもわたるサイバー犯罪戦術であるフィッシングは、今日のデジタル世界において大きな脅威となっている。 巧妙な社会工学的要素と近代技術を活用することで、サイバー犯罪は多くの個人、企業、組織が信頼とセキュリティを利用することを狙う。 これらのサイバー攻撃者は、正統な情報源として現れる多くの信頼できる形で偽装されることが多い。 緊急性、恐怖、社会的証明、その他の操作戦略といった心理的要素を巧みに利用することで、フィッシングは個人を誘惑して、機密でパーソナライズされた情報を明らかにすることができる。 本論文は,現代技術におけるこの広範囲な課題に基づいて,フィッシングの試みを検出するための15のLarge Language Models (LLMs) の有効性を解析することを目的としており,特にランダム化された419 ScamのEメールに焦点をあてている。 本研究の目的は、予め定義された基準に基づいて、メールメタデータを含むテキストファイルを解析することにより、どのLLMがフィッシングメールを正確に検出できるかを判断することである。 実験の結果、以下のモデル(ChatGPT 3.5、GPT-3.5-Turbo-Instruct、ChatGPT)がフィッシングメールの検出に最も有効であることが判明した。

Phishing, a prevalent cybercrime tactic for decades, remains a significant threat in today's digital world. By leveraging clever social engineering elements and modern technology, cybercrime targets many individuals, businesses, and organizations to exploit trust and security. These cyber-attackers are often disguised in many trustworthy forms to appear as legitimate sources. By cleverly using psychological elements like urgency, fear, social proof, and other manipulative strategies, phishers can lure individuals into revealing sensitive and personalized information. Building on this pervasive issue within modern technology, this paper aims to analyze the effectiveness of 15 Large Language Models (LLMs) in detecting phishing attempts, specifically focusing on a randomized set of "419 Scam" emails. The objective is to determine which LLMs can accurately detect phishing emails by analyzing a text file containing email metadata based on predefined criteria. The experiment concluded that the following models, ChatGPT 3.5, GPT-3.5-Turbo-Instruct, and ChatGPT, were the most effective in detecting phishing emails.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-06
# 複合トークン/埋め込み型投機を用いた生産用LDMの高速化

Accelerating Production LLMs with Combined Token/Embedding Speculators ( http://arxiv.org/abs/2404.19124v2 )

ライセンス: Link先を確認
Davis Wertheimer, Joshua Rosenkranz, Thomas Parnell, Sahil Suneja, Pavithra Ranganathan, Raghu Ganti, Mudhakar Srivatsa, (参考訳) 本技術報告では,生産環境における大規模言語モデルの推論速度の向上を目的とした,新しい投機的復号化ドラフトモデルの設計と訓練について述べる。 コンテキストベクトルとサンプリングトークンの両方にドラフト予測を条件付けすることで、投機家が高品質なn-gramを効率的に予測できるように訓練することができる。 これにより,高速に最適化されたベースモデル実装のウォールクロック推論速度を2~3倍に向上させることができる。 これらの初期結果について検討し、さらなる改善に向けた次のステップについて説明する。

This technical report describes the design and training of novel speculative decoding draft models, for accelerating the inference speeds of large language models in a production environment. By conditioning draft predictions on both context vectors and sampled tokens, we can train our speculators to efficiently predict high-quality n-grams, which the base model then accepts or rejects. This allows us to effectively predict multiple tokens per inference forward pass, accelerating wall-clock inference speeds of highly optimized base model implementations by a factor of 2-3x. We explore these initial results and describe next steps for further improvements.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-06
# 多言語アラビアデータセットにおける対話者間の合意を予測した方言のレベルの推定

Estimating the Level of Dialectness Predicts Interannotator Agreement in Multi-dialect Arabic Datasets ( http://arxiv.org/abs/2405.11282v3 )

ライセンス: Link先を確認
Amr Keleg, Walid Magdy, Sharon Goldwater, (参考訳) 多方言アラビア語データセットの注釈付けでは、アラビア語話者のプールにランダムにサンプルを割り当てることが一般的である。 最近の分析では、高品質なデータセットを構築するために、方言のサンプルをそれぞれの方言の母語話者にルーティングすることを推奨している。 しかし、サンプルの方言を自動的に識別するのは困難である。 さらに、特定のアラビア方言の母語話者であるアノテーターのプールは少ないかもしれない。 アラビア語のレベル・オブ・ダイアレク性(ALDi)は、文が標準アラビア語からどのように分岐するかを測定する定量的変数として最近導入された。 ランダムにアノテータにサンプルを割り当てる際、特にアノテータが話さない方言で書かれた場合、高いALDiスコアのサンプルはラベル付けが難しいと仮定する。 本研究では,ALDiスコアとアノテータの合意との関係を,各文分類タスクのサンプルアノテーションを生かした15の公開データセットで分析して検証する。 11の仮説を裏付ける強い証拠が見つかりました。 その結果,それぞれの方言の母語話者に対して高いALDiスコアのルーティングサンプルを優先順位付けすることを推奨した。

On annotating multi-dialect Arabic datasets, it is common to randomly assign the samples across a pool of native Arabic speakers. Recent analyses recommended routing dialectal samples to native speakers of their respective dialects to build higher-quality datasets. However, automatically identifying the dialect of samples is hard. Moreover, the pool of annotators who are native speakers of specific Arabic dialects might be scarce. Arabic Level of Dialectness (ALDi) was recently introduced as a quantitative variable that measures how sentences diverge from Standard Arabic. On randomly assigning samples to annotators, we hypothesize that samples of higher ALDi scores are harder to label especially if they are written in dialects that the annotators do not speak. We test this by analyzing the relation between ALDi scores and the annotators' agreement, on 15 public datasets having raw individual sample annotations for various sentence-classification tasks. We find strong evidence supporting our hypothesis for 11 of them. Consequently, we recommend prioritizing routing samples of high ALDi scores to native speakers of each sample's dialect, for which the dialect could be automatically identified at higher accuracies.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-06
# PathOCL: GPT-4を用いたOCL生成のためのパスベースプロンプト拡張

PathOCL: Path-Based Prompt Augmentation for OCL Generation with GPT-4 ( http://arxiv.org/abs/2405.12450v2 )

ライセンス: Link先を確認
Seif Abukhalaf, Mohammad Hamdaqa, Foutse Khomh, (参考訳) GitHub CopilotのようなAIによるプログラミングアシスタントの急速な進歩は、ソフトウェアアプリケーションの開発を促進している。 これらのアシスタントは、言語理解と生成に関連する幅広いタスクをサポートする基礎モデル(FM)である大きな言語モデル(LLM)に依存している。 LLMは、Object Constraint Language (OCL)のような形式言語を使ってUMLモデルの仕様を表現する能力を示した。 しかし、プロンプトのコンテキストサイズは、LLMが処理できるトークンの数によって制限される。 この制限はUMLクラスモデルのサイズが大きくなるにつれて重要になる。 本研究では,OCL生成を促進するために設計された新しいパスベースのプロンプト拡張技術であるPathOCLを紹介する。 PathOCLはLLMの制限、特にトークン処理の制限、そして大きなUMLクラスモデルによってもたらされる課題に対処します。 PathOCLはチャンキングの概念に基づいており、英語仕様に関連するUMLクラスのサブセットでプロンプトを選択的に拡張する。 以上の結果から,完全UMLクラスモデル(UML-Augmentation)と比較して,PassOCLはGPT-4モデルを用いて高い有効かつ正しいOCL制約を生成することがわかった。 さらに、PathOCLを用いて作成される平均プロンプトサイズはUMLクラスモデルのサイズをスケールする際に著しく減少する。

The rapid progress of AI-powered programming assistants, such as GitHub Copilot, has facilitated the development of software applications. These assistants rely on large language models (LLMs), which are foundation models (FMs) that support a wide range of tasks related to understanding and generating language. LLMs have demonstrated their ability to express UML model specifications using formal languages like the Object Constraint Language (OCL). However, the context size of the prompt is limited by the number of tokens an LLM can process. This limitation becomes significant as the size of UML class models increases. In this study, we introduce PathOCL, a novel path-based prompt augmentation technique designed to facilitate OCL generation. PathOCL addresses the limitations of LLMs, specifically their token processing limit and the challenges posed by large UML class models. PathOCL is based on the concept of chunking, which selectively augments the prompts with a subset of UML classes relevant to the English specification. Our findings demonstrate that PathOCL, compared to augmenting the complete UML class model (UML-Augmentation), generates a higher number of valid and correct OCL constraints using the GPT-4 model. Moreover, the average prompt size crafted using PathOCL significantly decreases when scaling the size of the UML class models.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-06
# ニューラル・ファフィアン:多くの電子シュレーディンガー方程式を解く

Neural Pfaffians: Solving Many Many-Electron Schrödinger Equations ( http://arxiv.org/abs/2405.14762v2 )

ライセンス: Link先を確認
Nicholas Gao, Stephan Günnemann, (参考訳) 神経波関数は、計算コストが高いにもかかわらず、多電子系の基底状態の近似において前例のない精度を達成した。 近年の研究では、個々の問題を個別に解くのではなく、様々な構造や化合物にまたがる一般化波動関数を学習することでコストを下げることが提案されている。 このような一般化された神経波関数における電子の置換反対称性を強制することは、既存の方法では、学習不可能な手作りアルゴリズムによる離散軌道選択を必要とするため、依然として困難である。 この研究は、分子間の一般化に適した過度にパラメータ化され、完全に学習可能なニューラルウェーブ関数を定義することで、この問題に対処する。 我々は、スレーター行列式ではなく、ファフィアンに依存することでこれを達成している。 ファフィアンは電子スピン配置や分子構造に制約を加えることなく任意の電子系に反対称性を強制することができる。 実験により, 1つのニューラル・ファフアンが, 各種系の化学的精度で基底状態と電離エネルギーを計算することがわかった。 TinyMolデータセットでは,CBSの基準エネルギーである「ゴールドスタンダード」CCSD(T)を1.9m$E_h$で上回り,従来の一般化されたニューラルウェーブ関数と比較してエネルギー誤差を最大1桁まで低減する。

Neural wave functions accomplished unprecedented accuracies in approximating the ground state of many-electron systems, though at a high computational cost. Recent works proposed amortizing the cost by learning generalized wave functions across different structures and compounds instead of solving each problem independently. Enforcing the permutation antisymmetry of electrons in such generalized neural wave functions remained challenging as existing methods require discrete orbital selection via non-learnable hand-crafted algorithms. This work tackles the problem by defining overparametrized, fully learnable neural wave functions suitable for generalization across molecules. We achieve this by relying on Pfaffians rather than Slater determinants. The Pfaffian allows us to enforce the antisymmetry on arbitrary electronic systems without any constraint on electronic spin configurations or molecular structure. Our empirical evaluation finds that a single neural Pfaffian calculates the ground state and ionization energies with chemical accuracy across various systems. On the TinyMol dataset, we outperform the `gold-standard' CCSD(T) CBS reference energies by 1.9m$E_h$ and reduce energy errors compared to previous generalized neural wave functions by up to an order of magnitude.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-06
# モダリティギャップではない:コントラストギャップの特徴と対処

It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap ( http://arxiv.org/abs/2405.18570v3 )

ライセンス: Link先を確認
Abrar Fahim, Alex Murphy, Alona Fyshe, (参考訳) CLIPのようなマルチモーダルコントラストモデルは、入力画像とテキストを共同表現空間に埋め込むことで、ゼロショット分類における最先端の性能を達成する。 近年、CLIPのような2エンコーダのコントラストモデルではモダリティギャップが報告されている。 これまでの研究では、このギャップは存在することが示唆されている。 1)コーン効果 2)データセットのミスマッチペア,及び 3)訓練不足。 これらすべての要因を考慮に入れたとしても、同じモダリティを使用しても、対照的な損失は実際にトレーニング中にギャップを生じさせます。 その結果、モダリティギャップは2エンコーダのコントラスト損失に固有のものであり、コントラストギャップにリネームすることを提案した。 この対照的なギャップがCLIP空間の低均一性に起因する証拠を提示する。 このギャップを埋めるために, マルチモーダル・セッティングに不定形コントラスト損失の均一性とアライメント特性を適用し, これらの項をCLIP損失に追加するだけで, 表現空間内での埋め込みをより均一に分散し, ギャップを閉じることを示す。 実験では、ゼロショット画像分類やマルチモーダル演算などの下流タスクにおいて、修正された表現空間がデフォルトのCLIP損失よりも優れた性能を実現することを示す。

Multi-modal contrastive models such as CLIP achieve state-of-the-art performance in zero-shot classification by embedding input images and texts on a joint representational space. Recently, a modality gap has been reported in two-encoder contrastive models like CLIP, meaning that the image and text embeddings reside in disjoint areas of the latent space. Previous studies suggest that this gap exists due to 1) the cone effect, 2) mismatched pairs in the dataset, and 3) insufficient training. We show that, even when accounting for all these factors, and even when using the same modality, the contrastive loss actually creates a gap during training. As a result, We propose that the modality gap is inherent to the two-encoder contrastive loss and rename it the contrastive gap. We present evidence that attributes this contrastive gap to low uniformity in CLIP space, resulting in embeddings that occupy only a small portion of the latent space. To close the gap, we adapt the uniformity and alignment properties of unimodal contrastive loss to the multi-modal setting and show that simply adding these terms to the CLIP loss distributes the embeddings more uniformly in the representational space, closing the gap. In our experiments, we show that the modified representational space achieves better performance than default CLIP loss in downstream tasks such as zero-shot image classification and multi-modal arithmetic.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-06
# 位相弱測定による幾何位相の再検討

Topological weak-measurement-induced geometric phases revisited ( http://arxiv.org/abs/2406.00176v2 )

ライセンス: Link先を確認
Graciana Puentes, (参考訳) 弱測定により誘導される幾何位相のクラスの解析的および数値的研究について述べる。 特に、極角(\varphi$)の巻線に対する幾何位相(W$)の依存性を、増大する等級(c$)の弱測定シーケンスに基づいて分析し、幾何位相が確率的になる臨界測度-強度パラメータの多重性の出現をもたらす。 提案手法の斬新さに加えて, 準連続極限(N \rightarrow \infty$) に有効である完全解析導出による弱測定誘起幾何位相の解析に加えて, 幾何位相を数値的に解析することにより, 幾何位相の有限-N$相互作用を測定強度パラメータで解き放つことができ, 測定プロトコルにおける摂動に対する安定性が向上する。

We present an analytical and numerical study of a class of geometric phase induced by weak measurements. In particular, we analyze the dependence of the geometric phase on the winding ($W$) of the polar angle ($\varphi$), upon a sequence of $N$ weak measurements of increased magnitude ($c$), resulting in the appearance of a multiplicity of critical measurement-strength parameters where the geometric phase becomes stochastic. Adding to the novelty of our approach, we not only analyze the weak-measurement induced geometric phase by a full analytic derivation, valid in the quasicontinuous limit ($N \rightarrow \infty$), but also we analyze the induced geometric phase numerically, thus enabling us to unravel the finite-$N$ interplay of the geometric phase with the measurement strength parameter, and its stability to perturbations in the measurements protocol.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-06
# VHDL-Eval:VHDLコード生成における大規模言語モデル評価フレームワーク

VHDL-Eval: A Framework for Evaluating Large Language Models in VHDL Code Generation ( http://arxiv.org/abs/2406.04379v1 )

ライセンス: Link先を確認
Prashanth Vijayaraghavan, Luyao Shi, Stefano Ambrogio, Charles Mackin, Apoorva Nitsure, David Beymer, Ehsan Degan, (参考訳) LLM(Large Language Models)が前例のない進歩を遂げたことにより、アプリケーションドメインは様々なプログラミング言語にまたがるコード生成タスクを含むように拡張された。 一般的なプログラミング言語のLLMの拡張には大きな進歩があるが、ハードウェア記述言語(HDL)、特にVHDLに適した包括的な評価フレームワークには注目すべきギャップがある。 本稿では,VHDLコード生成タスクにおけるLLMの性能評価に特化して設計された総合評価フレームワークを導入することで,このギャップに対処する。 VHDLコード生成タスク上でLLMを評価するデータセットを構築する。 このデータセットは、Verilog評価問題の集合をVHDLに翻訳し、公開されているVHDL問題を集約することにより、合計202の問題を発生させる。 生成したVHDL符号の関数的正当性を評価するために, 集約されたVHDL問題集合に特化して設計された自己検証テストベンチのキュレートセットを利用する。 我々は、ゼロショットコード生成、インコンテキスト学習(ICL)、パラメータ効率細調整(PEFT)など、異なるLLMとその変種を初期評価する。 本研究は,VHDLコード生成における既存のLLMの課題を浮き彫りにし,その改善範囲を明らかにした。 本研究は,VHDL専用の微調整コード生成モデルの必要性を強調し,効率的なコード生成ソリューションを求めるVHDLデザイナに潜在的なメリットを提供する。

With the unprecedented advancements in Large Language Models (LLMs), their application domains have expanded to include code generation tasks across various programming languages. While significant progress has been made in enhancing LLMs for popular programming languages, there exists a notable gap in comprehensive evaluation frameworks tailored for Hardware Description Languages (HDLs), particularly VHDL. This paper addresses this gap by introducing a comprehensive evaluation framework designed specifically for assessing LLM performance in VHDL code generation task. We construct a dataset for evaluating LLMs on VHDL code generation task. This dataset is constructed by translating a collection of Verilog evaluation problems to VHDL and aggregating publicly available VHDL problems, resulting in a total of 202 problems. To assess the functional correctness of the generated VHDL code, we utilize a curated set of self-verifying testbenches specifically designed for those aggregated VHDL problem set. We conduct an initial evaluation of different LLMs and their variants, including zero-shot code generation, in-context learning (ICL), and Parameter-efficient fine-tuning (PEFT) methods. Our findings underscore the considerable challenges faced by existing LLMs in VHDL code generation, revealing significant scope for improvement. This study emphasizes the necessity of supervised fine-tuning code generation models specifically for VHDL, offering potential benefits to VHDL designers seeking efficient code generation solutions.
翻訳日:2024-06-10 18:39:08 公開日:2024-06-06
# 準報告型モデルによる深層学習・短期犯罪予測の公正性向上

Improving the Fairness of Deep-Learning, Short-term Crime Prediction with Under-reporting-aware Models ( http://arxiv.org/abs/2406.04382v1 )

ライセンス: Link先を確認
Jiahui Wu, Vanessa Frias-Martinez, (参考訳) ディープラーニング犯罪予測ツールは、過去の犯罪データと、将来の犯罪を予測するために追加の行動データセットを使用する。 それにもかかわらず、これらの道具は少数民族や民族の間で不公平な予測に苦しむことが示されている。 この不公平に対処するための現在のアプローチは、一般に、ドメイン知識に基づいて犯罪数に補正を適用することにより、トレーニングデータセットのバイアスを軽減する事前処理方法と、正確性と公平性の両方に最適化するために公正正則化として実装される内部処理方法のいずれかを提案する。 本稿では,これらの2つのアプローチのパワーを組み合わせて,予測公正性を高める新しいディープラーニングアーキテクチャを提案する。 提案手法は,非バイアスモデルやバイアス補正のないモデルと比較して,精度の低下を犠牲にしつつも,犯罪予測の公平性を向上することを示す。

Deep learning crime predictive tools use past crime data and additional behavioral datasets to forecast future crimes. Nevertheless, these tools have been shown to suffer from unfair predictions across minority racial and ethnic groups. Current approaches to address this unfairness generally propose either pre-processing methods that mitigate the bias in the training datasets by applying corrections to crime counts based on domain knowledge or in-processing methods that are implemented as fairness regularizers to optimize for both accuracy and fairness. In this paper, we propose a novel deep learning architecture that combines the power of these two approaches to increase prediction fairness. Our results show that the proposed model improves the fairness of crime predictions when compared to models with in-processing de-biasing approaches and with models without any type of bias correction, albeit at the cost of reducing accuracy.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# リーダーボード抽出のための最新のLLMの探索

Exploring the Latest LLMs for Leaderboard Extraction ( http://arxiv.org/abs/2406.04383v1 )

ライセンス: Link先を確認
Salomon Kabongo, Jennifer D'Souza, Sören Auer, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、AI研究における複雑なタスクを自動化するための新たな道を開いた。 本稿では, LLMs-Mistral 7B, Llama-2, GPT-4-Turbo, GPT-4.o を用いて, 実験的なAI研究論文からリーダボード情報を抽出する方法について検討する。 本稿では,DocTAET (Document Title, Abstract, Experimental Setup, Tabular Information), DocREC (Results, Experiments, and Conclusions), DocFULL (entire document) の3種類のコンテキスト入力について検討する。 研究論文から,これらのモデルの性能(Task,Dataset,Metric,Score)を評価する。 この発見は、各モデルとコンテキストタイプの長所と短所に関する重要な洞察を示し、将来のAI研究自動化のための貴重なガイダンスを提供する。

The rapid advancements in Large Language Models (LLMs) have opened new avenues for automating complex tasks in AI research. This paper investigates the efficacy of different LLMs-Mistral 7B, Llama-2, GPT-4-Turbo and GPT-4.o in extracting leaderboard information from empirical AI research articles. We explore three types of contextual inputs to the models: DocTAET (Document Title, Abstract, Experimental Setup, and Tabular Information), DocREC (Results, Experiments, and Conclusions), and DocFULL (entire document). Our comprehensive study evaluates the performance of these models in generating (Task, Dataset, Metric, Score) quadruples from research papers. The findings reveal significant insights into the strengths and limitations of each model and context type, providing valuable guidance for future AI research automation efforts.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# カバーソング検出のイノベーション:歌詞に基づくアプローチ

Innovations in Cover Song Detection: A Lyrics-Based Approach ( http://arxiv.org/abs/2406.04384v1 )

ライセンス: Link先を確認
Maximilian Balluff, Peter Mandl, Christian Wolff, (参考訳) カバーソングは、別のアーティストによる曲の別バージョンである。 長いこと音楽産業の重要な部分であり、カバーソングは音楽文化に大きな影響を与え、公共の場でよく聴かれる。 オンライン音楽プラットフォームの普及は、しばしばバックグラウンド音楽やビデオサウンドトラックとして、その人気をさらに高めた。 現在の自動識別法は原曲に適しているが、カバーバージョンが原曲から著しく逸脱することが多いため、カバー曲では効果が低い。 本稿では,歌の歌詞を利用したカバー歌検出手法を提案する。 曲とその対応するオリジナルをカバーする新しいデータセットを提案する。 収録曲数は5078曲、オリジナル曲は2828曲。 他のカバーソングのデータセットとは対照的に、オリジナルソングとカバーソングの注釈付き歌詞を含んでいる。 本手法を本データセット上で評価し,複数のベースラインアプローチと比較する。 その結果,本手法はベースライン手法よりも優れていることがわかった。

Cover songs are alternate versions of a song by a different artist. Long being a vital part of the music industry, cover songs significantly influence music culture and are commonly heard in public venues. The rise of online music platforms has further increased their prevalence, often as background music or video soundtracks. While current automatic identification methods serve adequately for original songs, they are less effective with cover songs, primarily because cover versions often significantly deviate from the original compositions. In this paper, we propose a novel method for cover song detection that utilizes the lyrics of a song. We introduce a new dataset for cover songs and their corresponding originals. The dataset contains 5078 cover songs and 2828 original songs. In contrast to other cover song datasets, it contains the annotated lyrics for the original song and the cover song. We evaluate our method on this dataset and compare it with multiple baseline approaches. Our results show that our method outperforms the baseline approaches.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# 拡散モデルを用いた従来の顕微鏡による単一露光定量位相イメージング

Single Exposure Quantitative Phase Imaging with a Conventional Microscope using Diffusion Models ( http://arxiv.org/abs/2406.04388v1 )

ライセンス: Link先を確認
Gabriel della Maggiora, Luis Alberto Croquevielle, Harry Horsley, Thomas Heinis, Artur Yakimovich, (参考訳) フェーズイメージングは、バイオメディカルイメージングや材料キャラクタリゼーションといった分野に応用されているため、重要性が増している。 バイオメディカル・アプリケーションでは、ラベルのない顕微鏡のモダリティに欠けている定量的情報を提供することができる。 位相量子化の最も顕著な方法の1つは、TIE(Transport-of-Intensity Equation)である。 TIEは、しばしば異なるデフォーカス距離で複数の取得を必要とするが、臨床環境では必ずしも可能とは限らない。 この問題に対処するために,色収差を用いて必要なスルーフォーカス画像を単一露光で誘導し,スルーフォーカススタックを効果的に生成する手法を提案する。 収差によって引き起こされるデフォーカス距離は小さいため、従来のTIEソルバは結果のアーティファクトに対処するには不十分である。 定量的画像予測のために設計された拡散モデルの修正版であるZero-Mean Diffusionを提案する。 我々の貢献は、色収差を利用した別のTIEアプローチを提供し、白色光による正確な単一露光位相測定を実現し、位相イメージングの効率を向上する。 さらに, 定量的データに適し, 理論的基礎を持つ新しい拡散モデルについて述べる。 提案手法を検証するため,市販カラーカメラを備えた広視野顕微鏡を用いた。 患者尿の臨床顕微鏡に本モデルを適用し, 正確な位相測定を行った。

Phase imaging is gaining importance due to its applications in fields like biomedical imaging and material characterization. In biomedical applications, it can provide quantitative information missing in label-free microscopy modalities. One of the most prominent methods in phase quantification is the Transport-of-Intensity Equation (TIE). TIE often requires multiple acquisitions at different defocus distances, which is not always feasible in a clinical setting. To address this issue, we propose to use chromatic aberrations to induce the required through-focus images with a single exposure, effectively generating a through-focus stack. Since the defocus distance induced by the aberrations is small, conventional TIE solvers are insufficient to address the resulting artifacts. We propose Zero-Mean Diffusion, a modified version of diffusion models designed for quantitative image prediction, and train it with synthetic data to ensure robust phase retrieval. Our contributions offer an alternative TIE approach that leverages chromatic aberrations, achieving accurate single-exposure phase measurement with white light and thus improving the efficiency of phase imaging. Moreover, we present a new class of diffusion models that are well-suited for quantitative data and have a sound theoretical basis. To validate our approach, we employ a widespread brightfield microscope equipped with a commercially available color camera. We apply our model to clinical microscopy of patients' urine, obtaining accurate phase measurements.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# なぜ大規模に残っているフロンティアAIモデルの下流能力を予測するのか?

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive? ( http://arxiv.org/abs/2406.04391v1 )

ライセンス: Link先を確認
Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo, (参考訳) 高度なAIシステムのスケーリングによる予測可能な振る舞いは、非常に望ましい特性である。 事前トレーニングのパフォーマンスのスケールに関する文献は確立されているが、ダウンストリーム能力のスケールに関する文献は、かなり泥だらけである。 この研究で、私たちは一歩後退して、なぜスケールで特定のダウンストリーム能力を予測したのか? 多くの要因が確かに責任を負っていますが、広く使われている複数の質問回答ベンチマークのスケーリング動作を難しくする新しい要因を特定します。 5つのモデルファミリと12のよく確立されたマルチチョイスベンチマークを用いて、ダウンストリーム性能は、性能とスケールの統計的関係を段階的に低下させる一連の変換によって負のログ可能性から計算されることを示す。 下流のメトリクスは、少数の特定の誤った選択に対して正しい選択を比較する必要があり、正確に下流の能力を予測するためには、スケールによる正しい選択にどのように確率質量が集中するかだけでなく、スケールによる特定の誤った選択にどのように確率質量が変動するかを予測する必要がある。 計算量の増加に伴う誤った選択に対して、確率質量と確率質量が共起する正しい選択に対する確率質量がどのようにして成立するかを実証的に研究し、誤った選択に対するスケーリング法則が達成可能であることを示唆する。 私たちの研究は、事前学習されたスケーリング法則が、下流の能力よりも予測可能なものであると一般的にみなす理由も説明し、フロンティアAIモデルのスケーリング予測可能な評価の確立に寄与している。

Predictable behavior from scaling advanced AI systems is an extremely desirable property. Although a well-established literature exists on how pretraining performance scales, the literature on how particular downstream capabilities scale is significantly muddier. In this work, we take a step back and ask: why has predicting specific downstream capabilities with scale remained elusive? While many factors are certainly responsible, we identify a new factor that makes modeling scaling behavior on widely used multiple-choice question-answering benchmarks challenging. Using five model families and twelve well-established multiple-choice benchmarks, we show that downstream performance is computed from negative log likelihoods via a sequence of transformations that progressively degrade the statistical relationship between performance and scale. We then reveal the mechanism causing this degradation: downstream metrics require comparing the correct choice against a small number of specific incorrect choices, meaning accurately predicting downstream capabilities requires predicting not just how probability mass concentrates on the correct choice with scale, but also how probability mass fluctuates on specific incorrect choices with scale. We empirically study how probability mass on the correct choice co-varies with probability mass on incorrect choices with increasing compute, suggesting that scaling laws for incorrect choices might be achievable. Our work also explains why pretraining scaling laws are commonly regarded as more predictable than downstream capabilities and contributes towards establishing scaling-predictable evaluations of frontier AI models.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# 任意の基底における相関による高次元絡み合いの観察

High-dimensional entanglement witnessed by correlations in arbitrary bases ( http://arxiv.org/abs/2406.04395v1 )

ライセンス: Link先を確認
Nicky Kai Hong Li, Marcus Huber, Nicolai Friis, (参考訳) エンタングルメントの認証は、特に量子通信や計算能力の向上を約束する高次元システムにおいて、多くの量子技術の開発において重要なステップである。 古典的相関から絡み合いを区別する重要な特徴は、相補的な測定ベースに対する相関の発生である。 特に、相互バイアスのないベース(MUB)は、よく理解され、常に絡み合った認証のために使用されるパラダイム的な例である。 しかし、不偏測定を正確に実装することは困難であり、すべての物理プラットフォームに対して汎用的ではない。 ここでは,MUBの相関関係から任意のベースへのエンタングルメント認証ツールボックスを,アライメント参照フレームを必要とせずに拡張する。 これは、様々な物理的システムにおいて、高次元の絡み合いを効率的に評価する方法を舗装する、事実上重要な単純化である。

Certifying entanglement is an important step in the development of many quantum technologies, especially for higher-dimensional systems, where entanglement promises increased capabilities for quantum communication and computation. A key feature distinguishing entanglement from classical correlations is the occurrence of correlations for complementary measurement bases. In particular, mutually unbiased bases (MUBs) are a paradigmatic example that is well-understood and routinely employed for entanglement certification. However, implementing unbiased measurements exactly is challenging and not generically possible for all physical platforms. Here, we extend the entanglement-certification toolbox from correlations in MUBs to arbitrary bases, even without requiring aligned reference frames. This represents a practically significant simplification that paves the way for the efficient characterization of high-dimensional entanglement in a wide range of physical systems.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# ハドロン衝突器におけるボトムクォーク対との絡み合いとベル非局所性

Entanglement and Bell nonlocality with bottom-quark pairs at hadron colliders ( http://arxiv.org/abs/2406.04402v1 )

ライセンス: Link先を確認
Yoav Afik, Yevgeny Kats, Juan Ramón Muñoz de Nova, Abner Soffer, David Uzan, (参考訳) 過去数年間、量子力学における重要な概念である絡み合いとベル非局所性は、素粒子散乱の過程を通じて高エネルギーの衝突体で探究できることが示されている。 近年、LHCの底クォークの対でスピン相関を測定できることが示されている。 LHCの典型的な散乱過程と比較して、底クォークの質量が低いことから、底クォーク対の多くは超相対論的状態にあり、強いスピンの絡み合いを示すことができる。 ラン2データ,特にCMS$B$パーキングデータセットでは,底クォーク対の絡み合いは測定可能であるが,ベル非局所性の観測はLHCの高光度位相において実現可能である。

In the past years, it was shown that entanglement and Bell nonlocality, which are key concepts in Quantum Mechanics, can be probed in high-energy colliders, via processes of fundamental particle scattering. Recently, it has been shown that spin correlations can be measured in pairs of bottom quarks at the LHC. Given the low mass of the bottom quark compared to typical scattering processes at the LHC, many of the bottom-quark pairs are in the ultrarelativistic regime, where they can exhibit strong spin entanglement. We find that entanglement of bottom-quark pairs may be measurable even with Run 2 data, especially with the CMS $B$ parking dataset, while observation of Bell nonlocality may become feasible at the high-luminosity phase of the LHC.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# 自己生成選好データを用いた大規模言語モデルの調整

Aligning Large Language Models with Self-generated Preference Data ( http://arxiv.org/abs/2406.04412v1 )

ライセンス: Link先を確認
Dongyoung Kim, Kimin Lee, Jinwoo Shin, Jaehyung Kim, (参考訳) 人間の好みを持つ大規模言語モデル(LLM)のアライメントは、最先端のパフォーマンスを得るために重要な要素となるが、人間に注釈付けされた大規模な嗜好データセットを構築するのに膨大なコストがかかる。 この問題に対処するために,ごく少量の人手による嗜好データのみを用いて,自己生成した選好データ(Selfie)を通してLLMのアライメントを高める新しいフレームワークを提案する。 我々のキーとなるアイデアは、小さな(種)データ内の人間の事前知識を活用し、反復的に応答を生成し、自己注釈付き嗜好データから学習することで、LCMのアライメントを徐々に改善することである。 具体的には、LLMのロジットから選好ラベルを導出し、モデル固有の選好を明示的に抽出することを提案する。 外部報酬モデルや暗黙の文脈内学習を用いた従来の手法と比較して,提案手法の方がはるかに効果的であることがわかった。 さらに,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。 実験の結果,提案手法はLLMのアライメントを著しく向上させることがわかった。 例えば、AlpacaEval 2.0におけるアライメント性能は、Ultrafeedbackデータにおいて、全データや最先端のベースラインを使用する場合と比較して、3.3倍にしか達しない。

Aligning large language models (LLMs) with human preferences becomes a key component to obtaining state-of-the-art performance, but it yields a huge cost to construct a large human-annotated preference dataset. To tackle this problem, we propose a new framework that boosts the alignment of LLMs through Self-generated Preference data (Selfie) using only a very small amount of human-annotated preference data. Our key idea is leveraging the human prior knowledge within the small (seed) data and progressively improving the alignment of LLM, by iteratively generating the responses and learning from them with the self-annotated preference data. To be specific, we propose to derive the preference label from the logits of LLM to explicitly extract the model's inherent preference. Compared to the previous approaches using external reward models or implicit in-context learning, we observe that the proposed approach is significantly more effective. In addition, we introduce a noise-aware preference learning algorithm to mitigate the risk of low quality within generated preference data. Our experimental results demonstrate that the proposed framework significantly boosts the alignment of LLMs. For example, we achieve superior alignment performance on AlpacaEval 2.0 with only 3.3\% of the ground-truth preference labels in the Ultrafeedback data compared to the cases using the entire data or state-of-the-art baselines.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# 属性特異的プロンプト学習による3次元顔画像の効率的な編集

Efficient 3D-Aware Facial Image Editing via Attribute-Specific Prompt Learning ( http://arxiv.org/abs/2406.04413v1 )

ライセンス: Link先を確認
Amandeep Kumar, Muhammad Awais, Sanath Narayan, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer, (参考訳) StyleGANの表現力とゆがみのある潜在空間に基づいて、既存の2Dアプローチでは、テキストプロンプトを使用して、異なる属性で顔画像を編集する。 対照的に、異なるターゲットポーズで顔を生成する3D認識アプローチでは、属性固有の分類器が必要であり、各属性のモデルウェイトを個別に学習する必要があり、新しい属性には拡張性がない。 本研究では,属性特異的なプロンプト学習に基づく効率的な3次元顔編集フレームワークを提案する。 そこで本研究では,テキスト駆動型学習可能なトークンベースの潜在属性エディタ (LAE) を提案する。 LAEは、事前学習された3D対応GANの潜在空間において、テキスト誘導属性固有の編集方向を見つけるために、事前学習された視覚言語モデルを利用する。 学習可能なスタイルトークンとスタイルマッパーを使用して、この編集方向を学習し、3D潜在空間に変換する。 複数の属性でLEEを訓練するために、指向性コントラスト損失とスタイルトークン損失を用いる。 さらに、異なるポーズや属性間での視点の一貫性とアイデンティティの保存を確保するために、複数の3D認識IDを使用し、保存損失を発生させる。 提案手法は,属性固有の特徴を保ちながら,3次元認識と視点の整合性を有する高品質な画像を生成する。 髪の色やスタイル,表現など,顔のさまざまな属性に対して,本手法の有効性を実証する。 コード:https://github.com/VIROBO-15/Efficient-3D-Aware-Facial-Image-Editing

Drawing upon StyleGAN's expressivity and disentangled latent space, existing 2D approaches employ textual prompting to edit facial images with different attributes. In contrast, 3D-aware approaches that generate faces at different target poses require attribute-specific classifiers, learning separate model weights for each attribute, and are not scalable for novel attributes. In this work, we propose an efficient, plug-and-play, 3D-aware face editing framework based on attribute-specific prompt learning, enabling the generation of facial images with controllable attributes across various target poses. To this end, we introduce a text-driven learnable style token-based latent attribute editor (LAE). The LAE harnesses a pre-trained vision-language model to find text-guided attribute-specific editing direction in the latent space of any pre-trained 3D-aware GAN. It utilizes learnable style tokens and style mappers to learn and transform this editing direction to 3D latent space. To train LAE with multiple attributes, we use directional contrastive loss and style token loss. Furthermore, to ensure view consistency and identity preservation across different poses and attributes, we employ several 3D-aware identity and pose preservation losses. Our experiments show that our proposed framework generates high-quality images with 3D awareness and view consistency while maintaining attribute-specific features. We demonstrate the effectiveness of our method on different facial attributes, including hair color and style, expression, and others. Code: https://github.com/VIROBO-15/Efficient-3D-Aware-Facial-Image-Editing.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# 水平量子ゲートを用いた幾何学量子機械学習

Geometric Quantum Machine Learning with Horizontal Quantum Gates ( http://arxiv.org/abs/2406.04418v1 )

ライセンス: Link先を確認
Roeland Wiersema, Alexander F. Kemper, Bojko N. Bakalov, Nathan Killoran, (参考訳) 幾何量子機械学習(Geometric Quantum Machine Learning)の現在の枠組みでは、ある群作用の対称性を尊重する変分アンザッツを構成する正準法は、回路を同変、すなわち、群の作用に通勤させることである。 しかしこれは、特に連続対称性の場合において、回路の表現性を大幅に制限する過熱的な制約となる。 等質空間をベースとした変分量子回路の対称性インフォームド構成のための代替パラダイムを提案する。 これを実現するために水平量子ゲートを導入し、対称性の向きと直交する方向に関してのみ状態を変化させる。 水平量子ゲートは同変ゲートよりもはるかに表現力が高いことを示し、同変回路では不可能な問題を解くことができる。 例えば、水平ゲートからなる回路は、基底状態スピンセクターが未知である$\mathrm{SU}(2)$-symmetricモデルの基底状態を見つけることができる。 さらに、対称空間に基づく特定の水平ゲートのサブクラスに対しては、KAK定理により、ゲートの効率的な回路分解を得ることができる。 最後に、一般的な$\mathrm{SU}(4)$ gatesと同じような振る舞いをする特定の水平量子ゲートのクラスを強調し、一般的な問題に対するパラメータ数の2次減少を達成する。

In the current framework of Geometric Quantum Machine Learning, the canonical method for constructing a variational ansatz that respects the symmetry of some group action is by forcing the circuit to be equivariant, i.e., to commute with the action of the group. This can, however, be an overzealous constraint that greatly limits the expressivity of the circuit, especially in the case of continuous symmetries. We propose an alternative paradigm for the symmetry-informed construction of variational quantum circuits, based on homogeneous spaces, relaxing the overly stringent requirement of equivariance. We achieve this by introducing horizontal quantum gates, which only transform the state with respect to the directions orthogonal to those of the symmetry. We show that horizontal quantum gates are much more expressive than equivariant gates, and thus can solve problems that equivariant circuits cannot. For instance, a circuit comprised of horizontal gates can find the ground state of an $\mathrm{SU}(2)$-symmetric model where the ground state spin sector is unknown--a task where equivariant circuits fall short. Moreover, for a particular subclass of horizontal gates based on symmetric spaces, we can obtain efficient circuit decompositions for our gates through the KAK theorem. Finally, we highlight a particular class of horizontal quantum gates that behave similarly to general $\mathrm{SU}(4)$ gates, while achieving a quadratic reduction in the number of parameters for a generic problem.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# TSCMamba: Mambaが時系列分類のためのマルチビュー学習を発表

TSCMamba: Mamba Meets Multi-View Learning for Time Series Classification ( http://arxiv.org/abs/2406.04419v1 )

ライセンス: Link先を確認
Md Atik Ahamed, Qiang Cheng, (参考訳) 多変量時系列上の時系列分類(TSC)は重要な問題である。 本稿では,周波数領域と時間領域の機能を統合した新しいマルチビュー手法を提案する。 本手法は,連続ウェーブレット変換スペクトル特徴を時間的畳み込みあるいは多層パーセプトロン特徴と融合する。 我々は、効率よくスケーラブルなシーケンスモデリングのために、Mamba状態空間モデルを利用する。 また、シーケンス関係をモデル化するための新しいタンゴスキャン手法も導入する。 10の標準ベンチマークデータセットによる実験は、我々のアプローチが最先端のTSCモデルよりも平均6.45%の精度向上を達成することを示した。

Time series classification (TSC) on multivariate time series is a critical problem. We propose a novel multi-view approach integrating frequency-domain and time-domain features to provide complementary contexts for TSC. Our method fuses continuous wavelet transform spectral features with temporal convolutional or multilayer perceptron features. We leverage the Mamba state space model for efficient and scalable sequence modeling. We also introduce a novel tango scanning scheme to better model sequence relationships. Experiments on 10 standard benchmark datasets demonstrate our approach achieves an average 6.45% accuracy improvement over state-of-the-art TSC models.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# アウトオブサンプル拡張のためのオートエンコーダとランダムフォレストによる監視可視化の強化

Enhancing Supervised Visualization through Autoencoder and Random Forest Proximities for Out-of-Sample Extension ( http://arxiv.org/abs/2406.04421v1 )

ライセンス: Link先を確認
Shuang Ni, Adrien Aumon, Guy Wolf, Kevin R. Moon, Jake S. Rhodes, (参考訳) 教師付き次元削減の価値は、データ特徴とラベルの間の意味のある関係を明らかにする能力にある。 一般的な次元減少法は、固定された潜在点の集合を埋め込むが、目に見えないテスト集合に一般化することはできない。 本稿では、ランダム森林モデルから得られた情報とオートエンコーダの機能学習能力を組み合わせた、ランダム森林に基づく教師付き次元減少法RF-PHATEのサンプル外拡張法を提案する。 種々のオートエンコーダアーキテクチャを定量的に評価することにより、ランダムな森林確率を再構成するネットワークは、埋め込み拡張問題に対してより堅牢であることを示す。 さらに, 近接型試作機を利用して, 拡張品質を損なうことなく, トレーニング時間の40%削減を実現した。 本手法は, サンプル外点のラベル情報を必要としないため, 半教師付き手法として機能し, トレーニングデータの10%のみを用いて一貫した品質を実現することができる。

The value of supervised dimensionality reduction lies in its ability to uncover meaningful connections between data features and labels. Common dimensionality reduction methods embed a set of fixed, latent points, but are not capable of generalizing to an unseen test set. In this paper, we provide an out-of-sample extension method for the random forest-based supervised dimensionality reduction method, RF-PHATE, combining information learned from the random forest model with the function-learning capabilities of autoencoders. Through quantitative assessment of various autoencoder architectures, we identify that networks that reconstruct random forest proximities are more robust for the embedding extension problem. Furthermore, by leveraging proximity-based prototypes, we achieve a 40% reduction in training time without compromising extension quality. Our method does not require label information for out-of-sample points, thus serving as a semi-supervised method, and can achieve consistent quality using only 10% of the training data.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# ポストプロセッシングと機械学習による確率的太陽エネルギー予測のためのモデルチェインアプローチの改善

Improving Model Chain Approaches for Probabilistic Solar Energy Forecasting through Post-processing and Machine Learning ( http://arxiv.org/abs/2406.04424v1 )

ライセンス: Link先を確認
Nina Horat, Sina Klerings, Sebastian Lerch, (参考訳) 数値天気予報モデルによる天気予報は、太陽エネルギー予測において中心的な役割を担っている。 エンサンブル気象予報は、将来の気象の発達における不確実性を定量化することを目的としており、この不確実性をモデル連鎖を通じて伝播させ、確率的な太陽エネルギー予測を生成するために利用することができる。 しかし、アンサンブル予測システムは体系的な誤りを示すことが知られており、正確で信頼性の高い確率予測を得るためには後処理が必要である。 本研究の目的は, モデルチェーンアプローチにポストプロセッシングを適用するための異なる戦略を体系的に評価することであり, ポストプロセッシングを全く適用しないこと, 変換前の照射予測のみをポストプロセッシングすること, モデルチェーンから得られたソーラーパワー予測のみをポストプロセッシングすること, および両ステップでポストプロセッシングを適用することである。 米国におけるジャクムバ・ソーラープラントのベンチマークデータセットに基づくケーススタディでは,グローバル水平照射と太陽光発電のアンサンブル予測を後処理する統計的および機械学習手法を開発した。 さらに,モデルチェーンをバイパスする直接太陽エネルギー予測のためのニューラルネットワークモデルを提案する。 その結果, 後処理が発電予測を大幅に改善すること, 特に後処理が発電予測に応用されることが示唆された。 後処理の機械学習手法は確率予測をわずかに改善し、直接予測手法は後処理戦略に匹敵する性能を発揮する。

Weather forecasts from numerical weather prediction models play a central role in solar energy forecasting, where a cascade of physics-based models is used in a model chain approach to convert forecasts of solar irradiance to solar power production, using additional weather variables as auxiliary information. Ensemble weather forecasts aim to quantify uncertainty in the future development of the weather, and can be used to propagate this uncertainty through the model chain to generate probabilistic solar energy predictions. However, ensemble prediction systems are known to exhibit systematic errors, and thus require post-processing to obtain accurate and reliable probabilistic forecasts. The overarching aim of our study is to systematically evaluate different strategies to apply post-processing methods in model chain approaches: Not applying any post-processing at all; post-processing only the irradiance predictions before the conversion; post-processing only the solar power predictions obtained from the model chain; or applying post-processing in both steps. In a case study based on a benchmark dataset for the Jacumba solar plant in the U.S., we develop statistical and machine learning methods for post-processing ensemble predictions of global horizontal irradiance and solar power generation. Further, we propose a neural network-based model for direct solar power forecasting that bypasses the model chain. Our results indicate that post-processing substantially improves the solar power generation forecasts, in particular when post-processing is applied to the power predictions. The machine learning methods for post-processing yield slightly better probabilistic forecasts, and the direct forecasting approach performs comparable to the post-processing strategies.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# 最小方形回帰の早期停止による正規化について

On Regularization via Early Stopping for Least Squares Regression ( http://arxiv.org/abs/2406.04425v1 )

ライセンス: Link先を確認
Rishi Sonthalia, Jackie Lok, Elizaveta Rebrova, (参考訳) 機械学習における基本的な問題は、得られたパラメータとモデルの一般化能力に対する早期停止の影響を理解することである。 線形モデルであっても、任意の学習率やデータに対して、その効果は十分に理解されていない。 本稿では,線形回帰に対する離散完全バッチ勾配勾配のダイナミクスを解析する。 最小限の仮定で、パラメータの軌跡と予測余剰リスクを特徴づける。 この特徴づけを用いて、学習率のスケジュール$\eta_k$と有限時間地平線$T$でトレーニングを行う場合、早期停止解$\beta_T$は一般化リッジ正規化問題の最小ノルム解と等価であることを示す。 また、任意のスペクトルを持つ汎用データや、幅広い学習率スケジュールにおいて、早期停止が有用であることを示す。 最適停止時間を推定し,推定値の精度を実証的に示す。

A fundamental problem in machine learning is understanding the effect of early stopping on the parameters obtained and the generalization capabilities of the model. Even for linear models, the effect is not fully understood for arbitrary learning rates and data. In this paper, we analyze the dynamics of discrete full batch gradient descent for linear regression. With minimal assumptions, we characterize the trajectory of the parameters and the expected excess risk. Using this characterization, we show that when training with a learning rate schedule $\eta_k$, and a finite time horizon $T$, the early stopped solution $\beta_T$ is equivalent to the minimum norm solution for a generalized ridge regularized problem. We also prove that early stopping is beneficial for generic data with arbitrary spectrum and for a wide variety of learning rate schedules. We provide an estimate for the optimal stopping time and empirically demonstrate the accuracy of our estimate.
翻訳日:2024-06-10 18:39:07 公開日:2024-06-06
# DeTra: オブジェクト検出と軌道予測のための統一モデル

DeTra: A Unified Model for Object Detection and Trajectory Forecasting ( http://arxiv.org/abs/2406.04426v1 )

ライセンス: Link先を確認
Sergio Casas, Ben Agro, Jiageng Mao, Thomas Gilles, Alexander Cui, Thomas Li, Raquel Urtasun, (参考訳) 物体検出と軌道予測のタスクは、自律運転のシーンを理解する上で重要な役割を果たす。 これらのタスクは典型的にはカスケード方式で実行され、エラーを複雑にする傾向がある。 さらに、通常は2つのタスクの間に非常に薄いインターフェースがあり、情報のボトルネックが失われます。 これらの課題に対処するため,本手法では,2つのタスクの結合を軌道修正問題として定式化し,第1のポーズが検出(現在時間)、続いて第2のポーズが複数の予測(未来時間)の経路ポイントとなる。 この統合タスクに対処するため、我々は、LiDAR点雲と高精細マップから直接オブジェクトの存在、ポーズ、マルチモーダルな将来の振る舞いを推測する精細化トランスフォーマーを設計する。 我々はこのモデルをデトラと呼び、オブジェクト検出と軌道予測を省略する。 実験では,Argoverse 2 Sensor と Waymo Open Dataset の最先端性能を,幅広い指標で比較した。 最後に、我々は、このタスクの洗練の価値、提案された全てのコンポーネントがそのパフォーマンスに肯定的な貢献をすることを示す広範囲なアブレーション研究を行い、重要な設計選択がなされた。

The tasks of object detection and trajectory forecasting play a crucial role in understanding the scene for autonomous driving. These tasks are typically executed in a cascading manner, making them prone to compounding errors. Furthermore, there is usually a very thin interface between the two tasks, creating a lossy information bottleneck. To address these challenges, our approach formulates the union of the two tasks as a trajectory refinement problem, where the first pose is the detection (current time), and the subsequent poses are the waypoints of the multiple forecasts (future time). To tackle this unified task, we design a refinement transformer that infers the presence, pose, and multi-modal future behaviors of objects directly from LiDAR point clouds and high-definition maps. We call this model DeTra, short for object Detection and Trajectory forecasting. In our experiments, we observe that \ourmodel{} outperforms the state-of-the-art on Argoverse 2 Sensor and Waymo Open Dataset by a large margin, across a broad range of metrics. Last but not least, we perform extensive ablation studies that show the value of refinement for this task, that every proposed component contributes positively to its performance, and that key design choices were made.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# reAnalyst: リバースエンジニアリング活動のスケーラブル分析

reAnalyst: Scalable Analysis of Reverse Engineering Activities ( http://arxiv.org/abs/2406.04427v1 )

ライセンス: Link先を確認
Tab Zhang, Claire Taylor, Bart Coppens, Waleed Mebane, Christian Collberg, Bjorn De Sutter, (参考訳) 本稿では,REツール間でのREアクティビティの半自動アノテーションを通じて,リバースエンジニアリング(RE)プラクティスの研究を促進するために設計されたスケーラブルな分析フレームワークであるreAnalystを紹介する。 reAnalystは、半自動データ分析とアノテーションによるRE実験中に、スクリーンショット、キーストローク、アクティブプロセス、その他の種類のデータのツールに依存しないデータ収集を統合することで、手動データ収集と主観的分析に大きく依存する従来のRE研究の限界を克服することを目指している。 このフレームワークにより、より効率的なデータ分析が可能になり、研究者は、リバースエンジニアがより包括的かつ効率的に使用する保護技術と戦略の有効性を探求することができる。 実験的評価では、様々な複雑なスクリーンショットからREアクティビティを識別するフレームワークの機能を検証することにより、分析プロセスを簡素化し、より効果的な研究結果をサポートする。

This paper introduces reAnalyst, a scalable analysis framework designed to facilitate the study of reverse engineering (RE) practices through the semi-automated annotation of RE activities across various RE tools. By integrating tool-agnostic data collection of screenshots, keystrokes, active processes, and other types of data during RE experiments with semi-automated data analysis and annotation, reAnalyst aims to overcome the limitations of traditional RE studies that rely heavily on manual data collection and subjective analysis. The framework enables more efficient data analysis, allowing researchers to explore the effectiveness of protection techniques and strategies used by reverse engineers more comprehensively and efficiently. Experimental evaluations validate the framework's capability to identify RE activities from a diverse range of screenshots with varied complexities, thereby simplifying the analysis process and supporting more effective research outcomes.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# MoralBench: LLMのモラル評価

MoralBench: Moral Evaluation of LLMs ( http://arxiv.org/abs/2406.04428v1 )

ライセンス: Link先を確認
Jianchao Ji, Yutong Chen, Mingyu Jin, Wujiang Xu, Wenyue Hua, Yongfeng Zhang, (参考訳) 人工知能の急速に発展する分野において、大規模言語モデル(LLM)は、自然言語処理から意思決定支援システムに至るまで、無数のアプリケーションのための強力なツールとして登場した。 しかし、これらのモデルが社会的枠組みにますます統合されるにつれて、倫理的・道徳的境界内での運用を確実にする義務は、これまで以上に重要視されてきた。 本稿では,LLMの道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。 実世界の複雑さを反映した幅広い倫理的ジレンマとシナリオに対処し、LLM出力の道徳的次元を探索するために特別に算出された最初の包括的データセットを提示する。 この研究の主な貢献は、LLMの道徳的アイデンティティを評価するためのベンチマークデータセットとメトリクスの開発である。 本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。 いくつかの主要なLCMにベンチマークを適用することで、異なるモデルの道徳的推論能力のかなりのバリエーションが明らかになった。 これらの知見は,LLMの開発・評価における道徳的推論の重要性と,本研究で明らかになったバイアスや限界に対処するための継続的な研究の必要性を浮き彫りにするものである。 私たちはベンチマークをhttps://drive.google.com/drive/u/0/folders/1k93YZJserYc2CkqP8d4B3M3sgd3kA8W7で公開し、プロジェクトのコードをhttps://github.com/agiresearch/MoralBenchでオープンソース化しました。

In the rapidly evolving field of artificial intelligence, large language models (LLMs) have emerged as powerful tools for a myriad of applications, from natural language processing to decision-making support systems. However, as these models become increasingly integrated into societal frameworks, the imperative to ensure they operate within ethical and moral boundaries has never been more critical. This paper introduces a novel benchmark designed to measure and compare the moral reasoning capabilities of LLMs. We present the first comprehensive dataset specifically curated to probe the moral dimensions of LLM outputs, addressing a wide range of ethical dilemmas and scenarios reflective of real-world complexities. The main contribution of this work lies in the development of benchmark datasets and metrics for assessing the moral identity of LLMs, which accounts for nuance, contextual sensitivity, and alignment with human ethical standards. Our methodology involves a multi-faceted approach, combining quantitative analysis with qualitative insights from ethics scholars to ensure a thorough evaluation of model performance. By applying our benchmark across several leading LLMs, we uncover significant variations in moral reasoning capabilities of different models. These findings highlight the importance of considering moral reasoning in the development and evaluation of LLMs, as well as the need for ongoing research to address the biases and limitations uncovered in our study. We publicly release the benchmark at https://drive.google.com/drive/u/0/folders/1k93YZJserYc2CkqP8d4B3M3sgd3kA8W7 and also open-source the code of the project at https://github.com/agiresearch/MoralBench.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# LipGER:ロバスト音声認識のための視覚的制約付き生成誤差補正

LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition ( http://arxiv.org/abs/2406.04432v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Sonal Kumar, Ashish Seth, Purva Chiniya, Utkarsh Tyagi, Ramani Duraiswami, Dinesh Manocha, (参考訳) 唇の動きのような視覚的手がかりは、雑音の多い環境での音声認識(ASR)システムの性能を向上させることが示されている。 ノイズロスASRに視覚的手がかりを活用するための新しいフレームワークであるLipGER(Lip Motion Supported Generative Error Correction)を提案する。 音声と視覚のモード間の相互相関を学習する代わりに、LLMは視覚条件付き(生成的)ASR誤り訂正のタスクを学習させる。 具体的には,ALRビームサーチを用いて生成したN-best仮説からの転写を予測するためにLSMを指示する。 これは唇の動きによってさらに調節される。 このアプローチは、大規模なペアデータセットの欠如や、新しいドメインへの適応の難しさなど、従来のAVSR学習における重要な課題に対処する。 様々な設定で4つのデータセットを実験し、LipGERが1.1%~49.2%の範囲でワードエラー率を改善することを示す。 また、仮説転写ペアを備えた大規模データセットであるLipHypをリリースし、この空間におけるさらなる研究を促進するためにリップモーションキューを付加した。

Visual cues, like lip motion, have been shown to improve the performance of Automatic Speech Recognition (ASR) systems in noisy environments. We propose LipGER (Lip Motion aided Generative Error Correction), a novel framework for leveraging visual cues for noise-robust ASR. Instead of learning the cross-modal correlation between the audio and visual modalities, we make an LLM learn the task of visually-conditioned (generative) ASR error correction. Specifically, we instruct an LLM to predict the transcription from the N-best hypotheses generated using ASR beam-search. This is further conditioned on lip motions. This approach addresses key challenges in traditional AVSR learning, such as the lack of large-scale paired datasets and difficulties in adapting to new domains. We experiment on 4 datasets in various settings and show that LipGER improves the Word Error Rate in the range of 1.1%-49.2%. We also release LipHyp, a large-scale dataset with hypothesis-transcription pairs that is additionally equipped with lip motion cues to promote further research in this space
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# TexIm FAST:変換器を用いた意味的類似性評価のためのテキストから画像への表現

TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers ( http://arxiv.org/abs/2406.04438v1 )

ライセンス: Link先を確認
Wazib Ansar, Saptarsi Goswami, Amlan Chakrabarti, (参考訳) 自然言語処理(NLP)の主な目的の1つは、テキストから意味のある表現を生成することである。 表現の情報性を改善することで、次元性やメモリフットプリントが大幅に向上した。 これは、パラメータを増やして下流モデルの複雑さを増幅するカスケーディング効果をもたらす。 利用可能なテクニックは、text-to-imageのようなクロスモーダルなアプリケーションには適用できない。 これらの課題を改善するために,変圧器 (TexIm FAST) を用いた意味評価のための自己教師付き変分自動エンコーダ (VAE) による固定長表現を生成する新しいテキスト・ツー・イメージ手法を提案する。 画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。 TexIm FASTは可変長シーケンスを扱い、75%以上のメモリフットプリントを持つ固定長表現を生成する。 パラメータを小さくすることで、下流タスクのモデルの効率を向上する。 TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。 その結果、ベースラインに比べて6%精度が向上し、テキストなどの異なる長さ列と要約を比較できる特有な能力を示した。

One of the principal objectives of Natural Language Processing (NLP) is to generate meaningful representations from text. Improving the informativeness of the representations has led to a tremendous rise in the dimensionality and the memory footprint. It leads to a cascading effect amplifying the complexity of the downstream model by increasing its parameters. The available techniques cannot be applied to cross-modal applications such as text-to-image. To ameliorate these issues, a novel Text-to-Image methodology for generating fixed-length representations through a self-supervised Variational Auto-Encoder (VAE) for semantic evaluation applying transformers (TexIm FAST) has been proposed in this paper. The pictorial representations allow oblivious inference while retaining the linguistic intricacies, and are potent in cross-modal applications. TexIm FAST deals with variable-length sequences and generates fixed-length representations with over 75% reduced memory footprint. It enhances the efficiency of the models for downstream tasks by reducing its parameters. The efficacy of TexIm FAST has been extensively analyzed for the task of Semantic Textual Similarity (STS) upon the MSRPC, CNN/ Daily Mail, and XSum data-sets. The results demonstrate 6% improvement in accuracy compared to the baseline and showcase its exceptional ability to compare disparate length sequences such as a text with its summary.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# AdaGradの騒音が重くなるとグラディエント・クリッピングが改善

Gradient Clipping Improves AdaGrad when the Noise Is Heavy-Tailed ( http://arxiv.org/abs/2406.04443v1 )

ライセンス: Link先を確認
Savelii Chezhegov, Yaroslav Klyukin, Andrei Semenov, Aleksandr Beznosikov, Alexander Gasnikov, Samuel Horváth, Martin Takáč, Eduard Gorbunov, (参考訳) AdaGradやAdamのような適応的なステップサイズを持つ手法は、現代のディープラーニングモデル、特に大規模言語モデルのトレーニングに不可欠である。 典型的には、確率勾配のノイズは後続の騒音に対して重くなる。 グラディエントクリッピングは、そのようなノイズに対して良好な高確率収束を実現するのに有効である。 しかし、AdaGrad/AdamとClip-SGDの類似性にもかかわらず、AdaGrad/Adamの高確率収束性は研究されていない。 本研究では、AdaGrad(およびその遅延バージョン)が、ノイズが重く抑えられた場合、確実に高い確率収束性を持つことを示す。 この問題を解決するために,Clip-RAdaGradD (Clipped Reweighted AdaGrad with Delay) と呼ばれるAdaGradの新バージョンを提案する。 NLPモデルファインチューニングを含む経験的評価は、重み付きノイズに対するAdaGrad/Adamのクリップ化バージョンの優位性を強調した。

Methods with adaptive stepsizes, such as AdaGrad and Adam, are essential for training modern Deep Learning models, especially Large Language Models. Typically, the noise in the stochastic gradients is heavy-tailed for the later ones. Gradient clipping provably helps to achieve good high-probability convergence for such noises. However, despite the similarity between AdaGrad/Adam and Clip-SGD, the high-probability convergence of AdaGrad/Adam has not been studied in this case. In this work, we prove that AdaGrad (and its delayed version) can have provably bad high-probability convergence if the noise is heavy-tailed. To fix this issue, we propose a new version of AdaGrad called Clip-RAdaGradD (Clipped Reweighted AdaGrad with Delay) and prove its high-probability convergence bounds with polylogarithmic dependence on the confidence level for smooth convex/non-convex stochastic optimization with heavy-tailed noise. Our empirical evaluations, including NLP model fine-tuning, highlight the superiority of clipped versions of AdaGrad/Adam in handling the heavy-tailed noise.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# 言語モデルは予測戦略を使えるか?

Can Language Models Use Forecasting Strategies? ( http://arxiv.org/abs/2406.04446v1 )

ライセンス: Link先を確認
Sarah Pratt, Seth Blumberg, Pietro Kreitlon Carolino, Meredith Ringel Morris, (参考訳) ディープラーニングシステムの進歩により、画像分類、基本プログラミング、標準化されたテストテイクなど、多数のスキルにおいて、大規模なモデルが人間の精度にマッチしたり、超えたりすることが可能になった。 最も有能なモデルの性能が、人間が既に高い精度で達成しているタスクで飽和し始めるにつれ、ますます複雑な能力のモデルをベンチマークする必要がある。 そのようなタスクの1つは、イベントの将来の結果を予測することです。 本研究では,実世界の事象と関連する人的予測の新たなデータセットを用いた実験,予測能力を評価するための評価指標,提案したデータセット上での複数のLSMに基づく予測設計の精度について述べる。 さらに,LLM予測器の性能を人間の予測に対して解析し,モデルが今後も正確な予測を行うのに苦慮していることを確認した。 我々の追跡実験は、ほとんどの事象が起こらない(多くの予測データセットに当てはまる傾向にあるが、実際の予測能力は反映していない)と推測するモデルの傾向が原因であることを示している。 我々は,LLM予測の体系的かつ信頼性の高い手法を開発するための次のステップについて考察する。

Advances in deep learning systems have allowed large models to match or surpass human accuracy on a number of skills such as image classification, basic programming, and standardized test taking. As the performance of the most capable models begin to saturate on tasks where humans already achieve high accuracy, it becomes necessary to benchmark models on increasingly complex abilities. One such task is forecasting the future outcome of events. In this work we describe experiments using a novel dataset of real world events and associated human predictions, an evaluation metric to measure forecasting ability, and the accuracy of a number of different LLM based forecasting designs on the provided dataset. Additionally, we analyze the performance of the LLM forecasters against human predictions and find that models still struggle to make accurate predictions about the future. Our follow-up experiments indicate this is likely due to models' tendency to guess that most events are unlikely to occur (which tends to be true for many prediction datasets, but does not reflect actual forecasting abilities). We reflect on next steps for developing a systematic and reliable approach to studying LLM forecasting.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# MAIRA-2:グラウンドド・ラジオロジー・レポート・ジェネレーション

MAIRA-2: Grounded Radiology Report Generation ( http://arxiv.org/abs/2406.04449v1 )

ライセンス: Link先を確認
Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Anton Schwaighofer, Sam Bond-Taylor, Maximilian Ilse, Fernando Pérez-García, Valentina Salvatelli, Harshita Sharma, Felix Meissen, Mercy Ranjit, Shaury Srivastav, Julia Gong, Fabian Falck, Ozan Oktay, Anja Thieme, Matthew P. Lungren, Maria Teodora Wetscherek, Javier Alvarez-Valle, Stephanie L. Hyland, (参考訳) 放射線学報告は、詳細な画像理解、先行画像との比較を含む複数の入力の統合、正確な言語生成を必要とする複雑なタスクである。 これは、生成的マルチモーダルモデルの開発と利用に理想的である。 ここでは、画像上の個々の発見の局所化を含むレポート生成を拡張し、そのタスクをグラウンドドレポート生成と呼ぶ。 先行研究は、画像理解とAI生成テキストの解釈に基盤が重要であることを示唆している。 そのため,自動レポート作成の有用性と透明性の向上が期待できる。 そこで本稿では,大規模言語モデル(LLM)の推論機能を活用した新たな評価フレームワークRadFactを提案する。 RadFactは、個々の生成された文の事実性や、生成した空間的局所性の正しさを評価する。 放射線学固有の画像エンコーダをLCMと組み合わせた大規模マルチモーダルモデルMAIRA-2を導入し,胸部X線に基づく新たな報告生成の課題を訓練した。 MAIRA-2は前報よりも総合的な入力、すなわち、現在の正面画像、現在の横画像、前の正面画像、および前報、および現在の報告の表示、技術、比較セクションを使用する。 提案手法は,MIMIC-CXRをベースとせず,報告品質を向上し,幻覚の低減を図り,新鮮でリッチなタスクとしての基盤レポートの実現可能性を示した。

Radiology reporting is a complex task that requires detailed image understanding, integration of multiple inputs, including comparison with prior imaging, and precise language generation. This makes it ideal for the development and use of generative multimodal models. Here, we extend report generation to include the localisation of individual findings on the image - a task we call grounded report generation. Prior work indicates that grounding is important for clarifying image understanding and interpreting AI-generated text. Therefore, grounded reporting stands to improve the utility and transparency of automated report drafting. To enable evaluation of grounded reporting, we propose a novel evaluation framework - RadFact - leveraging the reasoning capabilities of large language models (LLMs). RadFact assesses the factuality of individual generated sentences, as well as correctness of generated spatial localisations when present. We introduce MAIRA-2, a large multimodal model combining a radiology-specific image encoder with a LLM, and trained for the new task of grounded report generation on chest X-rays. MAIRA-2 uses more comprehensive inputs than explored previously: the current frontal image, the current lateral image, the prior frontal image and prior report, as well as the Indication, Technique and Comparison sections of the current report. We demonstrate that these additions significantly improve report quality and reduce hallucinations, establishing a new state of the art on findings generation (without grounding) on MIMIC-CXR while demonstrating the feasibility of grounded reporting as a novel and richer task.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# TMDCヘテロ構造におけるラシュバ相互作用の超高速光制御

Ultrafast Optical Control of Rashba Interactions in a TMDC Heterostructure ( http://arxiv.org/abs/2406.04454v1 )

ライセンス: Link先を確認
Henry Mittenzwey, Abhijeet Kumar, Raghav Dhingra, Kenji Watanabe, Takashi Taniguchi, Cornelius Gahl, Kirill I. Bolotin, Malte Selig, Andreas Knorr, (参考訳) Rashba効果により誘導されるMoSe2/MoS2ヘテロ構造における層間励起子のスピン緩和ダイナミクスについて検討した。 このようなシステムでは、ラシュバ相互作用はフォノンを補助するバレースピン緩和を引き起こす光生成層間励起子によって外界の電場から生じる。 我々は、ラシュバ相互作用の大きさを定量化するための顕微鏡的アプローチに基づく理論的記述を開発し、これらの予測を時間分解Kerr回転測定により検証する。 これらの計算と一致して、Rashbaにより誘導されるバレー内スピン混合は、T = 50 K以上の支配的なスピン緩和チャネルとなり、我々の研究は、超高速なスピン操作に使用できるヘテロ構造において、未探索のスピン脱分極チャネルを同定する。

We investigate spin relaxation dynamics of interlayer excitons in a MoSe2/MoS2 heterostructure induced by the Rashba effect. In such a system, Rashba interactions arise from an out-of-plane electric field due to photo-generated interlayer excitons inducing a phonon-assisted intravalley spin relaxation. We develop a theoretical description based on a microscopic approach to quantify the magnitude of Rashba interactions and test these predictions via time-resolved Kerr rotation measurements. In agreement with the calculations, we find that the Rashba-induced intravalley spin mixing becomes the dominating spin relaxation channel above T = 50 K. Our work identifies a previously unexplored spin-depolarization channel in heterostructures which can be used for ultrafast spin manipulation.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# GNNを用いたセルフリーマスMIMOのための最適線形プリコーディングの学習

Learning Optimal Linear Precoding for Cell-Free Massive MIMO with GNN ( http://arxiv.org/abs/2406.04456v1 )

ライセンス: Link先を確認
Benjamin Parlier, Lou Salaün, Hong Yang, (参考訳) 実用システムで要求される1~2ミリ秒の時間予算で計算可能なグラフニューラルネットワーク(GNN)を開発した。この最適化線形プリコーダ(OLP)は,Cell-Free Massive MIMOシステム(キー6G無線技術)の最小ダウンリンクユーザデータレートを最大化する。 State-of-the-art法は、2次コーンプログラミング実現可能性テスト(B-SOCP)の2項探索であり、実用システムには大きすぎる。 提案手法は,ノードレベルの予測タスクとして OLP をグラフ上で表現することに依存する。 我々は、アクセスポイント(AP)とユーザ機器(UE)の相互依存関係を正確に把握するグラフを構築し、Max-Min問題の変分同値を構築する。 我々のニューラルネットワークは、OLP-GNNと呼ばれ、B-SOCPが取得したデータに基づいて訓練されている。 我々は、OLP-GNNのサイズを調整し、実行時要件を満たすために、いくつかの巧妙なデータ前処理と後処理手法を併用する。 我々は,AP と UE の異なる様々なシナリオにおいて,ほぼ最適なスペクトル効率を達成できることを示す。

We develop a graph neural network (GNN) to compute, within a time budget of 1 to 2 milliseconds required by practical systems, the optimal linear precoder (OLP) maximizing the minimal downlink user data rate for a Cell-Free Massive MIMO system - a key 6G wireless technology. The state-of-the-art method is a bisection search on second order cone programming feasibility test (B-SOCP) which is a magnitude too slow for practical systems. Our approach relies on representing OLP as a node-level prediction task on a graph. We construct a graph that accurately captures the interdependence relation between access points (APs) and user equipments (UEs), and the permutation equivariance of the Max-Min problem. Our neural network, named OLP-GNN, is trained on data obtained by B-SOCP. We tailor the OLP-GNN size, together with several artful data preprocessing and postprocessing methods to meet the runtime requirement. We show by extensive simulations that it achieves near optimal spectral efficiency in a range of scenarios with different number of APs and UEs, and for both line-of-sight and non-line-of-sight radio propagation environments.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# LLMを用いたテキスト生成における属性強度の平滑化制御の評価

Evaluating the Smooth Control of Attribute Intensity in Text Generation with LLMs ( http://arxiv.org/abs/2406.04460v1 )

ライセンス: Link先を確認
Shang Zhou, Feng Yao, Chengyu Dong, Zihan Wang, Jingbo Shang, (参考訳) テキスト生成の属性強度の制御は、シナリオ(例えば、簡潔さ、チャット感情、説明明快さ)で重要である。 大規模言語モデル(LLM)の顕著な能力は、テキスト生成に革命をもたらし、LCM生成のそのような 'emph{smooth control} を探索するきっかけとなった。 具体的には、異なる制御値に応じて生成されたテキストの属性強度の範囲、キャリブレーション、一貫性、および、意図したコンテキストとの関連性を評価する指標を提案する。 属性強度と文脈関連性を定量化するために,Elo 評価システムと GPT4 を利用した効果的な評価手法を提案する。 本研究では,LLMのスムーズな制御を実現するためのトレーニング不要な2つの手法について考察する。 これらの2つの手法の評価は、様々なモデルで5ドルの異なる属性を用いて行われる。 コードとデータセットは \url{https://github.com/ShangDataLab/Smooth-Control} から取得できます。

Controlling the attribute intensity of text generation is crucial across scenarios (e.g., writing conciseness, chatting emotion, and explanation clarity). The remarkable capabilities of large language models (LLMs) have revolutionized text generation, prompting us to explore such \emph{smooth control} of LLM generation. Specifically, we propose metrics to assess the range, calibration, and consistency of the generated text's attribute intensity in response to varying control values, as well as its relevance to the intended context. To quantify the attribute intensity and context relevance, we propose an effective evaluation framework leveraging the Elo rating system and GPT4, both renowned for their robust alignment with human judgment. We look into two viable training-free methods for achieving smooth control of LLMs: (1) Prompting with semantic shifters, and (2) Modifying internal model representations. The evaluations of these two methods are conducted on $5$ different attributes with various models. Our code and dataset can be obtained from \url{https://github.com/ShangDataLab/Smooth-Control}.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# インシシットな談話関係認識のためのマルチラベル分類

Multi-Label Classification for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2406.04461v1 )

ライセンス: Link先を確認
Wanqiu Long, N. Siddharth, Bonnie Webber, (参考訳) 談話関係は、文章の内容の中に一貫性を確立する上で重要な役割を担い、文や節を結束的な物語にまとめる。 ペン・ディスコース・ツリーバンク(PDTB)は、この領域で最も広く利用されているデータセットの1つである。 PDTB-3では、アノテータは複数の関係が存在すると信じている場合、複数のラベルを例に割り当てることができる。 談話関係認識の先行研究は、これらの事例をトレーニング中に別の例として扱い、その事例が正しいと判断されるためには、ラベルを正しく予測する必要がある唯一の例である。 しかし、実世界の文脈におけるラベルの相互依存を考慮せず、一つの意味関係しか持たない場合と複数の関係が同時に持つ場合とを区別できないため、このアプローチは不十分である。 本研究は,暗黙的な対話関係認識を扱うための多言語分類フレームワークを探索することによって,この問題に対処する。 本研究では,複数ラベルの分類手法が単一ラベルの予測性能を低下させないことを示す。 さらに、結果とデータの包括的分析も行います。 我々の研究は、談話関係の理解と適用の促進に寄与し、今後の研究の基盤を提供する。

Discourse relations play a pivotal role in establishing coherence within textual content, uniting sentences and clauses into a cohesive narrative. The Penn Discourse Treebank (PDTB) stands as one of the most extensively utilized datasets in this domain. In PDTB-3, the annotators can assign multiple labels to an example, when they believe that multiple relations are present. Prior research in discourse relation recognition has treated these instances as separate examples during training, and only one example needs to have its label predicted correctly for the instance to be judged as correct. However, this approach is inadequate, as it fails to account for the interdependence of labels in real-world contexts and to distinguish between cases where only one sense relation holds and cases where multiple relations hold simultaneously. In our work, we address this challenge by exploring various multi-label classification frameworks to handle implicit discourse relation recognition. We show that multi-label classification methods don't depress performance for single-label prediction. Additionally, we give comprehensive analysis of results and data. Our work contributes to advancing the understanding and application of discourse relations and provide a foundation for the future study
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# 連続自然局在モデルにおける宇宙物理学的境界の再検討

Revisiting astrophysical bounds on continuous spontaneous localization models ( http://arxiv.org/abs/2406.04463v1 )

ライセンス: Link先を確認
Martin Miguel Ocampo, Marcelo M. Miller Bertolami, Gabriel León, (参考訳) 基礎物理学の未解決問題の中で、量子力学の計測問題と同じくらい概念的に重要なものはほとんどない。 この問題に対する提案された解決策の1つは連続自発的局所化(CSL)モデルであり、これはシュリンガー方程式の非線形および確率的な修正を導入している。 このモデルは、実験的制約を受けることができる2つのパラメータを含む。 この理論の最も顕著な結果の1つは、巨大な物体の自然加熱であり、この異常加熱はCSLパラメータに依存する。 本研究では,これまでに見いだされたいくつかの天体物理学的境界を再検討し,様々なコンパクト物体の自然加熱試験法を提案する。 最後に、異なる境界を比較し、それぞれの利点と欠点について議論します。

Among the open problems in fundamental physics, few are as conceptually significant as the measurement problem in Quantum Mechanics. One of the proposed solutions to this problem is the Continuous Spontaneous Localization (CSL) model, which introduces a non-linear and stochastic modification of the Schr\"odinger equation. This model incorporates two parameters that can be subjected to experimental constraints. One of the most notable consequences of this theory is the spontaneous heating of massive objects; this anomalous heating is dependent on the CSL parameters. In this work, we will revisit some astrophysical bounds previously found, and introduce new methods for testing the spontaneous heating in a variety of compact objects. Finally, we will compare our different bounds and discuss the benefits and shortcomings of each one.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# リポジトリレベルのコード編集におけるコンテキスト検索における推論の重要性について

On The Importance of Reasoning for Context Retrieval in Repository-Level Code Editing ( http://arxiv.org/abs/2406.04464v1 )

ライセンス: Link先を確認
Alexander Kovrigin, Aleksandra Eliseeva, Yaroslav Zharov, Timofey Bryksin, (参考訳) LLM(Code-fluent Large Language Models)の最近の進歩は、リポジトリレベルのコード編集の研究を可能にした。 このようなタスクでは、モデルは要求に応じてプロジェクトのコードベース全体をナビゲートし、変更します。 したがって、そのようなタスクは効率的なコンテキスト検索、すなわち、関連するコンテキストを収集するために広大なコードベースをナビゲートする必要がある。 文脈検索の重要性が認識されているにもかかわらず、既存の研究はリポジトリレベルのコーディングタスクをエンドツーエンドにアプローチする傾向にあり、これらの複雑なシステム内の個々のコンポーネントの影響は不明確である。 本研究では,リポジトリレベルのコード編集パイプラインの他のコンポーネントからコンテキスト検索のタスクを分離する。 このコンポーネントの強みと弱みを定義し、文脈検索のみに焦点を当てた実験を行うことで推論が果たす役割を明らかにする。 結論として、この推論は収集された文脈の精度を向上させるのに役立つが、それでもその十分性を識別する能力は欠如している。 また、コンテキスト収集における特殊ツールの究極の役割についても概説する。 この論文を補完するコードはhttps://github.com/JetBrains-Research/ai-agents-code-editingで公開されている。

Recent advancements in code-fluent Large Language Models (LLMs) enabled the research on repository-level code editing. In such tasks, the model navigates and modifies the entire codebase of a project according to request. Hence, such tasks require efficient context retrieval, i.e., navigating vast codebases to gather relevant context. Despite the recognized importance of context retrieval, existing studies tend to approach repository-level coding tasks in an end-to-end manner, rendering the impact of individual components within these complicated systems unclear. In this work, we decouple the task of context retrieval from the other components of the repository-level code editing pipelines. We lay the groundwork to define the strengths and weaknesses of this component and the role that reasoning plays in it by conducting experiments that focus solely on context retrieval. We conclude that while the reasoning helps to improve the precision of the gathered context, it still lacks the ability to identify its sufficiency. We also outline the ultimate role of the specialized tools in the process of context gathering. The code supplementing this paper is available at https://github.com/JetBrains-Research/ai-agents-code-editing.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# 効率的な音声合成のための線形注意付き小型E:小言語モデル

Small-E: Small Language Model with Linear Attention for Efficient Speech Synthesis ( http://arxiv.org/abs/2406.04467v1 )

ライセンス: Link先を確認
Théodor Lemerle, Nicolas Obin, Axel Roebel, (参考訳) 言語モデルを用いたテキスト音声合成(TTS)の最近の進歩は、自然性やゼロショット音声のクローニングの実現において顕著な能力を示した。 注目すべきなのは、デコーダのみのトランスフォーマーが、この領域で目立ったアーキテクチャであることだ。 しかし、トランスフォーマーは、シーケンス長の2次複雑さから生じる課題に直面し、長いシーケンスとリソース制約のあるハードウェアのトレーニングを妨げる。 さらに、それらはTSアライメントの単調性に関して特定の帰納的バイアスを欠いている。 そこで本研究では,リピートとスキップの問題を緩和する特別なクロスアテンション機構を導入し,トランスフォーマーを新たなアーキテクチャに置き換えることを提案する。 その結果、我々のアーキテクチャは、長いサンプルで効率的に訓練でき、同等の大きさのベースラインに対して最先端のゼロショット音声クローンを実現することができる。

Recent advancements in text-to-speech (TTS) powered by language models have showcased remarkable capabilities in achieving naturalness and zero-shot voice cloning. Notably, the decoder-only transformer is the prominent architecture in this domain. However, transformers face challenges stemming from their quadratic complexity in sequence length, impeding training on lengthy sequences and resource-constrained hardware. Moreover they lack specific inductive bias with regards to the monotonic nature of TTS alignments. In response, we propose to replace transformers with emerging recurrent architectures and introduce specialized cross-attention mechanisms for reducing repeating and skipping issues. Consequently our architecture can be efficiently trained on long samples and achieve state-of-the-art zero-shot voice cloning against baselines of comparable size.
翻訳日:2024-06-10 18:17:07 公開日:2024-06-06
# 大規模視覚言語モデルの評価 : 合成ベンチマークによる実世界の複雑さの理解

Evaluating Large Vision-Language Models' Understanding of Real-World Complexities Through Synthetic Benchmarks ( http://arxiv.org/abs/2406.04470v1 )

ライセンス: Link先を確認
Haokun Zhou, Yipeng Hong, (参考訳) 本研究では,AI生成画像と人間生成画像とを区別するLVLM(Large Vision-Language Models)の能力を評価する。 この評価のための新しい自動ベンチマーク構築手法を導入する。 この実験は、AIと人間の作成した画像の混合データセットを使用して、一般的なLVLMと人間の参加者を比較した。 その結果、LVLMは画像の種類をある程度区別できるが、右向きの偏見を示し、人間に比べてかなり悪い結果が得られた。 これらの結果に基づいて,AIを用いた自動ベンチマーク構築プロセスを開発した。 このプロセスには、トピック検索、物語のスクリプト生成、エラー埋め込み、画像生成が含まれ、意図的なエラーを伴う多様なテキストイメージペアを作成する。 キャパブルベンチマークを2つ構築することで,本手法の有効性を検証した。 本研究は、実世界の理解におけるLVLMの強みと弱みを強調し、ベンチマーク構築手法を進歩させ、AIモデル評価のためのスケーラブルで自動的なアプローチを提供する。

This study assesses the ability of Large Vision-Language Models (LVLMs) to differentiate between AI-generated and human-generated images. It introduces a new automated benchmark construction method for this evaluation. The experiment compared common LVLMs with human participants using a mixed dataset of AI and human-created images. Results showed that LVLMs could distinguish between the image types to some extent but exhibited a rightward bias, and perform significantly worse compared to humans. To build on these findings, we developed an automated benchmark construction process using AI. This process involved topic retrieval, narrative script generation, error embedding, and image generation, creating a diverse set of text-image pairs with intentional errors. We validated our method through constructing two caparable benchmarks. This study highlights the strengths and weaknesses of LVLMs in real-world understanding and advances benchmark construction techniques, providing a scalable and automatic approach for AI model evaluation.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# 確率論的ニューロシンボリック学習の硬さについて

On the Hardness of Probabilistic Neurosymbolic Learning ( http://arxiv.org/abs/2406.04472v1 )

ライセンス: Link先を確認
Jaron Maene, Vincent Derkinderen, Luc De Raedt, (参考訳) 純粋にニューラルネットワークの限界は、確率論的論理的推論とニューラルネットワークを組み合わせた確率論的ニューロシンボリックモデルへの関心を喚起した。 これらのニューロシンボリックモデルは勾配降下で訓練されるので、確率論的推論を区別する複雑さについて研究する。 これらの勾配の近似は一般には難解であるが、訓練中は難解になる。 さらに,モデルサンプリングに基づく非バイアス勾配推定器WeightMEを導入する。 軽微な仮定の下で、WeightMEはSATソルバへの対数的な呼び出し数を用いて確率的保証と勾配を近似する。 最後に、これらの保証の必要性を勾配で評価する。 我々の実験は、まだ正確な解が可能である場合でも、既存の偏差近似は最適化に苦慮していることを示している。

The limitations of purely neural learning have sparked an interest in probabilistic neurosymbolic models, which combine neural networks with probabilistic logical reasoning. As these neurosymbolic models are trained with gradient descent, we study the complexity of differentiating probabilistic reasoning. We prove that although approximating these gradients is intractable in general, it becomes tractable during training. Furthermore, we introduce WeightME, an unbiased gradient estimator based on model sampling. Under mild assumptions, WeightME approximates the gradient with probabilistic guarantees using a logarithmic number of calls to a SAT solver. Lastly, we evaluate the necessity of these guarantees on the gradient. Our experiments indicate that the existing biased approximations indeed struggle to optimize even when exact solving is still feasible.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# 運動の量子方程式と情報完全測定による分子熱平均の推定

Estimating molecular thermal averages with the quantum equation of motion and informationally complete measurements ( http://arxiv.org/abs/2406.04475v1 )

ライセンス: Link先を確認
Daniele Morrone, N. Walter Talarico, Marco Cattaneo, Matteo A. C. Rossi, (参考訳) 変分量子固有解法(VQE)を活用することで、「量子運動方程式」(qEOM)法は、近未来の量子コンピュータにおける量子化学の有望なツールとして確立され、分子励起状態の推定に広く利用されている。 本稿では、量子系の熱平均、特にエチレンやブタジエンなどの分子を計算するために、この手法の新たな応用を探求する。 qEOMの欠点は、システムの基底状態において、多数の観測可能量の期待値を測定する必要があり、必要な測定回数がボトルネックとなることである。 本研究では,情報完全正の演算子評価尺度(IC-POVM)による測定に着目し,測定オーバーヘッドの低減を実現する。 我々は,qEOMとIC-POVMの測定を組み合わせることで,適切なショット数で熱状態の復元に十分な精度が得られたことを数値シミュレーションで示す。

By leveraging the Variational Quantum Eigensolver (VQE), the ``quantum equation of motion" (qEOM) method established itself as a promising tool for quantum chemistry on near term quantum computers, and has been used extensively to estimate molecular excited states. Here, we explore a novel application of this method, employing it to compute thermal averages of quantum systems, specifically molecules like ethylene and butadiene. A drawback of qEOM is that it requires measuring the expectation values of a large number of observables on the ground state of the system, and the number of necessary measurements can become a bottleneck of the method. In this work we focus on measurements through informationally complete positive operator-valued measures (IC-POVMs) to achieve a reduction in the measurements overheads. We show with numerical simulations that the qEOM combined with IC-POVM measurements ensures a satisfactory accuracy in the reconstruction of the thermal state with a reasonable number of shots.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# ニューラルネットワークのヘシアンに関する確率的境界:導出性保存性解析

Provable Bounds on the Hessian of Neural Networks: Derivative-Preserving Reachability Analysis ( http://arxiv.org/abs/2406.04476v1 )

ライセンス: Link先を確認
Sina Sharifi, Mahyar Fazlyab, (参考訳) 本稿では,アクティベーションの異なるニューラルネットワークに適した新しい到達可能性解析手法を提案する。 我々のアイデアは、一階述語Taylor展開に基づくニューラルネットワークマップの健全な抽象化と、残りを束縛することに基づいている。 そこで本研究では,ネットワークの第1微分(次)および第2微分(ヘシアン)に関する解析的境界を求める手法を提案する。 本手法の重要な特徴は,活性化関数のループ変換により,その単調性を効果的に活用することである。 結果として得られるエンドツーエンドの抽象化は、微分情報を局所的に保存し、小さな入力集合に正確な境界を与える。 最後に、より大規模な入力セットに対してブランチとバウンドのフレームワークを使用して、抽象化を再帰的に洗練します。 本手法は,異なる例を用いて数値的に評価し,関連する最先端手法と比較する。

We propose a novel reachability analysis method tailored for neural networks with differentiable activations. Our idea hinges on a sound abstraction of the neural network map based on first-order Taylor expansion and bounding the remainder. To this end, we propose a method to compute analytical bounds on the network's first derivative (gradient) and second derivative (Hessian). A key aspect of our method is loop transformation on the activation functions to exploit their monotonicity effectively. The resulting end-to-end abstraction locally preserves the derivative information, yielding accurate bounds on small input sets. Finally, we employ a branch and bound framework for larger input sets to refine the abstraction recursively. We evaluate our method numerically via different examples and compare the results with relevant state-of-the-art methods.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# PromptFix: Adversarial Prompt Tuningによるバックドア削除

PromptFix: Few-shot Backdoor Removal via Adversarial Prompt Tuning ( http://arxiv.org/abs/2406.04478v1 )

ライセンス: Link先を確認
Tianrong Zhang, Zhaohan Xi, Ting Wang, Prasenjit Mitra, Jinghui Chen, (参考訳) 事前訓練された言語モデル(PLM)は、この数年間、その非並列なパフォーマンスで大きな注目を集めてきた。 一方、PLMのトレーニングコストと驚くべき一般化性は、数ショットの微調整と自然言語処理(NLP)モデルのトレーニングパラダイムとして最も一般的なものとなっている。 しかしながら、既存の研究では、これらのNLPモデルは、トリガートークンが提示されたときにモデル挙動が操作されるように、バックドア化可能であることが示されている。 本稿では,NLPモデルのバックドア緩和戦略であるPromptFixを提案する。 正確なトリガーインバージョンとその後のモデル微調整に依存する既存のNLPバックドア除去方法とは異なり、PromptFixはモデルのパラメータをそのまま保ち、トリガーを近似し、それに対応する2つのソフトトークンのみを使用する。 ソフトトークンと対向最適化を使用することで、バックドアの設定を列挙する必要がなくなり、トリガー発見とパフォーマンスの保存の間の適応的バランスが可能になる。 種々のバックドアアタックによる実験により,提案手法の有効性とドメインシフト時の性能が検証された。さらに,未知のデータソース上で事前訓練されたモデルに対する PromptFix の適用性も示された。

Pre-trained language models (PLMs) have attracted enormous attention over the past few years with their unparalleled performances. Meanwhile, the soaring cost to train PLMs as well as their amazing generalizability have jointly contributed to few-shot fine-tuning and prompting as the most popular training paradigms for natural language processing (NLP) models. Nevertheless, existing studies have shown that these NLP models can be backdoored such that model behavior is manipulated when trigger tokens are presented. In this paper, we propose PromptFix, a novel backdoor mitigation strategy for NLP models via adversarial prompt-tuning in few-shot settings. Unlike existing NLP backdoor removal methods, which rely on accurate trigger inversion and subsequent model fine-tuning, PromptFix keeps the model parameters intact and only utilizes two extra sets of soft tokens which approximate the trigger and counteract it respectively. The use of soft tokens and adversarial optimization eliminates the need to enumerate possible backdoor configurations and enables an adaptive balance between trigger finding and preservation of performance. Experiments with various backdoor attacks validate the effectiveness of the proposed method and the performances when domain shift is present further shows PromptFix's applicability to models pretrained on unknown data source which is the common case in prompt tuning scenarios.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# Everywhere & Nowhere: 科学のためのコンピューティング連続体を構想する

Everywhere & Nowhere: Envisioning a Computing Continuum for Science ( http://arxiv.org/abs/2406.04480v1 )

ライセンス: Link先を確認
Manish Parashar, (参考訳) 新たなデータ駆動科学ワークフローは、分散データソースを活用して、エンドツーエンドの現象を理解し、実験を推進し、重要な意思決定を促進することを目指している。 エッジで利用可能なデジタルデータソースが指数関数的に増加し、このデータを処理するための非自明な計算能力が多用されているにもかかわらず、そのような科学的なワークフローを実現することは依然として困難である。 本稿では,エッジ,コア,中間のリソースにまたがる,至る所にまたがるコンピューティング連続体について検討し,科学を支援するために利用可能な抽象化を提供する。 また、どんなデータをいつどこで処理すべきかを表現できるプログラミング抽象化の最近の研究や、リソースの発見とそれらのリソースをまたいだ計算のオーケストレーションを自動化する自律型ミドルウェアサービスも紹介されている。

Emerging data-driven scientific workflows are seeking to leverage distributed data sources to understand end-to-end phenomena, drive experimentation, and facilitate important decision-making. Despite the exponential growth of available digital data sources at the edge, and the ubiquity of non trivial computational power for processing this data, realizing such science workflows remains challenging. This paper explores a computing continuum that is everywhere and nowhere -- one spanning resources at the edges, in the core and in between, and providing abstractions that can be harnessed to support science. It also introduces recent research in programming abstractions that can express what data should be processed and when and where it should be processed, and autonomic middleware services that automate the discovery of resources and the orchestration of computations across these resources.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# 安全のための自動運転の最適化:LLM強化RLHFを用いた人間中心アプローチ

Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHF ( http://arxiv.org/abs/2406.04481v1 )

ライセンス: Link先を確認
Yuan Sun, Navid Salami Pargoo, Peter J. Jin, Jorge Ortiz, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は大規模言語モデル (LLM) で人気があるが、従来のReinforcement Learning (RL) は不足することが多い。 現在の自律運転法は、通常、RLやLLMを含む機械学習における人間のフィードバックを利用する。 ほとんどのフィードバックは、車のエージェントの学習プロセス(例えば、車の制御)を導く。 通常、RLHFは微調整のステップで適用され、自律運転モデルの最適化に一般的には使われない直接の「推論」を必要とする。 本研究では、RLHFとLLMを革新的に組み合わせ、自動運転の安全性を高める。 人的指導をゼロからトレーニングするのは非効率です。 我々のフレームワークは、訓練済みの自動運転車エージェントモデルから始まり、車や歩行者などの複数の人間制御エージェントを実装し、実際の道路環境をシミュレートする。 自動走行車は人間が直接制御するものではない。 物理的フィードバックと生理的フィードバックを統合してモデルを微調整し、LLMを用いてこのプロセスを最適化する。 このマルチエージェントのインタラクティブ環境は、現実世界のアプリケーションの前に安全で現実的なインタラクションを保証する。 最後に、ニュージャージー州とニューヨーク市にある実生活テストベッドから収集したデータを用いて、我々のモデルを検証します。

Reinforcement Learning from Human Feedback (RLHF) is popular in large language models (LLMs), whereas traditional Reinforcement Learning (RL) often falls short. Current autonomous driving methods typically utilize either human feedback in machine learning, including RL, or LLMs. Most feedback guides the car agent's learning process (e.g., controlling the car). RLHF is usually applied in the fine-tuning step, requiring direct human "preferences," which are not commonly used in optimizing autonomous driving models. In this research, we innovatively combine RLHF and LLMs to enhance autonomous driving safety. Training a model with human guidance from scratch is inefficient. Our framework starts with a pre-trained autonomous car agent model and implements multiple human-controlled agents, such as cars and pedestrians, to simulate real-life road environments. The autonomous car model is not directly controlled by humans. We integrate both physical and physiological feedback to fine-tune the model, optimizing this process using LLMs. This multi-agent interactive environment ensures safe, realistic interactions before real-world application. Finally, we will validate our model using data gathered from real-life testbeds located in New Jersey and New York City.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# LLMを用いたテキストベースゲームにおけるバグの自動検出

Automatic Bug Detection in LLM-Powered Text-Based Games Using LLMs ( http://arxiv.org/abs/2406.04482v1 )

ライセンス: Link先を確認
Claire Jin, Sudha Rao, Xiangyu Peng, Portia Botchway, Jessica Quaye, Chris Brockett, Bill Dolan, (参考訳) 大規模言語モデル(LLM)の進歩はインタラクティブなゲームデザインに革命をもたらし、動的プロットラインとプレイヤーと非プレイヤーキャラクター(NPC)間の相互作用を可能にしている。 しかし、LLMは幻覚、忘れやすさ、プロンプトの誤解釈などの欠陥を示し、論理的な矛盾と意図された設計からの予期せぬ逸脱を引き起こす可能性がある。 このようなゲームバグを検出するための自動技術はまだ不足している。 そこで本稿では,プレイヤーのゲームログからこのようなバグを自動的に識別するシステム LLM ベースの手法を提案する。 テキストベースのゲーム『DejaBoom!』に適用し、LLMによるインタラクティブゲームに固有のバグを効果的に識別し、構造化されていないLLMによるバグキャッチ手法を克服し、論理的および設計的欠陥の自動検出のギャップを埋める。

Advancements in large language models (LLMs) are revolutionizing interactive game design, enabling dynamic plotlines and interactions between players and non-player characters (NPCs). However, LLMs may exhibit flaws such as hallucinations, forgetfulness, or misinterpretations of prompts, causing logical inconsistencies and unexpected deviations from intended designs. Automated techniques for detecting such game bugs are still lacking. To address this, we propose a systematic LLM-based method for automatically identifying such bugs from player game logs, eliminating the need for collecting additional data such as post-play surveys. Applied to a text-based game DejaBoom!, our approach effectively identifies bugs inherent in LLM-powered interactive games, surpassing unstructured LLM-powered bug-catching methods and filling the gap in automated detection of logical and design flaws.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# Step Out and Seek around: インクリメンタルデータによるウォームスタートトレーニングについて

Step Out and Seek Around: On Warm-Start Training with Incremental Data ( http://arxiv.org/abs/2406.04484v1 )

ライセンス: Link先を確認
Maying Shen, Hongxu Yin, Pavlo Molchanov, Lei Mao, Jose M. Alvarez, (参考訳) データは、自律運転のような現実世界のディープラーニングアプリケーションにおいて、時間とともに連続的にやってくることが多い。 新しいトレーニングデータが利用可能になった場合、スクラッチからモデルをトレーニングすることは、学習した知識を活用するメリットを損なう。 以前トレーニングされたチェックポイントからのウォームスタートは、知識と高度な学習を維持する最も直感的な方法です。 しかし、現存する文献では、この温暖化による一般化の低下が示唆されている。 本稿では,従来の知識を損なうことなく,新たなデータへの適応性を高めることを目的として,ウォームスタートを提唱する。 本稿では、2つの新しいコンポーネントを持つ連続モデル改善アルゴリズムである知識統合・獲得(CKCA)を提案する。 第1に,既存のチェックポイントから知識を保持・洗練するための新しい特徴正規化(FeatReg),第2に適応型知識蒸留(AdaKD)を提案する。 トレーニングデータの複数分割を用いて,ImageNet上で本手法を検証した。 我々の手法は、バニラのウォームスタートよりも最高8.39 %$高いトップ1の精度を達成し、高いマージンで先行技術より一貫して優れている。

Data often arrives in sequence over time in real-world deep learning applications such as autonomous driving. When new training data is available, training the model from scratch undermines the benefit of leveraging the learned knowledge, leading to significant training costs. Warm-starting from a previously trained checkpoint is the most intuitive way to retain knowledge and advance learning. However, existing literature suggests that this warm-starting degrades generalization. In this paper, we advocate for warm-starting but stepping out of the previous converging point, thus allowing a better adaptation to new data without compromising previous knowledge. We propose Knowledge Consolidation and Acquisition (CKCA), a continuous model improvement algorithm with two novel components. First, a novel feature regularization (FeatReg) to retain and refine knowledge from existing checkpoints; Second, we propose adaptive knowledge distillation (AdaKD), a novel approach to forget mitigation and knowledge transfer. We tested our method on ImageNet using multiple splits of the training data. Our approach achieves up to $8.39\%$ higher top1 accuracy than the vanilla warm-starting and consistently outperforms the prior art with a large margin.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# GenAI Arena: 生成モデルのためのオープンな評価プラットフォーム

GenAI Arena: An Open Evaluation Platform for Generative Models ( http://arxiv.org/abs/2406.04485v1 )

ライセンス: Link先を確認
Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen, (参考訳) 生成AIは、画像やビデオ生成などの分野に革命を起こすために、目覚ましい努力をしてきた。 これらの進歩は革新的なアルゴリズム、アーキテクチャ、データによって駆動される。 しかし、生成モデルの急速な普及は、信頼に値する評価指標の欠如という重大なギャップを浮き彫りにした。 FID、CLIP、FVDなどの現在の自動評価は、生成出力に関連する微妙な品質とユーザの満足度を捉えるのに失敗することが多い。 本稿では,様々な画像および映像生成モデルを評価するためのオープンプラットフォームGenAI-Arenaを提案する。 GenAI-Arenaは、ユーザからのフィードバックと投票の集合を利用して、より民主的で正確なモデルパフォーマンス測定を提供することを目指している。 テキスト・ツー・イメージ・ジェネレーション、テキスト・ツー・ビデオ・ジェネレーション、画像編集の3つのアリーナをカバーしている。 現在、27のオープンソース生成モデルをカバーしています。 GenAI-Arenaは4ヶ月前から運営しており、コミュニティから6000票以上を集めている。 当社のプラットフォームを記述し、データを解析し、モデルランキングの統計手法を説明します。 モデルに基づく評価指標の構築に関する研究をさらに促進するため,GenAI-Benchという3つのタスクの選好データのクリーン化版をリリースする。 GeminiやGPT-4oのような既存のマルチモーダルモデルに、人間の投票を模倣するよう促します。 モデル投票と人投票の相関関係を計算し,その判断能力について考察する。 GPT-4oの最適モデルでさえ、品質サブスコアの0.22のピアソン相関を達成でき、他人のランダムな推測のように振る舞う。

Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three arenas for text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 27 open-source generative models. GenAI-Arena has been operating for four months, amassing over 6000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, GPT-4o to mimic human voting. We compute the correlation between model voting with human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves a Pearson correlation of 0.22 in the quality subscore, and behaves like random guessing in others.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# マルチコア周辺視点:相対的中心性によるランク付け

A multi-core periphery perspective: Ranking via relative centrality ( http://arxiv.org/abs/2406.04487v1 )

ライセンス: Link先を確認
Chandra Sekhar Mukherjee, Jiapeng Zhang, (参考訳) コミュニティとコア周辺は2つの広く研究されているグラフ構造であり、それらの共存は実世界のグラフ(Rombach, Porter, Fowler \& Mucha (SIAM J. App. Math. 2014 SIAM Review 2017)で観測されている。 しかし、この共存の性質はよく理解されておらず、未解決問題として指摘されている(Yanchenko \& Sengupta, 2023)。 特に, グラフのコア周辺構造がコミュニティ構造理解に与える影響は, 十分に評価されていない。 この方向では、各コミュニティが密接な連結部分(コア)を持ち、残りはよりスパース(周辺)であり、周辺間ではコミュニティ間のエッジがより頻繁である、基底真理コミュニティを持つグラフに対する新しい定量化を導入する。 この構造に基づいて構築され、コアを検出するために相対中心性と呼ばれる新しいアルゴリズムの概念を提案する。 そこで我々は,PageRank や次数集中度といった一般的な集中度尺度に基づく中核検出アルゴリズムが,いくつかのコアからごく少数の頂点を選択することにより,結果に偏りが生じることを観察した。 相対的な中心性は、このバイアスを解消し、実世界のグラフの実験と同様に理論的およびシミュレーション的支援を提供することを示す。 コア検出は、コア周辺構造に関する重要な応用があることが知られている。 相対集中型アルゴリズムは、すべてのコミュニティから十分な頂点を含むような頂点のサブセットを選択でき、このサブセットのポイントはそれぞれのコミュニティに分離可能である。 この手法を11の生物学的データセットに適用し、クラスタリングアルゴリズムがより優れた性能を持つように、全てのコミュニティからよりバランスの取れた頂点を選択する。

Community and core-periphery are two widely studied graph structures, with their coexistence observed in real-world graphs (Rombach, Porter, Fowler \& Mucha [SIAM J. App. Math. 2014, SIAM Review 2017]). However, the nature of this coexistence is not well understood and has been pointed out as an open problem (Yanchenko \& Sengupta [Statistics Surveys, 2023]). Especially, the impact of inferring the core-periphery structure of a graph on understanding its community structure is not well utilized. In this direction, we introduce a novel quantification for graphs with ground truth communities, where each community has a densely connected part (the core), and the rest is more sparse (the periphery), with inter-community edges more frequent between the peripheries. Built on this structure, we propose a new algorithmic concept that we call relative centrality to detect the cores. We observe that core-detection algorithms based on popular centrality measures such as PageRank and degree centrality can show some bias in their outcome by selecting very few vertices from some cores. We show that relative centrality solves this bias issue and provide theoretical and simulation support, as well as experiments on real-world graphs. Core detection is known to have important applications with respect to core-periphery structures. In our model, we show a new application: relative-centrality-based algorithms can select a subset of the vertices such that it contains sufficient vertices from all communities, and points in this subset are better separable into their respective communities. We apply the methods to 11 biological datasets, with our methods resulting in a more balanced selection of vertices from all communities such that clustering algorithms have better performance on this set.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# 音楽パーソナライズのための負のフィードバック

Negative Feedback for Music Personalization ( http://arxiv.org/abs/2406.04488v1 )

ライセンス: Link先を確認
M. Jeffrey Mei, Oliver Bembom, Andreas F. Ehmann, (参考訳) Next-itemレコメンダシステムは、ランダムにサンプリングされた負のフィードバックを持つ正のフィードバックのみを使用してトレーニングされることが多い。 ユーザシーケンスへの入力として、また、インターネットラジオの次世代レコメンデーションシステムのトレーニングのための負のターゲットとして、真の負のフィードバックを使用することの利点を示す。 特に、トレーニング中に明示的な負のサンプルを使用することで、トレーニング時間を~60%削減し、テスト精度を~6%向上させることができる。 我々は、多数のランダムな負のサンプルを用いて「ハード」なサンプルを捕捉し、よりランダムにサンプリングされた負の値でテスト精度が上昇するが、ポイントにしか達しないことを示した。 ランダムな負の数が多すぎると、リフトを制限する偽陰性が発生するが、これは真の負のフィードバックを使用する場合よりも依然として低い。 また、テスト精度は、異なるフィードバックタイプの割合に対してかなり堅牢であり、異なるフィードバックタイプに対する学習された埋め込みと比較する。

Next-item recommender systems are often trained using only positive feedback with randomly-sampled negative feedback. We show the benefits of using real negative feedback both as inputs into the user sequence and also as negative targets for training a next-song recommender system for internet radio. In particular, using explicit negative samples during training helps reduce training time by ~60% while also improving test accuracy by ~6%; adding user skips as additional inputs also can considerably increase user coverage alongside slightly improving accuracy. We test the impact of using a large number of random negative samples to capture a 'harder' one and find that the test accuracy increases with more randomly-sampled negatives, but only to a point. Too many random negatives leads to false negatives that limits the lift, which is still lower than if using true negative feedback. We also find that the test accuracy is fairly robust with respect to the proportion of different feedback types, and compare the learned embeddings for different feedback types.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# CFLISとMGR-LAUを用いたユーザインテント認識とセマンティックキャッシュ最適化に基づくクエリ処理フレームワーク

User Intent Recognition and Semantic Cache Optimization-Based Query Processing Framework using CFLIS and MGR-LAU ( http://arxiv.org/abs/2406.04490v1 )

ライセンス: Link先を確認
Sakshi Mahendru, (参考訳) クエリ処理(QP)は、頻繁にアクセスされるデータをユーザの近くに保存することで、クラウドベースのキャッシュによって最適化される。 それでも、クエリにおけるユーザ意図型の重視の欠如は、一般的な作業におけるQPの効率に影響した。 そこで、CFLIS(Contextual Fuzzy Linguistic Inference System)を用いて、QPの強化のためのクエリにおける情報、ナビゲーション、トランザクションベースのインテントを分析した。 主に、ユーザクエリはトークン化、正規化、停止語除去、スムーミング、POSタグ付けを使用して解析され、その後WordNet技術を使って拡張される。 クエリを拡張し、クエリ理解を強化し、クエリ処理におけるより正確な分析と検索を容易にするため、名前付きエンティティは、変換器(BEUNRT)からの双方向エンコーダUnispecNorm表現を使用して認識される。 次に、セマンティックキャッシュデータベースからの効率的なQPとクエリ情報の検索のために、データをEpanechnikov Kernel-Ordering Points to Identify the Clustering Structure (EK-OPTICS)を用いて構造化する。 特徴は構造化データから抽出される。 文型が識別され、解析されたクエリからインテントキーワードが抽出される。 次に、抽出された特徴、検出された意図、構造化データを、セマンティックキャッシュデータベースに基づいてクエリを処理するMulti-head Gated Recurrent Learnable Attention Unit(MGR-LAU)に入力する。 さらに、クエリは12856msの最小レイテンシで処理される。 最後に、セマンティック類似度(SS)は、検索されたクエリと入力されたユーザクエリの間で分析され、類似度が0.9以上になるまで続く。 このように、提案された研究は以前の手法を超越した。

Query Processing (QP) is optimized by a Cloud-based cache by storing the frequently accessed data closer to users. Nevertheless, the lack of focus on user intention type in queries affected the efficiency of QP in prevailing works. Thus, by using a Contextual Fuzzy Linguistic Inference System (CFLIS), this work analyzed the informational, navigational, and transactional-based intents in queries for enhanced QP. Primarily, the user query is parsed using tokenization, normalization, stop word removal, stemming, and POS tagging and then expanded using the WordNet technique. After expanding the queries, to enhance query understanding and to facilitate more accurate analysis and retrieval in query processing, the named entity is recognized using Bidirectional Encoder UnispecNorm Representations from Transformers (BEUNRT). Next, for efficient QP and retrieval of query information from the semantic cache database, the data is structured using Epanechnikov Kernel-Ordering Points To Identify the Clustering Structure (EK-OPTICS). The features are extracted from the structured data. Now, sentence type is identified and intent keywords are extracted from the parsed query. Next, the extracted features, detected intents and structured data are inputted to the Multi-head Gated Recurrent Learnable Attention Unit (MGR-LAU), which processes the query based on a semantic cache database (stores previously interpreted queries to expedite effective future searches). Moreover, the query is processed with a minimum latency of 12856ms. Lastly, the Semantic Similarity (SS) is analyzed between the retrieved query and the inputted user query, which continues until the similarity reaches 0.9 and above. Thus, the proposed work surpassed the previous methodologies.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# 量子コミュニケーション: 基礎から最近のトレンド,課題,オープンな問題へ

Quantum Communication: From Fundamentals to Recent Trends, Challenges and Open Problems ( http://arxiv.org/abs/2406.04492v1 )

ライセンス: Link先を確認
Hrishikesh Dutta, Amit Kumar Bhuyan, (参考訳) 近年の量子技術の発展と発展により、量子通信とネットワークの新たな分野が研究者の注目を集めている。 量子力学、ビズ、量子重ね合わせ、絡み合いのユニークな性質から、この新しい領域の量子通信は現代の通信技術を置き換える可能性を示している。 量子力学の原理を用いたセキュリティと情報共有能力の向上により、ネットワーク技術者や物理学者がこの技術を次世代無線システム向けに開発することを奨励している。 しかし、量子力学、フォトニクス、量子通信インフラの展開可能性といった概念的な橋渡しは、現在の文献では十分に確立されていない。 本稿では、量子物理学から量子技術の工学的・コンピューティング的観点への理論的概念を融合させることにより、このギャップを埋めることを目的とする。 本稿では,量子通信の理解に必要な基本概念を構築し,重要な概念をレビューし,これらの概念をどのように活用して通信を成功させるかを示す。 この論文は、量子通信プロトコルを実行するための実装の進歩を論じ、ハードウェアの実装によって全ての基本的な量子コンピューティング操作の達成が可能になったかを説明する。 最後に、量子通信と量子インターネットの分野における最先端の進歩を包括的かつ批判的にレビューし、次世代ネットワークシステムの実現に向けた最近のトレンド、課題、オープンな課題を指摘する。

With the recent advancements and developments in quantum technologies, the emerging field of quantum communication and networking has gained the attention of the researchers. Owing to the unique properties of quantum mechanics, viz., quantum superposition and entanglement, this new area of quantum communication has shown potential to replace modernday communication technologies. The enhanced security and high information sharing ability using principles of quantum mechanics has encouraged networking engineers and physicists to develop this technology for next generation wireless systems. However, a conceptual bridge between the fundamentals of quantum mechanics, photonics and the deployability of a quantum communication infrastructure is not well founded in the current literature. This paper aims to fill this gap by merging the theoretical concepts from quantum physics to the engineering and computing perspectives of quantum technology. This paper builds the fundamental concepts required for understanding quantum communication, reviews the key concepts and demonstrates how these concepts can be leveraged for accomplishing successful communication. The paper delves into implementation advancements for executing quantum communication protocols, explaining how hardware implementation enables the achievement of all basic quantum computing operations. Finally, the paper provides a comprehensive and critical review of the state-of-the-art advancements in the field of quantum communication and quantum internet; and points out the recent trends, challenges and open problems for the real-world realization of next generation networking systems.
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# CORU: 総合的なOCR解析とデータセットの受信

CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset ( http://arxiv.org/abs/2406.04493v1 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Mahmoud Abdalla, Mahmoud SalahEldin Kasem, Mohamed Mahmoud, Ibrahim Abdelhalim, Mohamed Elkasaby, Yasser ElBendary, Adam Jatowt, (参考訳) 光文字認識(OCR)と自然言語処理(NLP)の分野では、アラビア語のような複雑なスクリプトを持つ言語を考える場合、多言語機能の統合は依然として重要な課題である。 本稿では,OCRの強化を目的とした新しいデータセットであるComprehensive Post-OCR Parsing and Receipt Understanding Dataset (CORU)を紹介する。 CORUは、スーパーマーケットや衣料品店など様々な小売店から2万件以上のアノテートされたレシートと、検出されたラインを認識したOCRの3万件のアノテートされたイメージと、詳細な情報抽出のために1万件以上のアノテートされたアイテムで構成されている。 これらの注釈は、商人の名前、商品の説明、総価格、領収書番号、日付などの重要な詳細を捉えている。 それらは、オブジェクト検出、OCR、情報抽出の3つの主要な計算タスクをサポートするように構成されている。 我々は、Tesseract OCRのような従来の手法の有効性と、より高度なニューラルネットワークベースのアプローチを評価するために、CORU上のさまざまなモデルのベースライン性能を確立する。 これらのベースラインは、実世界のレシートに典型的な複雑でノイズの多いドキュメントレイアウトの処理と、自動多言語文書処理の進行に不可欠である。 私たちのデータセットは公開されています(https://github.com/Update-For-Integrated-Business-AI/CORU)。

In the fields of Optical Character Recognition (OCR) and Natural Language Processing (NLP), integrating multilingual capabilities remains a critical challenge, especially when considering languages with complex scripts such as Arabic. This paper introduces the Comprehensive Post-OCR Parsing and Receipt Understanding Dataset (CORU), a novel dataset specifically designed to enhance OCR and information extraction from receipts in multilingual contexts involving Arabic and English. CORU consists of over 20,000 annotated receipts from diverse retail settings, including supermarkets and clothing stores, alongside 30,000 annotated images for OCR that were utilized to recognize each detected line, and 10,000 items annotated for detailed information extraction. These annotations capture essential details such as merchant names, item descriptions, total prices, receipt numbers, and dates. They are structured to support three primary computational tasks: object detection, OCR, and information extraction. We establish the baseline performance for a range of models on CORU to evaluate the effectiveness of traditional methods, like Tesseract OCR, and more advanced neural network-based approaches. These baselines are crucial for processing the complex and noisy document layouts typical of real-world receipts and for advancing the state of automated multilingual document processing. Our datasets are publicly accessible (https://github.com/Update-For-Integrated-Business-AI/CORU).
翻訳日:2024-06-10 18:07:23 公開日:2024-06-06
# 効率的なファインタニングによる時間知覚知識の編集

Time Sensitive Knowledge Editing through Efficient Finetuning ( http://arxiv.org/abs/2406.04496v1 )

ライセンス: Link先を確認
Xiou Ge, Ali Mousavi, Edouard Grave, Armand Joulin, Kun Qian, Benjamin Han, Mostafa Arefiyan, Yunyao Li, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示し、多くのドメインに変革をもたらす。 しかし、LLMの知識を最新に保つことは、事前訓練が完了すると難しい課題である。 したがって、旧来の知識を更新し、LLMに新しい知識を誘導する効果的な手法を設計することが不可欠である。 既存の位置と編集の知識編集(KE)手法には2つの制限がある。 第一に、そのような手法による後LSMは、一般にマルチホップ推論を必要とする複雑なクエリに答える能力が乏しい。 第二に、知識編集を行うような位置・編集手法の長時間実行は、実際に大規模なKEでは不可能である。 本稿では,KE の代替としてパラメータ効率の良いファインチューニング (PEFT) 技術について検討する。 我々は、KEパフォーマンスベンチマークのための知識更新と知識注入の例で、より包括的な時間的KEデータセットをキュレートする。 さらに,マルチホップQAタスクにおけるLLMの層幅に対する微調整の効果について検討する。 PEFTは時間に敏感な知識編集のための位置・編集技術よりも優れていることがわかった。

Large Language Models (LLMs) have demonstrated impressive capability in different tasks and are bringing transformative changes to many domains. However, keeping the knowledge in LLMs up-to-date remains a challenge once pretraining is complete. It is thus essential to design effective methods to both update obsolete knowledge and induce new knowledge into LLMs. Existing locate-and-edit knowledge editing (KE) method suffers from two limitations. First, the post-edit LLMs by such methods generally have poor capability in answering complex queries that require multi-hop reasoning. Second, the long run-time of such locate-and-edit methods to perform knowledge edits make it infeasible for large scale KE in practice. In this paper, we explore Parameter-Efficient Fine-Tuning (PEFT) techniques as an alternative for KE. We curate a more comprehensive temporal KE dataset with both knowledge update and knowledge injection examples for KE performance benchmarking. We further probe the effect of fine-tuning on a range of layers in an LLM for the multi-hop QA task. We find that PEFT performs better than locate-and-edit techniques for time-sensitive knowledge edits.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# FLUID-LLM:時空間対応大言語モデルを用いた数値流体力学の学習

FLUID-LLM: Learning Computational Fluid Dynamics with Spatiotemporal-aware Large Language Models ( http://arxiv.org/abs/2406.04501v1 )

ライセンス: Link先を確認
Max Zhu, Adrián Bazaga, Pietro Liò, (参考訳) 計算流体力学(CFD)の学習は伝統的にナヴィエ・ストークス方程式の計算集約的なシミュレーションに依存している。 近年,大規模言語モデル (LLM) は自然言語処理 (NLP) やコンピュータビジョン (CV) において顕著なパターン認識と推論能力を示している。 しかし、これらのモデルは流体力学に固有の複雑な幾何学と競合する。 FLUID-LLMは,非定常流体力学を予測するために,事前学習したLLMと時空間認識符号化を組み合わせた新しいフレームワークである。 提案手法は,従来のCFD予測手法のギャップを埋めるため,空間認識層とともにLLMの時間的自己回帰能力を活用する。 標準ベンチマークの評価では、さまざまな流体データセット間での大幅なパフォーマンス向上が示されている。 この結果から,FLUID-LLMは時空間情報を事前学習したLLMに効果的に統合し,CFDタスク性能を向上させることが示唆された。

Learning computational fluid dynamics (CFD) traditionally relies on computationally intensive simulations of the Navier-Stokes equations. Recently, large language models (LLMs) have shown remarkable pattern recognition and reasoning abilities in natural language processing (NLP) and computer vision (CV). However, these models struggle with the complex geometries inherent in fluid dynamics. We introduce FLUID-LLM, a novel framework combining pre-trained LLMs with spatiotemporal-aware encoding to predict unsteady fluid dynamics. Our approach leverages the temporal autoregressive abilities of LLMs alongside spatial-aware layers, bridging the gap between previous CFD prediction methods. Evaluations on standard benchmarks reveal significant performance improvements across various fluid datasets. Our results demonstrate that FLUID-LLM effectively integrates spatiotemporal information into pre-trained LLMs, enhancing CFD task performance.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# 触覚型遠隔ロボット手術における高精度化:カルマンフィルタアプローチ

Enhancing Precision in Tactile Internet-Enabled Remote Robotic Surgery: Kalman Filter Approach ( http://arxiv.org/abs/2406.04503v1 )

ライセンス: Link先を確認
Muhammad Hanif Lashari, Wafa Batayneh, Ashfaq Khokhar, (参考訳) 遠隔手術作業における患者のサイドロボットアームの位置を正確に推定することは,特にTactile Internet(TI)環境において重要な課題である。 本稿では,計算効率の良い位置推定法としてカルマンフィルタ(KF)を提案する。 この研究は、ロボットアームシステムの力学系モデルに関する事前の知識も想定していない。 その代わり、ロボット外科データの包括的収集であるJIGSAWデータセットとMaster Tool Manipulator(MTM)入力を使用して、Matlabで利用可能なシステム識別(SI)ツールキットを使用してシステムモデルを学ぶ。 さらに, 遅延, ジッタ, パケット損失を含むシミュレーションネットワーク条件下で, 患者側マニピュレータ(PSM)の位置を決定するKFの有効性について検討する。 これらの条件は、現実世界の触覚インターネットアプリケーションで遭遇する典型的な課題を反映している。 その結果,ネットワークによる不確実性にも拘わらず,精度の高い状態推定を実現する上でのKFのレジリエンスと有効性を強調した。

Accurately estimating the position of a patient's side robotic arm in real time in a remote surgery task is a significant challenge, particularly in Tactile Internet (TI) environments. This paper presents a Kalman Filter (KF) based computationally efficient position estimation method. The study also assume no prior knowledge of the dynamic system model of the robotic arm system. Instead, The JIGSAW dataset, which is a comprehensive collection of robotic surgical data, and the Master Tool Manipulator's (MTM) input are utilized to learn the system model using System Identification (SI) toolkit available in Matlab. We further investigate the effectiveness of KF to determine the position of the Patient Side Manipulator (PSM) under simulated network conditions that include delays, jitter, and packet loss. These conditions reflect the typical challenges encountered in real-world Tactile Internet applications. The results of the study highlight KF's resilience and effectiveness in achieving accurate state estimation despite network-induced uncertainties with over 90\% estimation accuracy.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# OCCAM:コスト効率・正確性を考慮した画像分類手法

OCCAM: Towards Cost-Efficient and Accuracy-Aware Image Classification Inference ( http://arxiv.org/abs/2406.04508v1 )

ライセンス: Link先を確認
Dujian Ding, Bicheng Xu, Laks V. S. Lakshmanan, (参考訳) 画像分類は、ほとんどのコンピュータビジョンアプリケーションにとって基本的なビルディングブロックである。 機械学習モデルの人気と能力の高まりにより、トレーニング済みの画像分類器はオンラインでもオフラインでも簡単にアクセスできる。 しかし、モデルの使用にはコストと高いキャパシティの分類器が伴う。 画像分類クエリ(最適モデルポートフォリオと判定される)に対して最適な分類器割り当て戦略を計算し、ユーザ特定コスト予算の下で集約精度を最大化するために、各分類器の強みを利用するための原則的手法であるOCCAMを提案する。 提案手法は,不偏・低分散精度推定器を用いて,整数線形計画問題の解法により最適解を効果的に計算する。 さまざまな実世界のデータセットにおいて、OCCAMは40%のコスト削減を実現し、精度の低下はほとんど、あるいはまったくない。

Image classification is a fundamental building block for a majority of computer vision applications. With the growing popularity and capacity of machine learning models, people can easily access trained image classifiers as a service online or offline. However, model use comes with a cost and classifiers of higher capacity usually incur higher inference costs. To harness the respective strengths of different classifiers, we propose a principled approach, OCCAM, to compute the best classifier assignment strategy over image classification queries (termed as the optimal model portfolio) so that the aggregated accuracy is maximized, under user-specified cost budgets. Our approach uses an unbiased and low-variance accuracy estimator and effectively computes the optimal solution by solving an integer linear programming problem. On a variety of real-world datasets, OCCAM achieves 40% cost reduction with little to no accuracy drop.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# 畳み込みニューラルネットワークを用いた非ネイティブ手書き文字の分類

Classification of Non-native Handwritten Characters Using Convolutional Neural Network ( http://arxiv.org/abs/2406.04511v1 )

ライセンス: Link先を確認
F. A. Mamun, S. A. H. Chowdhury, J. E. Giti, H. Sarker, (参考訳) 畳み込みニューラルネットワーク(CNN)の使用により、手書き文字分類/認識の進展が加速した。 手書き文字認識(HCR)は、交通信号の検出、言語翻訳、文書情報の抽出など、様々な分野で応用されている。 しかし、既存のHCR技術が広く使われていることは、信頼性の高い文字認識を優れた精度で提供していないため、まだ見受けられていない。 信頼できないHCRの理由の1つは、既存のHCRメソッドが非ネイティブな作者の手書きスタイルを考慮に入れていないことである。 したがって、重要なタスクに対する文字認識技術の信頼性と広範な展開を保証するために、さらなる改善が必要である。 本研究では,非ネイティブユーザによる英語文字の分類について,カスタマイズされたCNNモデルを提案する。 我々はこのCNNを、HIECデータセットと呼ばれる新しいデータセットでトレーニングする。 このデータセットは、260人から集められた16,496枚の画像で構成されている。 本稿では、HIECデータセットの最適モデルを特定するために、ハイパーパラメータを調整することで、我々のCNNのアブレーション研究についても述べる。 提案モデルでは5つの畳み込み層と1つの隠蔽層が文字認識精度で最先端モデルより優れ、$\mathbf{97.04}$%の精度が得られる。 第2のモデルと比較して、分類精度の点で、我々のモデルの相対的な改善は$\mathbf{4.38}$%である。

The use of convolutional neural networks (CNNs) has accelerated the progress of handwritten character classification/recognition. Handwritten character recognition (HCR) has found applications in various domains, such as traffic signal detection, language translation, and document information extraction. However, the widespread use of existing HCR technology is yet to be seen as it does not provide reliable character recognition with outstanding accuracy. One of the reasons for unreliable HCR is that existing HCR methods do not take the handwriting styles of non-native writers into account. Hence, further improvement is needed to ensure the reliability and extensive deployment of character recognition technologies for critical tasks. In this work, the classification of English characters written by non-native users is performed by proposing a custom-tailored CNN model. We train this CNN with a new dataset called the handwritten isolated English character (HIEC) dataset. This dataset consists of 16,496 images collected from 260 persons. This paper also includes an ablation study of our CNN by adjusting hyperparameters to identify the best model for the HIEC dataset. The proposed model with five convolutional layers and one hidden layer outperforms state-of-the-art models in terms of character recognition accuracy and achieves an accuracy of $\mathbf{97.04}$%. Compared with the second-best model, the relative improvement of our model in terms of classification accuracy is $\mathbf{4.38}$%.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# 蒸留するかどうか : ロバストな知識蒸留のロバスト性について

To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation ( http://arxiv.org/abs/2406.04512v1 )

ライセンス: Link先を確認
Abdul Waheed, Karima Kadaoui, Muhammad Abdul-Mageed, (参考訳) アラビア語は、ASR(Automatic Speech Recognition)に固有の課題を提示することが知られている。 一方、その豊富な言語多様性と幅広い方言は、堅牢で包括的なモデルの開発を複雑にしている。 一方、現在の多言語ASRモデルは計算集約的であり、適切な総合的な評価を欠いている。 これらの課題を踏まえて、我々は大きな教師モデルからより効率のよいより小さな生徒の変種に知識を蒸留する。 また,5つの未表現アラビア方言を対象とする人称注釈データセットを新たに導入し,評価を行った。 我々は、標準ベンチマークと新しい方言データの両方において、我々のモデルと既存のSoTA多言語モデルの両方を評価する。 我々の最良の蒸留モデル全体の性能(45.0$\% WER)は、SoTAモデルの2倍のサイズ(SeamlessM4T-large-v2, WER=47.0$\%)と教師モデル(Whisper-large-v2, WER=55.1$\%)を上回り、新しい方言データの平均性能(56.9$\% WER)は他のすべてのモデルより優れています。 方言データにおけるこれらのモデルの性能の低下について、より深い知見を得るため、エラー解析を行い、異なるモデルが生み出す主なタイプのエラーを報告する。 プロジェクトのGitHubリポジトリは \url{https://github.com/UBC-NLP/distill-whisper-ar} で公開されている。

Arabic is known to present unique challenges for Automatic Speech Recognition (ASR). On one hand, its rich linguistic diversity and wide range of dialects complicate the development of robust, inclusive models. On the other, current multilingual ASR models are compute-intensive and lack proper comprehensive evaluations. In light of these challenges, we distill knowledge from large teacher models into smaller student variants that are more efficient. We also introduce a novel human-annotated dataset covering five under-represented Arabic dialects for evaluation. We further evaluate both our models and existing SoTA multilingual models on both standard available benchmarks and our new dialectal data. Our best-distilled model's overall performance ($45.0$\% WER) surpasses that of a SoTA model twice its size (SeamlessM4T-large-v2, WER=$47.0$\%) and its teacher model (Whisper-large-v2, WER=$55.1$\%), and its average performance on our new dialectal data ($56.9$\% WER) outperforms all other models. To gain more insight into the poor performance of these models on dialectal data, we conduct an error analysis and report the main types of errors the different models tend to make. The GitHub repository for the project is available at \url{https://github.com/UBC-NLP/distill-whisper-ar}.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# マルチエージェント流れのオンライン・ジョイント微調整

Online Joint Fine-tuning of Multi-Agent Flows ( http://arxiv.org/abs/2406.04516v1 )

ライセンス: Link先を確認
Paul Mineiro, (参考訳) フローはコンポーネントモデル(``Agents'')の集まりであり、反復的なコミュニケーションを通じて複雑な問題の解を構築する。 フローはコード生成のための最先端アーキテクチャとして登場し、Autogenのようなフレームワークのラジソンだ。 しかし、現在、フローは手動のプロンプト工学と段階的に制御された学習技術の組み合わせで構築されている。 本稿では,ラーニング・トゥ・サーチ(Learning to Search,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ(Learning to Search,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ)フレームワークに触発されたフロー全体をオンライン共同調整する手順について述べる。 このアプローチはシミュレータアクセスを利用してエピソード全体の好みを減らし、個々のノード出力よりも好みを減らし、コンポーネントが言語モデルである場合、後者はよく研究される問題である。 このアプローチは、エピソード評価モデルが利用可能であれば、報酬のない設定(例えば、テキストフィードバック)に適用できる。 私は、最先端の結果を達成するためのマルチホップQAデータセットMuseicに適用します。

A Flow is a collection of component models (``Agents'') which constructs the solution to a complex problem via iterative communication. Flows have emerged as state of the art architectures for code generation, and are the raison d'etre for frameworks like Autogen. However, flows are currently constructed via a combination of manual prompt engineering and stagewise supervised learning techniques; the latter is limited to acyclic flows with granular node supervision. In this writeup I describe a procedure for online joint fine-tuning of an entire flow inspired by the Learning to Search framework. The approach leverages simulator access to reduce preferences over entire episodes to preferences over individual node outputs; when the components are language models the latter is a well-studied problem. The approach is applicable to reward-free settings (e.g., text feedback) if an episode evaluator model is available. I apply to the multi-hop QA dataset Musique achieving a state-of-the-art result.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# FOX: オンライン確率制御のためのカバーガイドファジィ

FOX: Coverage-guided Fuzzing as Online Stochastic Control ( http://arxiv.org/abs/2406.04517v1 )

ライセンス: Link先を確認
Dongdong She, Adam Storek, Yuchong Xie, Seoyoung Kweon, Prashast Srivastava, Suman Jana, (参考訳) ファジィングは、ランダムなテスト入力を生成し、ターゲットプログラムに対して実行することで、ソフトウェアの脆弱性を発見する効果的な手法である。 しかし、大規模で複雑なプログラムをファジィングすることは、深く隠された脆弱性を明らかにするのが困難であるため、依然として困難である。 本稿では、スケジューラとミュータレータコンポーネントに焦点をあて、既存のカバレッジ誘導ファザの限界に対処する。 既存のスケジューラは、情報のばらつきと、きめ細かいフィードバックのメトリクスを扱うことができない。 ミュータはターゲットのプログラムブランチを知らないため、時間の無駄な計算とカバレッジ探索が遅くなる。 これらの問題を克服するために、我々は、カバー範囲誘導ファジィングのためのエンドツーエンドのオンライン確率制御式を提案する。 提案手法では,分岐論理に適応可能な新しいスケジューラとカスタムミュータを組み込んで,複数のステージで達成した集合エッジカバレッジを最大化する。 スケジューラは、細粒度の分岐距離測定を使用して、新しいカバレッジが達成される可能性のあるフロンティアブランチを特定する。 ミューテーターは分岐距離情報を利用して効率よく標的となる種子の突然変異を実行し、最小限のオーバーヘッドで堅牢な進行をもたらす。 本稿では、制御理論アプローチの概念実証実装であるFOXについて、業界標準のカバレッジ誘導ファザと比較する。 6CPU年にわたるFuzzBenchデータセットと複雑な実世界のプログラム(合計38の試験プログラム)に関する広範な評価の結果、FOXは既存の最先端のファッジャを上回り、現実のスタンドアロンプログラムでは26.45%、最先端のAFL++では6.59%まで平均的なカバレッジ向上を達成した。 さらに、以前は知られていなかった8つを含む、人気のある現実世界のアプリケーションで20のユニークなバグを発見し、現実世界のセキュリティへの影響を示している。

Fuzzing is an effective technique for discovering software vulnerabilities by generating random test inputs and executing them against the target program. However, fuzzing large and complex programs remains challenging due to difficulties in uncovering deeply hidden vulnerabilities. This paper addresses the limitations of existing coverage-guided fuzzers, focusing on the scheduler and mutator components. Existing schedulers suffer from information sparsity and the inability to handle fine-grained feedback metrics. The mutators are agnostic of target program branches, leading to wasted computation and slower coverage exploration. To overcome these issues, we propose an end-to-end online stochastic control formulation for coverage-guided fuzzing. Our approach incorporates a novel scheduler and custom mutator that can adapt to branch logic, maximizing aggregate edge coverage achieved over multiple stages. The scheduler utilizes fine-grained branch distance measures to identify frontier branches, where new coverage is likely to be achieved. The mutator leverages branch distance information to perform efficient and targeted seed mutations, leading to robust progress with minimal overhead. We present FOX, a proof-of-concept implementation of our control-theoretic approach, and compare it to industry-standard coverage-guided fuzzers. 6 CPU-years of extensive evaluations on the FuzzBench dataset and complex real-world programs (a total of 38 test programs) demonstrate that FOX outperforms existing state-of-the-art fuzzers, achieving average coverage improvements up to 26.45% in real-world standalone programs and 6.59% in FuzzBench programs over the state-of-the-art AFL++. In addition, it uncovers 20 unique bugs in popular real-world applications including eight that are previously unknown, showcasing real-world security impact.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# 多要素代理モデル, NARGP, デジタルツイン, 養殖網ケージ, リアルタイムモニタリング, グラフ畳み込みネットワーク

Multifidelity surrogate modeling, NARGP, digital twin, aquaculture net cage, real-time monitoring, graph convolutional networks ( http://arxiv.org/abs/2406.04519v1 )

ライセンス: Link先を確認
Eirini Katsidoniotaki, Biao Su, Eleni Kelasidi, Themistoklis P. Sapsis, (参考訳) 世界の人口が増加し、気候変動が増すにつれて、持続可能な食料生産が重要となる。 海洋養殖は持続可能なソリューションを提供し、持続可能なタンパク質源を提供する。 しかし、産業の拡大には、遠隔管理と自律運転のための新しい技術が必要である。 デジタルツイン技術は水産産業を前進させることができるが、その採用は限られている。 フレキシブルな浮体構造である魚網ケージは、養殖農場の重要かつ脆弱な構成要素である。 厳しい海洋環境に曝露され、ケージは大きな負荷と危険を経験し、魚の逃走、環境への影響、財政的損失につながった。 確率海洋環境下での養殖網ケージ構造動態のリアルタイムモニタリングのための多要素代理モデリングフレームワークを提案する。 この枠組みの中心は非線形自己回帰的ガウス過程法であり、様々な忠実度モデル間の複雑で非線形な相互相関を学習する。 低忠実度シミュレーションデータと高忠実度センサの小さなセットを組み合わせることで、実際のダイナミクスを提供するが、高価で空間的にも疎らである。 ノルウェーのSINTEF ACE養殖場で検証された我々のデジタル双生児は、オンラインメトカンデータを受け取り、ネットケージの変位と係留ラインの荷重を正確に予測し、フィールド計測と密接に一致させる。 提案するフレームワークは,アプリケーション固有のデータが不足している場合に有効であり,迅速な予測とリアルタイムシステム表現を提供する。 開発されたデジタルツインは、構造的整合性を評価することによって潜在的な損傷を防止し、無人水中車両による遠隔操作を容易にする。 また,ネットワークケージ変形予測のためのGPとGCNを比較し,複雑な構造応用における後者の有効性を強調した。

As the global population grows and climate change intensifies, sustainable food production is critical. Marine aquaculture offers a viable solution, providing a sustainable protein source. However, the industry's expansion requires novel technologies for remote management and autonomous operations. Digital twin technology can advance the aquaculture industry, but its adoption has been limited. Fish net cages, which are flexible floating structures, are critical yet vulnerable components of aquaculture farms. Exposed to harsh and dynamic marine environments, the cages experience significant loads and risk damage, leading to fish escapes, environmental impacts, and financial losses. We propose a multifidelity surrogate modeling framework for integration into a digital twin for real-time monitoring of aquaculture net cage structural dynamics under stochastic marine conditions. Central to this framework is the nonlinear autoregressive Gaussian process method, which learns complex, nonlinear cross-correlations between models of varying fidelity. It combines low-fidelity simulation data with a small set of high-fidelity field sensor measurements, which offer the real dynamics but are costly and spatially sparse. Validated at the SINTEF ACE fish farm in Norway, our digital twin receives online metocean data and accurately predicts net cage displacements and mooring line loads, aligning closely with field measurements. The proposed framework is beneficial where application-specific data are scarce, offering rapid predictions and real-time system representation. The developed digital twin prevents potential damages by assessing structural integrity and facilitates remote operations with unmanned underwater vehicles. Our work also compares GP and GCNs for predicting net cage deformation, highlighting the latter's effectiveness in complex structural applications.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# 自然言語プランニングにおけるLLMのベンチマーク

NATURAL PLAN: Benchmarking LLMs on Natural Language Planning ( http://arxiv.org/abs/2406.04520v1 )

ライセンス: Link先を確認
Huaixiu Steven Zheng, Swaroop Mishra, Hugh Zhang, Xinyun Chen, Minmin Chen, Azade Nova, Le Hou, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, (参考訳) 本稿では,3つのタスク – トリップ計画,ミーティング計画,カレンダースケジューリング – を含む,自然言語の現実的な計画ベンチマークであるNATURAL PLANを紹介する。 我々は、Google Flights、Google Maps、Google Calendarなどのツールからの出力を、モデルに対するコンテキストとして提供することによって、タスクに関する完全な情報を備えたLCMの計画能力に焦点をあてる。 これにより、計画上のLLMを評価するためのツール使用環境が不要になる。 NATURAL PLANは最先端モデルの挑戦的なベンチマークである。 例えば、Trip Planningでは、GPT-4とGemini 1.5 Proはそれぞれ31.1%と34.8%しか解けなかった。 問題の複雑さが増大するにつれて、モデルの性能は劇的に低下し、すべてのモデルが10の都市で5%以下で実行され、SoTA LLMの自然言語における計画における大きなギャップが浮かび上がっています。 また、NATURAL PLANについて広範囲にわたるアブレーション研究を行い、自己補正、少数ショットの一般化、LLM計画の改善のための長期コンテキストによるインコンテクスト計画といったアプローチの有効性をさらに強調した。

We introduce NATURAL PLAN, a realistic planning benchmark in natural language containing 3 key tasks: Trip Planning, Meeting Planning, and Calendar Scheduling. We focus our evaluation on the planning capabilities of LLMs with full information on the task, by providing outputs from tools such as Google Flights, Google Maps, and Google Calendar as contexts to the models. This eliminates the need for a tool-use environment for evaluating LLMs on Planning. We observe that NATURAL PLAN is a challenging benchmark for state of the art models. For example, in Trip Planning, GPT-4 and Gemini 1.5 Pro could only achieve 31.1% and 34.8% solve rate respectively. We find that model performance drops drastically as the complexity of the problem increases: all models perform below 5% when there are 10 cities, highlighting a significant gap in planning in natural language for SoTA LLMs. We also conduct extensive ablation studies on NATURAL PLAN to further shed light on the (in)effectiveness of approaches such as self-correction, few-shot generalization, and in-context planning with long-contexts on improving LLM planning.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# Proofread: ワンタップですべてのエラーを修正する

Proofread: Fixes All Errors with One Tap ( http://arxiv.org/abs/2406.04523v1 )

ライセンス: Link先を確認
Renjie Liu, Yanxiang Zhang, Yun Zhu, Haicheng Sun, Yuanbo Zhang, Michael Xuelin Huang, Shanqing Cai, Lei Meng, Shumin Zhai, (参考訳) LLM(Large Language Models)の印象的な機能は、ユーザのタイピングエクスペリエンスを再定義するための強力なアプローチを提供する。 本稿では,Gboard のサーバサイド LLM を利用した新しい Gboard 機能である Proofread について述べる。 本稿では,データ生成からメトリクス設計,モデルチューニング,デプロイメントに至るまで,完全なシステムについて述べる。 十分な品質のモデルを得るために,オンラインのユースケースに合わせたデータ合成パイプラインを実装し,多面的メトリクスを設計し,2段階のチューニング手法を用いて,基礎的品質のためのSFT (Supervised Fine Tuning) と,目標とする改良のための強化学習 (Reinforcement Learning, RL) チューニングアプローチを採用した。 具体的には、書き直しタスクと校正タスクの逐次チューニングにより、SFT段階で最高の品質が得られ、さらに改善を求めるRLチューニング段階では、グローバルかつ直接的な報酬が提案される。 PLM2-XSモデルが85.56</%の良好な比を示した。 私たちはPixel 8デバイスに、Google CloudのTPU v5でモデルを提供し、毎日何千人ものアクティブユーザーを抱えることで、この機能をローンチしました。 実行レイテンシは、量子化、バケット推論、テキストセグメンテーション、投機的復号化によって大幅に削減された。 私たちのデモは \href{https://youtu.be/4ZdcuiwFU7I}{Youtube} で見ることができます。

The impressive capabilities in Large Language Models (LLMs) provide a powerful approach to reimagine users' typing experience. This paper demonstrates Proofread, a novel Gboard feature powered by a server-side LLM in Gboard, enabling seamless sentence-level and paragraph-level corrections with a single tap. We describe the complete system in this paper, from data generation, metrics design to model tuning and deployment. To obtain models with sufficient quality, we implement a careful data synthetic pipeline tailored to online use cases, design multifaceted metrics, employ a two-stage tuning approach to acquire the dedicated LLM for the feature: the Supervised Fine Tuning (SFT) for foundational quality, followed by the Reinforcement Learning (RL) tuning approach for targeted refinement. Specifically, we find sequential tuning on Rewrite and proofread tasks yields the best quality in SFT stage, and propose global and direct rewards in the RL tuning stage to seek further improvement. Extensive experiments on a human-labeled golden set showed our tuned PaLM2-XS model achieved 85.56\% good ratio. We launched the feature to Pixel 8 devices by serving the model on TPU v5 in Google Cloud, with thousands of daily active users. Serving latency was significantly reduced by quantization, bucket inference, text segmentation, and speculative decoding. Our demo could be seen in \href{https://youtu.be/4ZdcuiwFU7I}{Youtube}.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# 離散データの共同分布の表現と学習のための生成的アサインメントフロー

Generative Assignment Flows for Representing and Learning Joint Distributions of Discrete Data ( http://arxiv.org/abs/2406.04527v1 )

ライセンス: Link先を確認
Bastian Boll, Daniel Gonzalez-Alvarado, Stefania Petra, Christoph Schnörr, (参考訳) 本稿では,多数の離散確率変数の結合確率分布を表現するための新しい生成モデルを提案する。 この手法では、分布の統計的部分多様体上のランダム化された代入フローによる計測輸送を利用し、対象分布から効率的にサンプリングし、見つからないデータポイントの可能性を評価できる。 全ての離散な関節分布のメタ・プレプレックスにおけるセグレ写像によるフローの埋め込みは、任意の対象分布を原理的に表現できることを保証するが、実際は複雑性は動的代入フロー系の親和関数のパラメトリゼーションにのみ依存する。 我々のモデルは,情報幾何学の電子接続に関して,閉形式の測地線として符号化されたトレーニングデータを用いて,条件付きリーマン流マッチングによる積分を伴わずに,シミュレーションのない方法で訓練することができる。 結合分布のメタプレプレックスにおける高次元フローマッチングを分解分布のサブ多様体に投影することにより、本手法は結合した離散変数をモデル化する第一原理から強い動機付けを持つ。 構造化画像ラベリングの分布に関する数値実験は、他の応用領域における離散分布を含むような大規模問題に適用可能であることを示す。 性能測定の結果,最近の研究よりもクラス数の増加によるアプローチのスケールアップが進んでいることが示唆された。

We introduce a novel generative model for the representation of joint probability distributions of a possibly large number of discrete random variables. The approach uses measure transport by randomized assignment flows on the statistical submanifold of factorizing distributions, which also enables to sample efficiently from the target distribution and to assess the likelihood of unseen data points. The embedding of the flow via the Segre map in the meta-simplex of all discrete joint distributions ensures that any target distribution can be represented in principle, whose complexity in practice only depends on the parametrization of the affinity function of the dynamical assignment flow system. Our model can be trained in a simulation-free manner without integration by conditional Riemannian flow matching, using the training data encoded as geodesics in closed-form with respect to the e-connection of information geometry. By projecting high-dimensional flow matching in the meta-simplex of joint distributions to the submanifold of factorizing distributions, our approach has strong motivation from first principles of modeling coupled discrete variables. Numerical experiments devoted to distributions of structured image labelings demonstrate the applicability to large-scale problems, which may include discrete distributions in other application areas. Performance measures show that our approach scales better with the increasing number of classes than recent related work.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# llmNER: (Zero|Few)-Shot Named Entity Recognition, Exploiting the Power of Large Language Models

llmNER: (Zero|Few)-Shot Named Entity Recognition, Exploiting the Power of Large Language Models ( http://arxiv.org/abs/2406.04528v1 )

ライセンス: Link先を確認
Fabián Villena, Luis Miranda, Claudio Aracena, (参考訳) 大規模言語モデル(LLM)により、高品質な人間的なテキストを生成することができる。 自然言語処理(NLP)における興味深い課題の一つにエンティティ認識(NER)がある。 本稿では,LLMでゼロショットと少数ショットのNERを実装するPythonライブラリであるllmNERについて述べる。 また、複数の変数をテストするためのシンプルなインターフェースを提供することで、ユーザはプロンプトエンジニアリングを効率的に行うことができる。 ライブラリの柔軟性を示すため、2つのNERタスクでソフトウェアを検証しました。 llmNERは、プロンプトとパースステップの障壁を取り除くことで、コンテキスト内学習研究の境界を推し進めることを目的としている。

Large language models (LLMs) allow us to generate high-quality human-like text. One interesting task in natural language processing (NLP) is named entity recognition (NER), which seeks to detect mentions of relevant information in documents. This paper presents llmNER, a Python library for implementing zero-shot and few-shot NER with LLMs; by providing an easy-to-use interface, llmNER can compose prompts, query the model, and parse the completion returned by the LLM. Also, the library enables the user to perform prompt engineering efficiently by providing a simple interface to test multiple variables. We validated our software on two NER tasks to show the library's flexibility. llmNER aims to push the boundaries of in-context learning research by removing the barrier of the prompting and parsing steps.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# TESTEVAL: テストケース生成のための大規模言語モデルのベンチマーク

TESTEVAL: Benchmarking Large Language Models for Test Case Generation ( http://arxiv.org/abs/2406.04531v1 )

ライセンス: Link先を確認
Wenhan Wang, Chenyuan Yang, Zhijie Wang, Yuheng Huang, Zhaoyang Chu, Da Song, Lingming Zhang, An Ran Chen, Lei Ma, (参考訳) テストはソフトウェア開発サイクルにおいて重要な役割を担い、バグや脆弱性、その他の望ましくない振る舞いの検出を可能にします。 ソフトウェアテストを実行するには、テスト中のプログラムを実行するコードスニペットを記述する必要がある。 近年,ソフトウェアテストにおける大規模言語モデル(LLM)の可能性を認識している。 しかし、テストケース生成機能の観点からは、異なるLLM間での公正な比較の欠如がまだ残っている。 本稿では,LLMを用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。 オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。 さらに,商用およびオープンソースの両方を含む16のLLMをTESTEVAL上で評価した。 特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難であり、プログラムロジックや実行パスを理解する能力の欠如が示唆されている。 私たちはデータセットとベンチマークパイプラインをhttps://llm4softtesting.github.ioでオープンソース化しました。

Testing plays a crucial role in the software development cycle, enabling the detection of bugs, vulnerabilities, and other undesirable behaviors. To perform software testing, testers need to write code snippets that execute the program under test. Recently, researchers have recognized the potential of large language models (LLMs) in software testing. However, there remains a lack of fair comparisons between different LLMs in terms of test case generation capabilities. In this paper, we propose TESTEVAL, a novel benchmark for test case generation with LLMs. We collect 210 Python programs from an online programming platform, LeetCode, and design three different tasks: overall coverage, targeted line/branch coverage, and targeted path coverage. We further evaluate sixteen popular LLMs, including both commercial and open-source ones, on TESTEVAL. We find that generating test cases to cover specific program lines/branches/paths is still challenging for current LLMs, indicating a lack of ability to comprehend program logic and execution paths. We have open-sourced our dataset and benchmark pipelines at https://llm4softwaretesting.github.io to contribute and accelerate future research on LLMs for software testing.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# MambaDepth: 自己監督型微細構造単分子深さ推定における長距離依存性の強化

MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation ( http://arxiv.org/abs/2406.04532v1 )

ライセンス: Link先を確認
Ionuţ Grigore, Călin-Adrian Popa, (参考訳) 自己教師型深度推定の分野では、畳み込みニューラルネットワーク(CNN)とトランスフォーマーが伝統的に支配的であった。 しかし、どちらのアーキテクチャも、局所的な焦点や計算上の要求のために、長距離依存を効率的に扱うのに苦労している。 この制限を克服するために,自己監督深度推定に適した多目的ネットワークであるMambaDepthを提案する。 マンバアーキテクチャの長大性から着想を得た上で,その長大なシーケンス処理と,ステートスペースモデル(SSM)を通してグローバルなコンテキストを効率的に捉える能力について紹介する。 この革新的なアーキテクチャは、自己教師付き深さ推定におけるU-Netの有効性と、Mambaの高度な能力を組み合わせたものである。 MambaDepthは純粋にMambaベースのエンコーダデコーダフレームワークを中心に構成されており、ネットワークの様々なレベルで空間情報を維持するためにスキップ接続を組み込んでいる。 この構成は広範な特徴学習プロセスを促進し、ディープマップ内の詳細な詳細とより広いコンテキストをキャプチャすることを可能にする。 さらに,エンコーダとデコーダコンポーネント間の不断接続や情報フローを容易にし,奥行き精度を向上させるため,Mambaブロック内での新たな統合手法を開発した。 確立されたKITTIデータセット全体にわたる包括的なテストは、自己監督深度推定タスクにおいて、MambaDepthがCNNとTransformerベースのモデルをリードするよりも優れていることを示し、最先端のパフォーマンスを達成することができる。 さらに、MambaDepthはMake3DやCityscapesといった他のデータセットよりも優れた一般化能力を示している。 MambaDepthのパフォーマンスは、自己監督深度推定のための効果的な長距離依存性モデリングの新しい時代を告げる。

In the field of self-supervised depth estimation, Convolutional Neural Networks (CNNs) and Transformers have traditionally been dominant. However, both architectures struggle with efficiently handling long-range dependencies due to their local focus or computational demands. To overcome this limitation, we present MambaDepth, a versatile network tailored for self-supervised depth estimation. Drawing inspiration from the strengths of the Mamba architecture, renowned for its adept handling of lengthy sequences and its ability to capture global context efficiently through a State Space Model (SSM), we introduce MambaDepth. This innovative architecture combines the U-Net's effectiveness in self-supervised depth estimation with the advanced capabilities of Mamba. MambaDepth is structured around a purely Mamba-based encoder-decoder framework, incorporating skip connections to maintain spatial information at various levels of the network. This configuration promotes an extensive feature learning process, enabling the capture of fine details and broader contexts within depth maps. Furthermore, we have developed a novel integration technique within the Mamba blocks to facilitate uninterrupted connectivity and information flow between the encoder and decoder components, thereby improving depth accuracy. Comprehensive testing across the established KITTI dataset demonstrates MambaDepth's superiority over leading CNN and Transformer-based models in self-supervised depth estimation task, allowing it to achieve state-of-the-art performance. Moreover, MambaDepth proves its superior generalization capacities on other datasets such as Make3D and Cityscapes. MambaDepth's performance heralds a new era in effective long-range dependency modeling for self-supervised depth estimation.
翻訳日:2024-06-10 17:57:38 公開日:2024-06-06
# 半導体製造におけるスマート産業のレアクラス予測モデル

Rare Class Prediction Model for Smart Industry in Semiconductor Manufacturing ( http://arxiv.org/abs/2406.04533v1 )

ライセンス: Link先を確認
Abdelrahman Farrag, Mohammed-Khalil Ghali, Yu Jin, (参考訳) 産業の発展により、物理システムとデジタルシステムの統合が可能になり、製造プロセスに関する広範なデータの収集が容易になった。 この統合は、プロセスの品質を改善し、機器の健康を管理するための信頼性の高いソリューションを提供する。 しかし、実際の製造プロセスから収集されたデータは、厳しいクラス不均衡、欠落した値の高率、ノイズのある特徴などの困難な特性を示すことが多く、機械学習の効果的な実装を妨げている。 本研究では,半導体製造プロセスから収集したIn situデータに対して,希少なクラス予測手法を開発した。 第一の目的は、ノイズとクラス不均衡の問題に対処し、クラス分離を強化するモデルを構築することである。 この手法は既存の文献と比較して有望な結果を示しており、将来のメンテナンス計画と生産品質に関する洞察を与える可能性のある新しい観測の予測を可能にした。 ROC曲線はAUCが0.95、精度が0.66、リコールが0.96である。

The evolution of industry has enabled the integration of physical and digital systems, facilitating the collection of extensive data on manufacturing processes. This integration provides a reliable solution for improving process quality and managing equipment health. However, data collected from real manufacturing processes often exhibit challenging properties, such as severe class imbalance, high rates of missing values, and noisy features, which hinder effective machine learning implementation. In this study, a rare class prediction approach is developed for in situ data collected from a smart semiconductor manufacturing process. The primary objective is to build a model that addresses issues of noise and class imbalance, enhancing class separation. The developed approach demonstrated promising results compared to existing literature, which would allow the prediction of new observations that could give insights into future maintenance plans and production quality. The model was evaluated using various performance metrics, with ROC curves showing an AUC of 0.95, a precision of 0.66, and a recall of 0.96
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# 戦略的に保守的なQ-Learning

Strategically Conservative Q-Learning ( http://arxiv.org/abs/2406.04534v1 )

ライセンス: Link先を確認
Yutaka Shimizu, Joey Hong, Sergey Levine, Masayoshi Tomizuka, (参考訳) オフライン強化学習(RL)は、事前コンパイルされた静的データセットを活用することにより、オンラインインタラクションの収集に関連する制限を回避することにより、RLの実用性を拡張するための魅力的なパラダイムである。 オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。 この問題に対処するために提案された様々な研究にもかかわらず、OOD領域と周辺領域の値関数を過度に抑制する傾向にあり、結果として過度に悲観的な値推定が生じる。 本稿では,Strategically conservative Q-Learning (SCQ) と呼ばれる新しいフレームワークを提案する。 我々のアプローチは、ニューラルネットワークの本質的にの強度を利用して補間を行いながら、外挿の限界を慎重にナビゲートし、悲観的だがまだ性質を校正した値の推定値を得る。 理論的分析により、SCQが学習した値関数は依然として保守的であるが、保守的なQ-ラーニング(CQL)よりもはるかに少ない可能性が示されている。 最後に、D4RLベンチマークタスクの広範な評価により、提案手法が最先端の手法より優れていることを示す。 私たちのコードは \url{https://github.com/purewater0901/SCQ} で利用可能です。

Offline reinforcement learning (RL) is a compelling paradigm to extend RL's practical utility by leveraging pre-collected, static datasets, thereby avoiding the limitations associated with collecting online interactions. The major difficulty in offline RL is mitigating the impact of approximation errors when encountering out-of-distribution (OOD) actions; doing so ineffectively will lead to policies that prefer OOD actions, which can lead to unexpected and potentially catastrophic results. Despite the variety of works proposed to address this issue, they tend to excessively suppress the value function in and around OOD regions, resulting in overly pessimistic value estimates. In this paper, we propose a novel framework called Strategically Conservative Q-Learning (SCQ) that distinguishes between OOD data that is easy and hard to estimate, ultimately resulting in less conservative value estimates. Our approach exploits the inherent strengths of neural networks to interpolate, while carefully navigating their limitations in extrapolation, to obtain pessimistic yet still property calibrated value estimates. Theoretical analysis also shows that the value function learned by SCQ is still conservative, but potentially much less so than that of Conservative Q-learning (CQL). Finally, extensive evaluation on the D4RL benchmark tasks shows our proposed method outperforms state-of-the-art methods. Our code is available through \url{https://github.com/purewater0901/SCQ}.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# タンジェント差分プライバシー

Tangent differential privacy ( http://arxiv.org/abs/2406.04535v1 )

ライセンス: Link先を確認
Lexing Ying, (参考訳) 差分プライバシーは、意思決定プロセスにおける個々のデータポイントのアイデンティティを保護するためのフレームワークである。 本稿では,差分プライバシーという新しいタイプの差分プライバシーを提案する。 データディストリビューション全体で一様に定義される通常の差分プライバシと比較すると、特定のデータ配信に合わせて、具体的な差分プライバシが調整される。 また、総変分距離やワッサーシュタイン距離などの一般分布距離も可能である。 リスク最小化の場合、エントロピー正則化により、リスク関数のより一般的な条件下では、具体的な差分プライバシーが保証されることを示す。

Differential privacy is a framework for protecting the identity of individual data points in the decision-making process. In this note, we propose a new form of differential privacy called tangent differential privacy. Compared with the usual differential privacy that is defined uniformly across data distributions, tangent differential privacy is tailored towards a specific data distribution of interest. It also allows for general distribution distances such as total variation distance and Wasserstein distance. In the case of risk minimization, we show that entropic regularization guarantees tangent differential privacy under rather general conditions on the risk function.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# E2E同時音声翻訳のためのラベル同期ニューラルトランスデューサ

Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation ( http://arxiv.org/abs/2406.04541v1 )

ライセンス: Link先を確認
Keqi Deng, Philip C. Woodland, (参考訳) ニューラルトランスデューサはオンライン音声認識で人気があるが、同時音声変換(SST)にはストリーミングと再注文の両方の能力が必要である。 本稿では,SSTのラベル同期型ニューラルトランスデューサであるLS-Transducer-SSTについて述べる。 LS-Transducer-SSTはオートレグレッシブ・インテグレート・アンド・ファイア(AIF)機構に基づいて翻訳トークンをいつ発行するかを動的に決定する。 遅延制御可能なAIFも提案されており、復号時にのみ品質レイテンシトレードオフを制御するか、復号とトレーニングの両方で使用できる。 LS-Transducer-SSTは自然にモノリンガルのテキストのみのデータを予測ネットワークを通じて利用することができ、E2E SSTのデータの空間性の重要な問題を緩和するのに役立つ。 デコード中、チャンクベースのインクリメンタルジョイントデコード技術は、検索空間を洗練・拡張するために設計されている。 Fisher-CallHome Spanish (Es-En) と MuST-C En-De データによる実験は、LS-Transducer-SSTが既存の一般的な方法よりも高品質なレイテンシトレードオフを提供することを示している。 例えば、LS-Transducer-SSTは、同様のレイテンシでCAATと比較して3.1/2.9ポイントBLEU増加(Es-En/En-De)、Wait-kと比較して平均遅延遅延時間を1.4秒短縮する。

While the neural transducer is popular for online speech recognition, simultaneous speech translation (SST) requires both streaming and re-ordering capabilities. This paper presents the LS-Transducer-SST, a label-synchronous neural transducer for SST, which naturally possesses these two properties. The LS-Transducer-SST dynamically decides when to emit translation tokens based on an Auto-regressive Integrate-and-Fire (AIF) mechanism. A latency-controllable AIF is also proposed, which can control the quality-latency trade-off either only during decoding, or it can be used in both decoding and training. The LS-Transducer-SST can naturally utilise monolingual text-only data via its prediction network which helps alleviate the key issue of data sparsity for E2E SST. During decoding, a chunk-based incremental joint decoding technique is designed to refine and expand the search space. Experiments on the Fisher-CallHome Spanish (Es-En) and MuST-C En-De data show that the LS-Transducer-SST gives a better quality-latency trade-off than existing popular methods. For example, the LS-Transducer-SST gives a 3.1/2.9 point BLEU increase (Es-En/En-De) relative to CAAT at a similar latency and a 1.4 s reduction in average lagging latency with similar BLEU scores relative to Wait-k.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# M&M VTO:マルチゲージバーチャルトライオンと編集

M&M VTO: Multi-Garment Virtual Try-On and Editing ( http://arxiv.org/abs/2406.04542v1 )

ライセンス: Link先を確認
Luyang Zhu, Yingwei Li, Nan Liu, Hao Peng, Dawei Yang, Ira Kemelmacher-Shlizerman, (参考訳) 本稿では,M&M VTO,M&M VTO,M&M VTO,M&M VTO,M&M VTO,M&M VTO,M&M VTOを述べる。 例としては、シャツのイメージ、ズボンのペアの画像、"ローリングスリーブ、シャツの入れ墨"、人物のイメージなどがある。 アウトプットは、その衣服(望ましいレイアウト)が特定の人にどのように見えるかを視覚化するものだ。 私たちの方法の主な貢献は次のとおりである。 1 超解像カスケードのない単段拡散モデルであって、複雑な衣服の詳細を保存・歪曲する1024×512解像度で複数の衣服を混合・整合することができる。 2) 建築設計 (VTO UNet Diffusion Transformer) は、個人固有の特徴から脱離し、アイデンティティ保存のための高度に効果的な微調整戦略(例えば、ドリームブースファインタニングで達成された個々の6MBモデル対4GBモデル)を可能にする。 3) 仮想試着作業において,PaLI-3上を特に微調整したテキスト入力による複数の衣服のレイアウト制御を行う。 実験結果から,M&M VTOは質的かつ定量的に最先端のパフォーマンスを達成し,言語誘導とマルチガーメントによるバーチャルトライオンの新たな機会が開けることが示唆された。

We present M&M VTO, a mix and match virtual try-on method that takes as input multiple garment images, text description for garment layout and an image of a person. An example input includes: an image of a shirt, an image of a pair of pants, "rolled sleeves, shirt tucked in", and an image of a person. The output is a visualization of how those garments (in the desired layout) would look like on the given person. Key contributions of our method are: 1) a single stage diffusion based model, with no super resolution cascading, that allows to mix and match multiple garments at 1024x512 resolution preserving and warping intricate garment details, 2) architecture design (VTO UNet Diffusion Transformer) to disentangle denoising from person specific features, allowing for a highly effective finetuning strategy for identity preservation (6MB model per individual vs 4GB achieved with, e.g., dreambooth finetuning); solving a common identity loss problem in current virtual try-on methods, 3) layout control for multiple garments via text inputs specifically finetuned over PaLI-3 for virtual try-on task. Experimental results indicate that M&M VTO achieves state-of-the-art performance both qualitatively and quantitatively, as well as opens up new opportunities for virtual try-on via language-guided and multi-garment try-on.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# FOOD:短距離FMCWレーダを用いた顔認証とアウト・オブ・ディストリビューション検出

FOOD: Facial Authentication and Out-of-Distribution Detection with Short-Range FMCW Radar ( http://arxiv.org/abs/2406.04546v1 )

ライセンス: Link先を確認
Sabri Mustafa Kahya, Boran Hamdi Sivrikaya, Muhammet Sami Yavuz, Eckehard Steinbach, (参考訳) 本稿では,短距離FMCWレーダを用いた顔認証とオフ・オブ・ディストリビューション(OOD)検出フレームワークを提案する。 本研究パイプラインは,IDサンプルの正しいクラスを共同で推定し,OODサンプルを検出して不正確な予測を防止する。 再構成アーキテクチャは1つのエンコーダと複数デコーダ構成を持つ主畳み込みブロックと、中間線形エンコーダ-デコーダ構成からなる。 これらの元素は、正確な人間の顔分類器と強力なOOD検出器を形成する。 また,60GHz短距離FMCWレーダを用いて収集したデータセットに対して,分布しない顔の識別における平均分類精度98.07%を実現した。 OOD検出器として、受信器動作特性(AUROC)曲線の98.50%、偽陽性率の95%正陽性率(FPR95)の平均6.20%を達成している。 また,提案手法は従来のOOD検出法よりもOOD検出法が優れていることを示す。

This paper proposes a short-range FMCW radar-based facial authentication and out-of-distribution (OOD) detection framework. Our pipeline jointly estimates the correct classes for the in-distribution (ID) samples and detects the OOD samples to prevent their inaccurate prediction. Our reconstruction-based architecture consists of a main convolutional block with one encoder and multi-decoder configuration, and intermediate linear encoder-decoder parts. Together, these elements form an accurate human face classifier and a robust OOD detector. For our dataset, gathered using a 60 GHz short-range FMCW radar, our network achieves an average classification accuracy of 98.07% in identifying in-distribution human faces. As an OOD detector, it achieves an average Area Under the Receiver Operating Characteristic (AUROC) curve of 98.50% and an average False Positive Rate at 95% True Positive Rate (FPR95) of 6.20%. Also, our extensive experiments show that the proposed approach outperforms previous OOD detectors in terms of common OOD detection metrics.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# GNN解剖:グラフニューラルネットワークのためのマルチレベル記述の体系的生成と評価

GNNAnatomy: Systematic Generation and Evaluation of Multi-Level Explanations for Graph Neural Networks ( http://arxiv.org/abs/2406.04548v1 )

ライセンス: Link先を確認
Hsiao-Ying Lu, Yiran Li, Ujwal Pratap Krishna Kaluvakolanu Thyagarajan, Kwan-Liu Ma, (参考訳) グラフニューラルネットワーク(GNN)は、ノード/グラフ分類やリンク予測といったグラフを含むさまざまな機械学習(ML)タスクにおいて、非常に有効であることが証明されている。 しかし、GNNによる決定の説明は、グラフ構造に基づく集約された関係情報により、複雑なデータ変換につながるため、課題を提起する。 既存のGNNの説明法は、様々なサブストラクチャを体系的に探索し、基礎的真理が欠如している結果を評価する際に、しばしば制限に直面している。 このギャップに対処するために、GNNのマルチレベル説明の生成と評価を容易にするために設計されたモデルおよびデータセットに依存しない視覚分析システムであるGNNAnatomyを紹介した。 GNN解剖学では、グラフレベルの分類タスクにおいて、GNNの振る舞いを解明するためにグラフレットを用いる。 GNN分類とグラフレット周波数の関係を解析することにより、仮説的事実と反事実的説明を定式化する。 仮説的なグラフレットの説明を検証するために,(1)頻度と分類信頼度との相関,(2)この部分構造を元のグラフから取り除いた後の分類信頼度の変化,の2つの指標を紹介した。 GNN解剖学の有効性を実証するため,実世界のグラフデータセットと合成グラフデータセットのケーススタディを行った。 さらに、GNNAnatomyと最先端のGNN説明器を質的に比較し、我々の設計の有用性と汎用性を実証した。

Graph Neural Networks (GNNs) have proven highly effective in various machine learning (ML) tasks involving graphs, such as node/graph classification and link prediction. However, explaining the decisions made by GNNs poses challenges because of the aggregated relational information based on graph structure, leading to complex data transformations. Existing methods for explaining GNNs often face limitations in systematically exploring diverse substructures and evaluating results in the absence of ground truths. To address this gap, we introduce GNNAnatomy, a model- and dataset-agnostic visual analytics system designed to facilitate the generation and evaluation of multi-level explanations for GNNs. In GNNAnatomy, we employ graphlets to elucidate GNN behavior in graph-level classification tasks. By analyzing the associations between GNN classifications and graphlet frequencies, we formulate hypothesized factual and counterfactual explanations. To validate a hypothesized graphlet explanation, we introduce two metrics: (1) the correlation between its frequency and the classification confidence, and (2) the change in classification confidence after removing this substructure from the original graph. To demonstrate the effectiveness of GNNAnatomy, we conduct case studies on both real-world and synthetic graph datasets from various domains. Additionally, we qualitatively compare GNNAnatomy with a state-of-the-art GNN explainer, demonstrating the utility and versatility of our design.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# ディープニューラルネットワークの同時学習とレイヤープルーニング

Concurrent Training and Layer Pruning of Deep Neural Networks ( http://arxiv.org/abs/2406.04549v1 )

ライセンス: Link先を確認
Valentin Frank Ingmar Guenter, Athanasios Sideris, (参考訳) トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。 重みやフィルタレベルのプルーニングとは対照的に、層プルーニングはニューラルネットワークの逐次計算の並列化を難しくする。 本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを許容する,非線形ネットワーク区間周辺の残差接続を用いた構造を用いる。 我々のアプローチは、ニューラルネットワークの重み付けに先立ってガウススケールの混合を用いた変分推論の原理に基づいており、トレーニングと推論の両方において大幅なコスト削減を可能にしている。 より具体的には、スカラーベルヌーイ確率変数の変動後分布がその非線形断面の層重み行列を乗じて学習する。 重み初期化や開始ネットワークの大きさに関して,未熟な刈り込みや頑健さの欠如といった同時学習や刈り込みの課題を克服するため,先行パラメータに "フラット化" ハイパープライアを採用する。 その結果、最適化問題の解は、後続分布のパラメータが 0 または 1 のいずれかである決定論的ネットワークを記述していることが証明された。 予測されたSGDアルゴリズムを定式化し、確率近似結果を用いてその解への収束性を証明する。 特に、ゼロに収束する層の重みにつながる条件を証明し、理論的結果から実用的なプルーニング条件を導出する。 提案アルゴリズムは,MNIST,CIFAR-10,ImageNetデータセットおよび一般的なLeNet,VGG16,ResNetアーキテクチャを用いて評価する。 シミュレーションにより,本手法は並列学習とプルーニングにより競合する手法と区別し,計算コストを低減したレイヤープルーニングの最先端性能を実現することを示す。

We propose an algorithm capable of identifying and eliminating irrelevant layers of a neural network during the early stages of training. In contrast to weight or filter-level pruning, layer pruning reduces the harder to parallelize sequential computation of a neural network. We employ a structure using residual connections around nonlinear network sections that allow the flow of information through the network once a nonlinear section is pruned. Our approach is based on variational inference principles using Gaussian scale mixture priors on the neural network weights and allows for substantial cost savings during both training and inference. More specifically, the variational posterior distribution of scalar Bernoulli random variables multiplying a layer weight matrix of its nonlinear sections is learned, similarly to adaptive layer-wise dropout. To overcome challenges of concurrent learning and pruning such as premature pruning and lack of robustness with respect to weight initialization or the size of the starting network, we adopt the "flattening" hyper-prior on the prior parameters. We prove that, as a result of its usage, the solutions of the resulting optimization problem describe deterministic networks with parameters of the posterior distribution at either 0 or 1. We formulate a projected SGD algorithm and prove its convergence to such a solution using stochastic approximation results. In particular, we prove conditions that lead to a layer's weights converging to zero and derive practical pruning conditions from the theoretical results. The proposed algorithm is evaluated on the MNIST, CIFAR-10 and ImageNet datasets and common LeNet, VGG16 and ResNet architectures. The simulations demonstrate that our method achieves state-of the-art performance for layer pruning at reduced computational cost in distinction to competing methods due to the concurrent training and pruning.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# 強化学習による光学系の絡み合い工学

Entanglement engineering of optomechanical systems by reinforcement learning ( http://arxiv.org/abs/2406.04550v1 )

ライセンス: Link先を確認
Li-Li Ye, Christian Arenz, Kanu Sinha, Joseph M. Lukens, Ying-Cheng Lai, (参考訳) 絡み合いは量子情報科学と技術の基礎であるが、任意の量子系に対する絡み合い(いわゆる絡み合い工学)の制御と操作は、依然として困難な課題である。 量子エンタングルメントの脆弱さと、その実験的特徴の2つの困難がある。 我々は,弱い連続測定と部分状態観察を併用したフィードバック制御を利用して,所望の絡み合いを生成し維持する,絡み合い工学に対する深層強化学習(RL)アプローチを開発した。 我々は、線形または非線形光子-フォノン相互作用を持つ量子光学系を用いて、機械学習ベースの絡み合い工学プロトコルの動作を実証する。 特に、RLエージェントは、1つまたは複数の並列量子光学環境と逐次的に相互作用し、軌道を収集し、蓄積された報酬を最大化するためにポリシーを更新し、任意の時間にわたって量子絡み合いを発生および安定化する。 機械学習に基づく制御原理は、一般に実験量子システムの絡み合い工学に適用できる。

Entanglement is fundamental to quantum information science and technology, yet controlling and manipulating entanglement -- so-called entanglement engineering -- for arbitrary quantum systems remains a formidable challenge. There are two difficulties: the fragility of quantum entanglement and its experimental characterization. We develop a deep reinforcement-learning (RL) approach to entanglement engineering, in which feedback control together with weak continuous measurement and partial state observation is exploited to generate and maintain desired entanglement. We employ quantum optomechanical systems with linear or nonlinear photon-phonon interactions to demonstrate the workings of our machine-learning-based entanglement engineering protocol. In particular, the RL agent sequentially interacts with one or multiple parallel quantum optomechanical environments, collects trajectories, and updates the policy to maximize the accumulated reward to create and stabilize quantum entanglement over an arbitrary amount of time. The machine-learning-based control principle is applicable to entanglement engineering of experimental quantum systems in general.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# コンテクスト化されたベンディスコア誘導による生成画像のジオ多様性向上

Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance ( http://arxiv.org/abs/2406.04551v1 )

ライセンス: Link先を確認
Reyhane Askari Hemmat, Melissa Hall, Alicia Sun, Candace Ross, Michal Drozdzal, Adriana Romero-Soriano, (参考訳) テキストから画像への生成モデルの人気が高まり、リスクやバイアスを理解することに焦点が当てられている。 近年の研究では、最先端のモデルでは、日常の物体を現実世界の真の多様性で表現し、地理的領域間に顕著なギャップがあることが判明している。 本研究では,地域ごとの変動が実世界の代表となるような共通オブジェクトの生成画像の多様性を高めることを目的としている。 本稿では,従来の画像の「メモリバンク」と比較して,遅延拡散モデルの逆方向ステップを誘導し,サンプルの多様性を増大させるとともに,実世界の文脈化画像群の内部の変動量を制約する,推論時間介入(contextualized Vendi Score Guidance,c-VSG)を導入する。 地理的に代表される2つのデータセットを用いてc-VSGを評価し、画像の品質と一貫性を同時に維持・改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成された画像の多様性を著しく向上させることを示した。 さらに、定性的分析により、原モデルに存在する還元領域の描写行を含む、生成画像の多様性が著しく改善されていることが明らかとなった。 この研究が、世界の真の地理的多様性を反映した、テキストから画像への生成モデルへの一歩になることを願っています。

With the growing popularity of text-to-image generative models, there has been increasing focus on understanding their risks and biases. Recent work has found that state-of-the-art models struggle to depict everyday objects with the true diversity of the real world and have notable gaps between geographic regions. In this work, we aim to increase the diversity of generated images of common objects such that per-region variations are representative of the real world. We introduce an inference time intervention, contextualized Vendi Score Guidance (c-VSG), that guides the backwards steps of latent diffusion models to increase the diversity of a sample as compared to a "memory bank" of previously generated images while constraining the amount of variation within that of an exemplar set of real-world contextualizing images. We evaluate c-VSG with two geographically representative datasets and find that it substantially increases the diversity of generated images, both for the worst performing regions and on average, while simultaneously maintaining or improving image quality and consistency. Additionally, qualitative analyses reveal that diversity of generated images is significantly improved, including along the lines of reductive region portrayals present in the original model. We hope that this work is a step towards text-to-image generative models that reflect the true geographic diversity of the world.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# フォーミュラとベンチマークによるレコメンデーション編集

Better Late Than Never: Formulating and Benchmarking Recommendation Editing ( http://arxiv.org/abs/2406.04553v1 )

ライセンス: Link先を確認
Chengyu Lai, Sheng Zhou, Zhimeng Jiang, Qiaoyu Tan, Yuanchen Bei, Jiawei Chen, Ningyu Zhang, Jiajun Bu, (参考訳) レコメンデーションシステムは、ユーザの好みに基づいて、アイテムをユーザに提案する上で重要な役割を担っている。 しかし、オンラインプラットフォームでは、モデルキャパシティの制限、データ品質の低下、ユーザの興味の進化などにより、これらのシステムは必然的に不適切なレコメンデーションを提供する。 ユーザエクスペリエンスを向上させるには、このような不適切なレコメンデーション動作を効率的に修正する必要がある。 本稿では,既知かつ不適なレコメンデーション行動の修正に焦点を当てた,新規かつ重要なレコメンデーション編集手法を提案する。 具体的には、トレーニングデータにアクセスしたり、モデルを再訓練したりせずに、既知の不適切な項目を除去するためにレコメンデーションモデルを調整することを目的としている。 本稿では, 厳密な修正, 協調的な修正, 集中的な修正の3つの主目的によるレコメンデーション編集の課題を正式に定義する。 それぞれの目的の達成度を定量的に評価するために,3つの評価指標を開発した。 編集ベイジアンパーソナライズされたランキングロスを用いたレコメンデーション編集のための,単純かつ効果的なベンチマークを提示する。 提案手法の有効性を示すため,関連分野から様々な手法を取り入れた総合的なベンチマークを構築した。 Codebaseはhttps://github.com/cycl2018/Recommendation-Editing.comから入手できる。

Recommendation systems play a pivotal role in suggesting items to users based on their preferences. However, in online platforms, these systems inevitably offer unsuitable recommendations due to limited model capacity, poor data quality, or evolving user interests. Enhancing user experience necessitates efficiently rectify such unsuitable recommendation behaviors. This paper introduces a novel and significant task termed recommendation editing, which focuses on modifying known and unsuitable recommendation behaviors. Specifically, this task aims to adjust the recommendation model to eliminate known unsuitable items without accessing training data or retraining the model. We formally define the problem of recommendation editing with three primary objectives: strict rectification, collaborative rectification, and concentrated rectification. Three evaluation metrics are developed to quantitatively assess the achievement of each objective. We present a straightforward yet effective benchmark for recommendation editing using novel Editing Bayesian Personalized Ranking Loss. To demonstrate the effectiveness of the proposed method, we establish a comprehensive benchmark that incorporates various methods from related fields. Codebase is available at https://github.com/cycl2018/Recommendation-Editing.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# ジェネレーティブAIは適応的なガバナンスを必要とする

Generative AI Needs Adaptive Governance ( http://arxiv.org/abs/2406.04554v1 )

ライセンス: Link先を確認
Anka Reuel, Trond Arne Undheim, (参考訳) 開発速度、幅広い適用範囲、人間のパフォーマンスを向上する能力のため、ジェネレーティブAIはガバナンス、信頼、ヒューマンエージェンシーという概念に挑戦する。 人間の知識労働を模倣する技術、ユーザー、研究、投資家、政策、メディアの注意、データと計算資源の大幅な増加を含むフィードバックループは、いずれも急速に増加する能力に繋がる。 これらの理由から、AIガバナンスとAIが共進化するアダプティブガバナンスは、生成AIを管理する上で不可欠である。 従来のガバナンスの規制体制とは対照的に、情報開示、登録、リスク管理の厳格な規定が混在している。 適応的なガバナンスをAIの文脈で定義し、適応的なAIガバナンスフレームワークの概要を述べる。 我々は、アクター、ロール、および共有およびアクター固有のポリシー活動の概要を概説する。 さらに、このフレームワークを実際に運用する方法の例を示します。 次に、適応的なAIガバナンスのスタンスは、監視の不十分、深さの不十分、規制の不確実性、規制のキャプチャといったリスクや制限を欠いているわけではなく、これらの欠点を修正するための潜在的なアプローチを提供する、と説明する。

Because of the speed of its development, broad scope of application, and its ability to augment human performance, generative AI challenges the very notions of governance, trust, and human agency. The technology's capacity to mimic human knowledge work, feedback loops including significant uptick in users, research, investor, policy, and media attention, data and compute resources, all lead to rapidly increasing capabilities. For those reasons, adaptive governance, where AI governance and AI co-evolve, is essential for governing generative AI. In sharp contrast to traditional governance's regulatory regimes that are based on a mix of rigid one-and-done provisions for disclosure, registration and risk management, which in the case of AI carry the potential for regulatory misalignment, this paper argues that generative AI calls for adaptive governance. We define adaptive governance in the context of AI and outline an adaptive AI governance framework. We outline actors, roles, as well as both shared and actors-specific policy activities. We further provide examples of how the framework could be operationalized in practice. We then explain that the adaptive AI governance stance is not without its risks and limitations, such as insufficient oversight, insufficient depth, regulatory uncertainty, and regulatory capture, and provide potential approaches to fix these shortcomings.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-06
# LLMは外部の監督なしで自律的に学習できる

LLMs Could Autonomously Learn Without External Supervision ( http://arxiv.org/abs/2406.00606v2 )

ライセンス: Link先を確認
Ke Ji, Junying Chen, Anningzhe Gao, Wenya Xie, Xiang Wan, Benyou Wang, (参考訳) 超人的パフォーマンスの追求において、Large Language Models (LLM) は伝統的に、人間の注釈付きデータセットと事前定義された訓練目標に結び付けられてきた。 本稿では、人間の監督の制約からモデルを解放する自己充足学習パラダイムであるLSMのための自律学習という、変革的なアプローチを提案する。 本手法は, LLMに対して, 文章と直接対話して自己学習を行う能力を与える。 我々のアプローチは、アノテーション付きデータへの依存を排除し、モデルが独立して認識し、その知識ギャップを補強する自律学習環境を育む。 各種の学習材料を応用し,一般のクイズに対して評価した包括的実験の結果,自律学習は,事前学習と監視ファインチューニング(SFT, Supervised Fine-Tuning, SFT)の両方のパフォーマンスを超越し, 検索を増強する方法も示している。 これらの知見は、LLMトレーニングの効率性と効果を高めるだけでなく、より先進的で自律的なAIシステムを開発するための道を開くために、自律学習の可能性を強調している。

In the quest for super-human performance, Large Language Models (LLMs) have traditionally been tethered to human-annotated datasets and predefined training objectives-a process that is both labor-intensive and inherently limited. This paper presents a transformative approach: Autonomous Learning for LLMs, a self-sufficient learning paradigm that frees models from the constraints of human supervision. This method endows LLMs with the ability to self-educate through direct interaction with text, akin to a human reading and comprehending literature. Our approach eliminates the reliance on annotated data, fostering an Autonomous Learning environment where the model independently identifies and reinforces its knowledge gaps. Empirical results from our comprehensive experiments, which utilized a diverse array of learning materials and were evaluated against standard public quizzes, reveal that Autonomous Learning outstrips the performance of both Pre-training and Supervised Fine-Tuning (SFT), as well as retrieval-augmented methods. These findings underscore the potential of Autonomous Learning to not only enhance the efficiency and effectiveness of LLM training but also to pave the way for the development of more advanced, self-reliant AI systems.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-06
# 『このような例をくれ』:実証から学ぶエピソード的能動的強化

"Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations ( http://arxiv.org/abs/2406.03069v2 )

ライセンス: Link先を確認
Muhan Hou, Koen Hindriks, A. E. Eiben, Kim Baraka, (参考訳) 強化学習(Reinforcement Learning, RL)は、連続的な意思決定問題において大きな成功を収めてきたが、多くの場合、多数のエージェントと環境の相互作用を犠牲にしている。 サンプル効率を改善するために、RLED(Reinforcement Learning from Expert Demonstrations)のような手法が、学習プロセス中のエージェント探索を容易にするために、外部の専門家によるデモンストレーションを導入している。 実際には、これらのデモは人間のユーザから収集されることが多いが、コストがかかり、そのため限られた量に制限されることが多い。 したがって、学習に最も有益な人間のデモのベストセットをどうやって選ぶかが大きな関心事となる。 本稿では、学習エージェントが軌道に基づく特徴空間において、専門家によるデモンストレーションの最適なクエリを生成することができるアルゴリズムであるEARLY(Episodic Active Learning from demonstration querY)を提案する。 エージェントの現在のポリシーにおける不確実性の軌跡レベルの推定に基づいて、EARLYは特徴ベースのクエリに対して最適化されたタイミングと内容を決定する。 分離された状態-作用対ではなく、エピソード的なデモンストレーションをクエリすることで、EARLYは人間の教育経験を改善し、より良い学習性能を達成する。 本手法の有効性を3つのシミュレートされたナビゲーションタスクで検証し,難易度を高めた。 その結果,本手法は,模擬オラクルポリシによって実演が生成される場合,他の基準手法よりも30倍以上の収束率を持つ3つのタスクに対して,専門家レベルの性能を達成できることが示唆された。 フォローアップ・パイロット・ユーザ・スタディ(N=18)の結果は、人間の専門家の実証者の場合においても、作業負荷の認識において優れたユーザ体験を達成し、人的時間を大幅に短縮しながら、我々の手法がはるかに優れた収束を維持することができることをさらに証明した。

Reinforcement Learning (RL) has achieved great success in sequential decision-making problems, but often at the cost of a large number of agent-environment interactions. To improve sample efficiency, methods like Reinforcement Learning from Expert Demonstrations (RLED) introduce external expert demonstrations to facilitate agent exploration during the learning process. In practice, these demonstrations, which are often collected from human users, are costly and hence often constrained to a limited amount. How to select the best set of human demonstrations that is most beneficial for learning therefore becomes a major concern. This paper presents EARLY (Episodic Active Learning from demonstration querY), an algorithm that enables a learning agent to generate optimized queries of expert demonstrations in a trajectory-based feature space. Based on a trajectory-level estimate of uncertainty in the agent's current policy, EARLY determines the optimized timing and content for feature-based queries. By querying episodic demonstrations as opposed to isolated state-action pairs, EARLY improves the human teaching experience and achieves better learning performance. We validate the effectiveness of our method in three simulated navigation tasks of increasing difficulty. The results show that our method is able to achieve expert-level performance for all three tasks with convergence over 30\% faster than other baseline methods when demonstrations are generated by simulated oracle policies. The results of a follow-up pilot user study (N=18) further validate that our method can still maintain a significantly better convergence in the case of human expert demonstrators while achieving a better user experience in perceived task load and consuming significantly less human time.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-06
# 言語横断・文字レベルニューラルな形態的タグ付け

Cross-lingual, Character-Level Neural Morphological Tagging ( http://arxiv.org/abs/1708.09157v5 )

ライセンス: Link先を確認
Ryan Cotterell, Georg Heigold, (参考訳) 一般的なNLPタスクであっても、多くの言語では十分な監視ができない。 そこで本研究では,高リソース言語と低リソース言語に対する形態的タグ付けを予測するために,文字レベルのリカレントなニューラルタグをトレーニングするトランスファーラーニング手法について検討する。 複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。

Even for common NLP tasks, sufficient supervision is not available in many languages -- morphological tagging is no exception. In the work presented here, we explore a transfer learning scheme, whereby we train character-level recurrent neural taggers to predict morphological taggings for high-resource languages and low-resource languages together. Learning joint character representations among multiple related languages successfully enables knowledge transfer from the high-resource languages to the low-resource ones, improving accuracy by up to 30% over a monolingual model.
翻訳日:2024-06-09 16:28:54 公開日:2024-06-06
# 一般化双曲分布のスパース混合によるフレキシブルクラスタリング

Flexible Clustering with a Sparse Mixture of Generalized Hyperbolic Distributions ( http://arxiv.org/abs/1903.05054v2 )

ライセンス: Link先を確認
Alexa A. Sochaniwsky, Michael P. B. Gallaugher, Yang Tang, Paul D. McNicholas, (参考訳) 高次元データのロバストクラスタリングは重要なトピックである。 モデルベースのクラスタリングへの従来のアプローチは、自由な共分散パラメータの数のため、高次元データ、例えば、しばしば失敗する。 一般化双曲分布の混合に対する成分スケール行列のパラメトリゼーションを提案する。 このパラメータ化は、潜在的にペナルティ項を含む。 濃度行列を制約するガンマ・ラッソのペナルティを配置することにより,解析的に実現可能な予測最大化アルゴリズムを開発した。 提案手法はシミュレーション研究を通じて検討され、2つの実データを用いて説明される。

Robust clustering of high-dimensional data is an important topic because clusters in real datasets are often heavy-tailed and/or asymmetric. Traditional approaches to model-based clustering often fail for high dimensional data, e.g., due to the number of free covariance parameters. A parametrization of the component scale matrices for the mixture of generalized hyperbolic distributions is proposed. This parameterization includes a penalty term in the likelihood. An analytically feasible expectation-maximization algorithm is developed by placing a gamma-lasso penalty constraining the concentration matrix. The proposed methodology is investigated through simulation studies and illustrated using two real datasets.
翻訳日:2024-06-09 16:28:54 公開日:2024-06-06
# 1点, 1点:同時3次元オブジェクトセグメンテーションと6-DOFポーズ推定

One Point, One Object: Simultaneous 3D Object Segmentation and 6-DOF Pose Estimation ( http://arxiv.org/abs/1912.12095v2 )

ライセンス: Link先を確認
Hongsen Liu, (参考訳) そこで本研究では,3次元オブジェクト分割と6-DOFのポーズ推定を同時に行う単一ショット方式を提案する。 最近提案された3次元境界箱の3次元角の投影を2次元検出器で予測する類似タスクの手法とは異なり、PnPのような空間変換法により6-DOFのポーズを推定する必要がある。 多くのオブジェクトに対するトレーニングデータが不足しているため、最近提案された2D検出手法は、レンダリングエンジンを用いてトレーニングデータを生成し、良好な結果を得る。 しかし、6-DOFとともに3次元空間でのレンダリングは比較的困難である。 そこで本研究では,半仮想現実空間におけるトレーニングデータを生成するための拡張現実技術を提案する。 提案手法の主な構成要素は,純3次元点群における3次元オブジェクト分割と6-DOFポーズ推定を同時に予測できるマルチタスクCNNアーキテクチャである。 実験評価のために,Augmented Reality Technology (AR) を用いて2つの最先端3Dオブジェクトデータセットであるcite{PLCHF}\cite{TlineMOD} のトレーニングデータを生成する。 提案手法を2つのデータセット上で評価する。 その結果,本手法は複数のシナリオに適切に一般化され,最先端技術に匹敵する性能が得られることがわかった。

We propose a single-shot method for simultaneous 3D object segmentation and 6-DOF pose estimation in pure 3D point clouds scenes based on a consensus that \emph{one point only belongs to one object}, i.e., each point has the potential power to predict the 6-DOF pose of its corresponding object. Unlike the recently proposed methods of the similar task, which rely on 2D detectors to predict the projection of 3D corners of the 3D bounding boxes and the 6-DOF pose must be estimated by a PnP like spatial transformation method, ours is concise enough not to require additional spatial transformation between different dimensions. Due to the lack of training data for many objects, the recently proposed 2D detection methods try to generate training data by using rendering engine and achieve good results. However, rendering in 3D space along with 6-DOF is relatively difficult. Therefore, we propose an augmented reality technology to generate the training data in semi-virtual reality 3D space. The key component of our method is a multi-task CNN architecture that can simultaneously predicts the 3D object segmentation and 6-DOF pose estimation in pure 3D point clouds. For experimental evaluation, we generate expanded training data for two state-of-the-arts 3D object datasets \cite{PLCHF}\cite{TLINEMOD} by using Augmented Reality technology (AR). We evaluate our proposed method on the two datasets. The results show that our method can be well generalized into multiple scenarios and provide performance comparable to or better than the state-of-the-arts.
翻訳日:2024-06-08 01:27:18 公開日:2024-06-06
# ネットワークのないAI

AI without networks ( http://arxiv.org/abs/2106.03354v3 )

ライセンス: Link先を確認
Partha P Mitra, Clément Sire, (参考訳) 現代人工知能(AI)は、大規模なトレーニングデータコーパスと多パラメータニューラルネットワーク(ANN)の2つの脚の上に立つ。 データコーパスは、世界の複雑さと不均一性を表現するために必要である。 ネットワークのパラメータや出力がトレーニングデータや入力に不明瞭なため、ネットワークの役割は透明ではない。 これは、技術的な科学から法的倫理まで、問題を引き起こす。 我々は、ネットワークを全く使わずに、機械学習への透過的なアプローチが可能であると仮定する。 パラメータフリーで統計的に一貫したデータ補間法を一般化し、理論的に詳細に解析することにより、生成モデリングを取り入れたAIのためのネットワークフリーなフレームワークを開発する。 我々は、この枠組みを、民族学、制御理論、数学の3つの異なる分野の例で示す。 我々の生成的Hilbertフレームワークは、従来の数学的行動モデルや現在のANNモデルよりも優れた性能を示した小集団の泳魚の軌道に応用した。 不安定な固定点周辺の逆振り子と駆動ロジスティックマップを安定化させることにより、純粋なデータ補間に基づく制御を実証する。 最後に、リーマンゼータ関数の零点を予測し、変圧器ネットワークとして同等の性能を達成する数学的応用を提案する。 オーバーパラメータネットワークが相互接続可能であるため,提案するフレームワークがネットワークを常に上回るとは考えていない。 しかし、我々のフレームワークは理論上、健全で透明で、決定論的で、パラメータフリーである:驚くべきことに、計算力の訓練は一切必要とせず、最適化を伴わず、モデル選択もせず、容易に再生、移植できる。 また、生成AIによる倫理的法的課題に対処するために、この枠組みに基づいて容易に計算された信用割当手法を提案する。

Contemporary Artificial Intelligence (AI) stands on two legs: large training data corpora and many-parameter artificial neural networks (ANNs). The data corpora are needed to represent the complexity and heterogeneity of the world. The role of the networks is less transparent due to the obscure dependence of the network parameters and outputs on the training data and inputs. This raises problems, ranging from technical-scientific to legal-ethical. We hypothesize that a transparent approach to machine learning is possible without using networks at all. By generalizing a parameter-free, statistically consistent data interpolation method, which we analyze theoretically in detail, we develop a network-free framework for AI incorporating generative modeling. We demonstrate this framework with examples from three different disciplines - ethology, control theory, and mathematics. Our generative Hilbert framework applied to the trajectories of small groups of swimming fish outperformed state-of-the-art traditional mathematical behavioral models and current ANN-based models. We demonstrate pure data interpolation based control by stabilizing an inverted pendulum and a driven logistic map around unstable fixed points. Finally, we present a mathematical application by predicting zeros of the Riemann Zeta function, achieving comparable performance as a transformer network. We do not suggest that the proposed framework will always outperform networks as over-parameterized networks can interpolate. However, our framework is theoretically sound, transparent, deterministic, and parameter free: remarkably, it does not require any compute-expensive training, does not involve optimization, has no model selection, and is easily reproduced and ported. We also propose an easily computed method of credit assignment based on this framework, to help address ethical-legal challenges raised by generative AI.
翻訳日:2024-06-08 01:27:18 公開日:2024-06-06
# 時空量子行動からの経路積分

Path Integrals from Spacetime Quantum Actions ( http://arxiv.org/abs/2111.05383v5 )

ライセンス: Link先を確認
N. L. Diaz, J. M. Matera, R. Rossignoli, (参考訳) 量子力学(QM)の正準定式化を時空対称形式に拡張する可能性は最近広く関心を集めている。 この文脈において、最近の提案では、時空対称多体展開であるペイジ・アンド・ウーターズ機構が、古典力学の作用の量子バージョンである量子アクション作用素(QA)を自然に導くことが示されている。 本稿では,QAと確立されたFeynman's Path Integral (PI)の接続に焦点をあてる。 特に、古典的作用の役割が対応するQAに置き換わる量子トレースで「歴史上の仮定」を特定できる新しい形式主義を提示する。 トレースは拡張ヒルベルト空間で定義され、これは通常のヒルベルト空間を各時間スライスに割り当ててテンソル積を取るからである。 フォーマリズムは、PIと一般相関関数の評価への量子計算プロトコルの適用への道を開き、同じトレース式の評価において、PIの異なる表現が、基底の異なる選択から生じることを明らかにした。 PIのヒルベルト空間埋め込みもまた、その連続時間限界に対する新しいアプローチを明らかにしている。 最後に、続く標準的QMバージョンがPIの定式化から多くの性質を継承し、時空対称性を明示的に共変的に扱うことができるかについて議論する。

The possibility of extending the canonical formulation of quantum mechanics (QM) to a space-time symmetric form has recently attracted wide interest. In this context, a recent proposal has shown that a spacetime symmetric many-body extension of the Page and Wootters mechanism naturally leads to the so-called Quantum Action (QA) operator, a quantum version of the action of classical mechanics. In this work, we focus on connecting the QA with the well-established Feynman's Path Integral (PI). In particular, we present a novel formalism which allows one to identify the "sum over histories" with a quantum trace, where the role of the classical action is replaced by the corresponding QA. The trace is defined in the extended Hilbert space resulting from assigning a conventional Hilbert space to each time slice and then taking their tensor product. The formalism opens the way to the application of quantum computation protocols to the evaluation of PIs and general correlation functions, and reveals that different representations of the PI arise from distinct choices of basis in the evaluation of the same trace expression. The Hilbert space embedding of the PIs also discloses a new approach to their continuum time limit. Finally, we discuss how the ensuing canonical-like version of QM inherits many properties from the PI formulation, thus allowing an explicitly covariant treatment of spacetime symmetries.
翻訳日:2024-06-08 01:27:18 公開日:2024-06-06
# シークエンシャルメモリはエピソード制御におけるサンプリングとメモリ効率を改善する

Sequential memory improves sample and memory efficiency in Episodic Control ( http://arxiv.org/abs/2112.14734v2 )

ライセンス: Link先を確認
Ismael T. Freire, Adrián F. Amil, Paul F. M. J. Verschure, (参考訳) 最先端の強化学習アルゴリズムは、漸近的なパフォーマンスを達成するのに必要なエピソードの多さのため、サンプル非効率である。 哺乳類の海馬にインスパイアされたてんかん強化学習(ERL)アルゴリズムは、通常、過去の出来事から学習をブートストラップしてこのサンプル非効率問題を克服するために拡張メモリシステムを使用する。 しかし、そのようなメモリ拡張は単にバッファとして使われることが多く、そこから独立した過去の経験がオフライン(例えばリプレイ)で学習するために描かれる。 ここでは、エピソードサンプリングの順序から得られる取得メモリ内容のバイアスを含めることで、エピソード制御アルゴリズムのサンプリングとメモリ効率が向上することを示す。 我々は、イベントシーケンスとして統合エピソードを保存および使用することで、標準的なERLベンチマークであるModel-Free Episodic Controlとは対照的に、より少ないメモリ要求でより高速に学習できることを示すために、フォージングタスクでシーケンス・エピソード・コントロール(SEC)モデルをテストした。 また,メモリ制約がSECアルゴリズムの逐次的および非逐次的バージョンに与える影響についても検討する。 さらに, 海馬のような高速記憶システムが, 哺乳動物の脳において, ゆっくりとした皮質および皮質下学習の習慣形成をブートストラップする方法について議論した。

State of the art deep reinforcement learning algorithms are sample inefficient due to the large number of episodes they require to achieve asymptotic performance. Episodic Reinforcement Learning (ERL) algorithms, inspired by the mammalian hippocampus, typically use extended memory systems to bootstrap learning from past events to overcome this sample-inefficiency problem. However, such memory augmentations are often used as mere buffers, from which isolated past experiences are drawn to learn from in an offline fashion (e.g., replay). Here, we demonstrate that including a bias in the acquired memory content derived from the order of episodic sampling improves both the sample and memory efficiency of an episodic control algorithm. We test our Sequential Episodic Control (SEC) model in a foraging task to show that storing and using integrated episodes as event sequences leads to faster learning with fewer memory requirements as opposed to a standard ERL benchmark, Model-Free Episodic Control, that buffers isolated events only. We also study the effect of memory constraints and forgetting on the sequential and non-sequential version of the SEC algorithm. Furthermore, we discuss how a hippocampal-like fast memory system could bootstrap slow cortical and subcortical learning subserving habit formation in the mammalian brain.
翻訳日:2024-06-08 01:27:18 公開日:2024-06-06
# 動画圧縮センシングのための運動認識動的グラフニューラルネットワーク

Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing ( http://arxiv.org/abs/2203.00387v2 )

ライセンス: Link先を確認
Ruiying Lu, Ziheng Cheng, Bo Chen, Xin Yuan, (参考訳) ビデオスナップショット圧縮イメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを単一の測定値に圧縮する。 スナップショット計測から高速映像フレームを復元する様々な再構成手法が開発されている。 しかし,既存の再構成手法では,ビデオ処理に欠かせない長距離空間依存や時間依存を効率的に捉えることができない。 本稿では,グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。 具体的には,動き認識動的サンプリング,クロススケールノードサンプリング,グローバル知識統合,グラフ集約などからなるフレーム・バイ・フレーム動作の誘導の下で,各ノードを相対的近傍のアグリゲーションとして表現する動き認識動的GNNを開発する。 シミュレーションと実データの両方において,提案手法の有効性と有効性を示すとともに,ビデオSCI再構成結果を向上するための本提案モデルの本質的な動的サンプリング操作を可視化する。 コードとモデルはリリースされる。

Video snapshot compressive imaging (SCI) utilizes a 2D detector to capture sequential video frames and compress them into a single measurement. Various reconstruction methods have been developed to recover the high-speed video frames from the snapshot measurement. However, most existing reconstruction methods are incapable of efficiently capturing long-range spatial and temporal dependencies, which are critical for video processing. In this paper, we propose a flexible and robust approach based on the graph neural network (GNN) to efficiently model non-local interactions between pixels in space and time regardless of the distance. Specifically, we develop a motion-aware dynamic GNN for better video representation, i.e., represent each node as the aggregation of relative neighbors under the guidance of frame-by-frame motions, which consists of motion-aware dynamic sampling, cross-scale node sampling, global knowledge integration, and graph aggregation. Extensive results on both simulation and real data demonstrate both the effectiveness and efficiency of the proposed approach, and the visualization illustrates the intrinsic dynamic sampling operations of our proposed model for boosting the video SCI reconstruction results. The code and model will be released.
翻訳日:2024-06-08 01:27:18 公開日:2024-06-06
# 平面MVS:多視点ステレオによる3次元平面再構成

PlaneMVS: 3D Plane Reconstruction from Multi-View Stereo ( http://arxiv.org/abs/2203.12082v3 )

ライセンス: Link先を確認
Jiachen Liu, Pan Ji, Nitin Bansal, Changjiang Cai, Qingan Yan, Xiaolei Huang, Yi Xu, (参考訳) カメラのポーズによる複数入力ビューからの3次元平面再構成のための新しいフレームワークPlainMVSを提案する。 従来の学習ベース平面再構成手法は, 単一画像から3次元平面を再構成するが, 単視点回帰に強く依存し, 深度スケールの曖昧さに悩まされている。 対照的に、マルチビュー幾何学を利用するマルチビューステレオ(MVS)パイプラインで3次元平面を再構成する。 平面再構成を意味的平面検出分岐と平面MVS分岐に分離する。 セマンティックプレーン検出ブランチは、単一のビュープレーン検出フレームワークに基づいているが、違いはある。 平面MVSブランチは、従来の深度仮説を置き換えるために斜め平面仮説を採用し、最終的にピクセルレベルの平面パラメータとその平面深度マップを学習する。 両枝のバランスの取れた学習方法を示し,両枝の出力を関連づけ,相互に利益を与えるソフトプール損失を提案する。 様々な屋内データセットに対する大規模な実験により、PlaneMVSは、平面検出と3次元幾何計測の両方において、最先端(SOTA)の単視点平面再構成法を著しく上回っていることが示された。 本手法は,学習面の先行性により,SOTA学習に基づくMVS手法よりも優れる。 私たちの知る限りでは、これはエンドツーエンドのMVSフレームワーク内での3次元平面再構成に関する最初の作業です。 ソースコード:https://github.com/oppo-us-research/PlaneMVS。

We present a novel framework named PlaneMVS for 3D plane reconstruction from multiple input views with known camera poses. Most previous learning-based plane reconstruction methods reconstruct 3D planes from single images, which highly rely on single-view regression and suffer from depth scale ambiguity. In contrast, we reconstruct 3D planes with a multi-view-stereo (MVS) pipeline that takes advantage of multi-view geometry. We decouple plane reconstruction into a semantic plane detection branch and a plane MVS branch. The semantic plane detection branch is based on a single-view plane detection framework but with differences. The plane MVS branch adopts a set of slanted plane hypotheses to replace conventional depth hypotheses to perform plane sweeping strategy and finally learns pixel-level plane parameters and its planar depth map. We present how the two branches are learned in a balanced way, and propose a soft-pooling loss to associate the outputs of the two branches and make them benefit from each other. Extensive experiments on various indoor datasets show that PlaneMVS significantly outperforms state-of-the-art (SOTA) single-view plane reconstruction methods on both plane detection and 3D geometry metrics. Our method even outperforms a set of SOTA learning-based MVS methods thanks to the learned plane priors. To the best of our knowledge, this is the first work on 3D plane reconstruction within an end-to-end MVS framework. Source code: https://github.com/oppo-us-research/PlaneMVS.
翻訳日:2024-06-08 01:27:18 公開日:2024-06-06
# 要約における冗長性と局所コヒーレンスとのトレードオフについて

On the Trade-off between Redundancy and Local Coherence in Summarization ( http://arxiv.org/abs/2205.10192v2 )

ライセンス: Link先を確認
Ronald Cardenas, Matthias Galle, Shay B. Cohen, (参考訳) 抽出要約は、通常、それらの間の結合が期待されていない文のリストとして提示される。 本稿では,抽出した要約文の相互結合と冗長性制御を目的とした場合のトレードオフとその情報性への影響について検討する。 ケーススタディでは、長い冗長な文書の要約に焦点をあて、報酬誘導と監督なしの2つの最適化シナリオを検討する。 報酬誘導のシナリオでは,文の採点時の冗長性や凝集度を制御するシステムを比較する。 教師なしのシナリオでは、情報性、冗長性、凝集性の3つの特性を原則的に制御することを目的とした2つのシステムを導入します。 どちらのシステムも、人間が関連するコンテンツ単位を追跡する方法をシミュレートする心理言語学理論を実装しており、読み上げ中の短期記憶において、凝集や非冗長性の制約がどのように適用されるかを示している。 大規模な自動評価と人的評価により、コヒージョンは -- その他の特性の中で -- 最適化されたシステムが、冗長性のみを最適化するシステムに比べて、要約中のコンテンツをよりよく整理する能力を持つことが明らかになった。 提案する非教師システムでは,文書の冗長性のレベルが多様であるにもかかわらず,高度に密集した要約を抽出できることがわかった。 最後に、シミュレーションされた認知過程が分析された要約特性間のトレードオフにどのように影響するかを示す。

Extractive summaries are usually presented as lists of sentences with no expected cohesion between them and with plenty of redundant information if not accounted for. In this paper, we investigate the trade-offs incurred when aiming to control for inter-sentential cohesion and redundancy in extracted summaries, and their impact on their informativeness. As case study, we focus on the summarization of long, highly redundant documents and consider two optimization scenarios, reward-guided and with no supervision. In the reward-guided scenario, we compare systems that control for redundancy and cohesion during sentence scoring. In the unsupervised scenario, we introduce two systems that aim to control all three properties -- informativeness, redundancy, and cohesion -- in a principled way. Both systems implement a psycholinguistic theory that simulates how humans keep track of relevant content units and how cohesion and non-redundancy constraints are applied in short-term memory during reading. Extensive automatic and human evaluations reveal that systems optimizing for -- among other properties -- cohesion are capable of better organizing content in summaries compared to systems that optimize only for redundancy, while maintaining comparable informativeness. We find that the proposed unsupervised systems manage to extract highly cohesive summaries across varying levels of document redundancy, although sacrificing informativeness in the process. Finally, we lay evidence as to how simulated cognitive processes impact the trade-off between the analyzed summary properties.
翻訳日:2024-06-08 01:27:18 公開日:2024-06-06
# DoWhy-GCM:図形因果モデルにおける因果推論のためのDoWhyの拡張

DoWhy-GCM: An extension of DoWhy for causal inference in graphical causal models ( http://arxiv.org/abs/2206.06821v2 )

ライセンス: Link先を確認
Patrick Blöbaum, Peter Götz, Kailash Budhathoki, Atalanti A. Mastakouri, Dominik Janzing, (参考訳) グラフィカル因果モデルを利用したDoWhy-GCMについて述べる。 効果推定に重点を置いている既存の因果関係ライブラリとは異なり、DoWhy-GCMは、外れ値の根本原因の特定や分布変化、各ノードのデータ生成プロセスへの因果影響、因果構造の診断など、様々な因果関係のクエリに対処する。 DoWhy-GCMでは、通常、ユーザは因果関係を因果グラフで指定し、因果関係を適合させ、因果関係を関連づける。 一般的なドキュメントはhttps://www.pywhy.org/dowhyで、DoWhy-GCM固有のコードはhttps://github.com/py-why/dowhy/tree/main/dowhy/gcmで入手できる。

We present DoWhy-GCM, an extension of the DoWhy Python library, which leverages graphical causal models. Unlike existing causality libraries, which mainly focus on effect estimation, DoWhy-GCM addresses diverse causal queries, such as identifying the root causes of outliers and distributional changes, attributing causal influences to the data generating process of each node, or diagnosis of causal structures. With DoWhy-GCM, users typically specify cause-effect relations via a causal graph, fit causal mechanisms, and pose causal queries -- all with just a few lines of code. The general documentation is available at https://www.pywhy.org/dowhy and the DoWhy-GCM specific code at https://github.com/py-why/dowhy/tree/main/dowhy/gcm.
翻訳日:2024-06-08 01:27:18 公開日:2024-06-06
# 機械学習における多目的ハイパーパラメータ最適化 - 概要

Multi-Objective Hyperparameter Optimization in Machine Learning -- An Overview ( http://arxiv.org/abs/2206.07438v3 )

ライセンス: Link先を確認
Florian Karl, Tobias Pielok, Julia Moosbauer, Florian Pfisterer, Stefan Coors, Martin Binder, Lennart Schneider, Janek Thomas, Jakob Richter, Michel Lang, Eduardo C. Garrido-Merchán, Juergen Branke, Bernd Bischl, (参考訳) ハイパーパラメータ最適化は、典型的な機械学習ワークフローの大部分を構成する。 これは、機械学習手法とそれに対応する前処理ステップが、ハイパーパラメータが適切に調整されたときにのみ最適なパフォーマンスが得られるという事実から生じる。 しかし、多くのアプリケーションでは、予測精度のためだけにMLパイプラインを最適化することに関心があります。 これは知識が不足し、多目的ハイパーパラメータ最適化のためのソフトウェア実装が容易に手に入るため、実際には無視されることが多い。 本研究では,多目的ハイパーパラメータ最適化の基礎に読者を導入し,応用MLにおけるその有用性を動機づける。 さらに、進化アルゴリズムの領域とベイズ最適化の両方から、既存の最適化戦略を広範囲に調査する。 動作条件,予測時間,スパースネス,フェアネス,解釈可能性,ロバストネスなどの目的を考慮し,複数の特定のMLアプリケーションにおけるMOOの有用性を解説する。

Hyperparameter optimization constitutes a large part of typical modern machine learning workflows. This arises from the fact that machine learning methods and corresponding preprocessing steps often only yield optimal performance when hyperparameters are properly tuned. But in many applications, we are not only interested in optimizing ML pipelines solely for predictive accuracy; additional metrics or constraints must be considered when determining an optimal configuration, resulting in a multi-objective optimization problem. This is often neglected in practice, due to a lack of knowledge and readily available software implementations for multi-objective hyperparameter optimization. In this work, we introduce the reader to the basics of multi-objective hyperparameter optimization and motivate its usefulness in applied ML. Furthermore, we provide an extensive survey of existing optimization strategies, both from the domain of evolutionary algorithms and Bayesian optimization. We illustrate the utility of MOO in several specific ML applications, considering objectives such as operating conditions, prediction time, sparseness, fairness, interpretability and robustness.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# ワクチンの誤報のダイナミクスと引き金

Dynamics and triggers of misinformation on vaccines ( http://arxiv.org/abs/2207.12264v3 )

ライセンス: Link先を確認
Emanuele Brugnoli, Marco Delmastro, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、ネット上での誤報の流行、意図的かどうかにかかわらず、誤認の拡散や健康関連主題の神話の持続に関連する個人の生活の質に影響を及ぼす潜在的なリスクについて、新たな注意を喚起している。 本研究では、さまざまなソーシャルメディアプラットフォーム(Facebook、Instagram、Twitter、YouTube)にわたるイタリアのワクチン論争の6年間(2016-2021年)を分析し、主要なニュースソースを網羅する。 われわれはまず、ニュース制作時間帯の象徴的転送エントロピー分析を用いて、どのカテゴリのソースを動的に決定し、疑わしい、あるいは信頼できる、ワクチンのアジェンダを因果的に駆動するかを判断する。 そして,提示された姿勢と話題に基づいて,ワクチン関連コンテンツを正確に分類できる深層学習モデルを活用し,対立する見解を広めるニュースソースによる様々な話題への焦点の評価を行い,その結果のユーザエンゲージメントを比較した。 特に、英語などの言語に比べて科学研究にはあまり注目されていない言語(イタリア語)において、ワクチン関連誤報のさらなる調査のための貴重な資料を提供する以外に、本研究では、主流メディアの視点に反するだけでなく、後者からのワクチン関連コンテンツの制作を圧倒する自律的な力として、ニュースエコシステムの寄生虫として、誤報を明らかにする。 疑わしい情報源のエンゲージメントは信頼性の高い情報源に比べて有意に高いが,本研究は,一貫した,網羅的かつ徹底的なプロヴァックスカバレッジの重要性を浮き彫りにしている。 これは、誤情報拡散のリスクが高く、関係するユーザの間でワクチンに対するネガティブな態度が悪化する可能性のある、最もセンシティブなトピックに対処する上で、特に重要である。

The Covid-19 pandemic has sparked renewed attention on the prevalence of misinformation online, whether intentional or not, underscoring the potential risks posed to individuals' quality of life associated with the dissemination of misconceptions and enduring myths on health-related subjects. In this study, we analyze 6 years (2016-2021) of Italian vaccine debate across diverse social media platforms (Facebook, Instagram, Twitter, YouTube), encompassing all major news sources - both questionable and reliable. We first use the symbolic transfer entropy analysis of news production time-series to dynamically determine which category of sources, questionable or reliable, causally drives the agenda on vaccines. Then, leveraging deep learning models capable to accurately classify vaccine-related content based on the conveyed stance and discussed topic, respectively, we evaluate the focus on various topics by news sources promoting opposing views and compare the resulting user engagement. Aside from providing valuable resources for further investigation of vaccine-related misinformation, particularly in a language (Italian) that receives less attention in scientific research compared to languages like English, our study uncovers misinformation not as a parasite of the news ecosystem that merely opposes the perspectives offered by mainstream media, but as an autonomous force capable of even overwhelming the production of vaccine-related content from the latter. While the pervasiveness of misinformation is evident in the significantly higher engagement of questionable sources compared to reliable ones, our findings underscore the importance of consistent and thorough pro-vax coverage. This is especially crucial in addressing the most sensitive topics where the risk of misinformation spreading and potentially exacerbating negative attitudes toward vaccines among the users involved is higher.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# イベントトリガー時変ベイズ最適化

Event-Triggered Time-Varying Bayesian Optimization ( http://arxiv.org/abs/2208.10790v5 )

ライセンス: Link先を確認
Paul Brunzema, Alexander von Rohr, Friedrich Solowjow, Sebastian Trimpe, (参考訳) 時間変化ベイズ最適化(TVBO)を用いて,時間変化対象関数を逐次最適化する問題を考察する。 時間変化に起因する古いデータに対処するには、TVBOへの現在のアプローチには、変化の一定率に関する事前知識が必要である。 しかし、実際には変化の度合いは通常不明である。 本稿では,対象関数の変化を検出してデータセットをリセットするまで,最適化問題を静的に扱うイベントトリガーアルゴリズムET-GP-UCBを提案する。 これにより、アルゴリズムは正確な事前知識を必要とせずに、オンラインで時間変化を実現することができる。 イベントトリガーは、ガウス過程の回帰で使用される確率的一様誤差境界に基づいている。 時間的変化を正確に知ることなく、適応リセットの残差を導出し、ET-GP-UCBが合成データと実世界のデータの両方で最先端のアルゴリズムより優れていることを示す数値実験を行った。 その結果,ET-GP-UCBは広範にパラメータ調整を行うことなく,様々な設定で容易に適用可能であることがわかった。

We consider the problem of sequentially optimizing a time-varying objective function using time-varying Bayesian optimization (TVBO). To cope with stale data arising from time variations, current approaches to TVBO require prior knowledge of a constant rate of change. However, in practice, the rate of change is usually unknown. We propose an event-triggered algorithm, ET-GP-UCB, that treats the optimization problem as static until it detects changes in the objective function and then resets the dataset. This allows the algorithm to adapt online to realized temporal changes without the need for exact prior knowledge. The event trigger is based on probabilistic uniform error bounds used in Gaussian process regression. We derive regret bounds of adaptive resets without exact prior knowledge on the temporal changes, and show in numerical experiments that ET-GP-UCB outperforms state-of-the-art algorithms on both synthetic and real-world data. The results demonstrate that ET-GP-UCB is readily applicable to various settings without extensive hyperparameter tuning.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# グラフ分類のためのクラス認識表現リファインメントフレームワーク

A Class-Aware Representation Refinement Framework for Graph Classification ( http://arxiv.org/abs/2209.00936v2 )

ライセンス: Link先を確認
Jiaxing Xu, Jinjie Ni, Yiping Ke, (参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習に広く用いられている。 その頻度にもかかわらず、GNNはグラフ分類タスクの2つの欠点、グラフレベルの関係の無視、一般化問題に悩まされている。 各グラフはGNNメッセージパッシング/グラフプーリングで別々に処理され、各グラフ上でオーバーフィッティングに対処する既存の方法が動作している。 これにより、下流の分類においてグラフ表現がより効果的に学習される。 本稿では,グラフ分類作業のためのクラス認識表現rEfinement(CARE)フレームワークを提案する。 CAREは単純だが強力なクラス表現を計算し、グラフ表現の学習をより良いクラス分離性へと導くためにそれらを注入する。 CAREは、非常に柔軟で、計算コストを大幅に増大させることなく任意のGNNバックボーンを組み込むことができるプラグイン・アンド・プレイのフレームワークである。 また,CAREはVapnik-Chervonenkis (VC)次元解析により,GNNバックボーンよりも上界の一般化が優れていることを理論的に証明する。 9つのベンチマークデータセット上の11の有名なGNNバックボーンによる広範な実験は、GNNのベンチマークよりもCAREの優位性と有効性を検証する。

Graph Neural Networks (GNNs) are widely used for graph representation learning. Despite its prevalence, GNN suffers from two drawbacks in the graph classification task, the neglect of graph-level relationships, and the generalization issue. Each graph is treated separately in GNN message passing/graph pooling, and existing methods to address overfitting operate on each individual graph. This makes the graph representations learnt less effective in the downstream classification. In this paper, we propose a Class-Aware Representation rEfinement (CARE) framework for the task of graph classification. CARE computes simple yet powerful class representations and injects them to steer the learning of graph representations towards better class separability. CARE is a plug-and-play framework that is highly flexible and able to incorporate arbitrary GNN backbones without significantly increasing the computational cost. We also theoretically prove that CARE has a better generalization upper bound than its GNN backbone through Vapnik-Chervonenkis (VC) dimension analysis. Our extensive experiments with 11 well-known GNN backbones on 9 benchmark datasets validate the superiority and effectiveness of CARE over its GNN counterparts.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# CoopHash: 画像ハッシュのための変分MCMC指導による多目的ディスクリプタとコントラストペアジェネレータの協調学習

CoopHash: Cooperative Learning of Multipurpose Descriptor and Contrastive Pair Generator via Variational MCMC Teaching for Supervised Image Hashing ( http://arxiv.org/abs/2210.04288v3 )

ライセンス: Link先を確認
Khoa D. Doan, Jianwen Xie, Yaxuan Zhu, Yang Zhao, Ping Li, (参考訳) 教師付き情報を活用することで、画像ハッシュ領域での検索性能が向上するが、十分なラベル付きデータなしで性能が著しく低下する。 パフォーマンスを向上する効果的な解決策の1つは、GAN(Generative Adversarial Networks)のような生成モデルを使用して、画像ハッシュモデルで合成データを生成することである。 しかし、GANに基づく手法は訓練が難しいため、ハッシュ手法が生成モデルとハッシュ関数を協調的に訓練するのを防ぐことができる。 この制限により、準最適検索性能が得られる。 この制限を克服するため,エネルギーをベースとした協調学習に基づく新たな協調ハッシュネットワークを提案する。 このフレームワークは、コントラスト画像を合成するトップダウンコントラスト対生成器と、確率密度、ハッシュコード、潜伏コード、カテゴリを含む複数の視点から画像を同時に表現するボトムアップ多目的記述器の2つのコンポーネントを介して、データの強力な生成表現と堅牢なハッシュ関数を共同で学習する。 2つのコンポーネントは、新しい可能性に基づく協調学習スキームを通じて共同で学習される。 提案手法は,複数の実世界のデータセットを用いて実験を行い,提案手法が競合するハッシュ法よりも優れた性能を示し,現在最先端のハッシュ法よりも最大10倍の相対的な改善を実現し,アウト・オブ・ディストリビューション検索における性能が著しく向上したことを示す。

Leveraging supervised information can lead to superior retrieval performance in the image hashing domain but the performance degrades significantly without enough labeled data. One effective solution to boost performance is to employ generative models, such as Generative Adversarial Networks (GANs), to generate synthetic data in an image hashing model. However, GAN-based methods are difficult to train, which prevents the hashing approaches from jointly training the generative models and the hash functions. This limitation results in sub-optimal retrieval performance. To overcome this limitation, we propose a novel framework, the generative cooperative hashing network, which is based on energy-based cooperative learning. This framework jointly learns a powerful generative representation of the data and a robust hash function via two components: a top-down contrastive pair generator that synthesizes contrastive images and a bottom-up multipurpose descriptor that simultaneously represents the images from multiple perspectives, including probability density, hash code, latent code, and category. The two components are jointly learned via a novel likelihood-based cooperative learning scheme. We conduct experiments on several real-world datasets and show that the proposed method outperforms the competing hashing supervised methods, achieving up to 10\% relative improvement over the current state-of-the-art supervised hashing methods, and exhibits a significantly better performance in out-of-distribution retrieval.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# 効率的なニューラルネットワーク探索のための自動支配サブスペースマイニング

Automated Dominative Subspace Mining for Efficient Neural Architecture Search ( http://arxiv.org/abs/2210.17180v2 )

ライセンス: Link先を確認
Yaofo Chen, Yong Guo, Daihai Liao, Fanbing Lv, Hengjie Song, James Tin-Yau Kwok, Mingkui Tan, (参考訳) Neural Architecture Search (NAS)は、事前に定義された検索空間内で有効なアーキテクチャを自動的に見つけることを目的としている。 しかし、検索空間はしばしば非常に大きい。 その結果、このような大規模な検索空間を直接検索するのは簡単ではなく、非常に時間がかかる。 上記の課題に対処するため,各探索ステップにおいて,探索性能と探索効率の両立を図るために,探索空間を小さいが効果的な部分空間に制限する。 そこで本研究では,DSM-NAS(Dominative Subspace Mining)を用いたニューラルアーキテクチャ探索手法を提案する。 具体的には、まずグローバル検索を行います。 候補の集合から良い部分空間を見つけるために、支配的な部分空間マイニングを行う。 次に, マイニングされた部分空間内の局所的な探索を行い, 効率的なアーキテクチャを求める。 より重要なことは、よく設計された/検索されたアーキテクチャを使って候補部分空間を初期化することによって、検索性能をさらに向上する。 実験の結果,DSM-NASは検索コストを削減できるだけでなく,様々なベンチマーク検索空間における最先端手法よりも優れたアーキテクチャも発見できることがわかった。

Neural Architecture Search (NAS) aims to automatically find effective architectures within a predefined search space. However, the search space is often extremely large. As a result, directly searching in such a large search space is non-trivial and also very time-consuming. To address the above issues, in each search step, we seek to limit the search space to a small but effective subspace to boost both the search performance and search efficiency. To this end, we propose a novel Neural Architecture Search method via Dominative Subspace Mining (DSM-NAS) that finds promising architectures in automatically mined subspaces. Specifically, we first perform a global search, i.e ., dominative subspace mining, to find a good subspace from a set of candidates. Then, we perform a local search within the mined subspace to find effective architectures. More critically, we further boost search performance by taking well-designed/ searched architectures to initialize candidate subspaces. Experimental results demonstrate that DSM-NAS not only reduces the search cost but also discovers better architectures than state-of-the-art methods in various benchmark search spaces.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# 量子集合反転のための計算機実験のベイズ的逐次設計

Bayesian sequential design of computer experiments for quantile set inversion ( http://arxiv.org/abs/2211.01008v4 )

ライセンス: Link先を確認
Romain Ait Abdelmalek-Lomenech, Julien Bect, Vincent Chabridon, Emmanuel Vazquez, (参考訳) 本稿では,システムを表す未知の多変量関数について考察する。 我々の目的は、与えられた集合に属する確率(不確実な入力の分布に関する)が与えられた閾値未満である出力につながる決定論的入力の集合を推定することである。 この問題はQuantile Set Inversion (QSI)と呼ばれ、例えば十分に大きな確率で制約を満たす解の集合を探す際に、堅牢な(信頼性に基づく)最適化問題の文脈で発生する。 QSI問題を解決するために,ガウス過程モデリングとステップワイド不確実性低減(SUR)原理に基づくベイズ戦略を提案する。 本稿では,いくつかの数値実験を通じて提案したSUR戦略の性能と関心について述べる。

We consider an unknown multivariate function representing a system-such as a complex numerical simulator-taking both deterministic and uncertain inputs. Our objective is to estimate the set of deterministic inputs leading to outputs whose probability (with respect to the distribution of the uncertain inputs) of belonging to a given set is less than a given threshold. This problem, which we call Quantile Set Inversion (QSI), occurs for instance in the context of robust (reliability-based) optimization problems, when looking for the set of solutions that satisfy the constraints with sufficiently large probability. To solve the QSI problem we propose a Bayesian strategy, based on Gaussian process modeling and the Stepwise Uncertainty Reduction (SUR) principle, to sequentially choose the points at which the function should be evaluated to efficiently approximate the set of interest. We illustrate the performance and interest of the proposed SUR strategy through several numerical experiments.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# Adam: 暗黒の適応的な例による高濃度検索蒸留

Adam: Dense Retrieval Distillation with Adaptive Dark Examples ( http://arxiv.org/abs/2212.10192v2 )

ライセンス: Link先を確認
Chongyang Tao, Chang Liu, Tao Shen, Can Xu, Xiubo Geng, Binxing Jiao, Daxin Jiang, (参考訳) 二重エンコーダレトリバーの性能を向上させるため,クロスエンコーダロータからの知識蒸留が効果的である。 既存の作業は、クエリと正のパスと負のバッチがペアリングされる教師付き学習設定に従って、候補通路を構築する。 しかし、経験的な観察により、先進的な方法からの強烈な否定でさえ、教師が区別するにはささやかなものであり、教師がそのソフトラベルを通じて、豊富な暗黒知識を学生に伝達することを妨げていることがわかった。 この問題を緩和するために,教師が持つ暗黒知識を適応暗黒エクストリームで伝達する知識蒸留フレームワークであるADAMを提案する。 候補パスとして1つの正負と強負のみに依存する従来の研究とは異なり、離散空間における混合とマスキングを通じてクエリに適度な関連性を持つ暗黒の例を作成する。 さらに,教師の信頼度スコアによって異なる訓練インスタンスに保持される知識の質が変化するにつれて,高品質なインスタンスのサブセットに適応的に集中し,学生がよりよく学ぶための暗黙の知識蒸留を行うセルフペース蒸留戦略が提案される。 2つの広く利用されているベンチマークで実験を行い、本手法の有効性を検証する。

To improve the performance of the dual-encoder retriever, one effective approach is knowledge distillation from the cross-encoder ranker. Existing works construct the candidate passages following the supervised learning setting where a query is paired with a positive passage and a batch of negatives. However, through empirical observation, we find that even the hard negatives from advanced methods are still too trivial for the teacher to distinguish, preventing the teacher from transferring abundant dark knowledge to the student through its soft label. To alleviate this issue, we propose ADAM, a knowledge distillation framework that can better transfer the dark knowledge held in the teacher with Adaptive Dark exAMples. Different from previous works that only rely on one positive and hard negatives as candidate passages, we create dark examples that all have moderate relevance to the query through mixing-up and masking in discrete space. Furthermore, as the quality of knowledge held in different training instances varies as measured by the teacher's confidence score, we propose a self-paced distillation strategy that adaptively concentrates on a subset of high-quality instances to conduct our dark-example-based knowledge distillation to help the student learn better. We conduct experiments on two widely-used benchmarks and verify the effectiveness of our method.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# MVTN:3D理解のためのマルチビュー変換学習

MVTN: Learning Multi-View Transformations for 3D Understanding ( http://arxiv.org/abs/2212.13462v2 )

ライセンス: Link先を確認
Abdullah Hamdi, Faisal AlZahrani, Silvio Giancola, Bernard Ghanem, (参考訳) マルチビュー投影技術は, 3次元形状の認識において, 最高性能の達成に極めて有効であることが示されている。 これらの方法は、複数の視点から情報を組み合わせる方法を学ぶことを含む。 しかし、これらのビューが得られたカメラビューポイントは、全ての形状に対して固定されることが多い。 現状のマルチビュー技術の静的性を克服するために,これらの視点の学習を提案する。 具体的には、3次元形状認識のための最適な視点を決定するために、微分レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を導入する。 その結果、MVTNは3次元形状分類のためのマルチビューネットワークでエンドツーエンドに訓練することができる。 MVTNを3Dメッシュとポイントクラウドの両方をレンダリングできる新しい適応型マルチビューパイプラインに統合する。 提案手法は,複数のベンチマーク(ModelNet40,ScanObjectNN,ShapeNet Core55)上での3次元分類と形状検索における最先端性能を示す。 以上の結果から, 本手法は他の方法と比較して, 閉塞に対する堅牢性の向上が示唆された。 また,2次元プレトレーニングやセグメンテーションなど,MVTNのさらなる側面についても検討した。 この領域のさらなる研究を支援するために、多視点投影を用いた3次元理解および生成のためのPyTorchライブラリであるMVTorchをリリースした。

Multi-view projection techniques have shown themselves to be highly effective in achieving top-performing results in the recognition of 3D shapes. These methods involve learning how to combine information from multiple view-points. However, the camera view-points from which these views are obtained are often fixed for all shapes. To overcome the static nature of current multi-view techniques, we propose learning these view-points. Specifically, we introduce the Multi-View Transformation Network (MVTN), which uses differentiable rendering to determine optimal view-points for 3D shape recognition. As a result, MVTN can be trained end-to-end with any multi-view network for 3D shape classification. We integrate MVTN into a novel adaptive multi-view pipeline that is capable of rendering both 3D meshes and point clouds. Our approach demonstrates state-of-the-art performance in 3D classification and shape retrieval on several benchmarks (ModelNet40, ScanObjectNN, ShapeNet Core55). Further analysis indicates that our approach exhibits improved robustness to occlusion compared to other methods. We also investigate additional aspects of MVTN, such as 2D pretraining and its use for segmentation. To support further research in this area, we have released MVTorch, a PyTorch library for 3D understanding and generation using multi-view projections.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# データメトリクスの回避に向けて - データメッシュ実装の産業的展望

Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations ( http://arxiv.org/abs/2302.01713v4 )

ライセンス: Link先を確認
Jan Bode, Niklas Kühl, Dominik Kreuzberger, Sebastian Hirschl, Carsten Holtmann, (参考訳) データと人工知能の重要性が高まり、組織はデータ駆動型になることを目指している。 しかし、現在のデータアーキテクチャは必ずしも、データや分析のユースケースの規模や範囲に合わせて設計されているわけではない。 実際、既存のアーキテクチャは、しばしばそれらに関連する約束された価値を提供するのに失敗します。 Data Meshは、企業データ管理のための、社会技術的、分散化されたコンセプトである。 データメッシュの概念はまだ新しいので、現場からの経験的な洞察が欠けている。 具体的には、データメッシュの導入に伴うモチベーション要因、関連する課題、実装戦略、ビジネスへの影響、潜在的なアーキタイプが欠落している。 このギャップに対処するため、業界の専門家との15の半構造化インタビューを実施します。 我々の結果は、組織が、データメッシュの概念に関連するフェデレートガバナンスへの移行、データ製品の開発、プロビジョニング、保守に対する責任のシフト、全体的な概念の理解に苦慮していることを示している。 当社の作業では、複数の実装戦略を導き、クロスドメインなステアリングユニットを導入し、データ製品の使用を観察し、初期段階で素早く成果を上げ、データプロダクトを優先する小さな専用チームを好むことを推奨しています。 組織は個々のニーズに応じて実装戦略を適用する必要があることを認めていますが、より詳細な提案を提供する2つのアーキタイプを減じています。 本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。

With the increasing importance of data and artificial intelligence, organizations strive to become more data-driven. However, current data architectures are not necessarily designed to keep up with the scale and scope of data and analytics use cases. In fact, existing architectures often fail to deliver the promised value associated with them. Data mesh is a socio-technical, decentralized, distributed concept for enterprise data management. As the concept of data mesh is still novel, it lacks empirical insights from the field. Specifically, an understanding of the motivational factors for introducing data mesh, the associated challenges, implementation strategies, its business impact, and potential archetypes is missing. To address this gap, we conduct 15 semi-structured interviews with industry experts. Our results show, among other insights, that organizations have difficulties with the transition toward federated governance associated with the data mesh concept, the shift of responsibility for the development, provision, and maintenance of data products, and the comprehension of the overall concept. In our work, we derive multiple implementation strategies and suggest organizations introduce a cross-domain steering unit, observe the data product usage, create quick wins in the early phases, and favor small dedicated teams that prioritize data products. While we acknowledge that organizations need to apply implementation strategies according to their individual needs, we also deduct two archetypes that provide suggestions in more detail. Our findings synthesize insights from industry experts and provide researchers and professionals with preliminary guidelines for the successful adoption of data mesh.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# 大規模部分観測可能な環境における計画のためのインテリジェントチューター

An intelligent tutor for planning in large partially observable environments ( http://arxiv.org/abs/2302.02785v2 )

ライセンス: Link先を確認
Lovis Heindrich, Saksham Consul, Falk Lieder, (参考訳) AIは多くの計画タスクで人より優れているだけでなく、よりよい計画の仕方も教えることができる。 人間の意思決定を改善するための最近の有望なアプローチは、AIを利用して最適な計画戦略を発見し、自動的に教えるインテリジェントな家庭教師を作ることである。 これまでの研究によると、このアプローチは人工的に完全に観測可能な計画タスクにおける計画を改善することができる。 これらの人工的なタスクとは異なり、世界は部分的にしか観察できない。 このギャップを埋めるために、我々は、部分的に観測可能な環境における計画のための最初の知的チューターを開発し、評価した。 計画戦略を教えるための知的家庭教師と比較して、この新しい知的家庭教師は2つの革新を組み合わせている。 1)大規模で部分的に観測可能な環境のための最適な計画戦略を発見するための新しいメタ推論アルゴリズム 2) より大規模な計画課題において, より大規模な計画作業から学習者に選択させることにより, 学習処理の足場を構築する。 我々の新しい戦略発見アルゴリズムは最先端技術よりも優れていることがわかった。 330人の参加者による事前登録実験では、新しいインテリジェントチューターは、部分的に観察可能な環境で良い判断を下す能力を向上させるのに非常に効果的であることが示された。 これは、私たちの人間中心の家庭教師アプローチが、複雑で部分的に観察可能なシーケンシャルな意思決定問題において、人間の計画を促進することができることを示唆している。

AI can not only outperform people in many planning tasks, but it can also teach them how to plan better. A recent and promising approach to improving human decision-making is to create intelligent tutors that utilize AI to discover and teach optimal planning strategies automatically. Prior work has shown that this approach can improve planning in artificial, fully observable planning tasks. Unlike these artificial tasks, the world is only partially observable. To bridge this gap, we developed and evaluated the first intelligent tutor for planning in partially observable environments. Compared to previous intelligent tutors for teaching planning strategies, this novel intelligent tutor combines two innovations: 1) a new metareasoning algorithm for discovering optimal planning strategies for large, partially observable environments, and 2) scaffolding the learning processing by having the learner choose from an increasing larger set of planning operations in increasingly larger planning problems. We found that our new strategy discovery algorithm is superior to the state-of-the-art. A preregistered experiment with 330 participants demonstrated that the new intelligent tutor is highly effective at improving people's ability to make good decisions in partially observable environments. This suggests our human-centered tutoring approach can successfully boost human planning in complex, partially observable sequential decision problems, a promising step towards using AI-powered intelligent tutors to improve human planning in the real world.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# 有限状態及び漸近状態における時間順序過程の最適化

Optimisation of time-ordered processes in the finite and asymptotic regime ( http://arxiv.org/abs/2302.02918v2 )

ライセンス: Link先を確認
Mirjam Weilenmann, Costantino Budroni, Miguel Navascues, (参考訳) 量子情報理論における多くの問題は、予測不可能な外部の影響を受ける力学系の逐次的な結果に対する最適化として定式化することができる。 このような問題には、適応測定による多体絡み検出、目標状態の連続集合に対する準備ゲームの最大平均スコアの計算、(量子)有限状態オートマトン(英語版)の挙動の制限などが含まれる。 本研究では,このクラスの最適化問題に対して,トラクタブル緩和を導入する。 彼らのパフォーマンスを説明するために、私たちは次のようなものを使用します。 a) 有限状態オートマトンが与えられたビット列を出力する確率を計算する。 b) 新規多体絡み検出プロトコルの開発 (c) コンピュータがマジック状態検出のための適応プロトコルを発明する。 さらに示すように、無限個の時間ステップの極限における逐次問題の最大スコアは一般に計算不可能である。 それでも、我々はこの量に結びつく一般的なヒューリスティックスを提供し、それらが関連するシナリオに有用な見積もりを提供することを示す。

Many problems in quantum information theory can be formulated as optimizations over the sequential outcomes of dynamical systems subject to unpredictable external influences. Such problems include many-body entanglement detection through adaptive measurements, computing the maximum average score of a preparation game over a continuous set of target states and limiting the behavior of a (quantum) finite-state automaton. In this work, we introduce tractable relaxations of this class of optimization problems. To illustrate their performance, we use them to: (a) compute the probability that a finite-state automaton outputs a given sequence of bits; (b) develop a new many-body entanglement detection protocol; (c) let the computer invent an adaptive protocol for magic state detection. As we further show, the maximum score of a sequential problem in the limit of infinitely many time steps is in general incomputable. Nonetheless, we provide general heuristics to bound this quantity and show that they provide useful estimates in relevant scenarios.
翻訳日:2024-06-08 01:19:21 公開日:2024-06-06
# モデルに基づくロバスト強化学習の極小最適化に向けて

Towards Minimax Optimality of Model-based Robust Reinforcement Learning ( http://arxiv.org/abs/2302.05372v3 )

ライセンス: Link先を確認
Pierre Clavier, Erwan Le Pennec, Matthieu Geist, (参考訳) 我々は,名目カーネルの生成モデルにのみアクセス可能なMarkov Decision Processs (RMDPs) において,$\epsilon$-optimal Policy を得る際のサンプル複雑性について検討した。 この問題は、非ロバストの場合において広く研究されており、$\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid}{\epsilon^2})と推定される経験的 MDP に適用される任意の計画的アプローチは、極小値が最適である$\epsilon$-optimal Policy を提供することが知られている。 堅牢なケースの結果は、はるかに少ない。 Sa$- (resp $s$-) 矩形不確実集合に対して、最もよく知られたサンプル複雑性は$\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid S \mid A \mid}{\epsilon^2})$ (resp) である。 $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid^2\mid A \mid^2}{\epsilon^2})$) 特定のアルゴリズムに対して、不確実性集合が総変分(TV)、KL、またはチ二乗発散に基づいている場合。 本稿では、$L_p$-ballで定義された不確実性集合について検討し、生成モデルを用いて推定した経験的RMDPに適用した「emph{any}計画アルゴリズム」のサンプル複雑性について検討する。 一般の場合、サンプルの複雑さを$\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid\mid A \mid}{\epsilon^2})$と$s$-正方形の場合(それぞれ$\mid S \mid$と$\mid S \mid A \mid$)に証明する。 不確実性の大きさが十分小さい場合には、サンプルの複雑さを$\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid }{\epsilon^2})$に改善し、不確実性のサイズが十分小さい場合には、初めて非破壊ケースの低いバウンドを回復する。

We study the sample complexity of obtaining an $\epsilon$-optimal policy in \emph{Robust} discounted Markov Decision Processes (RMDPs), given only access to a generative model of the nominal kernel. This problem is widely studied in the non-robust case, and it is known that any planning approach applied to an empirical MDP estimated with $\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid}{\epsilon^2})$ samples provides an $\epsilon$-optimal policy, which is minimax optimal. Results in the robust case are much more scarce. For $sa$- (resp $s$-)rectangular uncertainty sets, the best known sample complexity is $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid^2\mid A \mid}{\epsilon^2})$ (resp. $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid^2\mid A \mid^2}{\epsilon^2})$), for specific algorithms and when the uncertainty set is based on the total variation (TV), the KL or the Chi-square divergences. In this paper, we consider uncertainty sets defined with an $L_p$-ball (recovering the TV case), and study the sample complexity of \emph{any} planning algorithm (with high accuracy guarantee on the solution) applied to an empirical RMDP estimated using the generative model. In the general case, we prove a sample complexity of $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid\mid A \mid}{\epsilon^2})$ for both the $sa$- and $s$-rectangular cases (improvements of $\mid S \mid$ and $\mid S \mid\mid A \mid$ respectively). When the size of the uncertainty is small enough, we improve the sample complexity to $\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid }{\epsilon^2})$, recovering the lower-bound for the non-robust case for the first time and a robust lower-bound when the size of the uncertainty is small enough.
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# データ駆動ロジスティクスにおける時系列予測のための統計的および機械学習手法の比較-シミュレーション研究

Comparing statistical and machine learning methods for time series forecasting in data-driven logistics -- A simulation study ( http://arxiv.org/abs/2303.07139v2 )

ライセンス: Link先を確認
Lena Schmid, Moritz Roidl, Markus Pauly, (参考訳) 物流およびサプライチェーン管理における多くの計画と決定活動は、複数の時間依存要因の予測に基づいている。 したがって、計画の質は予測の質に依存する。 シミュレーション時系列の広いセットにおいて,ボックス外予測性能の観点から,様々な予測手法を比較した。 各種線形および非線形時系列をシミュレートし,統計的学習手法の1ステップ予測性能について検討する。

Many planning and decision activities in logistics and supply chain management are based on forecasts of multiple time dependent factors. Therefore, the quality of planning depends on the quality of the forecasts. We compare various forecasting methods in terms of out of the box forecasting performance on a broad set of simulated time series. We simulate various linear and non-linear time series and look at the one step forecast performance of statistical learning methods.
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# 電子構造計算のためのハイブリッドテンソルネットワークを用いた量子計算量子モンテカルロ

Quantum computing quantum Monte Carlo with hybrid tensor network for electronic structure calculations ( http://arxiv.org/abs/2303.18095v3 )

ライセンス: Link先を確認
Shu Kanno, Hajime Nakamura, Takao Kobayashi, Shigeki Gocho, Miho Hatanaka, Naoki Yamamoto, Qi Gao, (参考訳) 量子コンピュータは、古典的なコンピュータよりも高い精度で量子化学問題を解く可能性がある。 量子計算量子モンテカルロ(QC-QMC)は、量子回路で準備された試行状態を持つQMCであり、QMC単独よりも高い精度で基底状態を得るために用いられる。 本稿では,QC-QMCとハイブリッドテンソルネットワークを組み合わせて,QC-QMCの適用性を1つの量子デバイスサイズを超えて拡張するアルゴリズムを提案する。 2層量子量子木テンソルでは、デバイス内のプリパーブル波動関数よりも大きなトライアル波動関数のアルゴリズムを実行することができる。 本アルゴリズムは, ハイゼンベルク連鎖モデル, グラファイト系ハバードモデル, 水素平面モデル, モノアリルビイミダゾールをフル構成相互作用QMCを用いて評価した。 本アルゴリズムは,QMCよりも数桁高いエネルギー精度(特に分散)を達成でき,QMCのハイブリッドテンソルバージョンは,システムが適切に分解されたときにQC-QMCと同じエネルギー精度を与える。 さらに,実験波動関数と正規直交基底状態との重複計算を効率的に行える擬似アダマール試験法を開発した。 本手法を用いて実機実験を行ったところ, 状態ベクトルシミュレータとほぼ同等の精度を示し, アルゴリズムの耐雑音性を示した。 これらの結果は,現在の量子デバイス上での高精度な大規模システムにおける電子構造計算への道を開くことを示唆している。

Quantum computers have a potential for solving quantum chemistry problems with higher accuracy than classical computers. Quantum computing quantum Monte Carlo (QC-QMC) is a QMC with a trial state prepared in quantum circuit, which is employed to obtain the ground state with higher accuracy than QMC alone. We propose an algorithm combining QC-QMC with a hybrid tensor network to extend the applicability of QC-QMC beyond a single quantum device size. In a two-layer quantum-quantum tree tensor, our algorithm for the larger trial wave function can be executed than preparable wave function in a device. Our algorithm is evaluated on the Heisenberg chain model, graphite-based Hubbard model, hydrogen plane model, and MonoArylBiImidazole using full configuration interaction QMC. Our algorithm can achieve energy accuracy (specifically, variance) several orders of magnitude higher than QMC, and the hybrid tensor version of QMC gives the same energy accuracy as QC-QMC when the system is appropriately decomposed. Moreover, we develop a pseudo-Hadamard test technique that enables efficient overlap calculations between a trial wave function and an orthonormal basis state. In a real device experiment by using the technique, we obtained almost the same accuracy as the statevector simulator, indicating the noise robustness of our algorithm. These results suggests that the present approach will pave the way to electronic structure calculation for large systems with high accuracy on current quantum devices.
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# ブラジルにおける医療人工知能プライバシのオントロジー

Ontology for Healthcare Artificial Intelligence Privacy in Brazil ( http://arxiv.org/abs/2304.07889v2 )

ライセンス: Link先を確認
Tiago Andres Vaz, José Miguel Silva Dora, Luís da Cunha Lamb, Suzi Alves Camey, (参考訳) 本稿では、疫学、医学、統計学、計算機科学の共通点における新しいドメインオントロジーの作成について詳述する。 論文は、現在の法律で定義された用語を用いて、医療における人工知能(AI)の応用に備えて、病院データを匿名で扱うための体系的なアプローチを概説する。 開発プロセスは、スコープの定義、知識の選択、重要な用語のレビュー、疫学研究で使用されるデザインを記述するクラスの構築、機械学習パラダイム、データと属性の種類、匿名化されたデータが露出する可能性のあるリスク、プライバシー攻撃、再識別を緩和する技術、プライバシーモデル、匿名化の効果を測定するメトリクスを含む7つの実践的なステップで構成された。 論文は、このオントロジーの実践的な実装を、AIの開発と検証のために病院で実施することから締めくくっている。

This article details the creation of a novel domain ontology at the intersection of epidemiology, medicine, statistics, and computer science. Using the terminology defined by current legislation, the article outlines a systematic approach to handling hospital data anonymously in preparation for its use in Artificial Intelligence (AI) applications in healthcare. The development process consisted of 7 pragmatic steps, including defining scope, selecting knowledge, reviewing important terms, constructing classes that describe designs used in epidemiological studies, machine learning paradigms, types of data and attributes, risks that anonymized data may be exposed to, privacy attacks, techniques to mitigate re-identification, privacy models, and metrics for measuring the effects of anonymization. The article concludes by demonstrating the practical implementation of this ontology in hospital settings for the development and validation of AI.
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# UVOSAM:Segment Anything Modelによる教師なしビデオオブジェクトセグメンテーションのためのマスクフリーパラダイム

UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model ( http://arxiv.org/abs/2305.12659v2 )

ライセンス: Link先を確認
Zhenghao Zhang, Shengfan Zhang, Zhichao Wei, Zuozhuo Dai, Siyu Zhu, (参考訳) 教師なしビデオオブジェクトセグメンテーション(UVOS)の現在最先端の手法では、マスクアノテーションによるビデオデータセットの広範なトレーニングが必要であり、挑戦的なシナリオを扱う上での有効性を制限している。 しかし、SAM(Segment Anything Model)は、イメージセグメンテーションのための新しいプロンプト駆動パラダイムを導入し、新たな可能性を提供している。 本研究では,異なるプロンプト戦略を用いて,SAMのUVOSの可能性について検討する。 次に,STD-Netトラッカーを用いたUVOSのマスクフリーパラダイムであるUVOSAMを提案する。 STD-Netは、フレーム内特徴とフレーム間特徴の効果的な相関を確立するために、空間的に分離された変形可能な注意機構を導入し、複雑な映像シーンにおけるボックスプロンプトの品質を著しく向上させる。 DAVIS2017-unsupervisedとYoutubeVIS19\&21データセットの大規模な実験は、既存のマスク監督手法に比べてUVOSAMの優れた性能を示し、弱い注釈付きビデオデータセットに一般化する能力を示している。 コードはhttps://github.com/alibaba/UVOSAMで見ることができる。

The current state-of-the-art methods for unsupervised video object segmentation (UVOS) require extensive training on video datasets with mask annotations, limiting their effectiveness in handling challenging scenarios. However, the Segment Anything Model (SAM) introduces a new prompt-driven paradigm for image segmentation, offering new possibilities. In this study, we investigate SAM's potential for UVOS through different prompt strategies. We then propose UVOSAM, a mask-free paradigm for UVOS that utilizes the STD-Net tracker. STD-Net incorporates a spatial-temporal decoupled deformable attention mechanism to establish an effective correlation between intra- and inter-frame features, remarkably enhancing the quality of box prompts in complex video scenes. Extensive experiments on the DAVIS2017-unsupervised and YoutubeVIS19\&21 datasets demonstrate the superior performance of UVOSAM without mask supervision compared to existing mask-supervised methods, as well as its ability to generalize to weakly-annotated video datasets. Code can be found at https://github.com/alibaba/UVOSAM.
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# 言語モデルのための単語埋め込み

Word Embeddings Are Steers for Language Models ( http://arxiv.org/abs/2305.12798v2 )

ライセンス: Link先を確認
Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek Abdelzaher, Heng Ji, (参考訳) 言語モデル(LM)は、言語コーパスの事前学習中に単語の埋め込みを自動的に学習する。 単語埋め込みは通常、個々の単語の特徴ベクトルとして解釈されるが、言語モデル生成におけるそれらの役割は未解明のままである。 本研究では,理論的かつ経験的に出力語埋め込みを再考し,その線形変換がステアリング言語モデル生成スタイルと等価であることを示す。 このようなステアをLM-Steersと呼び、すべてのサイズのLMに存在するものを見つけます。 各スタイルを操るためには、元のLMのサイズの0.2%に相当する学習パラメータが必要である。 言語モデルのデトキシフィケーションや感情制御といったタスクでは、LM-Steersは、最先端の制御された生成方法と比較して同等または優れた性能を達成でき、生成品質とのバランスは良好である。 学習されたLM-Steerは、テキストスタイルのレンズとして機能し、言語モデル世代に関連するときに単語の埋め込みが解釈可能であることを明らかにし、最もスタイルの違いを示すテキストスパンをハイライトすることができる。 LM-Steerは明示的な形式計算により異なる言語モデル間で転送可能である。 LM-Steerをスケールするか、変換を追加することで複数のLM-Steerを構成することで、LMを継続的に操ることもできる。 我々のコードは \url{https://github.com/Glaciohound/LM-Steer} で公開されています。

Language models (LMs) automatically learn word embeddings during pre-training on language corpora. Although word embeddings are usually interpreted as feature vectors for individual words, their roles in language model generation remain underexplored. In this work, we theoretically and empirically revisit output word embeddings and find that their linear transformations are equivalent to steering language model generation styles. We name such steers LM-Steers and find them existing in LMs of all sizes. It requires learning parameters equal to 0.2% of the original LMs' size for steering each style. On tasks such as language model detoxification and sentiment control, LM-Steers can achieve comparable or superior performance compared with state-of-the-art controlled generation methods while maintaining a better balance with generation quality. The learned LM-Steer serves as a lens in text styles: it reveals that word embeddings are interpretable when associated with language model generations and can highlight text spans that most indicate the style differences. An LM-Steer is transferrable between different language models by an explicit form calculation. One can also continuously steer LMs simply by scaling the LM-Steer or compose multiple LM-Steers by adding their transformations. Our codes are publicly available at \url{https://github.com/Glaciohound/LM-Steer}.
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# TinyMLにおける多目的ベイズ最適化と強化学習の併用

Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML ( http://arxiv.org/abs/2305.14109v2 )

ライセンス: Link先を確認
Mark Deutel, Georgios Kontes, Christopher Mutschler, Jürgen Teich, (参考訳) マイクロコントローラ(TinyML)にディープニューラルネットワーク(DNN)をデプロイすることは、エッジで発生するセンサデータの増大を処理する一般的なトレンドであるが、実際にはリソースとレイテンシの制約により、最適なDNN候補を見つけることは困難である。 Neural Architecture Search (NAS)は、この検索を自動化する優れたアプローチであり、TinyMLで一般的に使われているDNN圧縮技術と簡単に組み合わせることができる。 しかし、多くのNAS技術は計算コストがかかるだけでなく、特にハイパーパラメータ最適化(HPO)にも焦点を合わせており、例えば、メモリ消費やDNNの複雑性といった、エッジでのデプロイメントの鍵となる追加の目的を考慮せずに、単一の目的(例えば、精度を最大化するなど)だけを最適化することに注力することが多い。 本稿では,多目的ベイズ最適化(MOBOpt)に基づくTinyMLの新しいNAS戦略と,拡張ランダム検索(ARS)強化学習(RL)エージェントを用いてトレーニングされた競合パラメトリックポリシーのアンサンブルを提案する。 本手法は,DNNの予測精度,メモリ消費量,計算複雑性のトレードオフを効率的に検出することを目的としている。 実験の結果,既存のMOBOptアプローチをResNet-18やMobileNetV3など,さまざまなデータセットやアーキテクチャ上で一貫した性能を発揮することがわかった。

Deploying Deep Neural Networks (DNNs) on microcontrollers (TinyML) is a common trend to process the increasing amount of sensor data generated at the edge, but in practice, resource and latency constraints make it difficult to find optimal DNN candidates. Neural Architecture Search (NAS) is an excellent approach to automate this search and can easily be combined with DNN compression techniques commonly used in TinyML. However, many NAS techniques are not only computationally expensive, especially hyperparameter optimization (HPO), but also often focus on optimizing only a single objective, e.g., maximizing accuracy, without considering additional objectives such as memory consumption or computational complexity of a DNN, which are key to making deployment at the edge feasible. In this paper, we propose a novel NAS strategy for TinyML based on Multi-Objective Bayesian optimization (MOBOpt) and an ensemble of competing parametric policies trained using Augmented Random Search (ARS) Reinforcement Learning (RL) agents. Our methodology aims at efficiently finding tradeoffs between a DNN's predictive accuracy, memory consumption on a given target system, and computational complexity. Our experiments show that we outperform existing MOBOpt approaches consistently on different data sets and architectures such as ResNet-18 and MobileNetV3.
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# 一般化可能な言語スタイル理解のための語彙知識を活用したメタチューニングLLM

Meta-Tuning LLMs to Leverage Lexical Knowledge for Generalizable Language Style Understanding ( http://arxiv.org/abs/2305.14592v2 )

ライセンス: Link先を確認
Ruohao Guo, Wei Xu, Alan Ritter, (参考訳) 言語スタイルは、作家が意図、アイデンティティ、言語の熟達を伝えるためにしばしば使われる。 本稿では,現在の大規模言語モデルにおいて,微調整を伴わずにいくつかの言語スタイルを捉えるのに苦労していることを示す。 この課題に対処するために,LLMを代表レキシコンに基づいてメタトレーニングし,それらが微調整されていない新しいスタイルを認識できるかどうかを検討する。 13の確立されたスタイル分類タスクと63の新規タスクの実験は、スタイルレキシコンを用いたメタトレーニングが、スタイル間のゼロショット転送を一貫して改善することを示した。 コードとデータはhttp://github.com/octaviaguo/Style-LLM で公開しています。

Language style is often used by writers to convey their intentions, identities, and mastery of language. In this paper, we show that current large language models struggle to capture some language styles without fine-tuning. To address this challenge, we investigate whether LLMs can be meta-trained based on representative lexicons to recognize new styles they have not been fine-tuned on. Experiments on 13 established style classification tasks, as well as 63 novel tasks generated using LLMs, demonstrate that meta-training with style lexicons consistently improves zero-shot transfer across styles. We release the code and data at http://github.com/octaviaguo/Style-LLM .
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# 速度場補間による$f$-divergencesの最小化

Minimizing $f$-Divergences by Interpolating Velocity Fields ( http://arxiv.org/abs/2305.15577v3 )

ライセンス: Link先を確認
Song Liu, Jiahao Yu, Jack Simons, Mingxuan Yi, Mark Beaumont, (参考訳) 多くの機械学習問題は、統計的差を最小化して、 \textit{target} 分布を用いて \textit{target} 分布を近似していると見なすことができる。 Wasserstein Gradient Flowは、ターゲットと粒子の分布間の$f$-divergenceを最小限に抑える経路に沿って粒子を動かすことができる。 粒子を移動させるためには、これらの2つの分布間の密度比関数から導かれる対応する速度場を計算する必要がある。 以前の研究はそのような密度比関数を推定し、その推定比を区別した。 これらのアプローチはオーバーフィッティングに悩まされ、速度場を正確に見積もることができない。 非パラメトリックな曲線フィッティングにインスパイアされ、補間法を用いてこれらの速度場を直接推定する。 温和な条件下では, 推定値が一定であることを証明する。 ドメイン適応とデータ計算の欠如に対する新しい適用法を用いて,その有効性を検証する。

Many machine learning problems can be seen as approximating a \textit{target} distribution using a \textit{particle} distribution by minimizing their statistical discrepancy. Wasserstein Gradient Flow can move particles along a path that minimizes the $f$-divergence between the target and particle distributions. To move particles, we need to calculate the corresponding velocity fields derived from a density ratio function between these two distributions. Previous works estimated such density ratio functions and then differentiated the estimated ratios. These approaches may suffer from overfitting, leading to a less accurate estimate of the velocity fields. Inspired by non-parametric curve fitting, we directly estimate these velocity fields using interpolation techniques. We prove that our estimators are consistent under mild conditions. We validate their effectiveness using novel applications on domain adaptation and missing data imputation.
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# 因果性の理論的公理化

A Measure-Theoretic Axiomatisation of Causality ( http://arxiv.org/abs/2305.17139v3 )

ライセンス: Link先を確認
Junhyung Park, Simon Buchholz, Bernhard Schölkopf, Krikamol Muandet, (参考訳) 因果関係は幅広い研究領域において中心的な概念であるが、因果関係の公理化は広く合意されていない。 我々は因果関係を確率論の拡張として、また、ある系に介入したときに起こる「textit{What」の研究として、また、コルモゴロフの確率の測度理論的公理化を因果関係の公理化の出発点として捉えることを支持する。 この目的のために、確率空間と遷移確率カーネルの集合からなる「textit{causal space}」の概念を提案し、その空間の因果情報を符号化する。 提案するフレームワークは測度理論に厳格に根ざしているだけでなく,例えばサイクル,潜伏変数,確率過程など,既存のフレームワークの長年の制限にも光を当てている。

Causality is a central concept in a wide range of research areas, yet there is still no universally agreed axiomatisation of causality. We view causality both as an extension of probability theory and as a study of \textit{what happens when one intervenes on a system}, and argue in favour of taking Kolmogorov's measure-theoretic axiomatisation of probability as the starting point towards an axiomatisation of causality. To that end, we propose the notion of a \textit{causal space}, consisting of a probability space along with a collection of transition probability kernels, called \textit{causal kernels}, that encode the causal information of the space. Our proposed framework is not only rigorously grounded in measure theory, but it also sheds light on long-standing limitations of existing frameworks including, for example, cycles, latent variables and stochastic processes.
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# DSHGT: Dual-Supervisors Heterogeneous Graph Transformer -- ソフトウェア脆弱性の検出にヘテロジニアスグラフ学習を使用する先駆的な研究

DSHGT: Dual-Supervisors Heterogeneous Graph Transformer -- A pioneer study of using heterogeneous graph learning for detecting software vulnerabilities ( http://arxiv.org/abs/2306.01376v3 )

ライセンス: Link先を確認
Tiehua Zhang, Rui Xu, Jianping Zhang, Yuze Liu, Xin Chen, Jun Yin, Xi Zheng, (参考訳) 脆弱性検出はソフトウェアセキュリティにおいて重要な問題であり、学術と産業の両方から注目を集めている。 伝統的に、ソフトウェアセキュリティは、経験的な専門知識に大きく依存する指定されたルールベースの検出器によって保護され、大規模なコードコーパスのためのルールリポジトリを生成するために、ソフトウェア専門家の多大な努力を必要とする。 ディープラーニング、特にグラフニューラルネットワーク(GNN)の最近の進歩は、幅広いソフトウェア脆弱性の自動検出の可能性を明らかにしている。 しかし、事前学習に基づく研究は、プログラムをコードの文脈的特徴を抽出するためのワードトークンのシーケンスに分解するか、GNNを基礎となるプログラムエンティティ(例えばメソッドや変数)の複雑な型を識別することなく、主に同質なグラフ表現(例えばAST)に適用する。 本研究では、コードプロパティグラフの形で異種グラフ表現を初めて探求し、対応するグラフ学習タスクのための二重スーパーバイザ構造を持つよく知られた異種グラフネットワークを適用する。 構築したプロトタイプを用いて,人工データセットと実世界のプロジェクトの両方について広範な実験を行った。 最先端のベースラインと比較して、この研究の方向性において、脆弱性検出性能(実際のプロジェクトでは、平均F1が10倍以上)とC/C++から他のプログラミング言語への転送可能性(平均F1が11%以上)の点で有望な効果を示した。

Vulnerability detection is a critical problem in software security and attracts growing attention both from academia and industry. Traditionally, software security is safeguarded by designated rule-based detectors that heavily rely on empirical expertise, requiring tremendous effort from software experts to generate rule repositories for large code corpus. Recent advances in deep learning, especially Graph Neural Networks (GNN), have uncovered the feasibility of automatic detection of a wide range of software vulnerabilities. However, prior learning-based works only break programs down into a sequence of word tokens for extracting contextual features of codes, or apply GNN largely on homogeneous graph representation (e.g., AST) without discerning complex types of underlying program entities (e.g., methods, variables). In this work, we are one of the first to explore heterogeneous graph representation in the form of Code Property Graph and adapt a well-known heterogeneous graph network with a dual-supervisor structure for the corresponding graph learning task. Using the prototype built, we have conducted extensive experiments on both synthetic datasets and real-world projects. Compared with the state-of-the-art baselines, the results demonstrate promising effectiveness in this research direction in terms of vulnerability detection performance (average F1 improvements over 10\% in real-world projects) and transferability from C/C++ to other programming languages (average F1 improvements over 11%).
翻訳日:2024-06-08 01:09:36 公開日:2024-06-06
# 構造型ボロノイサンプリング

Structured Voronoi Sampling ( http://arxiv.org/abs/2306.03061v3 )

ライセンス: Link先を確認
Afra Amini, Li Du, Ryan Cotterell, (参考訳) 勾配に基づくサンプリングアルゴリズムは、テキスト生成において、特に制御されたテキスト生成の文脈において、その効果を実証している。 しかし、この課題には理論的に根ざした原則的なアプローチが欠如している。 本稿では,勾配に基づく手法を用いた言語モデルから抽出する原理的アプローチの構築に向けて重要な一歩を踏み出す。 言語モデルによって与えられる離散分布を用いて密度を定義し、ハミルトンモンテカルロに基づくアルゴリズムを開発してそれらからサンプリングする。 勾配に基づく手法としてStructured Voronoi Smpling (SVS) を挙げる。 基準分布が知られている実験装置において、SVSサンプルの実験的分布は、代替サンプリング方式よりも基準分布に近いことを示す。 さらに、制御された生成タスクでは、SVSは他の方法よりもはるかに優れた制御対象に従いながら、流動的で多様なサンプルを生成することができる。

Gradient-based sampling algorithms have demonstrated their effectiveness in text generation, especially in the context of controlled text generation. However, there exists a lack of theoretically grounded and principled approaches for this task. In this paper, we take an important step toward building a principled approach for sampling from language models with gradient-based methods. We use discrete distributions given by language models to define densities and develop an algorithm based on Hamiltonian Monte Carlo to sample from them. We name our gradient-based technique Structured Voronoi Sampling (SVS). In an experimental setup where the reference distribution is known, we show that the empirical distribution of SVS samples is closer to the reference distribution compared to alternative sampling schemes. Furthermore, in a controlled generation task, SVS is able to generate fluent and diverse samples while following the control targets significantly better than other methods.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# SGDにおけるカタパルト : 訓練損失のスパイクと特徴学習による一般化への影響

Catapults in SGD: spikes in the training loss and their impact on generalization through feature learning ( http://arxiv.org/abs/2306.04815v3 )

ライセンス: Link先を確認
Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin, (参考訳) 本稿ではまず,ニューラルネットワークを確率勾配降下法(SGD)でトレーニングした場合のトレーニング損失におけるスパイクの共通発生について説明する。 我々は,SGDのトレーニング損失のスパイクが「カタパルト」であることを示す。これは元々GDで観測された最適化現象であり,[Lewkowycz et al 2020]では大きな学習率を持つ。 実験により、これらのカタパルトは、GDとSGDの両方に対して、接核の上位固有ベクトルによって分散された低次元部分空間で発生することを示す。 第2に,カタパルトが,真の予測器の平均勾配外積(AGOP)との整合性を高めて特徴学習を促進することを示すことによって,カタパルトがいかにしてより一般化されるかを説明する。 さらに、SGDのバッチサイズが小さくなれば、より多くのカタパルトが発生し、AGOPアライメントとテスト性能が向上することを示した。

In this paper, we first present an explanation regarding the common occurrence of spikes in the training loss when neural networks are trained with stochastic gradient descent (SGD). We provide evidence that the spikes in the training loss of SGD are "catapults", an optimization phenomenon originally observed in GD with large learning rates in [Lewkowycz et al. 2020]. We empirically show that these catapults occur in a low-dimensional subspace spanned by the top eigenvectors of the tangent kernel, for both GD and SGD. Second, we posit an explanation for how catapults lead to better generalization by demonstrating that catapults promote feature learning by increasing alignment with the Average Gradient Outer Product (AGOP) of the true predictor. Furthermore, we demonstrate that a smaller batch size in SGD induces a larger number of catapults, thereby improving AGOP alignment and test performance.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# COURIER:大規模ビジュアルレコメンデーションのためのコントラスト的ユーザインテンション再構築

COURIER: Contrastive User Intention Reconstruction for Large-Scale Visual Recommendation ( http://arxiv.org/abs/2306.05001v3 )

ライセンス: Link先を確認
Jia-Qi Yang, Chenglei Dai, Dan OU, Dongshuai Li, Ju Huang, De-Chuan Zhan, Xiaoyi Zeng, Yang Yang, (参考訳) マルチメディアインターネットの普及に伴い、オンライン小売業界内でのクリックの有無の決定に対する視覚的特徴の影響はますます顕著である。 したがって、視覚的特徴を取り入れることで、クリックスルーレート(CTR)のさらなるパフォーマンス向上が期待できる。 しかし,本システムを用いた実験により,既存の事前学習法で訓練した画像埋め込みを単に注入するだけで限界改善が得られた。 既存の画像特徴事前学習法の主な利点は、モーダル横断予測の有効性にあると信じている。 しかし、これはレコメンデーションシステムにおけるCTR予測の課題とは大きく異なる。 レコメンデーションシステムでは、他のモダリティ(テキストなど)を下流モデルの機能として直接使用することができる。 クロスモーダル予測タスクの性能が優れているとしても、下流モデルに重要な情報を提供するのは難しい。 我々は、既存のモダリティ機能を超えたさらなる改善のために、推奨に適した視覚的特徴事前学習法が必要であると論じる。 そこで本稿では,行動履歴からユーザ興味に関連する視覚的特徴を抽出する効果的なユーザ意図再構築モジュールを提案する。 さらに,ユーザの意図を学習し,埋め込みベクトルの崩壊を防止するための対照的な学習手法を提案する。 提案手法がユーザの視覚的興味を学習可能であることを確認するため,公開データセットと生産システムに関する広範な実験的な評価を行った。 提案手法は, オフラインAUCでは0.46.%, タオオGEVでは0.88.%, p-値では0.01である。

With the advancement of multimedia internet, the impact of visual characteristics on the decision of users to click or not within the online retail industry is increasingly significant. Thus, incorporating visual features is a promising direction for further performance improvements in click-through rate (CTR). However, experiments on our production system revealed that simply injecting the image embeddings trained with established pre-training methods only has marginal improvements. We believe that the main advantage of existing image feature pre-training methods lies in their effectiveness for cross-modal predictions. However, this differs significantly from the task of CTR prediction in recommendation systems. In recommendation systems, other modalities of information (such as text) can be directly used as features in downstream models. Even if the performance of cross-modal prediction tasks is excellent, it is challenging to provide significant information gain for the downstream models. We argue that a visual feature pre-training method tailored for recommendation is necessary for further improvements beyond existing modality features. To this end, we propose an effective user intention reconstruction module to mine visual features related to user interests from behavior histories, which constructs a many-to-one correspondence. We further propose a contrastive training method to learn the user intentions and prevent the collapse of embedding vectors. We conduct extensive experimental evaluations on public datasets and our production system to verify that our method can learn users' visual interests. Our method achieves $0.46\%$ improvement in offline AUC and $0.88\%$ improvement in Taobao GMV (Cross Merchandise Volume) with p-value$<$0.01.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# Sparse and Invisible Trigger によるバックドアアタック

Backdoor Attack with Sparse and Invisible Trigger ( http://arxiv.org/abs/2306.06209v3 )

ライセンス: Link先を確認
Yinghua Gao, Yiming Li, Xueluan Gong, Zhifeng Li, Shu-Tao Xia, Qian Wang, (参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱であり、敵は、被害者モデルが通常、良性サンプルで予測するが、トリガーされたサンプルをターゲットクラスに分類するように、少数のトレーニングデータを操作する。 バックドア攻撃は、トレーニングフェーズの脅威として浮上しているが、DNNベースのアプリケーションに深刻なリスクをもたらす。 本稿では,既存のバックドア攻撃の引き金パターンを再考する。 我々は、それらが目に見えるか、スパースでないかを明らかにし、したがって、十分にステルス性がない。 さらに重要なのは、既存の手法を組み合わせて効果的なスパースで見えないバックドア攻撃を設計することは不可能である。 この問題に対処するために、疎度と可視性制約を伴う二段階最適化問題としてトリガ生成を定式化し、それを解決する効果的な方法を提案する。 提案手法はsparse and visible backdoor attack (SIBA)と呼ばれる。 我々は、異なる設定下でベンチマークデータセットに対して広範な実験を行い、攻撃の有効性と既存のバックドア防御に対する耐性を検証する。 主要な実験を再現するためのコードは \url{https://github.com/YinghuaGao/SIBA} で公開されている。

Deep neural networks (DNNs) are vulnerable to backdoor attacks, where the adversary manipulates a small portion of training data such that the victim model predicts normally on the benign samples but classifies the triggered samples as the target class. The backdoor attack is an emerging yet threatening training-phase threat, leading to serious risks in DNN-based applications. In this paper, we revisit the trigger patterns of existing backdoor attacks. We reveal that they are either visible or not sparse and therefore are not stealthy enough. More importantly, it is not feasible to simply combine existing methods to design an effective sparse and invisible backdoor attack. To address this problem, we formulate the trigger generation as a bi-level optimization problem with sparsity and invisibility constraints and propose an effective method to solve it. The proposed method is dubbed sparse and invisible backdoor attack (SIBA). We conduct extensive experiments on benchmark datasets under different settings, which verify the effectiveness of our attack and its resistance to existing backdoor defenses. The codes for reproducing main experiments are available at \url{https://github.com/YinghuaGao/SIBA}.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# 未知ガウス過程ハイパーパラメータ推定によるベイズ最適化の可能性

Provably Efficient Bayesian Optimization with Unknown Gaussian Process Hyperparameter Estimation ( http://arxiv.org/abs/2306.06844v3 )

ライセンス: Link先を確認
Huong Ha, Vu Nguyen, Hung Tran-The, Hongyu Zhang, Xiuzhen Zhang, Anton van den Hengel, (参考訳) ガウス過程(GP)に基づくベイズ最適化(BO)はブラックボックス関数を効率的に最適化する強力な手法である。 このアプローチの実践的性能と理論的保証は、事前に未知であり、観測データから推定する必要がある正しいGPハイパーパラメータ値を持つことに依存している。 しかし、実際には、BOで使用される偏りのあるデータサンプリング戦略のために、これらの推定は誤りである可能性がある。 これにより性能が低下し、BOのサブ線形大域収束保証を破る可能性がある。 この問題に対処するために,実GPハイパーパラメータが予め不明であり,観測データから推定する必要がある場合でも,目的関数の大域的最適値に線形に収束できるBO法を提案する。 提案手法は,マルチアームバンディット法(EXP3)を用いてBOプロセスにランダムなデータポイントを付加し,一貫した推定を保証するGPハイパーパラメータ推定プロセスに新たなトレーニング損失関数を用いる。 さらに,提案手法の理論的解析を行う。 最後に,本手法が様々な合成および実世界の問題に対する既存手法よりも優れていることを実証的に示す。

Gaussian process (GP) based Bayesian optimization (BO) is a powerful method for optimizing black-box functions efficiently. The practical performance and theoretical guarantees of this approach depend on having the correct GP hyperparameter values, which are usually unknown in advance and need to be estimated from the observed data. However, in practice, these estimations could be incorrect due to biased data sampling strategies used in BO. This can lead to degraded performance and break the sub-linear global convergence guarantee of BO. To address this issue, we propose a new BO method that can sub-linearly converge to the objective function's global optimum even when the true GP hyperparameters are unknown in advance and need to be estimated from the observed data. Our method uses a multi-armed bandit technique (EXP3) to add random data points to the BO process, and employs a novel training loss function for the GP hyperparameter estimation process that ensures consistent estimation. We further provide theoretical analysis of our proposed method. Finally, we demonstrate empirically that our method outperforms existing approaches on various synthetic and real-world problems.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# 時空間拡張型グラフニューラルネットワークによる人体運動シミュレーション

Spatiotemporal-Augmented Graph Neural Networks for Human Mobility Simulation ( http://arxiv.org/abs/2306.09381v3 )

ライセンス: Link先を確認
Yu Wang, Tongya Zheng, Shunyu Liu, Zunlei Feng, Kaixuan Chen, Yunzhi Hao, Mingli Song, (参考訳) ヒトの移動パターンは、政策決定シナリオや経済行動研究において重要な応用を示している。 人体移動シミュレーションの課題は,人体移動データの希少性や疎大性に懸念を抱く,少数の軌跡データから人体移動軌道を生成することを目的としている。 既存の手法は主に位置の静的な関係に依存するが、場所の動的時空間効果は無視されている。 一方、訪問分布の時空間対応は、位置の空間的近接性と機能的類似性を明らかにする。 一方,移動軌道の反復的生成過程には,異なる場所での時間的変化が妨げられる。 そこで我々は,位置の動的時空間効果,すなわち時空間拡張gRaphニューラルネットワーク(STAR)をモデル化する新しい枠組みを提案する。 STARフレームワークは、時空間対応を捉えるために様々な時空間グラフを設計し、位置の変動期間をシミュレートする新しいdwellブランチを構築し、最終的に逆向きに最適化する。 人体移動シミュレーションのための4つの実際のデータセットに対する総合的な実験は、STARの最先端手法に対する優位性を検証した。 私たちのコードはhttps://github.com/Star607/STAR-TKDEで公開されています。

Human mobility patterns have shown significant applications in policy-decision scenarios and economic behavior researches. The human mobility simulation task aims to generate human mobility trajectories given a small set of trajectory data, which have aroused much concern due to the scarcity and sparsity of human mobility data. Existing methods mostly rely on the static relationships of locations, while largely neglect the dynamic spatiotemporal effects of locations. On the one hand, spatiotemporal correspondences of visit distributions reveal the spatial proximity and the functionality similarity of locations. On the other hand, the varying durations in different locations hinder the iterative generation process of the mobility trajectory. Therefore, we propose a novel framework to model the dynamic spatiotemporal effects of locations, namely SpatioTemporal-Augmented gRaph neural networks (STAR). The STAR framework designs various spatiotemporal graphs to capture the spatiotemporal correspondences and builds a novel dwell branch to simulate the varying durations in locations, which is finally optimized in an adversarial manner. The comprehensive experiments over four real datasets for the human mobility simulation have verified the superiority of STAR to state-of-the-art methods. Our code is available at https://github.com/Star607/STAR-TKDE.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# 限られた資源を持つ大言語モデルのための全パラメータ微調整

Full Parameter Fine-tuning for Large Language Models with Limited Resources ( http://arxiv.org/abs/2306.09782v2 )

ライセンス: Link先を確認
Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu, (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。 LLMsトレーニングのしきい値を下げることで、研究者のさらなる参加が促進され、アカデミックと社会の両方に利益がもたらされる。 既存のアプローチではパラメータ効率の細かいチューニングに重点を置いているが、限られたリソースで LLM の完全なパラメータをチューニングするという課題に対処する者はほとんどいない。 本研究では,メモリ使用量を削減するために,勾配計算とパラメータ更新を1ステップで融合した新しい最適化器LOMOを提案する。 LOMOを既存のメモリ節約技術と統合することにより、メモリ使用量を標準手法(DeepSpeedソリューション)と比較して10.8%に削減する。 その結果, RTX 3090 が 8 個のマシン上で, 24GB のメモリを持つ 65B モデルの完全なパラメータ調整が可能となり, コードとデータは https://github.com/OpenLMLab/LOMO で公開されている。

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but demand massive GPU resources for training. Lowering the threshold for LLMs training would encourage greater participation from researchers, benefiting both academia and society. While existing approaches have focused on parameter-efficient fine-tuning, which tunes or adds a small number of parameters, few have addressed the challenge of tuning the full parameters of LLMs with limited resources. In this work, we propose a new optimizer, LOw-Memory Optimization (LOMO), which fuses the gradient computation and the parameter update in one step to reduce memory usage. By integrating LOMO with existing memory saving techniques, we reduce memory usage to 10.8% compared to the standard approach (DeepSpeed solution). Consequently, our approach enables the full parameter fine-tuning of a 65B model on a single machine with 8 RTX 3090, each with 24GB memory.Code and data are available at https://github.com/OpenLMLab/LOMO.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# 自動脆弱性検出のための機械学習の限界を明らかにする

Uncovering the Limits of Machine Learning for Automatic Vulnerability Detection ( http://arxiv.org/abs/2306.17193v2 )

ライセンス: Link先を確認
Niklas Risse, Marcel Böhme, (参考訳) 自動脆弱性検出(ML4VD)のための機械学習の最近の成果は非常に有望である。 関数$f$のソースコードだけを考えると、ML4VDのテクニックは、$f$に最大70%の精度でセキュリティ上の欠陥があるかどうかを判断できる。 しかし、私たち自身の実験で明らかなように、同じトップパフォーマンスモデルでは、脆弱性を含む機能と、脆弱性がパッチされている機能とを区別できない。 では、この矛盾をどう説明すればいいのか、ML4VD技術の評価方法を改善して、実際の能力をよりよく把握できるのか? 本稿では, 従来のML4VD技術の評価手法では得られない2つの問題として, 関係のない特徴への過度な適合と, 分布外一般化を同定する。 本稿では,ML4VD技術の真の能力と限界をよりよく評価するための新しいベンチマーク手法を提案する。 具体的には i) トレーニングセットまたはテストセットの増設中に意味的保存変換を適用するクロスバリデーションアルゴリズムにより、トレーニングおよび検証データセットを増大させる。 (ii) 脆弱性がパッチされたコードスニペットでテストセットを拡張する。 6つのML4VD技術と2つのデータセットからわかる (a) 最先端のモデルは、テストデータの脆弱性を予測するために、関係のない機能に非常に適しています。 b)データ強化により得られる性能が、訓練中に適用される特定の増強を超えて一般化しないこと。 (c) 最先端のML4VD技術では、脆弱な機能とパッチを区別できない。

Recent results of machine learning for automatic vulnerability detection (ML4VD) have been very promising. Given only the source code of a function $f$, ML4VD techniques can decide if $f$ contains a security flaw with up to 70% accuracy. However, as evident in our own experiments, the same top-performing models are unable to distinguish between functions that contain a vulnerability and functions where the vulnerability is patched. So, how can we explain this contradiction and how can we improve the way we evaluate ML4VD techniques to get a better picture of their actual capabilities? In this paper, we identify overfitting to unrelated features and out-of-distribution generalization as two problems, which are not captured by the traditional approach of evaluating ML4VD techniques. As a remedy, we propose a novel benchmarking methodology to help researchers better evaluate the true capabilities and limits of ML4VD techniques. Specifically, we propose (i) to augment the training and validation dataset according to our cross-validation algorithm, where a semantic preserving transformation is applied during the augmentation of either the training set or the testing set, and (ii) to augment the testing set with code snippets where the vulnerabilities are patched. Using six ML4VD techniques and two datasets, we find (a) that state-of-the-art models severely overfit to unrelated features for predicting the vulnerabilities in the testing data, (b) that the performance gained by data augmentation does not generalize beyond the specific augmentations applied during training, and (c) that state-of-the-art ML4VD techniques are unable to distinguish vulnerable functions from their patches.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# ベイズアグリゲータを用いた深部確率的運動プリミティブ

Deep Probabilistic Movement Primitives with a Bayesian Aggregator ( http://arxiv.org/abs/2307.05141v3 )

ライセンス: Link先を確認
Michael Przystupa, Faezeh Haghverd, Martin Jagersand, Samuele Tosatto, (参考訳) 運動プリミティブは、限られたデモから始まるロボットの動きを再現する訓練可能なパラメトリックモデルである。 従来の研究では、動作の時間的変調(より早いか遅いか)、混合(2つの動きを1つにまとめる)、介在点条件付け(ある特定の介在点を満たす動きを制限する)、文脈条件付け(観測変数、例えば物体の位置に基づく動きの生成)を可能とし、高いサンプル効率と一般化力を示す単純な線形モデルが提案されていた。 従来の研究では、入力条件や時間変調表現でタスクを実行する能力を示したニューラルネットワークベースのモータープリミティブモデルが提案されていた。 しかし、以前の全ての操作が可能な1つの統合されたディープモータープリミティブモデルが提案されておらず、ニューラルモータープリミティブの潜在的な応用を制限している。 本稿では,上述のすべての操作を符号化した深層移動プリミティブアーキテクチャを提案し,より健全なコンテキスト条件付けとブレンディングを可能にするベイズ文脈アグリゲータを用いた。 提案手法は, 線形移動プリミティブの操作を維持しながら, ベースラインと比較して, 多様な入力選択の複雑な動作を再現できることを示す。

Movement primitives are trainable parametric models that reproduce robotic movements starting from a limited set of demonstrations. Previous works proposed simple linear models that exhibited high sample efficiency and generalization power by allowing temporal modulation of movements (reproducing movements faster or slower), blending (merging two movements into one), via-point conditioning (constraining a movement to meet some particular via-points) and context conditioning (generation of movements based on an observed variable, e.g., position of an object). Previous works have proposed neural network-based motor primitive models, having demonstrated their capacity to perform tasks with some forms of input conditioning or time-modulation representations. However, there has not been a single unified deep motor primitive's model proposed that is capable of all previous operations, limiting neural motor primitive's potential applications. This paper proposes a deep movement primitive architecture that encodes all the operations above and uses a Bayesian context aggregator that allows a more sound context conditioning and blending. Our results demonstrate our approach can scale to reproduce complex motions on a larger variety of input choices compared to baselines while maintaining operations of linear movement primitives provide.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# 言語モデルに対するロバストな歪みのない透かし

Robust Distortion-free Watermarks for Language Models ( http://arxiv.org/abs/2307.15593v3 )

ライセンス: Link先を確認
Rohith Kuditipudi, John Thickstun, Tatsunori Hashimoto, Percy Liang, (参考訳) 本稿では,テキスト上の分布を最大生成予算に変化させることなく,摂動に頑健な自動回帰言語モデルからテキストに透かしを植え付ける手法を提案する。 我々は、ランダム化された透かしキーを用いて計算するランダム数の列を言語モデルからのサンプルにマッピングすることで、透かし付きテキストを生成する。 透かし付きテキストを検出するには、鍵を知っている任意の当事者がランダム数列にテキストをアライメントすることができる。 我々は,逆変換サンプリングと指数最小サンプリングという2つのサンプリング方式で透かし手法をインスタンス化する。 我々はこれらの透かしをOPT-1.3B、LLaMA-7B、Alpaca-7Bの3つの言語モデルに適用し、様々なパラフレーズ攻撃に対する統計的パワーとロバスト性を実験的に検証する。 特に、OPT-1.3B と LLaMA-7B のモデルでは、ランダムな編集(置換、挿入、削除など)によってトークンの 40$-50$% の破損をしても、$35$トークンから確実にウォーターマークされたテキスト(p \leq 0.01$)を検出できる。 Alpaca-7Bモデルでは、典型的なユーザ指示に対する透かし応答の実現可能性についてケーススタディを行う。 応答のエントロピーが低いため、検出はより難しい: 応答の約25\%(中央値が100ドル程度)は、$p \leq 0.01$で検出できる。

We propose a methodology for planting watermarks in text from an autoregressive language model that are robust to perturbations without changing the distribution over text up to a certain maximum generation budget. We generate watermarked text by mapping a sequence of random numbers -- which we compute using a randomized watermark key -- to a sample from the language model. To detect watermarked text, any party who knows the key can align the text to the random number sequence. We instantiate our watermark methodology with two sampling schemes: inverse transform sampling and exponential minimum sampling. We apply these watermarks to three language models -- OPT-1.3B, LLaMA-7B and Alpaca-7B -- to experimentally validate their statistical power and robustness to various paraphrasing attacks. Notably, for both the OPT-1.3B and LLaMA-7B models, we find we can reliably detect watermarked text ($p \leq 0.01$) from $35$ tokens even after corrupting between $40$-$50\%$ of the tokens via random edits (i.e., substitutions, insertions or deletions). For the Alpaca-7B model, we conduct a case study on the feasibility of watermarking responses to typical user instructions. Due to the lower entropy of the responses, detection is more difficult: around $25\%$ of the responses -- whose median length is around $100$ tokens -- are detectable with $p \leq 0.01$, and the watermark is also less robust to certain automated paraphrasing attacks we implement.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# 経験的分布からの最大偏差を考慮した統計的最適生成モデル

Statistically Optimal Generative Modeling with Maximum Deviation from the Empirical Distribution ( http://arxiv.org/abs/2307.16422v2 )

ライセンス: Link先を確認
Elen Vardanyan, Sona Hunanyan, Tigran Galstyan, Arshak Minasyan, Arnak Dalalyan, (参考訳) 本稿では,観測例に基づいて未知分布から多種多様なサンプルをシミュレートすることを目的とした生成モデリングの課題について考察する。 近年の研究では、一般的なアルゴリズムの統計的精度の定量化に焦点が当てられているが、観測された例の非重複性や生成モデルの創造性に関する数学的評価は欠如している。 この側面に関する理論的知見として、ワッサーシュタイン GAN が左不逆のプッシュフォワード写像に制約され、複製を回避し、経験的分布から著しく逸脱する分布を生成することを示した。 重要なことは、生成元の統計的最適性を損なうことなく、左不可逆性がこれを達成できることである。 我々の最も重要な寄与は、生成分布と経験的分布の間のワッサーシュタイン-1距離の有限サンプル下界を与える。 また、生成分布と真のデータ生成との距離に有限サンプル上限を確立する。 どちらの境界も明示的であり、サンプルサイズ、周囲空間と潜伏空間の次元、騒音レベル、リプシッツ定数によって測定された滑らかさといった重要なパラメータの影響を示す。

This paper explores the problem of generative modeling, aiming to simulate diverse examples from an unknown distribution based on observed examples. While recent studies have focused on quantifying the statistical precision of popular algorithms, there is a lack of mathematical evaluation regarding the non-replication of observed examples and the creativity of the generative model. We present theoretical insights into this aspect, demonstrating that the Wasserstein GAN, constrained to left-invertible push-forward maps, generates distributions that avoid replication and significantly deviate from the empirical distribution. Importantly, we show that left-invertibility achieves this without compromising the statistical optimality of the resulting generator. Our most important contribution provides a finite-sample lower bound on the Wasserstein-1 distance between the generative distribution and the empirical one. We also establish a finite-sample upper bound on the distance between the generative distribution and the true data-generating one. Both bounds are explicit and show the impact of key parameters such as sample size, dimensions of the ambient and latent spaces, noise level, and smoothness measured by the Lipschitz constant.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# プログラムセマンティックス学習のためのコード対称性の展開

Exploiting Code Symmetries for Learning Program Semantics ( http://arxiv.org/abs/2308.03312v8 )

ライセンス: Link先を確認
Kexin Pei, Weichen Li, Qirui Jin, Shuyang Liu, Scott Geng, Lorenzo Cavallaro, Junfeng Yang, Suman Jana, (参考訳) 本稿では,Large Language Models (LLM) にコードセマンティクスを教えることの課題に,モデルアーキテクチャにコード対称性を組み込むことで対処する。 我々は、コード対称性を意味論的保存変換として定義するグループ理論フレームワークを導入し、コード対称性グループを形成することで、コード意味論の正確かつ効率的な推論を可能にする。 私たちのソリューションであるSymCは、プログラム依存グラフ上で定義された置換群からコード対称性に確実に同値な新しい自己意図の変種を開発する。 SymCは5つのプログラム分析タスクにおいて優れた性能を示し、事前トレーニングなしで最先端のコードモデルより優れている。 この結果から,コード対称性群を経由したコード構造を符号化するコードLLMが,より高速に一般化されることが示唆された。

This paper tackles the challenge of teaching code semantics to Large Language Models (LLMs) for program analysis by incorporating code symmetries into the model architecture. We introduce a group-theoretic framework that defines code symmetries as semantics-preserving transformations, where forming a code symmetry group enables precise and efficient reasoning of code semantics. Our solution, SymC, develops a novel variant of self-attention that is provably equivariant to code symmetries from the permutation group defined over the program dependence graph. SymC obtains superior performance on five program analysis tasks, outperforming state-of-the-art code models without any pre-training. Our results suggest that code LLMs that encode the code structural prior via the code symmetry group generalize better and faster.
翻訳日:2024-06-08 00:59:06 公開日:2024-06-06
# ゼロショット政治関係分類のためのNLIとChatGPTを用いたコードブック知識の活用

Leveraging Codebook Knowledge with NLI and ChatGPT for Zero-Shot Political Relation Classification ( http://arxiv.org/abs/2308.07876v3 )

ライセンス: Link先を確認
Yibo Hu, Erick Skorupa Parolin, Latifur Khan, Patrick T. Brandt, Javier Osorio, Vito J. D'Orazio, (参考訳) 広範な注釈なしで、進化するイベントオントロジーの中で、政治的関係を正確に分類することは可能か? 本研究では,既存のアノテーションコードブックから専門家の知識を利用するゼロショット学習手法について検討し,高度なChatGPT(GPT-3.5/4)と自然言語推論(NLI)に基づくZSPモデルの性能評価を行った。 ChatGPTはコードブックのラベル付き要約をプロンプトとして使用し、ZSPは分類タスクをコンテキスト、イベントモード、クラス曖昧化に分解してタスク固有の仮説を洗練させる。 この分解は、スキーマの変更に対する解釈可能性、効率、適応性を高める。 この実験はChatGPTの強みと限界を明らかにし、ZSPが辞書ベースの手法といくつかの教師付きモデルよりも優れていることを示す。 これらの知見は、事象記録の検証とオントロジーの進展に対するZSPの価値を裏付けるものである。 本研究は,移動学習と既存分野の専門知識を活用し,研究効率と拡張性を高めることの有効性を明らかにするものである。

Is it possible accurately classify political relations within evolving event ontologies without extensive annotations? This study investigates zero-shot learning methods that use expert knowledge from existing annotation codebook, and evaluates the performance of advanced ChatGPT (GPT-3.5/4) and a natural language inference (NLI)-based model called ZSP. ChatGPT uses codebook's labeled summaries as prompts, whereas ZSP breaks down the classification task into context, event mode, and class disambiguation to refine task-specific hypotheses. This decomposition enhances interpretability, efficiency, and adaptability to schema changes. The experiments reveal ChatGPT's strengths and limitations, and crucially show ZSP's outperformance of dictionary-based methods and its competitive edge over some supervised models. These findings affirm the value of ZSP for validating event records and advancing ontology development. Our study underscores the efficacy of leveraging transfer learning and existing domain expertise to enhance research efficiency and scalability.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# 機械学習によるフローリアクタ設計の発見

Machine Learning-Assisted Discovery of Flow Reactor Designs ( http://arxiv.org/abs/2308.08841v3 )

ライセンス: Link先を確認
Tom Savage, Nausheen Basha, Jonathan McDonough, James Krassowski, Omar K Matar, Ehecatl Antonio del Rio Chanona, (参考訳) 追加的な製造により、より大型で複雑な設計空間を許容する、先進的な原子炉のジオメトリーの製造が可能となった。 そのような空間内で有望な構成を特定することは、現在のアプローチにとって重要な課題である。 さらに、既存の原子炉のパラメータ化は低次元であり、高価な最適化によりより複雑な解が制限される。 この課題に対処するために、我々は、高次元パラメータ化、計算流体力学、多要素ベイズ最適化を併用した、次世代の化学反応器の設計のための機械学習支援アプローチを確立する。 本研究は, 新型コイル型原子炉における混合型渦流構造の開発と性能を関連づけ, 最適設計の鍵となる特徴を同定するためのアプローチである。 フローダイナミクスの原理に訴えることで、従来の設計よりも60%のプラグフロー性能向上をもたらす新しい設計特徴の選定を合理化する。 以上の結果から, 先進的な製造技術と'強化インテリジェンス'アプローチの結合が設計性能を向上させ, その結果, 排出削減と持続可能性の向上につながる可能性が示唆された。

Additive manufacturing has enabled the fabrication of advanced reactor geometries, permitting larger, more complex design spaces. Identifying promising configurations within such spaces presents a significant challenge for current approaches. Furthermore, existing parameterisations of reactor geometries are low-dimensional with expensive optimisation limiting more complex solutions. To address this challenge, we establish a machine learning-assisted approach for the design of the next-generation of chemical reactors, combining the application of high-dimensional parameterisations, computational fluid dynamics, and multi-fidelity Bayesian optimisation. We associate the development of mixing-enhancing vortical flow structures in novel coiled reactors with performance, and use our approach to identify key characteristics of optimal designs. By appealing to the principles of flow dynamics, we rationalise the selection of novel design features that lead to experimental plug flow performance improvements of 60% over conventional designs. Our results demonstrate that coupling advanced manufacturing techniques with `augmented-intelligence' approaches can lead to superior design performance and, consequently, emissions-reduction and sustainability.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# 中国の医療機能回復のための小型・高速BERT

A Small and Fast BERT for Chinese Medical Punctuation Restoration ( http://arxiv.org/abs/2308.12568v2 )

ライセンス: Link先を確認
Tongtao Ling, Yutao Lai, Lei Chen, Shilei Huang, Yi Liu, (参考訳) クリニカルディクテーションでは、明示的な句読点のない自動音声認識(ASR)後の発話は、予測された報告の誤解につながる可能性がある。 ASRによる正確かつ理解可能な臨床報告を行うには,自動句読点修復が必要である。 実践的なシナリオを考慮し、我々は「訓練と微調整」のパラダイムに基づく中国医学的句読点回復のための高速で軽量な事前訓練モデルを提案する。 本研究では,教師付きコントラスト学習と新しい事前学習タスク(句読点予測)を取り入れて,句読点回復に適した事前学習モデルを蒸留する。 各種蒸留モデルを用いた実験により, 現状の中国RoBERTaと比較して, モデルサイズが10%であるのに対して, 95%の性能が得られることがわかった。

In clinical dictation, utterances after automatic speech recognition (ASR) without explicit punctuation marks may lead to the misunderstanding of dictated reports. To give a precise and understandable clinical report with ASR, automatic punctuation restoration is required. Considering a practical scenario, we propose a fast and light pre-trained model for Chinese medical punctuation restoration based on 'pretraining and fine-tuning' paradigm. In this work, we distill pre-trained models by incorporating supervised contrastive learning and a novel auxiliary pre-training task (Punctuation Mark Prediction) to make it well-suited for punctuation restoration. Our experiments on various distilled models reveal that our model can achieve 95% performance while 10% model size relative to state-of-the-art Chinese RoBERTa.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# RepCodec:音声トークン化のための音声表現コーデック

RepCodec: A Speech Representation Codec for Speech Tokenization ( http://arxiv.org/abs/2309.00169v2 )

ライセンス: Link先を確認
Zhichao Huang, Chutong Meng, Tom Ko, (参考訳) 近年の大規模言語モデル (LLM) の急速な発展に伴い, 離散音声のトークン化はLLMに音声を注入する上で重要な役割を担っている。 しかし、この離散化は情報の喪失を引き起こし、結果として全体的なパフォーマンスを損なう。 本稿では,これらの離散音声トークンの性能を向上させるために,意味的音声トークン化のための新しい音声表現コーデックRepCodecを提案する。 生音声を再構成する音声コーデックとは対照的に、RepCodecはHuBERTやData2vecのような音声エンコーダから音声表現を再構成することでベクトル量子化コードブックを学習する。 共に、音声エンコーダ、コーデックエンコーダ、ベクトル量子化コードブックは、音声波形を意味トークンに変換するパイプラインを形成する。 広範にわたる実験により、RepCodecはその情報保持能力の強化により、音声理解と生成の両方において広く使われているk平均クラスタリングアプローチよりも大幅に優れていることが示された。 さらに、この優位性は様々な音声エンコーダや言語にまたがって広がり、RepCodecの堅牢性を確認している。 提案手法は,音声処理における大規模言語モデリング研究を促進できると考えている。

With recent rapid growth of large language models (LLMs), discrete speech tokenization has played an important role for injecting speech into LLMs. However, this discretization gives rise to a loss of information, consequently impairing overall performance. To improve the performance of these discrete speech tokens, we present RepCodec, a novel speech representation codec for semantic speech tokenization. In contrast to audio codecs which reconstruct the raw audio, RepCodec learns a vector quantization codebook through reconstructing speech representations from speech encoders like HuBERT or data2vec. Together, the speech encoder, the codec encoder and the vector quantization codebook form a pipeline for converting speech waveforms into semantic tokens. The extensive experiments illustrate that RepCodec, by virtue of its enhanced information retention capacity, significantly outperforms the widely used k-means clustering approach in both speech understanding and generation. Furthermore, this superiority extends across various speech encoders and languages, affirming the robustness of RepCodec. We believe our method can facilitate large language modeling research on speech processing.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# CityDreamer: 無制限3次元都市の構成生成モデル

CityDreamer: Compositional Generative Model of Unbounded 3D Cities ( http://arxiv.org/abs/2309.00610v3 )

ライセンス: Link先を確認
Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu, (参考訳) 人間は都市環境の構造的な歪みに敏感だから。 さらに、3D都市は、同じクラスのオブジェクトとして、自然のシーンで木のようなオブジェクトが比較的一貫して現れるのに比べ、より広い範囲の外観を示すため、3Dの自然のシーンよりも複雑である。 これらの課題に対処するため,本稿では,非有界な3D都市に特化して設計された合成モデルである「textbf{CityDreamer}」を提案する。 私たちの重要な洞察は、3D都市生成は異なるタイプの神経磁場の合成であるべきだということです。 1) 各種建築事例 2)道路や緑地などの背景物。 具体的には、鳥の視線シーン表現を採用し、インスタンス指向と物指向のニューラルフィールドの両方にボリュームレンダリングを用いる。 生成ハッシュグリッドと周期的な位置埋め込みはシーンパラメータ化として調整され、ビルディングインスタンスと背景物の異なる特徴に適合する。 さらに,OSMやGoogleEarthなどのCityGenデータセットのスイートも提供しています。 CityDreamerは、現実的な3D都市を生成するだけでなく、生成された都市内の局所的な編集でも、最先端のパフォーマンスを実現している。

3D city generation is a desirable yet challenging task, since humans are more sensitive to structural distortions in urban environments. Additionally, generating 3D cities is more complex than 3D natural scenes since buildings, as objects of the same class, exhibit a wider range of appearances compared to the relatively consistent appearance of objects like trees in natural scenes. To address these challenges, we propose \textbf{CityDreamer}, a compositional generative model designed specifically for unbounded 3D cities. Our key insight is that 3D city generation should be a composition of different types of neural fields: 1) various building instances, and 2) background stuff, such as roads and green lands. Specifically, we adopt the bird's eye view scene representation and employ a volumetric render for both instance-oriented and stuff-oriented neural fields. The generative hash grid and periodic positional embedding are tailored as scene parameterization to suit the distinct characteristics of building instances and background stuff. Furthermore, we contribute a suite of CityGen Datasets, including OSM and GoogleEarth, which comprises a vast amount of real-world city imagery to enhance the realism of the generated 3D cities both in their layouts and appearances. CityDreamer achieves state-of-the-art performance not only in generating realistic 3D cities but also in localized editing within the generated cities.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# 線形方程式の解法:テンソルネットワークから見たHHL

Solving Systems of Linear Equations: HHL from a Tensor Networks Perspective ( http://arxiv.org/abs/2309.05290v3 )

ライセンス: Link先を確認
Alejandro Mata Ali, Iñigo Perez Delgado, Marina Ristol Roura, Aitor Moreno Fdez. de Leceta, Sebastián V. Romero, (参考訳) 本稿では,HHL法に基づく線形方程式系の解法,さらに多くの状態を持つ量子ビットの一般化,適用すべきゲート数と資源量を削減するアルゴリズムを提案する。 このアイデアに基づいて、プロジェクションのような非単体演算を行う能力を利用して、テンソルネットワーク上で量子インスパイアされたバージョンを実行する。 この提案の主な特徴は、アルゴリズムのステップを入力パラメータと入力行列に応じてベンチマークするために、HHLアルゴリズムを可能な限り効率的に行うことである。 最後に、このアルゴリズムを用いて、外力を持つ高調波発振器、強制減衰発振器および2次元静的熱方程式微分方程式の解を求める。

We present an algorithm for solving systems of linear equations based on the HHL algorithm with a novel qudits methodology, a generalization of the qubits with more states, to reduce the number of gates to be applied and the amount of resources. Based on this idea, we perform a quantum-inspired version on tensor networks, taking advantage of their ability to perform non-unitary operations such as projection. The main novelty of this proposal is to perform a simulation as efficient as possible of the HHL algorithm in order to benchmark the algorithm steps according to its input parameters and the input matrix. Finally, we use this algorithm to obtain a solution for the harmonic oscillator with an external force, the forced damped oscillator and the 2D static heat equation differential equations.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# Transformerにおける文脈内学習の学習台地を突破する

Breaking through the learning plateaus of in-context learning in Transformer ( http://arxiv.org/abs/2309.06054v3 )

ライセンス: Link先を確認
Jingwen Fu, Tao Yang, Yuwang Wang, Yan Lu, Nanning Zheng, (参考訳) 文脈学習(In-context learning)、すなわち文脈の例から学ぶことは、Transformerの印象的な能力である。 このインコンテキスト学習技術を身につけるための訓練用トランスフォーマーは、モデルのインコンテキスト学習能力が最小あるいは全く向上しないトレーニングプロセスの期間である学習台地の発生により、計算集約的である。 学習台地の背後にあるメカニズムを研究するため、モデルの内部表現の要素を概念的に分離し、モデルの重みにのみ影響する。 これを"weights component"と呼び、残りを"context component"と特定します。 合成タスクの精密かつ制御された実験を行うことにより,学習台地の持続性は重み成分の損なわれた機能と相関することがわかった。 学習台地を駆動する基本動作として重み成分の性能が損なわれていることを認識し,トランスフォーマーの学習を迅速化する3つの戦略を開発した。 これらの戦略の有効性は、自然言語処理タスクにおいてさらに確認される。 結論として、我々の研究は、エコフレンドリーな方法でAIシステム内で強力なコンテキスト内学習能力を育む可能性を示している。

In-context learning, i.e., learning from context examples, is an impressive ability of Transformer. Training Transformers to possess this in-context learning skill is computationally intensive due to the occurrence of learning plateaus, which are periods within the training process where there is minimal or no enhancement in the model's in-context learning capability. To study the mechanism behind the learning plateaus, we conceptually seperate a component within the model's internal representation that is exclusively affected by the model's weights. We call this the "weights component", and the remainder is identified as the "context component". By conducting meticulous and controlled experiments on synthetic tasks, we note that the persistence of learning plateaus correlates with compromised functionality of the weights component. Recognizing the impaired performance of the weights component as a fundamental behavior drives learning plateaus, we have developed three strategies to expedite the learning of Transformers. The effectiveness of these strategies is further confirmed in natural language processing tasks. In conclusion, our research demonstrates the feasibility of cultivating a powerful in-context learning ability within AI systems in an eco-friendly manner.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# ニュース要約のバイアス-対策・落とし穴・コーパス

Bias in News Summarization: Measures, Pitfalls and Corpora ( http://arxiv.org/abs/2309.08047v3 )

ライセンス: Link先を確認
Julius Steen, Katja Markert, (参考訳) 要約は、大規模言語モデル(LLM)の重要な応用である。 要約モデルのこれまでの評価は、内容の選択、忠実性、文法性、一貫性に重点を置いていた。 しかし、LSMが有害な社会的バイアスを再現し、強化できることはよく知られている。 バイアスは、要約のような制約のある環境でモデル出力に影響しますか? この質問に答えるために、我々はまず、要約モデルにおけるバイアスされた振る舞いに対する多くの定義と実践的な操作性を導入し、導入する。 入力文書に固有のバイアスが要約のバイアス分析を損なうことを発見したので、慎重に制御された階層属性を持つ入力文書を生成する方法を提案する。 これにより、現実的な入力文書で作業しながら、制御された環境で要約動作を研究することができる。 本研究は,汎用チャットモデルと汎用要約モデルの両方が生成する英語要約における性別バイアスをケーススタディとして測定する。 単一文書要約におけるコンテンツ選択は、性バイアスの影響をほとんど受けていないが、幻覚は偏見の証拠である。 提案手法の一般性を示すため,交差点設定を含む人種的偏見についても検討した。

Summarization is an important application of large language models (LLMs). Most previous evaluation of summarization models has focused on their content selection, faithfulness, grammaticality and coherence. However, it is well known that LLMs can reproduce and reinforce harmful social biases. This raises the question: Do biases affect model outputs in a constrained setting like summarization? To help answer this question, we first motivate and introduce a number of definitions for biased behaviours in summarization models, along with practical operationalizations. Since we find that biases inherent to input documents can confound bias analysis in summaries, we propose a method to generate input documents with carefully controlled demographic attributes. This allows us to study summarizer behavior in a controlled setting, while still working with realistic input documents. We measure gender bias in English summaries generated by both purpose-built summarization models and general purpose chat models as a case study. We find content selection in single document summarization to be largely unaffected by gender bias, while hallucinations exhibit evidence of bias. To demonstrate the generality of our approach, we additionally investigate racial bias, including intersectional settings.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# 一般化拡散確率スケール空間

Generalised Diffusion Probabilistic Scale-Spaces ( http://arxiv.org/abs/2309.08511v2 )

ライセンス: Link先を確認
Pascal Peter, (参考訳) 拡散確率モデルは学習された分布から新しい画像のサンプリングに優れる。 元々は物理学からのドリフト拡散の概念によって動機付けられ、ノイズやぼやけなどのイメージ摂動を前方のプロセスに応用し、抽出可能な確率分布をもたらす。 学習された逆プロセスは画像を生成し、サイド情報で条件付けできるため、様々な応用が期待できる。 現在、研究の焦点はプラクティス指向の拡張にある。 対照的に、理論的な背景は、特にドリフト拡散との関係についてほとんど解明されていない。 古典的な画像フィルタリングへの接続を光を当てるために,拡散確率モデルのための一般化されたスケール空間理論を提案する。 さらに,拡散フィルタと浸透フィルタとの概念的および経験的関係を示す。

Diffusion probabilistic models excel at sampling new images from learned distributions. Originally motivated by drift-diffusion concepts from physics, they apply image perturbations such as noise and blur in a forward process that results in a tractable probability distribution. A corresponding learned reverse process generates images and can be conditioned on side information, which leads to a wide variety of practical applications. Most of the research focus currently lies on practice-oriented extensions. In contrast, the theoretical background remains largely unexplored, in particular the relations to drift-diffusion. In order to shed light on these connections to classical image filtering, we propose a generalised scale-space theory for diffusion probabilistic models. Moreover, we show conceptual and empirical connections to diffusion and osmosis filters.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# テキストのみの領域適応のための分解型ニューラルトランスデューサモデルの改良

Improved Factorized Neural Transducer Model For text-only Domain Adaptation ( http://arxiv.org/abs/2309.09524v2 )

ライセンス: Link先を確認
Junzhe Liu, Jianwei Yu, Xie Chen, (参考訳) エンド・ツー・エンドのASRモデルをテキストデータでドメイン外のデータセットに適合させることは困難である。 Factorized Neural Transducer (FNT) は、語彙を予測するために別個の語彙デコーダを導入することでこの問題に対処することを目指している。 それにもかかわらず、このアプローチは音響情報と言語情報をシームレスに融合する際の制限がある。 さらに、一般的なテストセットにおける単語誤り率(WER)の低下も観察され、全体的な性能に疑問が持たれた。 この課題に対応するために,音と言語情報を包括的に統合し,効果的なテキスト適応を実現するために設計された改良型分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。 提案手法の性能を英語とマンダリンのデータセットで評価する。 その結果,IFNTはニューラルトランスデューサやFNTに勝るだけでなく,FNTよりも優れた適応能力を示すことがわかった。 ソースドメインでは、IFNTは統計学的に有意な精度の向上を示し、ニューラルトランスデューサに比べてベースライン精度が1.2%から2.8%向上した。 ドメイン外のデータセットでは、IFNTは、標準ニューラルトランスデューサよりも30.2%の相対的なWER(CER)改善と、FNTモデルと比較してテストセットの1.1%から2.8%の相対的なWER(CER)削減を示している。

Adapting End-to-End ASR models to out-of-domain datasets with text data is challenging. Factorized neural Transducer (FNT) aims to address this issue by introducing a separate vocabulary decoder to predict the vocabulary. Nonetheless, this approach has limitations in fusing acoustic and language information seamlessly. Moreover, a degradation in word error rate (WER) on the general test sets was also observed, leading to doubts about its overall performance. In response to this challenge, we present the improved factorized neural Transducer (IFNT) model structure designed to comprehensively integrate acoustic and language information while enabling effective text adaptation. We assess the performance of our proposed method on English and Mandarin datasets. The results indicate that IFNT not only surpasses the neural Transducer and FNT in baseline performance in both scenarios but also exhibits superior adaptation ability compared to FNT. On source domains, IFNT demonstrated statistically significant accuracy improvements, achieving a relative enhancement of 1.2% to 2.8% in baseline accuracy compared to the neural Transducer. On out-of-domain datasets, IFNT shows relative WER(CER) improvements of up to 30.2% over the standard neural Transducer with shallow fusion, and relative WER(CER) reductions ranging from 1.1% to 2.8% on test sets compared to the FNT model.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# 文脈バイアスと開語彙キーワードスポッティングを用いたマルチタスク学習によるWhisperの強化

A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting ( http://arxiv.org/abs/2309.09552v4 )

ライセンス: Link先を確認
Yuang Li, Min Zhang, Chang Su, Yinglu Li, Xiaosong Qiao, Mengxin Ren, Miaomiao Ma, Daimeng Wei, Shimin Tao, Hao Yang, (参考訳) 個人名や用語などの稀な名前付きエンティティの認識は、特にトレーニングデータで頻繁に観測されない場合、自動音声認識(ASR)システムでは困難である。 本稿では,Whisperモデルを利用した新しいASRシステムであるキーワードスポッティング拡張Whisper(KWS-Whisper)を提案する。 これらのエンティティは、Whisperデコーダのプロンプトとして機能する。 モデル最適化のために,OV-KWSとコンテキストASRタスクを学習するマルチタスク学習手法を提案する。 我々は,中国語Aishellホットワードサブセットと2つの内部コードスイッチングテストセットに対するアプローチを評価し,元のWhisperモデルと比較してエンティティリコールを大幅に改善したことを示す。 さらに,OV-KWS は ASR 誤り訂正法と凍結ウィスパーモデルを強化するためのプラグイン・アンド・プレイモジュールであることを示す。

The recognition of rare named entities, such as personal names and terminologies, is challenging for automatic speech recognition (ASR) systems, especially when they are not frequently observed in the training data. In this paper, we introduce keyword spotting enhanced Whisper (KWS-Whisper), a novel ASR system that leverages the Whisper model and performs open-vocabulary keyword spotting (OV-KWS) on the hidden states of the Whisper encoder to recognize user-defined named entities. These entities serve as prompts for the Whisper decoder. To optimize the model, we propose a multitask training approach that learns OV-KWS and contextual-ASR tasks. We evaluate our approach on Chinese Aishell hot word subsets and two internal code-switching test sets and show that it significantly improves the entity recall compared to the original Whisper model. Moreover, we demonstrate that the OV-KWS can be a plug-and-play module to enhance the ASR error correction methods and frozen Whisper models.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# RECAP:Retrieval-Augmented Audio Captioning

RECAP: Retrieval-Augmented Audio Captioning ( http://arxiv.org/abs/2309.09836v2 )

ライセンス: Link先を確認
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Ramani Duraiswami, Dinesh Manocha, (参考訳) 本稿では,RECAP(Retrieval-Augmented Audio CAPtioning)という,データストアから取得した音声に類似した入力音声および他のキャプションに条件付けされたキャプションを生成する,新規かつ効果的なオーディオキャプションシステムを提案する。 さらに、提案手法は、追加の微調整を必要とせずに、任意のドメインに転送することができる。 音声サンプルのキャプションを生成するために,音声テキストモデルCLAPを用いて置換可能なデータストアから類似のキャプションを検索し,プロンプトを構築する。 次に、このプロンプトをGPT-2デコーダに供給し、CLAPエンコーダとGPT-2の間にクロスアテンション層を導入し、キャプション生成のためのオーディオを条件付ける。 ClothoとAudioCapsという2つのベンチマークデータセットの実験では、RECAPはドメイン内設定の競合性能とドメイン外設定の大幅な改善を実現している。 さらに、トレーニング無しで大規模なテキストキャプションのみのデータストアを活用できるため、RECAPはトレーニング中に見たことのない新しいオーディオイベントをキャプションしたり、複数のイベントを持つ合成オーディオを作成したりすることができる。 この分野での研究を促進するために、AudioSet、AudioCaps、Clothoの弱いラベル付きキャプションを新たに15万以上リリースしました。

We present RECAP (REtrieval-Augmented Audio CAPtioning), a novel and effective audio captioning system that generates captions conditioned on an input audio and other captions similar to the audio retrieved from a datastore. Additionally, our proposed method can transfer to any domain without the need for any additional fine-tuning. To generate a caption for an audio sample, we leverage an audio-text model CLAP to retrieve captions similar to it from a replaceable datastore, which are then used to construct a prompt. Next, we feed this prompt to a GPT-2 decoder and introduce cross-attention layers between the CLAP encoder and GPT-2 to condition the audio for caption generation. Experiments on two benchmark datasets, Clotho and AudioCaps, show that RECAP achieves competitive performance in in-domain settings and significant improvements in out-of-domain settings. Additionally, due to its capability to exploit a large text-captions-only datastore in a training-free fashion, RECAP shows unique capabilities of captioning novel audio events never seen during training and compositional audios with multiple events. To promote research in this space, we also release 150,000+ new weakly labeled captions for AudioSet, AudioCaps, and Clotho.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# ConsistencyTTA: Consistency Distillationによる拡散型テキスト・ツー・オーディオ生成の高速化

ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation ( http://arxiv.org/abs/2309.10740v2 )

ライセンス: Link先を確認
Yatong Bai, Trung Dang, Dung Tran, Kazuhito Koishida, Somayeh Sojoudi, (参考訳) 拡散モデルは、テキスト・トゥ・オーディオ(TTA)生成に有効である。 残念ながら、世代毎のデノイングネットワークに対するクエリ数が過度に多いため、推論が遅くなる。 このボトルネックに対処するために,1つの非自己回帰的ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを導入し,TTAを数百倍高速化する。 そこで我々は,整合性生成を潜在空間に適応させ,分類器フリーガイダンス(CFG)をモデルトレーニングに組み込む「CFG対応潜在整合性モデル」を提案する。 さらに、拡散モデルとは異なり、ConsistencyTTAはCLAPスコアのような音声空間のテキスト認識メトリクスでクローズループを微調整することで、世代をさらに拡大することができる。 本研究では,AudioCapsデータセットの目的的,主観的な評価から,拡散に基づくデータと比較すると,ConsistencyTTAは生成品質と多様性を保ちつつ,推論計算を400倍削減することを示す。

Diffusion models are instrumental in text-to-audio (TTA) generation. Unfortunately, they suffer from slow inference due to an excessive number of queries to the underlying denoising network per generation. To address this bottleneck, we introduce ConsistencyTTA, a framework requiring only a single non-autoregressive network query, thereby accelerating TTA by hundreds of times. We achieve so by proposing "CFG-aware latent consistency model," which adapts consistency generation into a latent space and incorporates classifier-free guidance (CFG) into model training. Moreover, unlike diffusion models, ConsistencyTTA can be finetuned closed-loop with audio-space text-aware metrics, such as CLAP score, to further enhance the generations. Our objective and subjective evaluation on the AudioCaps dataset shows that compared to diffusion-based counterparts, ConsistencyTTA reduces inference computation by 400x while retaining generation quality and diversity.
翻訳日:2024-06-08 00:49:21 公開日:2024-06-06
# 材料科学のための知識グラフ質問回答(KGQA4MAT):LLMを用いた金属有機フレームワーク知識グラフ(MOF-KG)のための自然言語インタフェースの開発

Knowledge Graph Question Answering for Materials Science (KGQA4MAT): Developing Natural Language Interface for Metal-Organic Frameworks Knowledge Graph (MOF-KG) Using LLM ( http://arxiv.org/abs/2309.11361v2 )

ライセンス: Link先を確認
Yuan An, Jane Greenberg, Alex Kalinowski, Xintong Zhao, Xiaohua Hu, Fernando J. Uribe-Romo, Kyle Langlois, Jacob Furst, Diego A. Gómez-Gualdrón, (参考訳) 材料科学における知識グラフ質問回答(KGQA4MAT)のための総合的なベンチマークデータセットを,金属-有機フレームワーク(MOF)に着目して提示する。 構造データベースと文献から抽出した知識を統合することにより,金属-有機フレームワーク(MOF-KG)の知識グラフを構築した。 ドメインエキスパート向けのMOF-KGアクセシビリティを向上させるため,知識グラフを問合せするための自然言語インタフェースを開発することを目的とする。 我々は、比較、集約、複雑なグラフ構造を含む161の複雑な質問からなるベンチマークを開発した。 各質問は3つの追加のバリエーションで表現され、結果として644の質問と161のKGクエリが生成される。 このベンチマークを評価するため,LLM,ChatGPTを用いて自然言語質問を正規のKGクエリに変換する手法を開発した。 また、このアプローチをよく知られたQALD-9データセットに適用し、さまざまなプラットフォームやクエリ言語でKGQA問題に対処するChatGPTの可能性を示す。 このベンチマークと提案手法は,ドメイン固有資料知識グラフを問合せするためのユーザフレンドリで効率的なインタフェースのさらなる研究と開発を促進し,新たな素材の発見を加速することを目的としている。

We present a comprehensive benchmark dataset for Knowledge Graph Question Answering in Materials Science (KGQA4MAT), with a focus on metal-organic frameworks (MOFs). A knowledge graph for metal-organic frameworks (MOF-KG) has been constructed by integrating structured databases and knowledge extracted from the literature. To enhance MOF-KG accessibility for domain experts, we aim to develop a natural language interface for querying the knowledge graph. We have developed a benchmark comprised of 161 complex questions involving comparison, aggregation, and complicated graph structures. Each question is rephrased in three additional variations, resulting in 644 questions and 161 KG queries. To evaluate the benchmark, we have developed a systematic approach for utilizing the LLM, ChatGPT, to translate natural language questions into formal KG queries. We also apply the approach to the well-known QALD-9 dataset, demonstrating ChatGPT's potential in addressing KGQA issues for different platforms and query languages. The benchmark and the proposed approach aim to stimulate further research and development of user-friendly and efficient interfaces for querying domain-specific materials science knowledge graphs, thereby accelerating the discovery of novel materials.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# エニグマティック・ラビリンスを通した思考推論の連鎖に関する調査 : 進歩,フロンティア,未来

Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future ( http://arxiv.org/abs/2309.15402v3 )

ライセンス: Link先を確認
Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Tao He, Haotian Wang, Weihua Peng, Ming Liu, Bing Qin, Ting Liu, (参考訳) ヒューマンインテリジェンスに不可欠な基本的な認知プロセスであるReasoningは、人工知能において大きな関心を集めている。 近年の研究では、チェーン・オブ・シントがLLMの推論能力を大幅に向上させ、学術と産業の両方から広く注目を集めていることが明らかになっている。 本稿では,本研究を体系的に研究し,新たな視点を提供する厳密な分類法を用いて高度な手法を要約する。 さらに、私たちは現在のフロンティアを掘り下げ、課題と今後の方向性を明確にし、将来の研究に光を当てています。 さらに、オープンな質問に関する議論も行っています。 この論文が初心者の紹介として役立ち、今後の研究を促進することを願っている。 リソースはhttps://github.com/zchuz/CoT-Reasoning-Surveyで公開されている。

Reasoning, a fundamental cognitive process integral to human intelligence, has garnered substantial interest within artificial intelligence. Notably, recent studies have revealed that chain-of-thought prompting significantly enhances LLM's reasoning capabilities, which attracts widespread attention from both academics and industry. In this paper, we systematically investigate relevant research, summarizing advanced methods through a meticulous taxonomy that offers novel perspectives. Moreover, we delve into the current frontiers and delineate the challenges and future directions, thereby shedding light on future research. Furthermore, we engage in a discussion about open questions. We hope this paper serves as an introduction for beginners and fosters future research. Resources have been made publicly available at https://github.com/zchuz/CoT-Reasoning-Survey
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# SCoRe: submodular Combinatorial Representation Learning

SCoRe: Submodular Combinatorial Representation Learning ( http://arxiv.org/abs/2310.00165v2 )

ライセンス: Link先を確認
Anay Majee, Suraj Kothawade, Krishnateja Killamsetty, Rishabh Iyer, (参考訳) 本稿では,クラス間バイアスとクラス内分散に対処する表現学習の新たなアプローチとして,SCoRe(Submodular Combinatorial Representation Learning)フレームワークを提案する。 SCoReは、集合に基づくサブモジュラー情報測度に基づく損失関数の族を導入することにより、表現学習に新たな組合せ的視点を提供する。 我々は,クラス内分散とクラス間バイアスを自然に最小化する,トータル情報とトータル相関を用いて,損失関数に対する2つの新しい組合せ式を開発した。 教師付きコントラスト損失、直交射影損失、Nペア損失など、よく使われるメトリック/コントラスト学習損失関数は、すべてSCoReの例である。 SCoReの新たな目的は、CIFAR-10-LT、CIFAR-100-LT、MedMNIST、ImageNet-LTの2.1%、IDDとLVIS(v1.0)のオブジェクト検出の19.4%の分類を最大7.6%改善したクラスバランスを自然にモデル化することである。

In this paper we introduce the SCoRe (Submodular Combinatorial Representation Learning) framework, a novel approach in representation learning that addresses inter-class bias and intra-class variance. SCoRe provides a new combinatorial viewpoint to representation learning, by introducing a family of loss functions based on set-based submodular information measures. We develop two novel combinatorial formulations for loss functions, using the Total Information and Total Correlation, that naturally minimize intra-class variance and inter-class bias. Several commonly used metric/contrastive learning loss functions like supervised contrastive loss, orthogonal projection loss, and N-pairs loss, are all instances of SCoRe, thereby underlining the versatility and applicability of SCoRe in a broad spectrum of learning scenarios. Novel objectives in SCoRe naturally model class-imbalance with up to 7.6\% improvement in classification on CIFAR-10-LT, CIFAR-100-LT, MedMNIST, 2.1% on ImageNet-LT, and 19.4% in object detection on IDD and LVIS (v1.0), demonstrating its effectiveness over existing approaches.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# GenCO: コンビナティブ制約による異種設計の生成

GenCO: Generating Diverse Designs with Combinatorial Constraints ( http://arxiv.org/abs/2310.02442v2 )

ライセンス: Link先を確認
Aaron Ferber, Arman Zharmagambetov, Taoan Huang, Bistra Dilkina, Yuandong Tian, (参考訳) GANやVAEのような深層生成モデルは、画像のような制約のないオブジェクトを生成する素晴らしい結果を示している。 しかし, 産業設計, 材料科学, コンピュータグラフィックスなど多くの設計条件では, 生成したオブジェクトはデータ分布のモデル化に加えて, 厳しい組合せ制約を満たすか, 目的を満たす必要がある。 そこで本研究では,異なる組合せ解法を有効活用することにより,学習を通して制約満足度を保証するジェネレーションフレームワークであるGenCOを提案する。 GenCOは、中間ソフトソリューションではなく、確実に実現可能なソリューションに生成的損失を課している。 このシフトにより、実践者はエンドツーエンドのトレーニング中に生成されたアウトプットに厳しい制約を課し、その実現可能性の評価を可能にし、より深い生成トレーニングに複合的損失要素を追加することができる。 我々は,ゲームレベル生成,経路計画のためのマップ作成,フォトニックデバイス設計など,様々な生成的組合せタスクに対するアプローチの有効性を実証し,ユーザ指定の組合せ特性に確実に準拠する多種多様な高品質なソリューションを実現する能力を一貫して示す。

Deep generative models like GAN and VAE have shown impressive results in generating unconstrained objects like images. However, many design settings arising in industrial design, material science, computer graphics and more require that the generated objects satisfy hard combinatorial constraints or meet objectives in addition to modeling a data distribution. To address this, we propose GenCO, a generative framework that guarantees constraint satisfaction throughout training by leveraging differentiable combinatorial solvers to enforce feasibility. GenCO imposes the generative loss on provably feasible solutions rather than intermediate soft solutions, meaning that the deep generative network can focus on ensuring the generated objects match the data distribution without having to also capture feasibility. This shift enables practitioners to enforce hard constraints on the generated outputs during end-to-end training, enabling assessments of their feasibility and introducing additional combinatorial loss components to deep generative training. We demonstrate the effectiveness of our approach on a variety of generative combinatorial tasks, including game level generation, map creation for path planning, and photonic device design, consistently demonstrating its capability to yield diverse, high-quality solutions that verifiably adhere to user-specified combinatorial properties.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# モジュールデカップリングを用いた時間グラフネットワークの活用

Leveraging Temporal Graph Networks Using Module Decoupling ( http://arxiv.org/abs/2310.02721v2 )

ライセンス: Link先を確認
Or Feldman, Chaim Baskin, (参考訳) 動的グラフを学習するための現代的なアプローチでは、更新をひとつずつ適用するのではなく、バッチの利用が採用されている。 バッチを使用することで,グラフ更新を極端な速度で受信するストリーミングシナリオにおいて,これらのテクニックが有効になる。 しかしバッチを使用することで、モデルを頻繁に更新する必要がなくなり、結果としてパフォーマンスが低下する。 本研究では,バッチを用いてモデルを頻繁に更新可能なデカップリング戦略を提案する。 時間グラフネットワークのコアモジュールを分離し,最小限の学習可能なパラメータを用いて実装することにより,動的グラフを学習するための極めて効率的なモデルである軽量デカップリング型テンポラルグラフネットワーク(LDTGN)を開発した。 LDTGは、様々な動的グラフベンチマークで検証され、従来の技術よりもはるかに高いスループットで、同等または最先端の結果が得られた。 特に,USLegisやUNTradeのような高速なモデル更新レートを必要とするベンチマークでは,従来の手法よりも20%以上優れていた。 実験を再現するコードは \href{https://orfeld415.github.io/module-decoupling}{this http url} で公開されている。

Modern approaches for learning on dynamic graphs have adopted the use of batches instead of applying updates one by one. The use of batches allows these techniques to become helpful in streaming scenarios where updates to graphs are received at extreme speeds. Using batches, however, forces the models to update infrequently, which results in the degradation of their performance. In this work, we suggest a decoupling strategy that enables the models to update frequently while using batches. By decoupling the core modules of temporal graph networks and implementing them using a minimal number of learnable parameters, we have developed the Lightweight Decoupled Temporal Graph Network (LDTGN), an exceptionally efficient model for learning on dynamic graphs. LDTG was validated on various dynamic graph benchmarks, providing comparable or state-of-the-art results with significantly higher throughput than previous art. Notably, our method outperforms previous approaches by more than 20\% on benchmarks that require rapid model update rates, such as USLegis or UNTrade. The code to reproduce our experiments is available at \href{https://orfeld415.github.io/module-decoupling}{this http url}.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# 簡潔で組織化された知覚は、大規模言語モデルにおける推論をファシリテートする

Concise and Organized Perception Facilitates Reasoning in Large Language Models ( http://arxiv.org/abs/2310.03309v3 )

ライセンス: Link先を確認
Junjie Liu, Shaotian Yan, Chen Shen, Liang Xie, Wenxiao Wang, Jieping Ye, (参考訳) 推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。 複雑な論理問題において満足な結果を達成することは依然として非常に困難であり、プロンプト内の多くの前提とマルチホップ推論が特徴である。 特に、LSMの推論能力は、乱れや乱れやすさに弱い。 本研究は,まず情報フローの観点からそのメカニズムを考察し,解析作業における乱れや無関係な内容を扱う際に,人間のような認知バイアスに類似した障害パターンを示すことを示す。 しかし、LSMとは対照的に、無秩序で無関係な内容は人間のパフォーマンスを著しく低下させるわけではない。 そこから,Concise and Organized Perception (COP) という新たな推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。 その後、モデルの推論プロセスに適応するより組織化された形式でLLMを誘導する。 簡潔で組織化された文脈を知覚することで、LLMの推論能力はより優れている。 ProofWriter, PrOntoQA, PrOntoQA-OOD, FOLIO) と数学ベンチマーク (DI-GSM) の大規模な実験結果から, COP は従来の最先端手法よりも大幅に優れていることが示された。

Exploiting large language models (LLMs) to tackle reasoning has garnered growing attention. It still remains highly challenging to achieve satisfactory results in complex logical problems, characterized by plenty of premises within the prompt and requiring multi-hop reasoning. In particular, the reasoning capabilities of LLMs are brittle to disorder and distractibility. In this work, we first examine the mechanism from the perspective of information flow and reveal that LLMs exhibit failure patterns akin to human-like cognitive biases when dealing with disordered and irrelevant content in reasoning tasks. However, in contrast to LLMs, disordered and irrelevant content does not significantly decrease human performance, as humans have a propensity to distill the most relevant information and systematically organize their thoughts, aiding them in responding to questions. Stem from that, we further propose a novel reasoning approach named Concise and Organized Perception (COP). COP carefully analyzes the given statements to identify the most pertinent information while eliminating redundancy efficiently. It then prompts the LLMs in a more organized form that adapts to the model's inference process. By perceiving concise and organized context, the reasoning abilities of LLMs can be better elicited. Extensive experimental results on several popular logical benchmarks (ProofWriter, PrOntoQA, PrOntoQA-OOD, and FOLIO) and math benchmark (DI-GSM) show that COP significantly outperforms previous state-of-the-art methods.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# 推薦モデルのスケールアップにおける埋め込み崩壊について

On the Embedding Collapse when Scaling up Recommendation Models ( http://arxiv.org/abs/2310.04400v2 )

ライセンス: Link先を確認
Xingzhuo Guo, Junwei Pan, Ximei Wang, Baixu Chen, Jie Jiang, Mingsheng Long, (参考訳) 基礎モデルの最近の進歩は、大量の利用可能なデータを活用するための大規模なレコメンデーションモデルを開発するという有望な傾向につながっている。 それでも、主流モデルのサイズはいまだに恥ずかしいほど小さく、na\\の拡大は十分なパフォーマンス向上には至らず、モデルのスケーラビリティの欠如を示唆している。 本稿では,埋め込み崩壊現象をスケーラビリティの阻害とみなし,埋め込み行列が低次元部分空間を占める傾向にあることを示す。 経験的および理論的解析を通じて、推奨モデルに特有の特徴相互作用の 'emph{two-sided effect} を実証する。 一方、崩壊した埋め込みとの相互作用は、埋め込み学習を制限し、崩壊問題を悪化させる。 一方、相互運用性は、スケーラビリティの保証として、突発的な機能の適合を緩和するために不可欠である。 そこで本研究では, 組込み集合固有の相互作用モジュールを組み込んだ簡易かつ効果的な組込み設計を提案し, 多様性の高い組込み集合を学習し, 崩壊の低減を図る。 大規模な実験により、この設計は様々なレコメンデーションモデルに対して一貫したスケーラビリティと効果的な崩壊軽減を提供することを示した。 コードは、このリポジトリで入手できる。

Recent advances in foundation models have led to a promising trend of developing large recommendation models to leverage vast amounts of available data. Still, mainstream models remain embarrassingly small in size and na\"ive enlarging does not lead to sufficient performance gain, suggesting a deficiency in the model scalability. In this paper, we identify the embedding collapse phenomenon as the inhibition of scalability, wherein the embedding matrix tends to occupy a low-dimensional subspace. Through empirical and theoretical analysis, we demonstrate a \emph{two-sided effect} of feature interaction specific to recommendation models. On the one hand, interacting with collapsed embeddings restricts embedding learning and exacerbates the collapse issue. On the other hand, interaction is crucial in mitigating the fitting of spurious features as a scalability guarantee. Based on our analysis, we propose a simple yet effective multi-embedding design incorporating embedding-set-specific interaction modules to learn embedding sets with large diversity and thus reduce collapse. Extensive experiments demonstrate that this proposed design provides consistent scalability and effective collapse mitigation for various recommendation models. Code is available at this repository: https://github.com/thuml/Multi-Embedding.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# 言語エージェント木探索による言語モデルにおける推論と計画の統合

Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models ( http://arxiv.org/abs/2310.04406v3 )

ライセンス: Link先を確認
Andy Zhou, Kai Yan, Michal Shlapentokh-Rothman, Haohan Wang, Yu-Xiong Wang, (参考訳) 言語モデル(LM)は、さまざまな意思決定タスクに可能性を示してきたが、単純な行動プロセスに依存しているため、自律的なエージェントとしての幅広い展開が制限されている。 本稿では,Language Agent Tree Search (LATS)について紹介する。 LMの文脈内学習能力を活用することで,モンテカルロ木探索をLATSに統合し,LMをエージェントとして有効にし,LMを用いた価値関数や自己回帰を有能な探索と意思決定の強化に活用する。 提案手法の主な特徴は,既存の手法の制約を超越した,より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。 プログラミング,対話型質問応答(QA),Webナビゲーション,数学など多種多様な分野を対象に,競争力や推論性能の向上を維持しつつ,意思決定におけるLATSの有効性と汎用性を検証した。 特に、LATSは、GPT-4でHumanEvalでプログラミングする際の最先端パス@1精度(92.7%)を達成し、GPT-3.5でWebShopでWebナビゲーションの勾配ベースの微調整に匹敵する勾配なしのパフォーマンス(平均スコア75.9)を示す。 コードはhttps://github.com/lapisrocks/LanguageAgentTreeSearchで見ることができる。

While language models (LMs) have shown potential across a range of decision-making tasks, their reliance on simple acting processes limits their broad deployment as autonomous agents. In this paper, we introduce Language Agent Tree Search (LATS) -- the first general framework that synergizes the capabilities of LMs in reasoning, acting, and planning. By leveraging the in-context learning ability of LMs, we integrate Monte Carlo Tree Search into LATS to enable LMs as agents, along with LM-powered value functions and self-reflections for proficient exploration and enhanced decision-making. A key feature of our approach is the incorporation of an environment for external feedback, which offers a more deliberate and adaptive problem-solving mechanism that surpasses the constraints of existing techniques. Our experimental evaluation across diverse domains, including programming, interactive question-answering (QA), web navigation, and math, validates the effectiveness and generality of LATS in decision-making while maintaining competitive or improved reasoning performance. Notably, LATS achieves state-of-the-art pass@1 accuracy (92.7%) for programming on HumanEval with GPT-4 and demonstrates gradient-free performance (average score of 75.9) comparable to gradient-based fine-tuning for web navigation on WebShop with GPT-3.5. Code can be found at https://github.com/lapisrocks/LanguageAgentTreeSearch
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# Transferable Availability Poisoning Attacks

Transferable Availability Poisoning Attacks ( http://arxiv.org/abs/2310.05141v2 )

ライセンス: Link先を確認
Yiyong Liu, Michael Backes, Xiao Zhang, (参考訳) 我々は、トレーニングデータに小さな摂動を組み込むことで、機械学習モデルの総合的なテスト精度を低下させることを目的として、アベイラビリティーデータ中毒攻撃を検討する。 既存の毒殺対策は攻撃目標を達成することができるが、被害者は敵が攻撃をマウントするために使用するものと同じ学習方法を採用すると仮定する。 本稿では,この仮定が強いことを論じる。これは,クリーンなデータに対する目標性能を達成できる限り,学習アルゴリズムを選択してモデルを訓練することができるためである。 経験的に、被害者が代替学習アルゴリズムを採用する場合、先行的な毒殺攻撃の有効性が大幅に低下するのを観察する。 攻撃伝達性を高めるために,まずアライメントと均一性の本質的な特性を活用して,コントラスト学習における非学習性を向上し,教師付きおよび教師なしのコントラスト学習パラダイムからの勾配情報を反復的に利用し,毒の摂動を生成するトランスファタブル・ポジショニングを提案する。 画像ベンチマークによる広範囲な実験により,我々のトランスファー可能な毒殺攻撃は,この攻撃を考案した2人の学習者だけでなく,アルゴリズムやパラダイムの学習にも適用できることを示す。

We consider availability data poisoning attacks, where an adversary aims to degrade the overall test accuracy of a machine learning model by crafting small perturbations to its training data. Existing poisoning strategies can achieve the attack goal but assume the victim to employ the same learning method as what the adversary uses to mount the attack. In this paper, we argue that this assumption is strong, since the victim may choose any learning algorithm to train the model as long as it can achieve some targeted performance on clean data. Empirically, we observe a large decrease in the effectiveness of prior poisoning attacks if the victim employs an alternative learning algorithm. To enhance the attack transferability, we propose Transferable Poisoning, which first leverages the intrinsic characteristics of alignment and uniformity to enable better unlearnability within contrastive learning, and then iteratively utilizes the gradient information from supervised and unsupervised contrastive learning paradigms to generate the poisoning perturbations. Through extensive experiments on image benchmarks, we show that our transferable poisoning attack can produce poisoned samples with significantly improved transferability, not only applicable to the two learners used to devise the attack but also to learning algorithms and even paradigms beyond.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# ラベルランク付けによる深部分類器の等角予測

Conformal Prediction for Deep Classifier via Label Ranking ( http://arxiv.org/abs/2310.06430v2 )

ライセンス: Link先を確認
Jianguo Huang, Huajun Xi, Linjun Zhang, Huaxiu Yao, Yue Qiu, Hongxin Wei, (参考訳) コンフォーマル予測(Conformal prediction)は、予測セットを生成する統計フレームワークである。 機械学習モデルによって予測される確率は一般的に誤解され、共形予測において大きな予測セットとなる。 この問題に対処するため,$\textit{Sorted Adaptive Prediction Sets}$ (SAPS) という新しいアルゴリズムを提案する。 SAPSの背後にある鍵となる考え方は、不確実性情報を保持しながら、確率値に対する非整合性スコアの依存を最小限に抑えることである。 このように、SAPSはコンパクトな予測セットを生成し、インスタンスワイドの不確実性を伝えることができる。 広範囲な実験により、SAPSは予測セットを小さくするだけでなく、予測セットの条件付きカバレッジ率を大きく向上させる。

Conformal prediction is a statistical framework that generates prediction sets containing ground-truth labels with a desired coverage guarantee. The predicted probabilities produced by machine learning models are generally miscalibrated, leading to large prediction sets in conformal prediction. To address this issue, we propose a novel algorithm named $\textit{Sorted Adaptive Prediction Sets}$ (SAPS), which discards all the probability values except for the maximum softmax probability. The key idea behind SAPS is to minimize the dependence of the non-conformity score on the probability values while retaining the uncertainty information. In this manner, SAPS can produce compact prediction sets and communicate instance-wise uncertainty. Extensive experiments validate that SAPS not only lessens the prediction sets but also broadly enhances the conditional coverage rate of prediction sets.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# インコンテキスト・アンラーニング: ほとんどショット・アンラーナーとしての言語モデル

In-Context Unlearning: Language Models as Few Shot Unlearners ( http://arxiv.org/abs/2310.07579v4 )

ライセンス: Link先を確認
Martin Pawelczyk, Seth Neel, Himabindu Lakkaraju, (参考訳) 特定のトレーニングインスタンスがモデルに与える影響を効率的に除去するマシンアンラーニングは,近年,emph{Right to be Forgotten}などの規制ガイドラインによって注目を集めている。 正確な未学習を実現するには、モデルを完全に再訓練する必要があるが、大規模言語モデル(LLM)のような非常に大きなモデルの場合、計算的に不可能である。 この目的のために、近年の研究では、モデルを再トレーニングすることなく、トレーニングデータの削除を近似するアルゴリズムがいくつか提案されている。 これらのアルゴリズムは、計算上の制約やLLMへのクエリアクセスしか持たないために、実際には保たない仮定であるモデルを更新するために、モデルパラメータへのアクセスに決定的に依存する。 本研究では,LLMのための新しいアンラーニング手法である ``In-Context Unlearning を提案する。 このメソッドは、モデルパラメータを更新することなく、コンテキスト内で特定の種類の入力を提供することで、モデルからインスタンスを解放する。 特定のトレーニングインスタンスを学習するために、これらのインスタンスをLLMに推論時に提示する。 実験の結果、文脈内アンラーニングはモデルパラメータへのアクセスを必要とする他の最先端手法よりも優れており、テスト精度を維持しながら、特定のインスタンスがモデルに与える影響を効果的に除去する。

Machine unlearning, the study of efficiently removing the impact of specific training instances on a model, has garnered increased attention in recent years due to regulatory guidelines such as the \emph{Right to be Forgotten}. Achieving precise unlearning typically involves fully retraining the model and is computationally infeasible in case of very large models such as Large Language Models (LLMs). To this end, recent work has proposed several algorithms which approximate the removal of training data without retraining the model. These algorithms crucially rely on access to the model parameters in order to update them, an assumption that may not hold in practice due to computational constraints or having only query access to the LLMs. In this work, we propose a new class of unlearning methods for LLMs called ``In-Context Unlearning.'' This method unlearns instances from the model by simply providing specific kinds of inputs in context, without the need to update model parameters. To unlearn specific training instances, we present these instances to the LLMs at inference time along with labels that differ from their ground truth. Our experimental results demonstrate that in-context unlearning performs on par with, or in some cases outperforms other state-of-the-art methods that require access to model parameters, effectively removing the influence of specific instances on the model while preserving test accuracy.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# DPZero: バックプロパゲーションのない言語モデルのプライベートな微調整

DPZero: Private Fine-Tuning of Language Models without Backpropagation ( http://arxiv.org/abs/2310.09639v3 )

ライセンス: Link先を確認
Liang Zhang, Bingcong Li, Kiran Koshy Thekumparampil, Sewoong Oh, Niao He, (参考訳) ドメイン固有データに対する細調整の大規模言語モデル(LLM)の広範な実践は、メモリとプライバシの2つの大きな課題に直面している。 第一に、LSMのサイズが大きくなるにつれて、バックプロパゲーションによる勾配に基づくトレーニング手法のメモリ要求が著しく高くなる。 第二に、LLMがトレーニングデータを記憶する傾向を考えると、微調整データの潜在的に敏感な情報が取り消されるのを防ぐことが重要である。 フォワードパスのみに依存するゼロオーダーメソッドは、トレーニング中のメモリ消費を大幅に削減する。 しかし、モデルのサイズが大きくなるにつれて、標準偏差勾配降下と直接結合することがより困難となる。 このギャップを埋めるため、ほぼ次元に依存しない新しいゼロ階法であるDPZeroを導入する。 DPZeroのメモリ効率は、いくつかの下流タスクでプライベートに微調整されたRoBERTaとOPTで実証される。 私たちのコードはhttps://github.com/Liang137/DPZero.comから入手可能です。

The widespread practice of fine-tuning large language models (LLMs) on domain-specific data faces two major challenges in memory and privacy. First, as the size of LLMs continues to grow, the memory demands of gradient-based training methods via backpropagation become prohibitively high. Second, given the tendency of LLMs to memorize training data, it is important to protect potentially sensitive information in the fine-tuning data from being regurgitated. Zeroth-order methods, which rely solely on forward passes, substantially reduce memory consumption during training. However, directly combining them with standard differentially private gradient descent suffers more as model size grows. To bridge this gap, we introduce DPZero, a novel private zeroth-order algorithm with nearly dimension-independent rates. The memory efficiency of DPZero is demonstrated in privately fine-tuning RoBERTa and OPT on several downstream tasks. Our code is available at https://github.com/Liang137/DPZero.
翻訳日:2024-06-08 00:39:36 公開日:2024-06-06
# AdaLomo: 適応学習率による低メモリ最適化

AdaLomo: Low-memory Optimization with Adaptive Learning Rate ( http://arxiv.org/abs/2310.10195v3 )

ライセンス: Link先を確認
Kai Lv, Hang Yan, Qipeng Guo, Haijun Lv, Xipeng Qiu, (参考訳) 大規模言語モデルは目覚ましい成功を収めたが、その広範なパラメータサイズはトレーニングにかなりのメモリを必要とするため、高い閾値を設定できる。 最近提案された低メモリ最適化(LOMO)はメモリフットプリントを削減するが、その最適化手法は確率勾配降下に似ており、ハイパーパラメータに敏感であり、最適でない収束を示す。 アダム最適化器の実証分析により、運動量と比較して、適応学習率の方がギャップを埋める上でより重要であることがわかった。 この知見に基づいて、各パラメータに対して適応学習率を提供する適応学習率(AdaLomo)を用いた低メモリ最適化を導入する。 メモリ効率を維持するために、最適化状態の2次モーメント推定に非負行列分解を用いる。 さらに、収束を安定させるためにグループ化された更新正規化を使うことを提案する。 本研究では,AdaLomoがAdamWと同等の結果を得るとともに,メモリ要求を大幅に低減し,大規模言語モデルの学習におけるハードウェア障壁を低くすることを示す。 コードはhttps://github.com/OpenLMLab/LOMOでアクセスできる。

Large language models have achieved remarkable success, but their extensive parameter size necessitates substantial memory for training, thereby setting a high threshold. While the recently proposed low-memory optimization (LOMO) reduces memory footprint, its optimization technique, akin to stochastic gradient descent, is sensitive to hyper-parameters and exhibits suboptimal convergence, failing to match the performance of the prevailing optimizer for large language models, AdamW. Through empirical analysis of the Adam optimizer, we found that, compared to momentum, the adaptive learning rate is more critical for bridging the gap. Building on this insight, we introduce the low-memory optimization with adaptive learning rate (AdaLomo), which offers an adaptive learning rate for each parameter. To maintain memory efficiency, we employ non-negative matrix factorization for the second-order moment estimation in the optimizer state. Additionally, we suggest the use of a grouped update normalization to stabilize convergence. Our experiments with instruction-tuning and further pre-training demonstrate that AdaLomo achieves results on par with AdamW, while significantly reducing memory requirements, thereby lowering the hardware barrier to training large language models. The code is accessible at https://github.com/OpenLMLab/LOMO.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# 加速政策グラディエント:強化学習のためのネステロフ運動の収束率について

Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning ( http://arxiv.org/abs/2310.11897v3 )

ライセンス: Link先を確認
Yen-Ju Chen, Nai-Chieh Huang, Ching-Pei Lee, Ping-Chun Hsieh, (参考訳) 強化学習(Reinforcement Learning, RL)の領域において, 政策グラディエント(PG)の様々な加速手法を解析した。 しかし、PG上で広く使われている運動量ベースの加速法の理論的理解は、ほとんど未開のままである。 このギャップに対応するために、有名なネステロフの加速勾配 (NAG) 法を RL の政策最適化に適用し、これを 'textit{Accelerated Policy Gradient} (APG) と呼ぶ。 高速収束を実現する上でのAPGの可能性を示すため、真の勾配とソフトマックス政策パラメトリゼーションの下では、APGは速度で最適な政策に収束することを正式に証明する。 (i) 一定のステップサイズを持つ $\tilde{O}(1/t^2)$ (ii)$O(e^{-ct})$は指数関数的に成長するステップサイズを持つ。 我々の知る限りでは、これはRLの文脈におけるNAGの収束率を初めて特徴づけるものである。 パラメータの初期化にかかわらず、APGは有限反復で運動量から大きな恩恵を受けることができる局所的なほぼ凹面状態に入る。 Atari 2600ベンチマークの数値検証と実験により、APGが一定のステップサイズを持つ$\tilde{O}(1/t^2)$レートと指数的に成長するステップサイズを持つ線形収束率を示し、標準PGの収束性を大幅に向上させることを確認した。

Various acceleration approaches for Policy Gradient (PG) have been analyzed within the realm of Reinforcement Learning (RL). However, the theoretical understanding of the widely used momentum-based acceleration method on PG remains largely open. In response to this gap, we adapt the celebrated Nesterov's accelerated gradient (NAG) method to policy optimization in RL, termed \textit{Accelerated Policy Gradient} (APG). To demonstrate the potential of APG in achieving fast convergence, we formally prove that with the true gradient and under the softmax policy parametrization, APG converges to an optimal policy at rates: (i) $\tilde{O}(1/t^2)$ with constant step sizes; (ii) $O(e^{-ct})$ with exponentially-growing step sizes. To the best of our knowledge, this is the first characterization of the convergence rates of NAG in the context of RL. Notably, our analysis relies on one interesting finding: Regardless of the parameter initialization, APG ends up entering a locally nearly-concave regime, where APG can significantly benefit from the momentum, within finite iterations. Through numerical validation and experiments on the Atari 2600 benchmarks, we confirm that APG exhibits a $\tilde{O}(1/t^2)$ rate with constant step sizes and a linear convergence rate with exponentially-growing step sizes, significantly improving convergence over the standard PG.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# 経路の多様性を考慮した無バイアス多目的ファジィ化に向けて

Toward Unbiased Multiple-Target Fuzzing with Path Diversity ( http://arxiv.org/abs/2310.12419v2 )

ライセンス: Link先を確認
Huanyao Rong, Wei You, Xiaofeng Wang, Tianhao Mao, (参考訳) 本稿では,目標経路の多様性と非バイアスエネルギーの割り当てを特徴とするAFLRunというファジリング手法を提案する。 まず, 対象とする種子の被覆状況を追跡するために, 対象対象ごとの余分なヴァージンマップを維持することで, 新たなカバレッジ指標を開発する。 このアプローチにより、興味深いパスを通じてターゲットにヒットするコーパスへのウェイポイントの格納が可能になり、各ターゲットに対するパスの多様性が強化される。 さらに,各目標に対する公平性を保証するコーパスレベルのエネルギー割り当て戦略を提案する。 AFLRunは、均一な目標重量から始まり、この重量を種子に伝播させ、所望の種子重量分布を得る。 コーパス内の各種にそのような所望の分布に従ってエネルギーを割り当てることにより、精密で偏りのないエネルギー割り当てが達成される。 我々は,プロトタイプシステムを構築し,その性能を標準ベンチマークと広範囲にファジドされた実世界のアプリケーションを用いて評価した。 その結果, AFLRunは, 脆弱性検出において, 量, 速度ともに, 最先端のファズーよりも優れていた。 さらに、AFLRunは4つの異なるプログラムにまたがる8つのCVEを含む29の未確認脆弱性を明らかにした。

In this paper, we propose a novel directed fuzzing solution named AFLRun, which features target path-diversity metric and unbiased energy assignment. Firstly, we develop a new coverage metric by maintaining extra virgin map for each covered target to track the coverage status of seeds that hit the target. This approach enables the storage of waypoints into the corpus that hit a target through interesting path, thus enriching the path diversity for each target. Additionally, we propose a corpus-level energy assignment strategy that guarantees fairness for each target. AFLRun starts with uniform target weight and propagates this weight to seeds to get a desired seed weight distribution. By assigning energy to each seed in the corpus according to such desired distribution, a precise and unbiased energy assignment can be achieved. We built a prototype system and assessed its performance using a standard benchmark and several extensively fuzzed real-world applications. The evaluation results demonstrate that AFLRun outperforms state-of-the-art fuzzers in terms of vulnerability detection, both in quantity and speed. Moreover, AFLRun uncovers 29 previously unidentified vulnerabilities, including 8 CVEs, across four distinct programs.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# 変圧器のエレウリカ-モーメント:マルチステップタスクがSoftmaxによる最適化問題を解き明かす

Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems ( http://arxiv.org/abs/2310.12956v2 )

ライセンス: Link先を確認
David T. Hoffmann, Simon Schrodi, Jelena Bratulić, Nadine Behrmann, Volker Fischer, Thomas Brox, (参考訳) 本研究では,多段階決定タスクに直面する場合の変圧器の訓練損失の迅速化について検討する。 トランスフォーマーは中間的なタスクを学習するのに苦労し、トレーニングとバリデーションの損失は数百のエポックで飽和していることがわかった。 トランスフォーマーが最終的に中間タスクを学習すると、彼らはこれを素早く、そして予期せずに実行します。 我々はこの急激な改善をユーレカモーメント(Eureka-moments)と呼んでいる。 我々は,問題を詳細に研究するために合成タスクを設計したが,言語モデリングやテキスト内学習(ICL)にも性能の飛躍が観察できる。 これらの急激な遷移は、これらのタスクの多段階的な性質によって引き起こされると考えられる。 実際、私たちは接続を見つけ、言語モデリングとICLの訓練を改善するために、合成多段階タスクを改善する方法を示す。 合成データを用いて、変換器の自己保持ブロックのソフトマックス関数に問題をトレースし、問題を緩和する方法を示す。 これらの修正は、必要なトレーニングステップ数を削減し、中間タスクを学習する可能性を高め、最終的な精度を高め、トレーニングはハイパーパラメータに対してより堅牢になる。

In this work, we study rapid improvements of the training loss in transformers when being confronted with multi-step decision tasks. We found that transformers struggle to learn the intermediate task and both training and validation loss saturate for hundreds of epochs. When transformers finally learn the intermediate task, they do this rapidly and unexpectedly. We call these abrupt improvements Eureka-moments, since the transformer appears to suddenly learn a previously incomprehensible concept. We designed synthetic tasks to study the problem in detail, but the leaps in performance can be observed also for language modeling and in-context learning (ICL). We suspect that these abrupt transitions are caused by the multi-step nature of these tasks. Indeed, we find connections and show that ways to improve on the synthetic multi-step tasks can be used to improve the training of language modeling and ICL. Using the synthetic data we trace the problem back to the Softmax function in the self-attention block of transformers and show ways to alleviate the problem. These fixes reduce the required number of training steps, lead to higher likelihood to learn the intermediate task, to higher final accuracy and training becomes more robust to hyper-parameters.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# 大規模言語モデルはなぜ正しい連鎖を生成するのか?

Why Can Large Language Models Generate Correct Chain-of-Thoughts? ( http://arxiv.org/abs/2310.13571v4 )

ライセンス: Link先を確認
Rasul Tutunov, Antoine Grosnit, Juliusz Ziomek, Jun Wang, Haitham Bou-Ammar, (参考訳) 本稿では,大規模言語モデル(LLM)の能力について述べる。 本研究では,LLMを効果的に誘導し,コヒーレントな思考連鎖を生成する方法について検討する。 これを実現するために,自然言語生成に適した2階層階層型グラフィカルモデルを提案する。 この枠組み内では、真の言語に由来するものと比較して、LLM生成された思考の連鎖の可能性を測る魅力的な幾何学的収束率を確立する。 本研究は,LLMが推論スキルを要求されるタスクのパフォーマンス向上を説明する上で,(潜在的に)正しい思考系列を生成できることを理論的に正当化するものである。

This paper delves into the capabilities of large language models (LLMs), specifically focusing on advancing the theoretical comprehension of chain-of-thought prompting. We investigate how LLMs can be effectively induced to generate a coherent chain of thoughts. To achieve this, we introduce a two-level hierarchical graphical model tailored for natural language generation. Within this framework, we establish a compelling geometrical convergence rate that gauges the likelihood of an LLM-generated chain of thoughts compared to those originating from the true language. Our findings provide a theoretical justification for the ability of LLMs to produce the correct sequence of thoughts (potentially) explaining performance gains in tasks demanding reasoning skills.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# 時空間多モードアテンションネットワークを用いたリチウムイオン電池の寿命予測

Remaining useful life prediction of Lithium-ion batteries using spatio-temporal multimodal attention networks ( http://arxiv.org/abs/2310.18924v2 )

ライセンス: Link先を確認
Sungho Suh, Dhruv Aditya Mittal, Hymalai Bello, Bo Zhou, Mayank Shekhar Jha, Paul Lukowicz, (参考訳) リチウムイオン電池は、電気自動車や再生可能エネルギー貯蔵など様々な用途で広く使われている。 電池の持続寿命(RUL)の予測は、信頼性と効率の確保、メンテナンスコストの削減に不可欠である。 しかし, 現実シナリオにおける電池のライフサイクル決定は困難であり, 既存手法ではサイクル数を反復的に予測する限界がある。 加えて、既存の研究はしばしばデータセットを単純化し、温度、内部抵抗、材料タイプといったバッテリーの重要な特徴を無視している。 本稿では, 時空間マルチモーダルアテンションネットワーク(ST-MAN)を用いたリチウムイオン電池の2段階RUL予測手法を提案する。 提案したST-MANは、既存の作業でしばしば無視される機能を含む、バッテリデータ内の複雑な時空間的依存関係をキャプチャする。 従来の畳み込みニューラルネットワーク (CNN) と長短期記憶 (LSTM) に基づく手法と比較して, 平均絶対誤差 (MAE) と平均二乗誤差 (MSE) は0.0275 と 0.0014 である。 提案手法は,バッテリ操作の信頼性と効率性を向上する可能性があり,各種産業に適用可能である。

Lithium-ion batteries are widely used in various applications, including electric vehicles and renewable energy storage. The prediction of the remaining useful life (RUL) of batteries is crucial for ensuring reliable and efficient operation, as well as reducing maintenance costs. However, determining the life cycle of batteries in real-world scenarios is challenging, and existing methods have limitations in predicting the number of cycles iteratively. In addition, existing works often oversimplify the datasets, neglecting important features of the batteries such as temperature, internal resistance, and material type. To address these limitations, this paper proposes a two-stage RUL prediction scheme for Lithium-ion batteries using a spatio-temporal multimodal attention network (ST-MAN). The proposed ST-MAN is to capture the complex spatio-temporal dependencies in the battery data, including the features that are often neglected in existing works. Despite operating without prior knowledge of end-of-life (EOL) events, our method consistently achieves lower error rates, boasting mean absolute error (MAE) and mean square error (MSE) of 0.0275 and 0.0014, respectively, compared to existing convolutional neural networks (CNN) and long short-term memory (LSTM)-based methods. The proposed method has the potential to improve the reliability and efficiency of battery operations and is applicable in various industries.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# ストリームからプールへ:i.i.d. Arrivalsを超える動的価格設定

From Stream to Pool: Dynamic Pricing Beyond i.i.d. Arrivals ( http://arxiv.org/abs/2310.19220v2 )

ライセンス: Link先を確認
Titing Cui, Su Jia, Thomas Lavastida, (参考訳) 動的価格モデルはしばしば、顧客のインタラクションの$\textbf{stream}$が順次発生し、顧客のバリュエーションが独立して引き出されることを仮定する。 しかし、このモデルは、限界効用を減らし、各追加単位からの顧客の限界効用が減少するという、重要な側面を見落としているために、現実の世界を完全に反映しているわけではない。 これにより、バリュエーションの分布は、ストリームモデルによって捉えられていないローエンドへとシフトする。 これはプールベースのモデルを研究する動機となり、$\textbf{pool}$の顧客は、ディスカウント機能によって購入される回数が減少するモノポリスの売り手と繰り返しやりとりする。 特に、割引関数が一定であれば、プールモデルによってストリームモデルが復元される。 購入が完了すると、顧客の評価がゼロになる、最も基本的な特殊なケースに注目します。 k$の価格が与えられた場合、非適応的かつ詳細のない(すなわち、非適応的政策の中で最適である1/k$の競争比率を達成するような政策を提示する。 さらに, 新たなデバイアス化手法を基礎として, $\tilde O(k^{2/3} n^{2/3})$ regret を用いた適応型学習理論を提案する。

Dynamic pricing models often posit that a $\textbf{stream}$ of customer interactions occur sequentially, where customers' valuations are drawn independently. However, this model is not entirely reflective of the real world, as it overlooks a critical aspect, the law of diminishing marginal utility, which states that a customer's marginal utility from each additional unit declines. This causes the valuation distribution to shift towards the lower end, which is not captured by the stream model. This motivates us to study a pool-based model, where a $\textbf{pool}$ of customers repeatedly interacts with a monopolist seller, each of whose valuation diminishes in the number of purchases made according to a discount function. In particular, when the discount function is constant, our pool model recovers the stream model. We focus on the most fundamental special case, where a customer's valuation becomes zero once a purchase is made. Given $k$ prices, we present a non-adaptive, detail-free (i.e., does not "know" the valuations) policy that achieves a $1/k$ competitive ratio, which is optimal among non-adaptive policies. Furthermore, based on a novel debiasing technique, we propose an adaptive learn-then-earn policy with a $\tilde O(k^{2/3} n^{2/3})$ regret.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# 不変条件下での確率の多様性を推定するためのサンプル複雑度境界

Sample Complexity Bounds for Estimating Probability Divergences under Invariances ( http://arxiv.org/abs/2311.02868v2 )

ライセンス: Link先を確認
Behrooz Tahmasebi, Stefanie Jegelka, (参考訳) グループ不変確率分布は、グラフ、点雲、画像など、機械学習における多くのデータ生成モデルに現れる。 実際には、そのような分布の相違を推定する必要があることが多い。 本研究では, 多様体上のリー群の滑らかな作用について, ソボレフ積分確率計量 (Sobolev IPMs) , 最大平均離散性 (MMD) , 密度推定問題の複雑性 ($L^2$, $L^\infty$ distance) について検討する。 その結果,(1)群のサイズ(有限群の場合)や商空間の正規化体積(正次元群の場合)に対応する乗法因子によるサンプルの複雑性の減少,(2)収束率(正次元群の場合)の指数の向上,の2倍の利得が得られた。 これらの結果は正次元の群に対しては全く新しいものであり、有限群作用に対する最近の境界を拡張する。

Group-invariant probability distributions appear in many data-generative models in machine learning, such as graphs, point clouds, and images. In practice, one often needs to estimate divergences between such distributions. In this work, we study how the inherent invariances, with respect to any smooth action of a Lie group on a manifold, improve sample complexity when estimating the 1-Wasserstein distance, the Sobolev Integral Probability Metrics (Sobolev IPMs), the Maximum Mean Discrepancy (MMD), and also the complexity of the density estimation problem (in the $L^2$ and $L^\infty$ distance). Our results indicate a two-fold gain: (1) reducing the sample complexity by a multiplicative factor corresponding to the group size (for finite groups) or the normalized volume of the quotient space (for groups of positive dimension); (2) improving the exponent in the convergence rate (for groups of positive dimension). These results are completely new for groups of positive dimension and extend recent bounds for finite group actions.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# MELA:言語学的アクセプティビリティの多言語評価

MELA: Multilingual Evaluation of Linguistic Acceptability ( http://arxiv.org/abs/2311.09033v3 )

ライセンス: Link先を確認
Ziyin Zhang, Yikang Liu, Weifang Huang, Junyu Mao, Rui Wang, Hai Hu, (参考訳) 本稿では,言語アクセプタビリティの多言語評価 -- MELA -- を,多言語ファミリーの10言語を対象とする46Kサンプルを用いて実施した。 我々は,このベンチマークに基づいてLLMベースラインを確立し,XLM-Rを用いた受理性判定における言語間移動について検討する。 マルチリンガル解釈可能性の追求において,微調整されたXLM-Rを用いた探索実験を行い,構文能力獲得のプロセスについて検討する。 以上の結果から, GPT-4oは優れた多言語能力を示し, 微調整されたXLM-Rよりも優れており, オープンソースの多言語モデルは顕著なギャップで遅れていることがわかった。 500のアイスランドの微調整例は、完全に無関係な言語(中国語)で23のMCCのパフォーマンスをもたらす。 その結果,MELAにおける学習は,構文関連タスクにおけるXLM-Rの性能を向上させることが示唆された。 私たちのデータは、https://github.com/sjtu-compling/MELA.comで公開されています。

In this work, we present the largest benchmark to date on linguistic acceptability: Multilingual Evaluation of Linguistic Acceptability -- MELA, with 46K samples covering 10 languages from a diverse set of language families. We establish LLM baselines on this benchmark, and investigate cross-lingual transfer in acceptability judgements with XLM-R. In pursuit of multilingual interpretability, we conduct probing experiments with fine-tuned XLM-R to explore the process of syntax capability acquisition. Our results show that GPT-4o exhibits a strong multilingual ability, outperforming fine-tuned XLM-R, while open-source multilingual models lag behind by a noticeable gap. Cross-lingual transfer experiments show that transfer in acceptability judgment is non-trivial: 500 Icelandic fine-tuning examples lead to 23 MCC performance in a completely unrelated language -- Chinese. Results of our probing experiments indicate that training on MELA improves the performance of XLM-R on syntax-related tasks. Our data is available at https://github.com/sjtu-compling/MELA.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# GRASP:マルチモーダル言語モデルにおける言語GRoundingとSituated Physics Understandingの評価のための新しいベンチマーク

GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models ( http://arxiv.org/abs/2311.09048v3 )

ライセンス: Link先を確認
Serwan Jassim, Mario Holubar, Annika Richter, Cornelius Wolff, Xenia Ohmer, Elia Bruni, (参考訳) 本稿では,ビデオベースマルチモーダル大言語モデル(LLM)の言語基盤と物理的理解能力を評価するための新しいベンチマークGRASPを提案する。 この評価は、Unityシミュレーションを利用する2層アプローチによって達成される。 モデルが単純なテキスト記述と視覚情報とを関連付ける能力を評価することで、言語接地の最初のレベルテストを行う。 第2のレベルは、オブジェクトの永続性や連続性といった「直観的物理学」の原則に対するモデルの理解を評価する。 ベンチマークの公開に加えて、いくつかの最先端マルチモーダルLCMの評価にも使用しています。 評価の結果,これらのモデルの言語基盤化や直感的な物理能力に重大な欠陥があることが判明した。 彼らは少なくともいくつかの接地能力、特に色と形状を示すが、これらの能力は促進戦略に大きく依存している。 同時に、すべてのモデルが直観物理学のテストでは50%以下または50%の確率で実行され、人間の被験者は平均80%の精度で正しい。 これらの制限は、GRASPのようなベンチマークを使用して、これらの能力の開発における将来のモデルの進捗を監視することの重要性を浮き彫りにしている。

This paper presents GRASP, a novel benchmark to evaluate the language grounding and physical understanding capabilities of video-based multimodal large language models (LLMs). This evaluation is accomplished via a two-tier approach leveraging Unity simulations. The first level tests for language grounding by assessing a model's ability to relate simple textual descriptions with visual information. The second level evaluates the model's understanding of "Intuitive Physics" principles, such as object permanence and continuity. In addition to releasing the benchmark, we use it to evaluate several state-of-the-art multimodal LLMs. Our evaluation reveals significant shortcomings in the language grounding and intuitive physics capabilities of these models. Although they exhibit at least some grounding capabilities, particularly for colors and shapes, these capabilities depend heavily on the prompting strategy. At the same time, all models perform below or at the chance level of 50% in the Intuitive Physics tests, while human subjects are on average 80% correct. These identified limitations underline the importance of using benchmarks like GRASP to monitor the progress of future models in developing these competencies.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# 事前学習された言語モデルは、知識グラフの補完において、実際には未知のリンクを推測するだろうか?

Does Pre-trained Language Model Actually Infer Unseen Links in Knowledge Graph Completion? ( http://arxiv.org/abs/2311.09109v2 )

ライセンス: Link先を確認
Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe, (参考訳) 知識グラフ(KG)は、エンティティ間の関係を記述するリンクである。 実体間のすべての関係を手動で列挙することが難しいため、KGにとって、それらを自動的に完了することが不可欠である。 知識グラフ補完(英: Knowledge Graph Completion、KGC)は、KG内のエンティティ間の見えない関係を推論するタスクである。 RESCAL、TransE、DistMult、ComplEx、RotatE、HAKE、HousEなどの従来の埋め込みベースのKGCメソッドは、トレーニングデータからの知識のみを使用して、リンク不足を推測する。 対照的に、最近のプレトレーニング言語モデル(PLM)ベースのKGCは、事前トレーニング中に得られた知識を利用する。 したがって、PLMベースのKGCは、推論なしで事前学習から記憶された知識を再利用することで、エンティティ間の欠落したリンクを推定することができる。 KGCモデルの構築は、エンティティ間の見えないリンクを推測することを目的としているため、このアプローチは問題となる。 しかしながら、KGCの従来の評価では、推論能力と記憶能力は別々に考慮されていない。 したがって、現在のKGC評価において高い性能を達成するPLMベースのKGC法は、実用上は非効率である可能性がある。 この問題に対処するために, PLM ベースの KGC 手法が推論を行うか,あるいは単に記憶された知識にアクセスするかを分析する。 本研究では,本分析で特定した合成データセットの構築手法を提案するとともに,PLMが事前学習によってKGCに必要な推論能力を取得することを結論する。

Knowledge graphs (KGs) consist of links that describe relationships between entities. Due to the difficulty of manually enumerating all relationships between entities, automatically completing them is essential for KGs. Knowledge Graph Completion (KGC) is a task that infers unseen relationships between entities in a KG. Traditional embedding-based KGC methods, such as RESCAL, TransE, DistMult, ComplEx, RotatE, HAKE, HousE, etc., infer missing links using only the knowledge from training data. In contrast, the recent Pre-trained Language Model (PLM)-based KGC utilizes knowledge obtained during pre-training. Therefore, PLM-based KGC can estimate missing links between entities by reusing memorized knowledge from pre-training without inference. This approach is problematic because building KGC models aims to infer unseen links between entities. However, conventional evaluations in KGC do not consider inference and memorization abilities separately. Thus, a PLM-based KGC method, which achieves high performance in current KGC evaluations, may be ineffective in practical applications. To address this issue, we analyze whether PLM-based KGC methods make inferences or merely access memorized knowledge. For this purpose, we propose a method for constructing synthetic datasets specified in this analysis and conclude that PLMs acquire the inference abilities required for KGC through pre-training, even though the performance improvements mostly come from textual information of entities and relations.
翻訳日:2024-06-08 00:29:50 公開日:2024-06-06
# TextEE: イベント抽出におけるベンチマーク、再評価、リフレクション、今後の課題

TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction ( http://arxiv.org/abs/2311.09562v3 )

ライセンス: Link先を確認
Kuan-Hao Huang, I-Hung Hsu, Tanmay Parekh, Zhiyu Xie, Zixuan Zhang, Premkumar Natarajan, Kai-Wei Chang, Nanyun Peng, Heng Ji, (参考訳) イベント抽出は広範に応用されているため、かなりの関心を集めている。 しかし、近年の研究は評価問題に注意を向けており、報告されたスコアが真のパフォーマンスを正確に反映していないことを示唆している。 本研究では,データ仮定や前処理ステップの違いによる不整合性,データセットやデータ分割バイアスを導入した現在の評価フレームワークの不整合性,過去のアプローチの再現性の低下など,評価上の課題を特定し,対処する。 これらの課題に対処するため、イベント抽出のための標準化された公正かつ再現可能なベンチマークであるTextEEを紹介します。 TextEEは標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。 また、TextEEベンチマークで5つのさまざまな大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証しています。 再評価の結果と結果に触発されて,現在NLP時代におけるイベント抽出の役割と,TextEEから派生した今後の課題と洞察について議論した。 最初の標準化された総合的なベンチマークツールであるTextEEは、将来のイベント抽出研究を著しく促進するだろうと考えています。

Event extraction has gained considerable interest due to its wide-ranging applications. However, recent studies draw attention to evaluation issues, suggesting that reported scores may not accurately reflect the true performance. In this work, we identify and address evaluation challenges, including inconsistency due to varying data assumptions or preprocessing steps, the insufficiency of current evaluation frameworks that may introduce dataset or data split bias, and the low reproducibility of some previous approaches. To address these challenges, we present TextEE, a standardized, fair, and reproducible benchmark for event extraction. TextEE comprises standardized data preprocessing scripts and splits for 16 datasets spanning eight diverse domains and includes 14 recent methodologies, conducting a comprehensive benchmark reevaluation. We also evaluate five varied large language models on our TextEE benchmark and demonstrate how they struggle to achieve satisfactory performance. Inspired by our reevaluation results and findings, we discuss the role of event extraction in the current NLP era, as well as future challenges and insights derived from TextEE. We believe TextEE, the first standardized comprehensive benchmarking tool, will significantly facilitate future event extraction research.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# WatME: レキシカル冗長性による無意味な透かしを目指して

WatME: Towards Lossless Watermarking Through Lexical Redundancy ( http://arxiv.org/abs/2311.09832v3 )

ライセンス: Link先を確認
Liang Chen, Yatao Bian, Yang Deng, Deng Cai, Shuaiyi Li, Peilin Zhao, Kam-fai Wong, (参考訳) テキスト透かしは、機械生成したテキストを識別するための重要なテクニックとして登場した。 しかし、既存の手法は、透かしを埋め込むためにデコード中の任意の語彙分割に依存しており、適切なトークンの可用性を損なうとともに、応答の質を著しく低下させる。 本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。 知識のリコールと論理的推論は、言語生成よりも影響を受けやすい。 これらの結果は,LLMに対する透かしの影響が従来より深いことを示唆している。 これらの課題に対処するために,LLM語彙における固有語彙冗長性の言語的事前知識を活用して,透かしをシームレスに統合するWatME(WatME)を導入する。 特に、WatMEは、識別された語彙冗長性に相互排他的ルールを適用することにより、復号処理中のトークン使用量を動的に最適化する。 この戦略は、適切なトークンが有効でないことを効果的に防ぎ、LLMの表現力を維持する。 我々は,WatMEが透かし検出性を確保しつつ,LLMの多様な能力を効果的に維持していることを示す理論的解析と実証的証拠の両方を提供する。

Text watermarking has emerged as a pivotal technique for identifying machine-generated text. However, existing methods often rely on arbitrary vocabulary partitioning during decoding to embed watermarks, which compromises the availability of suitable tokens and significantly degrades the quality of responses. This study assesses the impact of watermarking on different capabilities of large language models (LLMs) from a cognitive science lens. Our finding highlights a significant disparity; knowledge recall and logical reasoning are more adversely affected than language generation. These results suggest a more profound effect of watermarking on LLMs than previously understood. To address these challenges, we introduce Watermarking with Mutual Exclusion (WatME), a novel approach leveraging linguistic prior knowledge of inherent lexical redundancy in LLM vocabularies to seamlessly integrate watermarks. Specifically, WatME dynamically optimizes token usage during the decoding process by applying a mutually exclusive rule to the identified lexical redundancies. This strategy effectively prevents the unavailability of appropriate tokens and preserves the expressive power of LLMs. We provide both theoretical analysis and empirical evidence showing that WatME effectively preserves the diverse capabilities of LLMs while ensuring watermark detectability.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# スパース部分空間埋め込みのための最適埋め込み次元

Optimal Embedding Dimension for Sparse Subspace Embeddings ( http://arxiv.org/abs/2311.10680v2 )

ライセンス: Link先を確認
Shabarish Chenakkod, Michał Dereziński, Xiaoyu Dong, Mark Rudelson, (参考訳) ランダム$m\times n$ matrix $S$ は、パラメータ $\epsilon>0$, $\delta\in(0,1/3)$ および $d\leq m\leq n$ が、任意の$d$-次元部分空間 $W\subseteq R^n$, $P\big(\,\forall_{x\in W}\ (1+\epsilon)^{-1}\|x\|\leq\|Sx\|\leq (1+\epsilon)\|x\|\|\\big)\geq 1-\delta であるときである。 for any $\theta > 0$, for a Gaussian embeddedding matrix with $m\geq (1+\theta) d$ is a OSE with $\epsilon = O_\theta(1)$。 しかし、そのような最適な埋め込み次元は他の埋め込みでは知られていない。 特に興味深いのがスパースOSEで、列当たり$s\ll m$ non-zerosを持ち、最小二乗回帰やローランク近似といった問題への応用がある。 任意の$\theta > 0$が与えられたとき、$m\times n$ random matrix $S$ with $m\geq (1+\theta)d$は、ランダムにスパースされた$\pm1/\sqrt s$エントリを持ち、$s= O(\log^4(d))$ non-zeros per column を持つ。 我々の結果は、Nelson and Nguyen (FOCS 2013) が提起した主要なオープンな問題に対処し、OSEs のスパースが$m=O(d)$埋め込み次元を達成できると推測し、Cohen (SODA 2016) が示した$m=O(d\log(d))$を改善する。 これを応用して、現在の行列乗算時間よりも早く適用できる$O(d)$埋め込み次元による最初の難解な部分空間埋め込みを構築し、最小二乗回帰のための最適シングルパスアルゴリズムを得る。 我々はさらに、最近導入された非公開埋め込み技術であるLevanage Score Sparsification (LESS)に結果を拡張した。 LESSを用いて低歪み$\epsilon=o(1)$と最適埋め込み次元$m=O(d/\epsilon^2)$で最初の部分空間埋め込みを構築する。

A random $m\times n$ matrix $S$ is an oblivious subspace embedding (OSE) with parameters $\epsilon>0$, $\delta\in(0,1/3)$ and $d\leq m\leq n$, if for any $d$-dimensional subspace $W\subseteq R^n$, $P\big(\,\forall_{x\in W}\ (1+\epsilon)^{-1}\|x\|\leq\|Sx\|\leq (1+\epsilon)\|x\|\,\big)\geq 1-\delta.$ It is known that the embedding dimension of an OSE must satisfy $m\geq d$, and for any $\theta > 0$, a Gaussian embedding matrix with $m\geq (1+\theta) d$ is an OSE with $\epsilon = O_\theta(1)$. However, such optimal embedding dimension is not known for other embeddings. Of particular interest are sparse OSEs, having $s\ll m$ non-zeros per column, with applications to problems such as least squares regression and low-rank approximation. We show that, given any $\theta > 0$, an $m\times n$ random matrix $S$ with $m\geq (1+\theta)d$ consisting of randomly sparsified $\pm1/\sqrt s$ entries and having $s= O(\log^4(d))$ non-zeros per column, is an oblivious subspace embedding with $\epsilon = O_{\theta}(1)$. Our result addresses the main open question posed by Nelson and Nguyen (FOCS 2013), who conjectured that sparse OSEs can achieve $m=O(d)$ embedding dimension, and it improves on $m=O(d\log(d))$ shown by Cohen (SODA 2016). We use this to construct the first oblivious subspace embedding with $O(d)$ embedding dimension that can be applied faster than current matrix multiplication time, and to obtain an optimal single-pass algorithm for least squares regression. We further extend our results to Leverage Score Sparsification (LESS), which is a recently introduced non-oblivious embedding technique. We use LESS to construct the first subspace embedding with low distortion $\epsilon=o(1)$ and optimal embedding dimension $m=O(d/\epsilon^2)$ that can be applied in current matrix multiplication time.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# 6G用ワイヤレスネットワークデジタルツイン : キーエンバータとしてのジェネレーティブAI

Wireless Network Digital Twin for 6G: Generative AI as A Key Enabler ( http://arxiv.org/abs/2311.17451v2 )

ライセンス: Link先を確認
Zhenyu Tao, Wei Xu, Yongming Huang, Xiaoyun Wang, Xiaohu You, (参考訳) デジタル・ツイン(Digital twin)は、デジタル・レプリカを同期させることで物理的実体のエミュレーション、評価、最適化を可能にするもので、複雑な無線ネットワークのための有望な技術として注目されている。 6Gでは、多くの革新的な無線技術とネットワークアーキテクチャが、無線ネットワークデジタルツインを確立する上で新たな課題を提起している。 これらの課題に対処するために、人工知能(AI)、特に繁栄する生成AIは、潜在的な解決策として現れます。 本稿では, 複雑なネットワークアーキテクチャ, ネットワーク規模, 広範囲にわたるカバレッジ, 6G 時代における多様なアプリケーションシナリオを考慮した, 無線ネットワークディジタル双生児の新たな前提条件について論じる。 さらに,トランスフォーマーや拡散モデルなどの生成AIを用いて,物理的デジタルモデリング,同期,スライシング能力など,多視点から6Gディジタル双生児に力を与える方法についても検討する。 その後、メッセージレベルとポリシーレベルの両方で、階層的生成型AI対応無線ネットワークディジタルツインを提案し、その有効性と有効性を検証するために、数値的な結果を伴う典型的なユースケースを提供する。 最後に6G時代の無線ネットワークディジタル双生児のオープンな研究課題について論じる。

Digital twin, which enables emulation, evaluation, and optimization of physical entities through synchronized digital replicas, has gained increasing attention as a promising technology for intricate wireless networks. For 6G, numerous innovative wireless technologies and network architectures have posed new challenges in establishing wireless network digital twins. To tackle these challenges, artificial intelligence (AI), particularly the flourishing generative AI, emerges as a potential solution. In this article, we discuss emerging prerequisites for wireless network digital twins considering the complicated network architecture, tremendous network scale, extensive coverage, and diversified application scenarios in the 6G era. We further explore the applications of generative AI, such as Transformer and diffusion model, to empower the 6G digital twin from multiple perspectives including physical-digital modeling, synchronization, and slicing capability. Subsequently, we propose a hierarchical generative AI-enabled wireless network digital twin at both the message-level and policy-level, and provide a typical use case with numerical results to validate the effectiveness and efficiency. Finally, open research issues for wireless network digital twins in the 6G era are discussed.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# DiffCAD:RGB画像からの確率的CADモデル検索とアライメント

DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image ( http://arxiv.org/abs/2311.18610v2 )

ライセンス: Link先を確認
Daoyi Gao, Dávid Rozenberszki, Stefan Leutenegger, Angela Dai, (参考訳) CADモデルプリミティブに基づくRGB画像から3D構造を認識することにより,シーンの効果的で効率的な3Dオブジェクトベース表現が可能になる。 しかし、現在のアプローチは、実際の画像に関連付けられたCADモデルの高価なアノテーションからの監督と、タスク固有の曖昧さ(単眼知覚における深度スケールの曖昧さ、および実際の観察に対するCADデータベースモデルの不正確な一致)による課題への対処に依存している。 そこで我々は,RGB画像からのCAD検索とアライメントに対する,最初の弱教師付き確率的アプローチであるDiffCADを提案する。 我々はこれを条件付き生成タスクとして定式化し、拡散を利用して画像中のCADオブジェクトの形状、ポーズ、スケールをキャプチャする暗黙の確率モデルを学ぶ。 これにより、異なる可塑性CAD再構成の多仮説生成が可能となり、深さ/スケールのあいまいさと不正確な形状の一致を特徴づける仮説はわずかである。 提案手法は, 合成データのみを用いて学習し, 単眼深度とマスク推定を利用して, 種々の実対象領域へのロバストなゼロショット適応を実現する。 Scan2CADデータセットの教師付き状態を8つの仮説で5.9%超えることができるのです。

Perceiving 3D structures from RGB images based on CAD model primitives can enable an effective, efficient 3D object-based representation of scenes. However, current approaches rely on supervision from expensive annotations of CAD models associated with real images, and encounter challenges due to the inherent ambiguities in the task -- both in depth-scale ambiguity in monocular perception, as well as inexact matches of CAD database models to real observations. We thus propose DiffCAD, the first weakly-supervised probabilistic approach to CAD retrieval and alignment from an RGB image. We formulate this as a conditional generative task, leveraging diffusion to learn implicit probabilistic models capturing the shape, pose, and scale of CAD objects in an image. This enables multi-hypothesis generation of different plausible CAD reconstructions, requiring only a few hypotheses to characterize ambiguities in depth/scale and inexact shape matches. Our approach is trained only on synthetic data, leveraging monocular depth and mask estimates to enable robust zero-shot adaptation to various real target domains. Despite being trained solely on synthetic data, our multi-hypothesis approach can even surpass the supervised state-of-the-art on the Scan2CAD dataset by 5.9% with 8 hypotheses.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# SchurVINS: Schur補充型軽量ビジュアル慣性ナビゲーションシステム

SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System ( http://arxiv.org/abs/2312.01616v5 )

ライセンス: Link先を確認
Yunfei Fan, Tianyu Zhao, Guidong Wang, (参考訳) 精度と計算効率は、視覚慣性ナビゲーションシステム(VINS)にとって最も重要な指標である。 既存のVINSアルゴリズムは精度が高いか計算量が少ないかのどちらかで、リソース制約のあるデバイスに高精度なローカライゼーションを提供することは困難である。 そこで本研究では, 完全残差モデルを構築し, シュル補数を用いた計算複雑性を低くすることで, 高い精度を保証できる新しいフィルタベースのVINSフレームワークであるSchurVINSを提案する。 技術的には、グラディエント、ヘッセン、観測共分散が明示的にモデル化された完全残留モデルを最初に定式化する。 シュア補数は、完全なモデルをエゴモーション残留モデルとランドマーク残留モデルに分解するために用いられる。 最後に, 拡張カルマンフィルタ (EKF) を高効率で2つのモデルに実装した。 EuRoC および TUM-VI データセットを用いた実験により,本手法は精度と計算複雑性の両方において,最先端(SOTA) 手法よりも優れていることがわかった。 SchurVINSの実験コードはhttps://github.com/bytedance/SchurVINSで公開されている。

Accuracy and computational efficiency are the most important metrics to Visual Inertial Navigation System (VINS). The existing VINS algorithms with either high accuracy or low computational complexity, are difficult to provide the high precision localization in resource-constrained devices. To this end, we propose a novel filter-based VINS framework named SchurVINS, which could guarantee both high accuracy by building a complete residual model and low computational complexity with Schur complement. Technically, we first formulate the full residual model where Gradient, Hessian and observation covariance are explicitly modeled. Then Schur complement is employed to decompose the full model into ego-motion residual model and landmark residual model. Finally, Extended Kalman Filter (EKF) update is implemented in these two models with high efficiency. Experiments on EuRoC and TUM-VI datasets show that our method notably outperforms state-of-the-art (SOTA) methods in both accuracy and computational complexity. The experimental code of SchurVINS is available at https://github.com/bytedance/SchurVINS.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# UFineBench:超微細粒度テキスト検索を目指して

UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity ( http://arxiv.org/abs/2312.03441v6 )

ライセンス: Link先を確認
Jialong Zuo, Hanyu Zhou, Ying Nie, Feng Zhang, Tianyu Guo, Nong Sang, Yunhe Wang, Changxin Gao, (参考訳) 既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。 これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。 この問題に対処するため,超微細粒度テキストに基づく人物検索のための新しいベンチマーク「textbf{UFineBench}」を提案する。 まず、UFine6926という新しい \textbf{dataset} を構築する。 我々は、多数の人物画像を収集し、各画像に2つの詳細なテキスト記述を手動で注釈付けし、それぞれ80.8語を平均化する。 平均単語数は、前のデータセットの3倍から4倍である。 ドメイン内での標準的な評価に加えて、実際のシナリオをより多く表現する特別な \textbf{evaluation paradigm} も提案する。 クロスドメイン、クロステキストグラニュリティ、クロステキストスタイルを備えた新しい評価セット、UFine3C、平均類似度分布(mSD)と呼ばれる検索能力を正確に測定するための新しい評価指標を含む。 さらに,超きめ細かなテキストを用いたテキストベースの人物検索のために設計した,より効率的な‘textbf{algorithm’であるCFAMを提案する。 共有モードの粒度デコーダとハード負のマッチング機構を採用することにより、微細な粒度マイニングを実現する。 標準のドメイン内評価により、CFAMは様々なデータセット、特に超微細なUFine6926上での競合性能を確立します。 さらに、UFine3Cを評価することにより、UFine6926のトレーニングが、他の粗粒度データセットと比較して、実際のシナリオへの一般化を著しく改善することを示した。 データセットとコードは、 \url{https://github.com/Zplusdragon/UFineBench}で公開される。

Existing text-based person retrieval datasets often have relatively coarse-grained text annotations. This hinders the model to comprehend the fine-grained semantics of query texts in real scenarios. To address this problem, we contribute a new benchmark named \textbf{UFineBench} for text-based person retrieval with ultra-fine granularity. Firstly, we construct a new \textbf{dataset} named UFine6926. We collect a large number of person images and manually annotate each image with two detailed textual descriptions, averaging 80.8 words each. The average word count is three to four times that of the previous datasets. In addition of standard in-domain evaluation, we also propose a special \textbf{evaluation paradigm} more representative of real scenarios. It contains a new evaluation set with cross domains, cross textual granularity and cross textual styles, named UFine3C, and a new evaluation metric for accurately measuring retrieval ability, named mean Similarity Distribution (mSD). Moreover, we propose CFAM, a more efficient \textbf{algorithm} especially designed for text-based person retrieval with ultra fine-grained texts. It achieves fine granularity mining by adopting a shared cross-modal granularity decoder and hard negative match mechanism. With standard in-domain evaluation, CFAM establishes competitive performance across various datasets, especially on our ultra fine-grained UFine6926. Furthermore, by evaluating on UFine3C, we demonstrate that training on our UFine6926 significantly improves generalization to real scenarios compared with other coarse-grained datasets. The dataset and code will be made publicly available at \url{https://github.com/Zplusdragon/UFineBench}.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# エンドツーエンド音声認識のための事前学習音声と言語モデルの統合

Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition ( http://arxiv.org/abs/2312.03668v2 )

ライセンス: Link先を確認
Yukiya Hono, Koh Mitsuda, Tianyu Zhao, Kentaro Mitsui, Toshiaki Wakatsuki, Kei Sawada, (参考訳) 機械学習の進歩により、自動音声認識(ASR)のような様々なテキストおよび音声処理タスクをエンドツーエンド(E2E)で実行できるようになった。 事前学習モデルを用いたE2Eアプローチは、トレーニングデータとリソースの保存に注目を集めている。 しかしながら、ASRにおけるそれらのアプリケーションのほとんどは、事前訓練された音声または言語モデルのいずれかの1つしか含まない。 本稿では,E2E ASRのための事前学習された音声表現モデルと大規模言語モデル(LLM)を統合することを提案する。 提案モデルは,事前学習されたモデルとブリッジネットワークを組み合わせることで,音響特徴抽出や音響・言語モデリングを含むASRプロセス全体の最適化を可能にするとともに,パラメータ効率のよいドメイン適応や推論最適化などのLCM利用における顕著な開発を可能にする。 実験結果から,提案モデルが従来のE2E ASRモデルに匹敵する性能を得ることを示す。

Advances in machine learning have made it possible to perform various text and speech processing tasks, such as automatic speech recognition (ASR), in an end-to-end (E2E) manner. E2E approaches utilizing pre-trained models are gaining attention for conserving training data and resources. However, most of their applications in ASR involve only one of either a pre-trained speech or a language model. This paper proposes integrating a pre-trained speech representation model and a large language model (LLM) for E2E ASR. The proposed model enables the optimization of the entire ASR process, including acoustic feature extraction and acoustic and language modeling, by combining pre-trained models with a bridge network and also enables the application of remarkable developments in LLM utilization, such as parameter-efficient domain adaptation and inference optimization. Experimental results demonstrate that the proposed model achieves a performance comparable to that of modern E2E ASR models by utilizing powerful pre-training models with the proposed integrated approach.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# 2量子Rabiモデルにおける環境誘起量子相転移

Environment induced dynamical quantum phase transitions in two-qubit Rabi model ( http://arxiv.org/abs/2312.05697v2 )

ライセンス: Link先を確認
G. Di Bello, A. Ponticelli, F. Pavan, V. Cataudella, G. De Filippis, A. de Candia, C. A. Perroni, (参考訳) 熱力学平衡を超えた量子状態の物理学は、魅力的な最先端の研究である。 数値的最先端手法を用いて、散逸性2量子ビットRabiモデルにおける動的量子相転移を観察する。 量子ビット-オシレータ結合を焼成することにより、システム(Rabi + Environment)は熱力学的遷移に近いパラメータ値でロシミットエコーの速度関数のキンクによって信号される動的量子相転移を示す。 特に、これらの遷移は2ビットの絡み合いにも現れる。 平衡ではベレツィンスキー-コステリッツ-チューレス型の遷移が起こるが、非平衡条件は量子ビットの相互作用と絡み合いによって、動的臨界現象の2つのクラスを示す。 クォービットが直接相互作用する場合、シンク臨界指数は近傍のイジング鎖を連想させる線形挙動を記述し、短距離相互作用は短時間で支配的となる。 逆に、非相互作用量子ビットは、浴槽によって引き起こされる長距離相互作用により、単体よりもはるかに小さい臨界指数を示す。 これらの発見は、非可積分モデルにおける動的量子相転移の複雑な挙動に光を当て、特異な絡み合いの特徴と環境の重要な役割を示した。

The physics of quantum states beyond thermodynamic equilibrium represents a fascinating and cutting-edge research. Using numerical state-of-the-art approaches, we observe dynamical quantum phase transitions in the dissipative two-qubit Rabi model. By quenching the qubits-oscillator coupling, the system (Rabi + Environment) exhibits dynamical quantum phase transitions signalled by kinks of Loschmidt echo's rate function at parameter values close to thermodynamic transition. Notably, these transitions also manifest in two-qubit entanglement. While at equilibrium one class of Beretzinski-Kosterlitz-Thouless-type transitions occurs, non-equilibrium conditions reveal two classes of dynamical critical phenomena, depending on qubits' interactions and entanglement. When qubits directly interact, the kink critical exponent describes a linear behavior, reminiscent of nearest neighbors Ising chains, with short-range interactions dominating at short times. Conversely, non-interacting qubits exhibit critical exponents much smaller than unity due to bath-induced long-range interactions. These findings shed light on the complex behavior of dynamical quantum phase transitions in non-integrable models, showing unusual entanglement features and the environment's significant role.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# SGLang: 構造化言語モデルプログラムの効率的な実行

SGLang: Efficient Execution of Structured Language Model Programs ( http://arxiv.org/abs/2312.07104v2 )

ライセンス: Link先を確認
Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Chuyue Sun, Jeff Huang, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E. Gonzalez, Clark Barrett, Ying Sheng, (参考訳) 大規模言語モデル(LLM)は、複数の世代コール、高度なプロンプト技術、制御フロー、構造化インプット/出力を必要とする複雑なタスクにますます使われている。 しかし、効率的なシステムはこれらのアプリケーションのプログラミングと実行に欠けている。 本稿では,複雑な言語モデルプログラムの効率的な実行システムであるSGLangを紹介する。 SGLangはフロントエンド言語とランタイムで構成されている。 フロントエンドは、生成と並列制御のためのプリミティブでプログラミングを単純化する。 ランタイムは、KVキャッシュ再利用のためのRadixAttentionや、より高速な構造化出力デコードのために圧縮された有限状態マシンなどの新しい最適化で実行を加速する。 SGLangは、エージェント制御、論理的推論、数ショット学習ベンチマーク、JSONデコーディング、検索拡張生成パイプライン、マルチターンチャットなどのタスクにおける、さまざまな大規模言語やマルチモーダルモデル上での最先端推論システムと比較して、最大6.4倍のスループットを実現している。 コードはhttps://github.com/sgl-project/sglangで公開されている。

Large language models (LLMs) are increasingly used for complex tasks that require multiple generation calls, advanced prompting techniques, control flow, and structured inputs/outputs. However, efficient systems are lacking for programming and executing these applications. We introduce SGLang, a system for efficient execution of complex language model programs. SGLang consists of a frontend language and a runtime. The frontend simplifies programming with primitives for generation and parallelism control. The runtime accelerates execution with novel optimizations like RadixAttention for KV cache reuse and compressed finite state machines for faster structured output decoding. Experiments show that SGLang achieves up to 6.4x higher throughput compared to state-of-the-art inference systems on various large language and multi-modal models on tasks including agent control, logical reasoning, few-shot learning benchmarks, JSON decoding, retrieval-augmented generation pipelines, and multi-turn chat. The code is publicly available at https://github.com/sgl-project/sglang
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# 逆ロバスト画像検索のための崩壊対応トリプルトデカップリング

Collapse-Aware Triplet Decoupling for Adversarially Robust Image Retrieval ( http://arxiv.org/abs/2312.07364v4 )

ライセンス: Link先を確認
Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Chao Shen, (参考訳) 対人訓練は、対人的な例に対して画像検索を擁護する上で大きな成果を上げている。 しかし、ディープ・メトリック・ラーニング(DML)における既存の研究は、弱い逆境とモデル崩壊という2つの大きな限界に悩まされている。 本稿では,Crolapse-Aware TRIplet Decoupling (CA-TRIDE)を提案する。 具体的には、TRIDEは、摂動標的をアンカーと他の候補に空間的に分離することで、より強い敵を得る。 さらに、CAは、摂動の最適化に組み込まれた新しい計量である崩壊性に基づいて、連続モデル崩壊を防止する。 また,画像検索における既存のロバストネス指標の欠点を2つ同定し,より合理的なロバストネス評価のための新しい指標を提案する。 3つのデータセットに対する大規模な実験により、CA-TRIDEは従来のメトリクスと新しいメトリクスの両方において、既存の防御方法よりも優れていることが示された。 コードはhttps://github.com/michaeltian108/CA-TRIDEで公開されている。

Adversarial training has achieved substantial performance in defending image retrieval against adversarial examples. However, existing studies in deep metric learning (DML) still suffer from two major limitations: weak adversary and model collapse. In this paper, we address these two limitations by proposing Collapse-Aware TRIplet DEcoupling (CA-TRIDE). Specifically, TRIDE yields a stronger adversary by spatially decoupling the perturbation targets into the anchor and the other candidates. Furthermore, CA prevents the consequential model collapse, based on a novel metric, collapseness, which is incorporated into the optimization of perturbation. We also identify two drawbacks of the existing robustness metric in image retrieval and propose a new metric for a more reasonable robustness evaluation. Extensive experiments on three datasets demonstrate that CA-TRIDE outperforms existing defense methods in both conventional and new metrics. Codes are available at https://github.com/michaeltian108/CA-TRIDE.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# 前提条件による健康関連クエリのための大規模言語モデルの評価

Evaluating Large Language Models for Health-related Queries with Presuppositions ( http://arxiv.org/abs/2312.08800v2 )

ライセンス: Link先を確認
Navreet Kaur, Monojit Choudhury, Danish Pruthi, (参考訳) 企業が大規模言語モデル(LLM)をサーチオファリングに統合するためには、ユーザが表現できるどんな前提にも堅牢な事実的正確な情報を提供することが重要である。 そこで本研究では,健康関連問合せのデータセットであるUPHILLについて紹介する。 UPHILLを用いて,InstructGPT,ChatGPT,BingChatモデルの実際の精度と一貫性を評価する。 InstructGPTの回答は、偽のクレームの32%、ChatGPTの26%、BingChatの23%と一致している。 InstructGPT と ChatGPT からの応答は,入力クエリにおける事前仮定の程度を増大させるにつれて,その正確性に関わらず,その主張にかなりよく一致する。 検索したWebページに依存しているBingChatからの応答は、それほど受け入れがたいものではない。 適度な事実精度と、モデルが一貫して偽の仮定を正すことができないことを考慮し、当社の作業は、ハイテイクシナリオで使用する現在のLCMを慎重に評価することを求めている。

As corporations rush to integrate large language models (LLMs) to their search offerings, it is critical that they provide factually accurate information that is robust to any presuppositions that a user may express. In this work, we introduce UPHILL, a dataset consisting of health-related queries with varying degrees of presuppositions. Using UPHILL, we evaluate the factual accuracy and consistency of InstructGPT, ChatGPT, and BingChat models. We find that while model responses rarely disagree with true health claims (posed as questions), they often fail to challenge false claims: responses from InstructGPT agree with 32% of the false claims, ChatGPT 26% and BingChat 23%. As we increase the extent of presupposition in input queries, the responses from InstructGPT and ChatGPT agree with the claim considerably more often, regardless of its veracity. Responses from BingChat, which rely on retrieved webpages, are not as susceptible. Given the moderate factual accuracy, and the inability of models to consistently correct false assumptions, our work calls for a careful assessment of current LLMs for use in high-stakes scenarios.
翻訳日:2024-06-08 00:20:02 公開日:2024-06-06
# 2ビット回転ゲートの最適継手切削

Optimal joint cutting of two-qubit rotation gates ( http://arxiv.org/abs/2312.09679v2 )

ライセンス: Link先を確認
Christian Ufrecht, Laura S. Herzog, Daniel D. Scherer, Maniraman Periyasamy, Sebastian Rietsch, Axel Plinge, Christopher Mutschler, (参考訳) 量子回路を小さな独立した断片に分割する回路切断は、現在の量子計算実験をスケールアップするための有望な手段となっている。 本稿では,仮想ゲート・テレポーテーションプロトコルに基づく2ビット回転ゲートの接合切断方式を提案する。 これにより、サンプリングオーバヘッドの以前の上限を著しく低くし、スキームの最適性を証明できる。 さらに,回路分割間の古典的な通信は不要であることを示す。 平行2量子回転ゲートに対しては、CNOTゲートを含む最適アンシラフリー分解を特別な場合として導出する。

Circuit cutting, the partitioning of quantum circuits into smaller independent fragments, has become a promising avenue for scaling up current quantum-computing experiments. Here, we introduce a scheme for joint cutting of two-qubit rotation gates based on a virtual gate-teleportation protocol. By that, we significantly lower the previous upper bounds on the sampling overhead and prove optimality of the scheme. Furthermore, we show that no classical communication between the circuit partitions is required. For parallel two-qubit rotation gates we derive an optimal ancilla-free decomposition, which include CNOT gates as a special case.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# Lever LM: 大規模ビジョン言語モデルを活用するためのインコンテキストシーケンスの設定

Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models ( http://arxiv.org/abs/2312.10104v3 )

ライセンス: Link先を確認
Xu Yang, Yingzhe Peng, Haoxuan Ma, Shuo Xu, Chi Zhang, Yucheng Han, Hanwang Zhang, (参考訳) アルキメデスが言うように、この研究では、67Mパラメータを持つ変換器である小さな言語モデル(LM)である \eg を用いて、はるかに大きな視覚言語モデル(LVLM)を9Bパラメータでレバーすることを提案する。 具体的には、この小さな \textbf{Lever-LM} を用いて、LVLMのインコンテキストリアリング(ICL)性能を改善するために、効果的なインコンテキストデモ(ICD)シーケンスを構成する。 従来の研究では、デモの選択や順序付けのような多様なICD構成がICLのパフォーマンスに大きく影響を与えており、効果的なICDシーケンスの設定の重要性を強調している。 このことから,本手法は人間の文構成のミラープロセスであり,実効性のあるICD構成は,レバー・LMが捉えることのできる内部統計パターンを含む可能性があると仮定する。 次に、効率的なICDシーケンスを持つデータセットを構築して、Levan-LMをトレーニングする。 トレーニングの後、新しいクエリが与えられた後、トレーニングされたLevan-LMによって新しいIDCシーケンスが設定され、ICLを介して視覚言語タスクが解決される。 実験により、これらのICDシーケンスは2つのLVLMのICL性能を視覚質問応答と画像キャプションの強いベースラインと比較し、Levan-LMが実際にLVLMを上昇させる統計的パターンを捉えることができることを示した。

As Archimedes famously said, ``Give me a lever long enough and a fulcrum on which to place it, and I shall move the world'', in this study, we propose to use a tiny Language Model (LM), \eg, a Transformer with 67M parameters, to lever much larger Vision-Language Models (LVLMs) with 9B parameters. Specifically, we use this tiny \textbf{Lever-LM} to configure effective in-context demonstration (ICD) sequences to improve the In-Context Learinng (ICL) performance of LVLMs. Previous studies show that diverse ICD configurations like the selection and ordering of the demonstrations heavily affect the ICL performance, highlighting the significance of configuring effective ICD sequences. Motivated by this and by re-considering the the process of configuring ICD sequence, we find this is a mirror process of human sentence composition and further assume that effective ICD configurations may contain internal statistical patterns that can be captured by Lever-LM. Then a dataset with effective ICD sequences is constructed to train Lever-LM. After training, given novel queries, new ICD sequences are configured by the trained Lever-LM to solve vision-language tasks through ICL. Experiments show that these ICD sequences can improve the ICL performance of two LVLMs compared with some strong baselines in Visual Question Answering and Image Captioning, validating that Lever-LM can really capture the statistical patterns for levering LVLMs.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# 制御系のヒルベルト空間次元と量子SWITCHによるメモリの相互作用

Interplay between the Hilbert-space dimension of the control system and the memory induced by quantum SWITCH ( http://arxiv.org/abs/2312.11685v2 )

ライセンス: Link先を確認
Saheli Mukherjee, Bivas Mallick, Sravani Yanamandra, Samyadeb Bhattacharya, Ananda G. Maity, (参考訳) 近年,様々な情報処理タスクの性能向上のための重要な資源として,量子SWITCHの有用性が実証されている。 量子SWITCHでは、さらなる制御システムによって制御される量子コンポーネントの代替構成のコヒーレントな重ね合わせにより、利点が顕著に現れる。 本稿では,制御系のヒルベルト空間次元が量子SWITCHの性能に与える影響について検討する。 特に、非マルコビアン性の出現を通じて量子SWITCHの量子化器に着目し、制御系のヒルベルト空間次元を増大させるときのそれらの挙動を明示的に研究する。 制御系のヒルベルト空間次元の増大は、それによって引き起こされる非マルコフ記憶の増大につながることを観察する。 本研究は、SWITCHに基づく情報処理や通信タスクを改善するために、制御システムの寸法をどのように活用できるかを示す。

Several recent studies have demonstrated the utility of the quantum SWITCH as an important resource for enhancing the performance of various information processing tasks. In a quantum SWITCH, the advantages appear significantly due to the coherent superposition of alternative configurations of the quantum components which are controlled by an additional control system. Here we explore the impact of increasing the Hilbert-space dimension of the control system on the performance of the quantum SWITCH. In particular, we focus on a quantifier of the quantum SWITCH through the emergence of non-Markovianity and explicitly study their behavior when we increase the Hilbert-space dimension of the control system. We observe that increasing the Hilbert-space dimension of the control system leads to the corresponding enhancement of the non-Markovian memory induced by it. Our study demonstrates how the dimension of the control system can be harnessed to improve the quantum SWITCH-based information processing or communication tasks
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# 拒否する理由? 判断を伴う言語モデルのアライメント

Reasons to Reject? Aligning Language Models with Judgments ( http://arxiv.org/abs/2312.14591v4 )

ライセンス: Link先を確認
Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi, (参考訳) 人間として、私たちは常に仲間と対話し、自然言語の形でフィードバックを受けます。 この言語フィードバックにより、適切な動作を維持し、潜在的なエラーを修正できます。 言語フィードバックを使って大きな言語モデル(LLM)を調整できるだろうか? LLMをスカラー報酬と整合させる以前の研究とは対照的に、私たちは言語フィードバックのレンズ(すなわち判断)を通してアライメントを初めて体系的に検討した。 まず,LLMと判断の整合性に適応可能な潜在的手法の詳細な検討から,これらの手法が判断に完全に乗じることができないことを明らかにする。 判断をより効果的に活用するために,判断に基づく不適切なコンテンツ検出と修正を行うための新しい枠組みであるContrastive Unlikelihood Training (CUT)を提案する。 以上の結果から,CUT(LLaMA2-13b)が175B DaVinci003を上回り,AlpacaEvalの50.84ポイントを超えることが判明した。 CUT (LLaMA2-chat-13b) は、最新のモデル固有の判断を用いてLCMを反復的に調整し、AlpacaEvalの81.09から91.68ポイントのパフォーマンスを向上させる。 さらなる分析により、LLMアライメントにおける評価は報酬よりも大きな可能性を秘めていることが示唆された。

As humans, we consistently interact with our peers and receive feedback in the form of natural language. This language feedback allows us to maintain appropriate behavior, and rectify potential errors. The question arises naturally: can we use language feedback to align large language models (LLMs)? In contrast to previous research that aligns LLMs with scalar rewards, we present the first systematic exploration of alignment through the lens of language feedback (i.e., judgment). We start with an in-depth investigation of potential methods that can be adapted for aligning LLMs with judgments, revealing that these methods cannot fully capitalize on judgments. To facilitate more effective utilization of judgments, we propose a novel framework, Contrastive Unlikelihood Training (CUT), that allows for fine-grained inappropriate content detection and correction based on judgments. Our results show that, with merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B DaVinci003 and surpass the best baseline by 50.84 points on AlpacaEval. CUT (LLaMA2-chat-13b) can also align LLMs in an iterative fashion using up-to-date model-specific judgments, improving performance from 81.09 to 91.68 points on AlpacaEval. Further analysis suggests that judgments hold greater potential than rewards in LLM alignment.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# マルチモーダル・インテント認識のためのモダリティ・アウェア・プロンプトによるトークンレベルコントラスト学習

Token-Level Contrastive Learning with Modality-Aware Prompting for Multimodal Intent Recognition ( http://arxiv.org/abs/2312.14667v2 )

ライセンス: Link先を確認
Qianrui Zhou, Hua Xu, Hao Li, Hanlei Zhang, Xiaohan Zhang, Yifan Wang, Kai Gao, (参考訳) マルチモーダルな意図認識は,実世界のマルチモーダルなシナリオにおいて,人間の言語や行動を理解する上で重要なタスクを構成する,ユーザの意図を理解するために,表現,身体の動き,発話のトーンといった多様なモダリティを活用することを目的としている。 しかしながら、既存の手法の大半は、異なるモダリティ間の潜在的な相関や、非言語的モダリティから意味的特徴を効果的に学習する際の独自の制限を無視している。 本稿では、上記の課題に対処するために、TCL-MAP(Modality-Aware prompting)を用いたトークンレベルのコントラスト学習手法を提案する。 テキスト・モダリティのための最適なマルチモーダル・セマンティック・環境を確立するために,テキスト・ビデオ・オーディオ・モダリティの特徴を類似性に基づくモーダルアライメントと相互モーダルアテンション機構で効果的に整列・融合するモダリティ・アウェア・プロンプト・モジュール(MAP)を開発した。 提案するトークンレベルコントラスト学習フレームワーク(TCL)は,モダリティ対応のプロンプトと基底真理ラベルに基づいて,拡張サンプルを構築し,NT-Xent損失をラベルトークンに適用する。 特に、TCLは、目的ラベルから導かれる最適なテキスト意味的洞察を利用して、他のモダリティの学習プロセスを導出する。 大規模実験により,本手法は最先端手法と比較して顕著な改善が得られた。 さらに、アブレーション解析は、多モーダル・プロンプト学習において重要な意味を持つ手作りプロンプトよりもモダリティ・アウェア・プロンプトの方が優れていることを示す。 コードはhttps://github.com/thuiar/TCL-MAPで公開されている。

Multimodal intent recognition aims to leverage diverse modalities such as expressions, body movements and tone of speech to comprehend user's intent, constituting a critical task for understanding human language and behavior in real-world multimodal scenarios. Nevertheless, the majority of existing methods ignore potential correlations among different modalities and own limitations in effectively learning semantic features from nonverbal modalities. In this paper, we introduce a token-level contrastive learning method with modality-aware prompting (TCL-MAP) to address the above challenges. To establish an optimal multimodal semantic environment for text modality, we develop a modality-aware prompting module (MAP), which effectively aligns and fuses features from text, video and audio modalities with similarity-based modality alignment and cross-modality attention mechanism. Based on the modality-aware prompt and ground truth labels, the proposed token-level contrastive learning framework (TCL) constructs augmented samples and employs NT-Xent loss on the label token. Specifically, TCL capitalizes on the optimal textual semantic insights derived from intent labels to guide the learning processes of other modalities in return. Extensive experiments show that our method achieves remarkable improvements compared to state-of-the-art methods. Additionally, ablation analyses demonstrate the superiority of the modality-aware prompt over the handcrafted prompt, which holds substantial significance for multimodal prompt learning. The codes are released at https://github.com/thuiar/TCL-MAP.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# 速度-歪み-知覚-知覚-分類トレードオフ:逆領域GANによる結合音源符号化と変調

The Rate-Distortion-Perception-Classification Tradeoff: Joint Source Coding and Modulation via Inverse-Domain GANs ( http://arxiv.org/abs/2312.14792v2 )

ライセンス: Link先を確認
Junli Fang, João F. C. Mota, Baoshan Lu, Weicheng Zhang, Xuemin Hong, (参考訳) ジョイントソースチャネルコーディング(JSCC)フレームワークは、ディープラーニングを活用して、ソースとチャネルのコーディングに最適なコードから学習する。 出力信号がバイナリではなく、IQドメインに直接マップされると(複素値)、結果のフレームワークをJSCM(Joint Source coding and modulation)と呼ぶ。 JSCMのシナリオを考察し、RDPCと呼ばれるチャネルレート、歪み、知覚、分類精度の厳密なトレードオフの存在を示す。 次に、このトレードオフをナビゲートする2つの画像圧縮手法を提案する。単純な仮定の下で、トレードオフを特徴付ける最適化問題を直接解決するRDPCOアルゴリズムと、より汎用的で極端な圧縮を実現する逆ドメイン生成対向ネットワーク(ID-GAN)に基づくアルゴリズムである。 シミュレーションの結果は理論的な結果と相関し、両方のアルゴリズムがRDPCのトレードオフを示すことを示した。 また,提案したID-GANアルゴリズムは画像の歪み,知覚,分類精度のバランスを効果的に保ち,従来の分離手法や最近の深部JSCMアーキテクチャを1つ以上の指標で著しく上回っていることを示した。

The joint source-channel coding (JSCC) framework leverages deep learning to learn from data the best codes for source and channel coding. When the output signal, rather than being binary, is directly mapped onto the IQ domain (complex-valued), we call the resulting framework joint source coding and modulation (JSCM). We consider a JSCM scenario and show the existence of a strict tradeoff between channel rate, distortion, perception, and classification accuracy, a tradeoff that we name RDPC. We then propose two image compression methods to navigate that tradeoff: the RDPCO algorithm which, under simple assumptions, directly solves the optimization problem characterizing the tradeoff, and an algorithm based on an inverse-domain generative adversarial network (ID-GAN), which is more general and achieves extreme compression. Simulation results corroborate the theoretical findings, showing that both algorithms exhibit the RDPC tradeoff. They also demonstrate that the proposed ID-GAN algorithm effectively balances image distortion, perception, and classification accuracy, and significantly outperforms traditional separation-based methods and recent deep JSCM architectures in terms of one or more of these metrics.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# 高次統計学から学ぶ:仮説テスト、ランダム特徴、ニューラルネットワーク

Learning from higher-order statistics, efficiently: hypothesis tests, random features, and neural networks ( http://arxiv.org/abs/2312.14922v3 )

ライセンス: Link先を確認
Eszter Székely, Lorenzo Bardone, Federica Gerace, Sebastian Goldt, (参考訳) ニューラルネットワークは高次元データセットにおける統計的パターンの発見に優れる。 実際には、3つ以上の変数間の非ガウス的相関を定量化する高次累積は、ニューラルネットワークの性能において特に重要である。 しかし、高次累積から特徴を抽出するニューラルネットワークは、どの程度効率的か? 我々は,この問題をスパイク累積モデルを用いて検討する。そこで統計学者は,$d$次元入力の次数-$p\ge 4$累積から特権的な方向または「スパイク」を復元する必要がある。 既存の文献は、この問題に広範な統計と計算のギャップがあることを確立した。 統計微分可能性には$n\gtrsim d$サンプルが必要であることを証明し、多項式時間における2つの分布を区別するためには、幅広い種類のアルゴリズム、すなわち低次予想でカバーされるアルゴリズムに対して$n \gtrsim d^2$サンプルが必要である。 数値実験により、ニューラルネットワークは2つの分布を2次サンプルの複雑さで区別することを学ぶ一方で、ランダムな特徴のような「怠慢」な手法は、この状態におけるランダムな推測よりは良くないことが示された。 その結果, ニューラルネットワークは, 高次累積モデルにおける高次相関から効率的に情報を抽出し, 高次累積モデルから学習するために, ニューラルネットワークが必要とするデータ量とランダムな特徴の間に大きなギャップがあることが判明した。

Neural networks excel at discovering statistical patterns in high-dimensional data sets. In practice, higher-order cumulants, which quantify the non-Gaussian correlations between three or more variables, are particularly important for the performance of neural networks. But how efficient are neural networks at extracting features from higher-order cumulants? We study this question in the spiked cumulant model, where the statistician needs to recover a privileged direction or "spike" from the order-$p\ge 4$ cumulants of $d$-dimensional inputs. Existing literature established the presence of a wide statistical-to-computational gap in this problem. We deepen this line of work by finding an exact formula for the likelihood ratio norm which proves that statistical distinguishability requires $n\gtrsim d$ samples, while distinguishing the two distributions in polynomial time requires $n \gtrsim d^2$ samples for a wide class of algorithms, i.e. those covered by the low-degree conjecture. Numerical experiments show that neural networks do indeed learn to distinguish the two distributions with quadratic sample complexity, while "lazy" methods like random features are not better than random guessing in this regime. Our results show that neural networks extract information from higher-ordercorrelations in the spiked cumulant model efficiently, and reveal a large gap in the amount of data required by neural networks and random features to learn from higher-order cumulants.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# SecFormer: 大規模言語モデルのための高速かつ正確なプライバシ保護推論を目指す

SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models ( http://arxiv.org/abs/2401.00793v3 )

ライセンス: Link先を確認
Jinglong Luo, Yehong Zhang, Zhuo Zhang, Jiaqi Zhang, Xin Mu, Hui Wang, Yue Yu, Zenglin Xu, (参考訳) クラウドプラットフォームにホストされる大規模言語モデルを使用して推論サービスを提供することで、特に投資計画や銀行口座の詳細といった機密データに関して、プライバシの懸念がエスカレートしている。 SMPC(Secure Multi-Party Computing)は、推論データとモデルパラメータのプライバシを保護するための、有望なソリューションとして登場した。 しかし、大きな言語モデル、特に Transformer アーキテクチャに基づくモデルに対する SMPC のプライバシ保存推論(PPI)への応用は、性能の大幅な低下や低下につながることが多い。 主にトランスフォーマーアーキテクチャにおける非線形操作の多さによるものであり、SMPCには不適であり、効果的に回避または最適化することが困難である。 そこで我々は,Transformerモデルの高速かつ正確なPPIを実現するために,SecFormerという高度な最適化フレームワークを導入する。 モデル設計最適化を実装することにより、モデル性能を犠牲にすることなく、PPIの高速指数演算と最大演算をうまく除去する。 さらに,GeLUやLayerNorm,SoftmaxなどのPPI内の複素非線形関数を扱うために,セグメント多項式,フーリエ級数,Goldschmidt法を利用する効率的なSMPCプロトコル群を開発した。 我々の広範な実験によると、SecFormerはMPCFormerのパフォーマンスより優れており、BERT$_{\text{BASE}}$とBERT$_{\text{LARGE}}$に対して5.6\%$と24.2\%$がそれぞれ改善されている。 効率面では、SecFormerはBERT$_{\text{BASE}}$とBERT$_{\text{LARGE}}$のPumaよりも3.56倍速い。

With the growing use of large language models hosted on cloud platforms to offer inference services, privacy concerns are escalating, especially concerning sensitive data like investment plans and bank account details. Secure Multi-Party Computing (SMPC) emerges as a promising solution to protect the privacy of inference data and model parameters. However, the application of SMPC in Privacy-Preserving Inference (PPI) for large language models, particularly those based on the Transformer architecture, often leads to considerable slowdowns or declines in performance. This is largely due to the multitude of nonlinear operations in the Transformer architecture, which are not well-suited to SMPC and difficult to circumvent or optimize effectively. To address this concern, we introduce an advanced optimization framework called SecFormer, to achieve fast and accurate PPI for Transformer models. By implementing model design optimization, we successfully eliminate the high-cost exponential and maximum operations in PPI without sacrificing model performance. Additionally, we have developed a suite of efficient SMPC protocols that utilize segmented polynomials, Fourier series and Goldschmidt's method to handle other complex nonlinear functions within PPI, such as GeLU, LayerNorm, and Softmax. Our extensive experiments reveal that SecFormer outperforms MPCFormer in performance, showing improvements of $5.6\%$ and $24.2\%$ for BERT$_{\text{BASE}}$ and BERT$_{\text{LARGE}}$, respectively. In terms of efficiency, SecFormer is 3.56 and 3.58 times faster than Puma for BERT$_{\text{BASE}}$ and BERT$_{\text{LARGE}}$, demonstrating its effectiveness and speed.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# 量子次元のエビデンスに基づく証明

Evidence-based certification of quantum dimensions ( http://arxiv.org/abs/2401.01562v2 )

ライセンス: Link先を確認
Y. S. Teo, H. Jeong, N. Prasannan, B. Brecht, C. Silberhorn, M. Evans, D. Mogilevtsev, L. L. Sanchez-Soto, (参考訳) 未知の量子状態を完全に記述した、合理的に小さなヒルベルト空間を同定することは、効率的な量子情報処理に不可欠である。 完全証拠に基づく離散変数と連続変数の両方に対する一般的な次元認証プロトコルを導入し,実験データにのみ依存する。 ベイズ的相対的信念(英語版)(Bayesian concept of relative belief)を用いて、この状態の有効次元を、データによって規定されるように、後続確率が前よりも大きいような最小の次元とみなす。 相対的信頼性比に関連する後続確率は、これらの比によって得られる証拠の強さを測り、弱い証拠や強い証拠があるかどうか、あるいは特定の次元に対して評価することができる。 スペクトル時間および偏光度測定による実験データを用いて、得られた有効次元に対してベイズ的可算誤差バーを正しく割り当てる方法について実証する。 これにより、相対的信念はあらゆる実験に対して保守的で使いやすいモデル選択法となる。

Identifying a reasonably small Hilbert space that completely describes an unknown quantum state is crucial for efficient quantum information processing. We introduce a general dimension-certification protocol for both discrete and continuous variables that is fully evidence-based, relying solely on the experimental data collected and no other unjustified assumptions whatsoever. Using the Bayesian concept of relative belief, we take the effective dimension of the state as the smallest one such that the posterior probability is larger than the prior, as dictated by the data. The posterior probabilities associated with the relative-belief ratios measure the strength of the evidence provide by these ratios so that we can assess whether there is weak or strong evidence in favor or against a particular dimension. Using experimental data from spectral-temporal and polarimetry measurements, we demonstrate how to correctly assign Bayesian plausible error bars for the obtained effective dimensions. This makes relative belief a conservative and easy-to-use model-selection method for any experiment.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# 制約のないReLU特徴量モデルを用いたクロスエントロピークラス不均衡学習のためのニューラル崩壊

Neural Collapse for Cross-entropy Class-Imbalanced Learning with Unconstrained ReLU Feature Model ( http://arxiv.org/abs/2401.02058v2 )

ライセンス: Link先を確認
Hien Dang, Tho Tran, Tan Nguyen, Nhat Ho, (参考訳) 分類タスクのためのディープニューラルネットワークのトレーニングの現在のパラダイムは、トレーニングエラーが消滅した後でも、トレーニング損失値をゼロにプッシュする経験的リスクを最小化することを含む。 トレーニングの最終段階において、最終層の特徴はクラス平均に崩壊し、これらのクラス平均は単純な等角的タイトフレーム(ETF)の頂点に収束することが観察された。 この現象を神経崩壊(Neural Collapse, NC)と呼ぶ。 この現象を理論的に理解するために、近年の研究では、NCがトレーニング問題のグローバルな解に現れることを証明するために、単純化された制約のない特徴モデルを採用している。 しかし、トレーニングデータセットがクラス不均衡である場合、NCプロパティのいくつかはもはや真実ではない。 例えば、クラス平均幾何学は、損失が収束すると単純なETFから切り離される。 本稿では,制約のないReLU特徴量モデルの下で,NCを不均衡状態に一般化し,クロスエントロピー損失の低減を図る。 この設定では、クラス内特徴の崩壊性は依然として保たれているが、クラス平均は異なる長さの直交ベクトルからなる構造に収束する。 さらに,分類器の重みは,クラスバランス設定においてNCを一般化する各クラスのトレーニングサンプル数に依存するスケーリング係数と集中型クラス平均値に一致していることが判明した。 実践的なアーキテクチャとデータセットの実験を通じて、結果を実証的に証明します。

The current paradigm of training deep neural networks for classification tasks includes minimizing the empirical risk that pushes the training loss value towards zero, even after the training error has been vanished. In this terminal phase of training, it has been observed that the last-layer features collapse to their class-means and these class-means converge to the vertices of a simplex Equiangular Tight Frame (ETF). This phenomenon is termed as Neural Collapse (NC). To theoretically understand this phenomenon, recent works employ a simplified unconstrained feature model to prove that NC emerges at the global solutions of the training problem. However, when the training dataset is class-imbalanced, some NC properties will no longer be true. For example, the class-means geometry will skew away from the simplex ETF when the loss converges. In this paper, we generalize NC to imbalanced regime for cross-entropy loss under the unconstrained ReLU feature model. We prove that, while the within-class features collapse property still holds in this setting, the class-means will converge to a structure consisting of orthogonal vectors with different lengths. Furthermore, we find that the classifier weights are aligned to the scaled and centered class-means with scaling factors depend on the number of training samples of each class, which generalizes NC in the class-balanced setting. We empirically prove our results through experiments on practical architectures and dataset.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# DebugBench: 大規模言語モデルのデバッグ機能を評価する

DebugBench: Evaluating Debugging Capability of Large Language Models ( http://arxiv.org/abs/2401.04621v3 )

ライセンス: Link先を確認
Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Yinxu Pan, Yesai Wu, Haotian Hui, Weichuan Liu, Zhiyuan Liu, Maosong Sun, (参考訳) LLM(Large Language Models)は、例外的なコーディング能力を示す。 しかし、プログラミング能力のもう一つの重要な要素として、LLMのデバッグ能力はいまだに未解明のままである。 LLMのデバッグ能力のこれまでの評価は、データ漏洩のリスク、データセットのスケール、さまざまなテストバグによって大幅に制限されている。 これらの欠陥を克服するために,4,253インスタンスからなるLLMデバッグベンチマークである‘DebugBench’を紹介した。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。 DebugBenchを構築するために、LeetCodeコミュニティからコードスニペットを収集し、GPT-4でバグをソースデータに埋め込んで、厳格な品質チェックを保証します。 ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。 その結果,(1)クローズドソースモデルでは人に比べてデバッグ性能が劣る一方,(2)パスレートスコアが比較的低いこと,(2)デバッグの複雑さがバグカテゴリによって顕著に変動していること,(3)実行時のフィードバックがデバッグ性能に与える影響は必ずしも有用ではないこと,などが判明した。 拡張として、LLMデバッグとコード生成を比較し、クローズドソースモデルに対するそれらの相関関係を強く明らかにする。 これらの発見は、デバッグにおけるLLMの開発に役立つだろう。

Large Language Models (LLMs) have demonstrated exceptional coding capability. However, as another critical component of programming proficiency, the debugging capability of LLMs remains relatively unexplored. Previous evaluations of LLMs' debugging ability are significantly limited by the risk of data leakage, the scale of the dataset, and the variety of tested bugs. To overcome these deficiencies, we introduce `DebugBench', an LLM debugging benchmark consisting of 4,253 instances. It covers four major bug categories and 18 minor types in C++, Java, and Python. To construct DebugBench, we collect code snippets from the LeetCode community, implant bugs into source data with GPT-4, and assure rigorous quality checks. We evaluate two commercial and four open-source models in a zero-shot scenario. We find that (1) while closed-source models exhibit inferior debugging performance compared to humans, open-source models relatively lower pass rate scores; (2) the complexity of debugging notably fluctuates depending on the bug category; (3) incorporating runtime feedback has a clear impact on debugging performance which is not always helpful. As an extension, we also compare LLM debugging and code generation, revealing a strong correlation between them for closed-source models. These findings will benefit the development of LLMs in debugging.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# ソース言語における損失: 機械翻訳の品質を評価する大言語モデル

Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation ( http://arxiv.org/abs/2401.06568v2 )

ライセンス: Link先を確認
Xu Huang, Zhirui Zhang, Xiang Geng, Yichao Du, Jiajun Chen, Shujian Huang, (参考訳) 本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLMs) がソースデータと参照データをどのように活用するかを検討する。 様々な入力モードやモデルタイプにまたがって制御された実験を設計し、粗粒度と細粒度の両方のプロンプトを用いて、ソース情報と参照情報の有用性を識別する。 基準情報は評価精度を著しく向上させるが、驚くべきことに、ソース情報は時として非生産的であり、翻訳評価においてLLMが言語間能力を完全に活用できないことを示す。 微粒化評価と微粒化実験のさらなる分析は、同様の結果を示した。 これらの結果から,LLMの言語間能力を完全に活用し,機械翻訳評価タスクにおける性能向上を図ったLLM研究の方向性が示唆された。

This study investigates how Large Language Models (LLMs) leverage source and reference data in machine translation evaluation task, aiming to better understand the mechanisms behind their remarkable performance in this task. We design the controlled experiments across various input modes and model types, and employ both coarse-grained and fine-grained prompts to discern the utility of source versus reference information. We find that reference information significantly enhances the evaluation accuracy, while surprisingly, source information sometimes is counterproductive, indicating LLMs' inability to fully leverage the cross-lingual capability when evaluating translations. Further analysis of the fine-grained evaluation and fine-tuning experiments show similar results. These findings also suggest a potential research direction for LLMs that fully exploits the cross-lingual capability of LLMs to achieve better performance in machine translation evaluation tasks.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# 品質評価を用いた機械翻訳仮説の組合せ

Don't Rank, Combine! Combining Machine Translation Hypotheses Using Quality Estimation ( http://arxiv.org/abs/2401.06688v2 )

ライセンス: Link先を確認
Giorgos Vernikos, Andrei Popescu-Belis, (参考訳) ニューラルネットワーク翻訳システムは、与えられた原文のターゲット文の確率を推定するが、これらの推定は人間の嗜好と一致しないかもしれない。 この研究は、品質推定基準(QE)を用いて翻訳を合成するQE融合(QE-fusion)を導入する。 QE融合はモデルからサンプリングされた候補のプールを利用し、CometKiwiのようなQEメトリックを使用して、異なる候補のスパンを組み合わせる。 ビームサーチに対するQE融合と,近年の最小ベイズリスク復号化やQE復号化といった手法との比較を行った。 提案手法は,多言語翻訳モデル(PolyLM, XGLM, Llama2, Mistral, ALMA, Tower)や5つの言語ペアを用いた多言語翻訳モデル(NLLB)に適用した場合,COMETおよびBLEURTスコアの変換品質を一貫して向上させる。 特に、QE融合は、多様な出力を生成する能力のため、LLMの大幅な改善を示す。 提案手法は,半数以上の事例において新規翻訳が生成され,多くの候補(5~200)において,他の手法よりも一貫して優れることを示す。 さらに、QE融合はプール内の候補数と線形にスケールすることを実証的に確立する。

Neural machine translation systems estimate probabilities of target sentences given source sentences, yet these estimates may not align with human preferences. This work introduces QE-fusion, a method that synthesizes translations using a quality estimation metric (QE), which correlates better with human judgments. QE-fusion leverages a pool of candidates sampled from a model, combining spans from different candidates using a QE metric such as CometKiwi. We compare QE-fusion against beam search and recent reranking techniques, such as Minimum Bayes Risk decoding or QE-reranking. Our method consistently improves translation quality in terms of COMET and BLEURT scores when applied to large language models (LLMs) used for translation (PolyLM, XGLM, Llama2, Mistral, ALMA, and Tower) and to multilingual translation models (NLLB), over five language pairs. Notably, QE-fusion exhibits larger improvements for LLMs due to their ability to generate diverse outputs. We demonstrate that our approach generates novel translations in over half of the cases and consistently outperforms other methods across varying numbers of candidates (5-200). Furthermore, we empirically establish that QE-fusion scales linearly with the number of candidates in the pool.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# 多要素領域分解に基づく物理インフォームドニューラルネットワークと時間依存問題に対する演算子

Multifidelity domain decomposition-based physics-informed neural networks and operators for time-dependent problems ( http://arxiv.org/abs/2401.07888v2 )

ライセンス: Link先を確認
Alexander Heinlein, Amanda A. Howard, Damien Beecroft, Panos Stinis, (参考訳) 物理インフォームドニューラルネットワーク(PINN)のような微分方程式のニューラルネットワークに基づく離散化では、マルチスケールの問題は困難である。 これは(部分的には)ニューラルネットワークのいわゆるスペクトルバイアスに起因する。 時間依存問題に対するPINNの性能向上のために,多要素積み重ねPINNとドメイン分解に基づく有限基底PINNを組み合わせた。 特に、多忠実度モデルの高忠実度部分を学習するために、時間領域分解を用いる。 振り子と2周波問題とアレン・カーン方程式について検討した。 ドメイン分解アプローチは、PINNと重ね合わせのPINNアプローチを明らかに改善する。 最後に、FBPINNアプローチを多要素物理インフォームドディープオペレータネットワークに拡張できることを実証した。

Multiscale problems are challenging for neural network-based discretizations of differential equations, such as physics-informed neural networks (PINNs). This can be (partly) attributed to the so-called spectral bias of neural networks. To improve the performance of PINNs for time-dependent problems, a combination of multifidelity stacking PINNs and domain decomposition-based finite basis PINNs is employed. In particular, to learn the high-fidelity part of the multifidelity model, a domain decomposition in time is employed. The performance is investigated for a pendulum and a two-frequency problem as well as the Allen-Cahn equation. It can be observed that the domain decomposition approach clearly improves the PINN and stacking PINN approaches. Finally, it is demonstrated that the FBPINN approach can be extended to multifidelity physics-informed deep operator networks.
翻訳日:2024-06-08 00:10:18 公開日:2024-06-06
# 時間反転に基づくハイブリッド量子状態移動における成功確率

Success probabilities in time-reversal based hybrid quantum state transfer ( http://arxiv.org/abs/2401.08110v2 )

ライセンス: Link先を確認
Kevin J. Randles, S. J. van Enk, (参考訳) 空飛ぶ量子ビットで接続された量子ネットワークの2つのメモリノードを考える。 特に、あるノードが生成するフライングキュービットが、次のノードと効率的に接続する前に変換されなければならない場合に関心があります。 このような変換は、量子状態の分布の重要な部分として利用することができ、したがって異なる量子技術を結合するハイブリッド量子ネットワークのノード間の絡み合いとなる。 実際のフライングキュービットのスペクトル形状と理想的な形状の重なり合いによって、どのように、なぜ対面する確率が決定されるのかを示す。 これにより、現実的なエラーによって成功の確率がどのように影響するかを解析的および数値的に分析し、量子ネットワークのハイブリッドノードを接続する際のスキーム(既知の誤り訂正手法と一致する)の有用性を示すことができる。 ここでは、メモリノードがキャビティ内の3レベル原子とフライングキュービットが光子である具体的な実装に焦点を当てる。

We consider two memory nodes of a quantum network connected by flying qubits. We are particularly interested in the case where a flying qubit produced by one node has to be transformed before it can interface efficiently with the next node. Such transformations can be utilized as a key part of the distribution of quantum states and hence entanglement between the nodes of a hybrid quantum network linking together different quantum technologies. We show how and why the probability of interfacing successfully is determined by the overlap of the spectral shape of the actual flying qubit and the ideal shape. This allows us to analytically and numerically analyze how the probability of success is impacted by realistic errors, and show the utility of our scheme (in consonance with known error correction methods) in connecting hybrid nodes of a quantum network. We focus here on a concrete implementation in which the memory nodes consist of three-level atoms in cavities and the flying qubits are photons.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# SAPT:大規模言語モデルのパラメータ効率の良い連続学習のための共有注意フレームワーク

SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models ( http://arxiv.org/abs/2401.08295v3 )

ライセンス: Link先を確認
Weixiang Zhao, Shilong Wang, Yulin Hu, Yanyan Zhao, Bing Qin, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che, (参考訳) 継続的な学習(CL)能力は、動的世界における大規模言語モデル(LLM)の展開に不可欠である。 既存の手法では、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得する学習モジュールと、CLにおける破滅的な忘れと知識伝達の課題に対処することを目的として、テスト入力に対応するタスクを選択する選択モジュールを考案している。 しかし、これらの手法は一つの課題にのみ対処する傾向にあり、2つのモジュールを協調させて破滅的な忘れと知識伝達を同時に効果的に解決する可能性を無視している。 そこで本研究では,新しい共有注意フレームワーク(SAPT, Shared Attention Framework)を提案する。 2つのCLベンチマークの大規模な実験は、SAPTの優位性を示している。 さらに、SAPTは、異なるモデルサイズ(770Mから13B)、異なるモデルアーキテクチャ(T5とLLaMA-2)、見えないタスクにスケールする場合、その優位性を一貫して示しています。

The continual learning (CL) ability is vital for deploying large language models (LLMs) in the dynamic world. Existing methods devise the learning module to acquire task-specific knowledge with parameter-efficient tuning (PET) block and the selection module to pick out the corresponding one for the testing input, aiming at handling the challenges of catastrophic forgetting and knowledge transfer in CL. However, these methods tend to address only one of the challenges, ignoring the potential of aligning the two modules to effectively address catastrophic forgetting and knowledge transfer simultaneously. To this end, we propose a novel Shared Attention Framework (SAPT), to align the PET learning and selection via the Shared Attentive Learning \& Selection module. Extensive Experiments on two CL benchmarks demonstrate the superiority of SAPT. Moreover, SAPT consistently demonstrates its superiority when we scale it to different model sizes (from 770M to 13B), different model architectures (T5 and LLaMA-2) and unseen tasks.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# 従来のベンチマークを超えて: データ-テキスト生成におけるオープンLLMの振る舞いの分析

Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation ( http://arxiv.org/abs/2401.10186v3 )

ライセンス: Link先を確認
Zdeněk Kasner, Ondřej Dušek, (参考訳) 構造化データからコヒーレントで関連するテキストを生成するD2T(Data-to-text)生成タスクにおいて,オープンな大規模言語モデル(LLM)の振る舞いを分析する。 標準ベンチマークによるLLMトレーニングデータの汚染を回避するため,公開APIから新たな構造化データレコードを収集するQuintdを設計した。 オープンLLM(Llama 2、Mistral、Zephyr)は、Quintdで収集された共通フォーマットのデータから、ゼロショット設定で、ゆるやかでコヒーレントなテキストを生成することができる。 人間のアノテーションとGPT-4に基づく基準自由度の両方で、オープンLLMの出力の80%以上は少なくとも1つの意味的誤りを含んでいる。 コード、データ、モデルのアウトプットを公開しています。

We analyze the behaviors of open large language models (LLMs) on the task of data-to-text (D2T) generation, i.e., generating coherent and relevant text from structured data. To avoid the issue of LLM training data contamination with standard benchmarks, we design Quintd - a tool for collecting novel structured data records from public APIs. We find that open LLMs (Llama 2, Mistral, and Zephyr) can generate fluent and coherent texts in zero-shot settings from data in common formats collected with Quintd. However, we show that the semantic accuracy of the outputs is a major issue: both according to human annotators and our reference-free metric based on GPT-4, more than 80% of the outputs of open LLMs contain at least one semantic error. We publicly release the code, data, and model outputs.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# MELODY:多変量時系列によるエンティティレベルオンライン異常検出のためのロバスト半スーパービジョンハイブリッドモデル

MELODY: Robust Semi-Supervised Hybrid Model for Entity-Level Online Anomaly Detection with Multivariate Time Series ( http://arxiv.org/abs/2401.10338v2 )

ライセンス: Link先を確認
Jingchao Ni, Gauthier Guinet, Peihong Jiang, Laurent Callot, Andrey Kan, (参考訳) 大規模なITシステムでは、コードが定期的に更新されるため、ソフトウェアデプロイメントはオンラインサービスにおいて重要なプロセスである。 しかし、欠陥のあるコード変更は、ターゲットサービスのパフォーマンスを低下させ、下流サービスのカスケード障害を引き起こす可能性がある。 したがって、ソフトウェアデプロイメントを包括的に監視し、その異常をタイムリに検出する必要がある。 本稿では,デプロイメントにおける異常検出の問題について検討する。 多変量時系列(MTS)における異常検出のより典型的な問題に対して、エンティティレベル(例えばデプロイメント)のこの異常検出問題に特有の課題を特定することから始める。 ユニークな課題としては、デプロイメントの不均一性、レイテンシの低い寛容性、曖昧な異常定義、限定的な監視などがある。 そこで本研究では,エンティティレベルオンラインアノミクス検出のための半教師付きハイブリッドモデル(MELODY)を提案する。 MELODYはまず、オンライン特徴抽出器によって異なるエンティティのMSSを同じ特徴空間に変換し、新たに提案された半教師付き深層一クラスモデルを用いて異常なエンティティを検出する。 我々は, 1.2M以上の時系列で, クラウドサービスの実データ上でMELODYを評価した。 MELODYの最先端手法に対する相対的なF1スコアの改善は7.6%から56.5%である。 ユーザ評価から,MELODYは大規模オンラインシステムにおけるデプロイメントの監視に適していることが示唆された。

In large IT systems, software deployment is a crucial process in online services as their code is regularly updated. However, a faulty code change may degrade the target service's performance and cause cascading outages in downstream services. Thus, software deployments should be comprehensively monitored, and their anomalies should be detected timely. In this paper, we study the problem of anomaly detection for deployments. We begin by identifying the challenges unique to this anomaly detection problem, which is at entity-level (e.g., deployments), relative to the more typical problem of anomaly detection in multivariate time series (MTS). The unique challenges include the heterogeneity of deployments, the low latency tolerance, the ambiguous anomaly definition, and the limited supervision. To address them, we propose a novel framework, semi-supervised hybrid Model for Entity-Level Online Detection of anomalY (MELODY). MELODY first transforms the MTS of different entities to the same feature space by an online feature extractor, then uses a newly proposed semi-supervised deep one-class model for detecting anomalous entities. We evaluated MELODY on real data of cloud services with 1.2M+ time series. The relative F1 score improvement of MELODY over the state-of-the-art methods ranges from 7.6% to 56.5%. The user evaluation suggests MELODY is suitable for monitoring deployments in large online systems.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# 対称性による2次元の高次例外点

Symmetry-induced higher-order exceptional points in two dimensions ( http://arxiv.org/abs/2401.10913v3 )

ライセンス: Link先を確認
Anton Montag, Flore K. Kunst, (参考訳) 位数$n$ (EP$n$s) の例外点は、固有値と固有ベクトルが結合する点として非エルミート系に現れる。 2(n-1)$2(n-1)$の実制約が課されると、EP2は2次元(2D)に一般化して現れる。 局所対称性は、この数の制約を減らすことが示されている。 本研究では,2次元パラメータ空間における対称性誘起高次EPの出現の完全な特徴付けを行う。 EP2s以外のEP3s、EP4s、EP5sは2Dで安定化できる。 さらに、これらの高次EPは、対称性によって決定される分散と常にペアで現れなければならない。 これらのEPの周りの複雑なスペクトル構造を研究すると、EP3は対称性によってEP2アークと2段と3段のオープンフェルミ構造が伴うことが分かる。 同様に、複数の対称性によって生じるEP4sと密接に関連するEP5sは、エキゾチックなEPアークとオープンなフェルミ構造を伴っている。 いずれの場合も、明示的な例を挙げる。 また、これらのEPのトポロジカル電荷についてコメントし、対称性に保護された高次EPとEP2の類似性と相違について論じる。

Exceptional points of order $n$ (EP$n$s) appear in non-Hermitian systems as points where the eigenvalues and eigenvectors coalesce. They emerge if $2(n-1)$ real constraints are imposed, such that EP2s generically appear in two dimensions (2D). Local symmetries have been shown to reduce this number of constraints. In this work, we provide a complete characterization of the appearance of symmetry-induced higher-order EPs in 2D parameter space. We find that besides EP2s only EP3s, EP4s, and EP5s can be stabilized in 2D. Moreover, these higher-order EPs must always appear in pairs with their dispersion determined by the symmetries. Upon studying the complex spectral structure around these EPs, we find that depending on the symmetry, EP3s are accompanied by EP2 arcs, and two- and three-level open Fermi structures. Similarly, EP4s and closely related EP5s, which arise due to multiple symmetries, are accompanied by exotic EP arcs and open Fermi structures. For each case, we provide an explicit example. We also comment on the topological charge of these EPs, and discuss similarities and differences between symmetry-protected higher-order EPs and EP2s.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# エンド・ツー・エンド中国語ASRとNERにおける大規模言語モデルの利用

Using Large Language Model for End-to-End Chinese ASR and NER ( http://arxiv.org/abs/2401.11382v2 )

ライセンス: Link先を確認
Yuang Li, Jiawei Yu, Min Zhang, Mengxin Ren, Yanqing Zhao, Xiaofeng Zhao, Shimin Tao, Jinsong Su, Hao Yang, (参考訳) 音声トークンをテキストトークンと同じ特徴空間にマッピングすることは、音声モダリティをデコーダのみの大規模言語モデル(LLM)に統合するためのパラダイムとなっている。 もう一つのアプローチは、クロスアテンションを通じて音声機能を組み込んだエンコーダ・デコーダアーキテクチャを使用することである。 しかし、このアプローチは文学においてあまり注目されていない。 本研究では、WhisperエンコーダをChatGLM3に接続し、中国語の自動音声認識(ASR)と名前エンティティ認識(NER)タスクを用いて、これらの2つのアプローチの詳細な比較を行う。 F1スコアなどの従来の指標だけでなく,ASR-NER誤差の詳細な分類法によって評価した。 実験の結果、エンコーダ-デコーダアーキテクチャは、短いコンテキストでデコーダのみのアーキテクチャよりも優れており、一方、デコーダのみのアーキテクチャはLLMの全レイヤをフル活用することで、長いコンテキストから恩恵を受けることがわかった。 LLMを用いることで,エンティティの省略誤差を大幅に低減し,コンバータベースラインと比較してエンティティASRの精度を向上した。 さらに,AISHELL-NERテストセットのSOTA(State-of-the-art)F1スコアの0.805を得た。

Mapping speech tokens to the same feature space as text tokens has become the paradigm for the integration of speech modality into decoder-only large language models (LLMs). An alternative approach is to use an encoder-decoder architecture that incorporates speech features through cross-attention. This approach, however, has received less attention in the literature. In this work, we connect the Whisper encoder with ChatGLM3 and provide in-depth comparisons of these two approaches using Chinese automatic speech recognition (ASR) and name entity recognition (NER) tasks. We evaluate them not only by conventional metrics like the F1 score but also by a novel fine-grained taxonomy of ASR-NER errors. Our experiments reveal that encoder-decoder architecture outperforms decoder-only architecture with a short context, while decoder-only architecture benefits from a long context as it fully exploits all layers of the LLM. By using LLM, we significantly reduced the entity omission errors and improved the entity ASR accuracy compared to the Conformer baseline. Additionally, we obtained a state-of-the-art (SOTA) F1 score of 0.805 on the AISHELL-NER test set by using chain-of-thought (CoT) NER which first infers long-form ASR transcriptions and then predicts NER labels.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# UNIMO-G:マルチモーダル条件拡散による統一画像生成

UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion ( http://arxiv.org/abs/2401.13388v3 )

ライセンス: Link先を確認
Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao, (参考訳) 既存のテキスト間の拡散モデルでは、主にテキストプロンプトから画像を生成する。 しかし、テキスト記述の本質的な簡潔さは、特定の実体や場面のような複雑な詳細で忠実に画像を合成する上での課題を生じさせる。 本稿では,テキスト駆動と主観駆動の両画像生成の統一性を実証した,複数モーダルプロンプトで動作するシンプルなマルチモーダル条件拡散フレームワークであるUNIMO-Gを提案する。 UNIMO-Gは、マルチモーダルプロンプトを符号化するMultimodal Large Language Model(MLLM)と、符号化されたマルチモーダル入力に基づいて画像を生成する条件付きデノナイズ拡散ネットワークの2つのコアコンポーネントから構成される。 まず、大規模テキストイメージペアで事前トレーニングを行い、条件付き画像生成機能を開発し、次にマルチモーダルプロンプトでチューニングを行い、統合された画像生成能力を実現する。 言語接地とイメージセグメンテーションを含む、よく設計されたデータ処理パイプラインを用いて、マルチモーダルプロンプトを構築する。 UNIMO-Gは、テキスト・ツー・イメージ生成とゼロショット・サブジェクト駆動合成の両方に優れており、複数の画像エンティティを含む複雑なマルチモーダルプロンプトから高忠実な画像を生成するのに特に有効である。

Existing text-to-image diffusion models primarily generate images from text prompts. However, the inherent conciseness of textual descriptions poses challenges in faithfully synthesizing images with intricate details, such as specific entities or scenes. This paper presents UNIMO-G, a simple multimodal conditional diffusion framework that operates on multimodal prompts with interleaved textual and visual inputs, which demonstrates a unified ability for both text-driven and subject-driven image generation. UNIMO-G comprises two core components: a Multimodal Large Language Model (MLLM) for encoding multimodal prompts, and a conditional denoising diffusion network for generating images based on the encoded multimodal input. We leverage a two-stage training strategy to effectively train the framework: firstly pre-training on large-scale text-image pairs to develop conditional image generation capabilities, and then instruction tuning with multimodal prompts to achieve unified image generation proficiency. A well-designed data processing pipeline involving language grounding and image segmentation is employed to construct multi-modal prompts. UNIMO-G excels in both text-to-image generation and zero-shot subject-driven synthesis, and is notably effective in generating high-fidelity images from complex multimodal prompts involving multiple image entities.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# VisualWebArena: リアルなビジュアルWebタスク上でのマルチモーダルエージェントの評価

VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks ( http://arxiv.org/abs/2401.13649v2 )

ライセンス: Link先を確認
Jing Yu Koh, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po-Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, Daniel Fried, (参考訳) ウェブ上での行動の計画、推論、実行が可能な自律エージェントは、コンピュータタスクの自動化に有望な道を提供する。 しかし、既存のベンチマークのほとんどはテキストベースのエージェントに重点を置いており、視覚情報を必要とする多くの自然なタスクを無視している。 ほとんどのコンピュータインタフェースが人間の知覚に適していることを考えると、視覚情報はテキストのみのモデルが効果的に活用するのに苦労する方法でテキストデータを増大させることが多い。 このギャップを埋めるため、現実的な \textit{visually grounded task} 上でマルチモーダルな Web エージェントのパフォーマンスを評価するために設計されたベンチマークである VisualWebArena を紹介した。 VisualWebArenaは、多種多様なWebベースのタスクで構成され、自律マルチモーダルエージェントの様々な機能を評価する。 このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。 我々は、複数のマルチモーダルモデルを含む、最先端のLCMベースの自律エージェントを広範囲に評価する。 広範に定量化および定性的分析を行い、テキストのみのLLMエージェントのいくつかの制限を特定し、最先端のマルチモーダル言語エージェントの能力のギャップを明らかにする。 VisualWebArenaは、マルチモーダルな自律型言語エージェントを評価するためのフレームワークを提供し、Webのための強力な自律型エージェントを構築するための洞察を提供する。 私たちのコード、ベースラインモデル、データはhttps://jykoh.com/vwa.comで公開されています。

Autonomous agents capable of planning, reasoning, and executing actions on the web offer a promising avenue for automating computer tasks. However, the majority of existing benchmarks primarily focus on text-based agents, neglecting many natural tasks that require visual information to effectively solve. Given that most computer interfaces cater to human perception, visual information often augments textual data in ways that text-only models struggle to harness effectively. To bridge this gap, we introduce VisualWebArena, a benchmark designed to assess the performance of multimodal web agents on realistic \textit{visually grounded tasks}. VisualWebArena comprises of a set of diverse and complex web-based tasks that evaluate various capabilities of autonomous multimodal agents. To perform on this benchmark, agents need to accurately process image-text inputs, interpret natural language instructions, and execute actions on websites to accomplish user-defined objectives. We conduct an extensive evaluation of state-of-the-art LLM-based autonomous agents, including several multimodal models. Through extensive quantitative and qualitative analysis, we identify several limitations of text-only LLM agents, and reveal gaps in the capabilities of state-of-the-art multimodal language agents. VisualWebArena provides a framework for evaluating multimodal autonomous language agents, and offers insights towards building stronger autonomous agents for the web. Our code, baseline models, and data is publicly available at https://jykoh.com/vwa.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# 正しい視線は時々正しい:シーケンスラベリングのためのデコーダのみのLCMの能力の検討

Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling ( http://arxiv.org/abs/2401.14556v3 )

ライセンス: Link先を確認
David Dukić, Jan Šnajder, (参考訳) マスク付き言語モデリング(MLM)に基づく事前学習言語モデルは、自然言語理解(NLU)タスクに優れている。 微調整されたMLMベースのエンコーダは、因果言語モデリングデコーダを同等の大きさで一貫して上回っているが、最近のデコーダのみの大規模言語モデル(LLM)は、より小さなMLMベースのエンコーダと同等に機能している。 それらの性能は規模によって向上するが、LLMは情報抽出(IE)タスクにおける最先端の成果を達成できず、その多くがシーケンスラベリング(SL)として定式化されている。 LLMの貧弱なSL性能は因果マスキングに起因し、現在のトークンの右側のトークンにモデルが入らないという仮説を立てる。 しかし、SL上でのLLMの性能がどの程度正確に、どの程度改善できるかは、まだ不明である。 我々は,LLM微調整中における因果マスク(CM)を階層的に除去することにより,IEタスク上でのオープンLLMのSL性能を向上させる手法について検討する。 このアプローチは、最先端のSLモデルと競合する性能向上をもたらし、全てのブロックからCM除去結果のマッチングや性能向上を実現している。 その結果,層依存性CM除去によるオープンLCMは,MLMベースのエンコーダや命令調整LDMよりも優れていた。

Pre-trained language models based on masked language modeling (MLM) excel in natural language understanding (NLU) tasks. While fine-tuned MLM-based encoders consistently outperform causal language modeling decoders of comparable size, recent decoder-only large language models (LLMs) perform on par with smaller MLM-based encoders. Although their performance improves with scale, LLMs fall short of achieving state-of-the-art results in information extraction (IE) tasks, many of which are formulated as sequence labeling (SL). We hypothesize that LLMs' poor SL performance stems from causal masking, which prevents the model from attending to tokens on the right of the current token. Yet, how exactly and to what extent LLMs' performance on SL can be improved remains unclear. We explore techniques for improving the SL performance of open LLMs on IE tasks by applying layer-wise removal of the causal mask (CM) during LLM fine-tuning. This approach yields performance gains competitive with state-of-the-art SL models, matching or outperforming the results of CM removal from all blocks. Our findings hold for diverse SL tasks, demonstrating that open LLMs with layer-dependent CM removal outperform strong MLM-based encoders and even instruction-tuned LLMs.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# ReGAL: 一般化可能な抽象化を発見するためのリファクタリングプログラム

ReGAL: Refactoring Programs to Discover Generalizable Abstractions ( http://arxiv.org/abs/2401.16467v2 )

ライセンス: Link先を確認
Elias Stengel-Eskin, Archiki Prasad, Mohit Bansal, (参考訳) 大きな言語モデル(LLM)は、プログラム合成にますます使われているが、有用な抽象化を開発するのに必要なグローバルな視点は欠如している。 スクラッチから冗長コードを生成することは、非効率かつエラーを起こします。 これを解決するために,コードリファクタリングを通じて再利用可能な関数ライブラリを学習する勾配のないReGAL(Refactoring for Generalizable Abstraction Learning)を提案する。 ReGALは、既存のプログラムの小さなセットから学び、実行を通じてその抽象化を反復的に検証し、精査する。 ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。 LOGOグラフィック生成、日付推論、TextCraft(Minecraftベースのテキストゲーム)のMATH、TabMWPの5つのデータセットでは、オープンソースのLLMとプロプライエタリなLLMの両方が、ReGAL関数を持つプログラムを予測する際の精度を改善している。 CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%の絶対精度向上を実現し、3つのドメインのうち2つでGPT-3.5を上回った。 分析の結果、ReGALの抽象化は、頻繁に使用されるサブルーチンと環境動態をカプセル化していることがわかった。

While large language models (LLMs) are increasingly being used for program synthesis, they lack the global view needed to develop useful abstractions; they generally predict programs one at a time, often repeating the same functionality. Generating redundant code from scratch is both inefficient and error-prone. To address this, we propose Refactoring for Generalizable Abstraction Learning (ReGAL), a gradient-free method for learning a library of reusable functions via code refactorization, i.e., restructuring code without changing its execution output. ReGAL learns from a small set of existing programs, iteratively verifying and refining its abstractions via execution. We find that the shared function libraries discovered by ReGAL make programs easier to predict across diverse domains. On five datasets -- LOGO graphics generation, Date reasoning, TextCraft (a Minecraft-based text-game) MATH, and TabMWP -- both open-source and proprietary LLMs improve in accuracy when predicting programs with ReGAL functions. For CodeLlama-13B, ReGAL results in absolute accuracy increases of 11.5% on LOGO, 26.1% on date understanding, and 8.1% on TextCraft, outperforming GPT-3.5 in two of three domains. Our analysis reveals ReGAL's abstractions encapsulate frequently-used subroutines as well as environment dynamics.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# 局所的な電子透かしによる音声クローンの能動的検出

Proactive Detection of Voice Cloning with Localized Watermarking ( http://arxiv.org/abs/2401.17264v2 )

ライセンス: Link先を確認
Robin San Roman, Pierre Fernandez, Alexandre Défossez, Teddy Furon, Tuan Tran, Hady Elsahar, (参考訳) 音声生成モデルの急速に発展する分野では、音声のクローン化のリスクに対して、音声の信頼性を確保する必要がある。 本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。 AudioSealは、サンプルレベルまで局所的な透かし検出を可能にするために、ローカライズロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを採用し、聴覚マスキングにインスパイアされた新しい知覚損失により、AudioSealはより非知覚性を向上できる。 AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。 さらに、AudioSealは高速でシングルパスの検出器で設計されており、既存のモデルよりも高速で2桁高速な検出を実現し、大規模およびリアルタイムのアプリケーションに最適である。

In the rapidly evolving field of speech generative models, there is a pressing need to ensure audio authenticity against the risks of voice cloning. We present AudioSeal, the first audio watermarking technique designed specifically for localized detection of AI-generated speech. AudioSeal employs a generator/detector architecture trained jointly with a localization loss to enable localized watermark detection up to the sample level, and a novel perceptual loss inspired by auditory masking, that enables AudioSeal to achieve better imperceptibility. AudioSeal achieves state-of-the-art performance in terms of robustness to real life audio manipulations and imperceptibility based on automatic and human evaluation metrics. Additionally, AudioSeal is designed with a fast, single-pass detector, that significantly surpasses existing models in speed - achieving detection up to two orders of magnitude faster, making it ideal for large-scale and real-time applications.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# 脳におけるマルチパス解析

Multipath parsing in the brain ( http://arxiv.org/abs/2401.18046v2 )

ライセンス: Link先を確認
Berta Franzluebbers, Donald Dunagan, Miloš Stanojević, Jan Buys, John T. Hale, (参考訳) 人間は言葉ごとの文章を聴く順番で理解する。 この漸進性は、構文的関係に関する一時的な曖昧さを解消することを必要とする。 音声ブックを聴きながら機能的ニューロイメージングを行う人々からの時系列データと、増分生成依存パーサからの予測を関連づけることで、人間がこれらの構文的曖昧さをどのように処理するかを検討する。 特に,1対1の単語理解における遊びにおける構文解析の発達に関する競合仮説を比較した。 この比較は、既存のfMRIデータセットに対してLLM適応符号化を用いて、最先端の依存性パーサから構文的仮定を評価することを含む。 英語と中国語のデータの両方で、マルチパス解析の証拠が見つかる。 この多経路効果に関連する脳領域は、両側上側頭回を含む。

Humans understand sentences word-by-word, in the order that they hear them. This incrementality entails resolving temporary ambiguities about syntactic relationships. We investigate how humans process these syntactic ambiguities by correlating predictions from incremental generative dependency parsers with timecourse data from people undergoing functional neuroimaging while listening to an audiobook. In particular, we compare competing hypotheses regarding the number of developing syntactic analyses in play during word-by-word comprehension: one vs more than one. This comparison involves evaluating syntactic surprisal from a state-of-the-art dependency parser with LLM-adapted encodings against an existing fMRI dataset. In both English and Chinese data, we find evidence for multipath parsing. Brain regions associated with this multipath effect include bilateral superior temporal gyrus.
翻訳日:2024-06-08 00:00:12 公開日:2024-06-06
# 階層型グループのための多群学習

Multi-group Learning for Hierarchical Groups ( http://arxiv.org/abs/2402.00258v2 )

ライセンス: Link先を確認
Samuel Deng, Daniel Hsu, (参考訳) マルチグループ学習モデルは、単一の予測器が複数の、おそらく重複するサブグループ上でうまく一般化しなければならない学習シナリオを定式化する。 我々は、多群学習の研究を、群が階層的に構造化される自然の場合にまで拡張する。 そこで我々は,ほぼ最適なサンプル量を持つ解釈可能かつ決定論的決定木予測器を出力するアルゴリズムを設計する。 次に,アルゴリズムの実証的な評価を行い,階層的なグループ構造を持つ実データセット上で,魅力的な一般化特性を実現する。

The multi-group learning model formalizes the learning scenario in which a single predictor must generalize well on multiple, possibly overlapping subgroups of interest. We extend the study of multi-group learning to the natural case where the groups are hierarchically structured. We design an algorithm for this setting that outputs an interpretable and deterministic decision tree predictor with near-optimal sample complexity. We then conduct an empirical evaluation of our algorithm and find that it achieves attractive generalization properties on real datasets with hierarchical group structure.
翻訳日:2024-06-07 23:50:27 公開日:2024-06-06
# 表現的・トラクタブルな確率的生成モデルの構築

Building Expressive and Tractable Probabilistic Generative Models: A Review ( http://arxiv.org/abs/2402.00759v3 )

ライセンス: Link先を確認
Sahil Sidheekh, Sriraam Natarajan, (参考訳) 本稿では、主に確率回路(PC)に着目した、トラクタブル確率生成モデリングの分野における進歩と技術について包括的調査を行う。 我々は、表現性とトラクタビリティの本質的にのトレードオフについて統一的な視点を提供し、表現的かつ効率的なPCの構築を可能にする設計原則とアルゴリズム拡張を強調し、この分野の分類学を提供する。 我々はまた、ディープ・ニューラル・モデルから概念を融合させることにより、ディープ・ハイブリッドPCを構築するための最近の取り組みについても論じ、この進化する分野における将来の研究を導くための課題とオープンな疑問を概説する。

We present a comprehensive survey of the advancements and techniques in the field of tractable probabilistic generative modeling, primarily focusing on Probabilistic Circuits (PCs). We provide a unified perspective on the inherent trade-offs between expressivity and tractability, highlighting the design principles and algorithmic extensions that have enabled building expressive and efficient PCs, and provide a taxonomy of the field. We also discuss recent efforts to build deep and hybrid PCs by fusing notions from deep neural models, and outline the challenges and open questions that can guide future research in this evolving field.
翻訳日:2024-06-07 23:50:27 公開日:2024-06-06
# 従来の言語モデルと大規模言語モデルを用いた低言語プログラミングに関する実証的研究

An Empirical Study on Low Code Programming using Traditional vs Large Language Model Support ( http://arxiv.org/abs/2402.01156v2 )

ライセンス: Link先を確認
Yongkun Liu, Jiachi Chen, Tingting Bi, John Grundy, Yanlin Wang, Jianxing Yu, Ting Chen, Yutian Tang, Zibin Zheng, (参考訳) 低コードプログラミング(LCP)は、より抽象度の高いモデルを用いたプログラミングであり、結果として、手作業の少ない、より効率的なプログラミングが可能となり、アマチュア開発者にとっての学習の労力を減らした。 多くのLCPツールは急速に進化し、ビジュアルプログラミング言語(VPL)やデモによるプログラミング(PBD)の概念の恩恵を受けている。 ソフトウェア工学における大規模言語モデル(LLM)の使用に対する関心が大幅に高まり、LLMベースのLCPがますます重要になってきています。 しかし、LCPやLCMベースのLCPに対する従来のアプローチの技術的な原則や応用シナリオは大きく異なる。 ユーザによるLCPへの2つのアプローチの適用におけるこれらの重要な違いと特徴を理解することは、LCPプロバイダにとって、既存のLCPツールの改善と新しいLCPツールの開発、適切なLCP技術の選択におけるユーザ支援において不可欠である。 従来のLCPとLCMを併用したLCPの実証的研究を行った。 私たちは過去3年間のStack Overflow(SO)に関する開発者の議論を分析し、従来のLCPとLLMベースのLCP機能と開発者のフィードバックの類似点と相違点を調査しました。 従来の LCP と LLM ベースの LCP では,開発ライフサイクル全体,特に実装フェーズにおいて,適用範囲,制限,使用状況が大きく異なることが判明した。 また,LLMがLCPにどのように影響し,LCPと統合するかについても検討し,VPLとの統合やソフトウェア工学へのLLMエージェントの適用など,LLMベースのLCPの最新技術開発について論じる。

Low-code programming (LCP) refers to programming using models at higher levels of abstraction, resulting in less manual and more efficient programming, and reduced learning effort for amateur developers. Many LCP tools have rapidly evolved and have benefited from the concepts of visual programming languages (VPLs) and programming by demonstration (PBD). With huge increase in interest in using large language models (LLMs) in software engineering, LLM-based LCP has began to become increasingly important. However, the technical principles and application scenarios of traditional approaches to LCP and LLM-based LCP are significantly different. Understanding these key differences and characteristics in the application of the two approaches to LCP by users is crucial for LCP providers in improving existing and developing new LCP tools, and in better assisting users in choosing the appropriate LCP technology. We conducted an empirical study of both traditional LCP and LLM-based LCP. We analyzed developers' discussions on Stack Overflow (SO) over the past three years and then explored the similarities and differences between traditional LCP and LLM-based LCP features and developer feedback. Our findings reveal that while traditional LCP and LLM-based LCP share common primary usage scenarios, they significantly differ in scope, limitations and usage throughout the software development lifecycle, particularly during the implementation phase. We also examine how LLMs impact and integrate with LCP, discussing the latest technological developments in LLM-based LCP, such as its integration with VPLs and the application of LLM Agents in software engineering.
翻訳日:2024-06-07 23:50:27 公開日:2024-06-06
# Spiking CenterNet:オブジェクト検出のための蒸留ボイススパイキングニューラルネットワーク

Spiking CenterNet: A Distillation-boosted Spiking Neural Network for Object Detection ( http://arxiv.org/abs/2402.01287v2 )

ライセンス: Link先を確認
Lennard Bodden, Franziska Schwaiger, Duc Bach Ha, Lars Kreuzberg, Sven Behnke, (参考訳) 最先端のAI、自動運転車、気候変動の時代には、エネルギー効率が良く、小さく、埋め込まれたAIの必要性が高まっている。 Spiking Neural Networks(SNN)は、イベント駆動の情報フローとスパースアクティベーションを備えた、この課題に対処するための有望なアプローチである。 本稿では,イベントデータに対するオブジェクト検出のためのSpking CenterNetを提案する。 SNN CenterNetと効率の良いM2U-Netベースのデコーダを組み合わせる。 我々のモデルは、Propheseeの挑戦的な GEN1 Automotive Detection Dataset において、半分以下のエネルギーを使用しながら、それよりもはるかに優れている。 非喫煙教師の知識をSNNに浸透させると、パフォーマンスがさらに向上する。 我々の知識を最大限に活用するために、我々の研究は、スパイク物体検出の分野で知識蒸留を利用する最初のアプローチである。

In the era of AI at the edge, self-driving cars, and climate change, the need for energy-efficient, small, embedded AI is growing. Spiking Neural Networks (SNNs) are a promising approach to address this challenge, with their event-driven information flow and sparse activations. We propose Spiking CenterNet for object detection on event data. It combines an SNN CenterNet adaptation with an efficient M2U-Net-based decoder. Our model significantly outperforms comparable previous work on Prophesee's challenging GEN1 Automotive Detection Dataset while using less than half the energy. Distilling the knowledge of a non-spiking teacher into our SNN further increases performance. To the best of our knowledge, our work is the first approach that takes advantage of knowledge distillation in the field of spiking object detection.
翻訳日:2024-06-07 23:50:27 公開日:2024-06-06
# ポイントクラウドの課題: 異なる観測空間がロボット学習に与える影響を再考する

Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning ( http://arxiv.org/abs/2402.02500v2 )

ライセンス: Link先を確認
Haoyi Zhu, Yating Wang, Di Huang, Weicai Ye, Wanli Ouyang, Tong He, (参考訳) ロボット学習においては、異なるモダリティの異なる特徴のために観察空間が不可欠であり、政策設計と並行してボトルネックとなる可能性がある。 本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 様々な観測空間がロボット学習に与える影響について検討する。 2つのシミュレータと125のタスクからなるベンチマークであるOBSBenchと、各種エンコーダとポリシーベースラインの標準化パイプラインを紹介する。 多様なコンタクトリッチな操作タスクに関する大規模な実験は、注目すべき傾向を示している。ポイントクラウドベースの手法、最も単純な設計であっても、しばしばRGBやRGB-Dよりも優れています。 この傾向は、スクラッチからのトレーニングと事前トレーニングの利用という、両方のシナリオで続いている。 さらに, 点雲観測は, 様々な幾何学的, 視覚的条件にまたがって, より優れた政策性能とより強力な一般化能力をもたらすことが示唆された。 これらの結果は、3次元の点雲が複雑なロボット作業にとって貴重な観測モダリティであることを示唆している。 また、外観情報と座標情報の両方を組み込むことで、ポイントクラウド法の性能を向上させることも提案する。 私たちは、より汎用的で堅牢なロボットモデルを設計するための貴重な洞察とガイダンスを提供してくれることを願っています。 コードはhttps://github.com/HaoyiZhu/PointCloudMatters.comで入手できる。

In robot learning, the observation space is crucial due to the distinct characteristics of different modalities, which can potentially become a bottleneck alongside policy design. In this study, we explore the influence of various observation spaces on robot learning, focusing on three predominant modalities: RGB, RGB-D, and point cloud. We introduce OBSBench, a benchmark comprising two simulators and 125 tasks, along with standardized pipelines for various encoders and policy baselines. Extensive experiments on diverse contact-rich manipulation tasks reveal a notable trend: point cloud-based methods, even those with the simplest designs, frequently outperform their RGB and RGB-D counterparts. This trend persists in both scenarios: training from scratch and utilizing pre-training. Furthermore, our findings demonstrate that point cloud observations often yield better policy performance and significantly stronger generalization capabilities across various geometric and visual conditions. These outcomes suggest that the 3D point cloud is a valuable observation modality for intricate robotic tasks. We also suggest that incorporating both appearance and coordinate information can enhance the performance of point cloud methods. We hope our work provides valuable insights and guidance for designing more generalizable and robust robotic models. Codes are available at https://github.com/HaoyiZhu/PointCloudMatters.
翻訳日:2024-06-07 23:50:27 公開日:2024-06-06
# BurstAttention: 極端に長いシーケンスのための効率的な分散注意フレームワーク

BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences ( http://arxiv.org/abs/2403.09347v4 )

ライセンス: Link先を確認
Ao Sun, Weilin Zhao, Xu Han, Cheng Yang, Zhiyuan Liu, Chuan Shi, Maosong Sun, (参考訳) 効果的なアテンションモジュールはTransformerベースの大規模言語モデル(LLM)の成功に重要な役割を果たしてきたが、これらのアテンションモジュールの二次時間とメモリの複雑さは、長いシーケンスを処理する際にも問題となる。 ロングシーケンス問題の潜在的な解決策の1つは、分散クラスタを使用して、複数のデバイス(GPUなど)にわたるアテンションモジュールの計算を並列化することである。 しかし、分散アプローチを採用すると、必然的に局所的な注意を格納するためのメモリオーバーヘッドが増加し、局所的な結果をグローバルなものに集約するための通信コストが増大する。 本稿では,グローバルクラスタとローカルデバイスレベルでのメモリアクセスと通信操作を最適化する分散アテンションフレームワークである `BurstAttention' を提案する。 実験では,BurstAttentionと他の競合分散アテンション・ソリューションとの比較を行った。 異なる長さ設定下での実験結果から、BurstAttentionはこれらの競合するベースラインと比較して長いシーケンスを処理する上で大きな利点があり、通信オーバーヘッドを40%削減し、32 X A100で128Kのシーケンス長のトレーニング中に1.37Xのスピードアップを達成した。

Effective attention modules have played a crucial role in the success of Transformer-based large language models (LLMs), but the quadratic time and memory complexities of these attention modules also pose a challenge when processing long sequences. One potential solution for the long sequence problem is to utilize distributed clusters to parallelize the computation of attention modules across multiple devices (e.g., GPUs). However, adopting a distributed approach inevitably introduces extra memory overheads to store local attention results and incurs additional communication costs to aggregate local results into global ones. In this paper, we propose a distributed attention framework named ``BurstAttention'' to optimize memory access and communication operations at both the global cluster and local device levels. In our experiments, we compare BurstAttention with other competitive distributed attention solutions for long sequence processing. The experimental results under different length settings demonstrate that BurstAttention offers significant advantages for processing long sequences compared with these competitive baselines, reducing 40% communication overheads and achieving 1.37 X speedup during training 128K sequence length on 32 X A100.
翻訳日:2024-06-07 23:50:27 公開日:2024-06-06
# 戦術ネットワークにおける空間時間グラフ表現学習の現状と将来予測

Spatial-Temporal Graph Representation Learning for Tactical Networks Future State Prediction ( http://arxiv.org/abs/2403.13872v2 )

ライセンス: Link先を確認
Liu Junhua, Albrethsen Justin, Goh Lincoln, Yau David, Lim Kwan Hui, (参考訳) 戦術的アドホックネットワークにおける資源配分は、その動的およびマルチホップの性質から、ユニークな課題を示す。 将来のネットワーク接続の正確な予測は、そのような環境での効果的な資源配分に不可欠である。 本稿では,ネットワーク状態の空間的特徴と時間的特徴を活用して潜在的戦術行動を効果的に学習する,時空間グラフエンコーダ・デコーダ(STGED)フレームワークを提案する。 STGEDはグラフベースの注意機構を利用して一連の通信ネットワーク状態を空間的にエンコードし、リカレントニューラルネットワークを使って状態の進化を時間的にエンコードする。 広範にわたる実験により,STGED は,戦術通信ネットワークの将来の状態予測タスクに対して,最大99.2\% の精度を達成し,異なる時間ステップの入力に対する大きなマージンでベースラインモデルより一貫して優れることを示した。

Resource allocation in tactical ad-hoc networks presents unique challenges due to their dynamic and multi-hop nature. Accurate prediction of future network connectivity is essential for effective resource allocation in such environments. In this paper, we introduce the Spatial-Temporal Graph Encoder-Decoder (STGED) framework for Tactical Communication Networks that leverages both spatial and temporal features of network states to learn latent tactical behaviors effectively. STGED hierarchically utilizes graph-based attention mechanism to spatially encode a series of communication network states, leverages a recurrent neural network to temporally encode the evolution of states, and a fully-connected feed-forward network to decode the connectivity in the future state. Through extensive experiments, we demonstrate that STGED consistently outperforms baseline models by large margins across different time-steps input, achieving an accuracy of up to 99.2\% for the future state prediction task of tactical communication networks.
翻訳日:2024-06-07 23:50:27 公開日:2024-06-06
# IBM Q上での量子状態のトポロジーと幾何学の直接証明

Direct Probe of Topology and Geometry of Quantum States on IBM Q ( http://arxiv.org/abs/2403.14249v2 )

ライセンス: Link先を確認
Tianqi Chen, Hai-Tao Ding, Ruizhe Shen, Shi-Liang Zhu, Jiangbin Gong, (参考訳) トポロジーと幾何学の概念は、量子物質のエキゾチック相を探索する上で非常に重要である。 様々な実験プラットフォームで研究されているが、現在まで、最小モデルであっても、普遍量子コンピュータ上での位相的および幾何学的性質の直接探索は行われていない。 本研究では、量子幾何テンソル(QGT)の密度行列形式が、量子回路上のパウリ作用素の測定から明示的に再構成可能であることを示す。 次に、IBM量子コンピュータに適した2つのアルゴリズムを提案し、QGTを直接探索する。 第1のアルゴリズムは、特にNISQ(Noisy Intermediate-Scale Quantum)-eraデバイスに適した変分量子アルゴリズムであり、第2のアルゴリズムは、量子想像時間進化に基づく純粋量子アルゴリズムである。 チャーン絶縁体モデルを模擬したIBM Qから得られた明示的な結果を提示し分析する。 この結果から,トランスモン量子ビットを用いた普遍量子コンピュータは,量子系の位相的および幾何学的性質を直接シミュレートし,研究できる可能性が示唆された。

The concepts of topology and geometry are of critical importance in exploring exotic phases of quantum matter. Though they have been investigated on various experimental platforms, to date a direct probe of topological and geometric properties on a universal quantum computer even for a minimum model is still in vain. In this work, we first show that a density matrix form of the quantum geometric tensor (QGT) can be explicitly re-constructed from Pauli operator measurements on a quantum circuit. We then propose two algorithms, suitable for IBM quantum computers, to directly probe QGT. The first algorithm is a variational quantum algorithm particularly suitable for Noisy Intermediate-Scale Quantum (NISQ)-era devices, whereas the second one is a pure quantum algorithm based on quantum imaginary time evolution. Explicit results obtained from IBM Q simulating a Chern insulator model are presented and analysed. Our results indicate that transmon qubit-based universal quantum computers have the potential to directly simulate and investigate topological and geometric properties of a quantum system.
翻訳日:2024-06-07 23:50:27 公開日:2024-06-06
# 室温固体メーザ増幅器

A Room-Temperature Solid-State Maser Amplifier ( http://arxiv.org/abs/2405.07486v2 )

ライセンス: Link先を確認
Tom Day, Maya Isarov, William J. Pappas, Brett C. Johnson, Hiroshi Abe, Takeshi Ohshima, Dane R. McCamey, Arne Laucht, Jarryd J. Pla, (参考訳) メイザーズはかつて低ノイズマイクロ波増幅技術において最先端の最先端を表現していたが、低温冷却の必要性から結局は廃れた。 固体スピン系に基づくメーザーは、スピンの密度が大きく、したがって比較的高いパワーで動作できるため、増幅器として最も効果的に機能する。 固体メーザー発振器は室温で実証されているが、これらの系の連続波増幅は極低温でしか実現されていない。 ここでは室温で動作する連続波固体メーザ増幅器について報告する。 ダイヤモンド結晶中の窒素空孔中心スピンのアンサンブル、強い永久磁石、単純なレーザーダイオードを含む実用的装置を用いて、この偉業を成し遂げる。 本稿では、利得、帯域幅、圧縮電力、雑音温度などの重要な増幅器特性について述べるとともに、室温近量子雑音制限増幅器を本システムで実現する可能性について論じる。 最後に、異なる動作モードでスピンを用いて外部回路のシステムノイズを冷却し、物理的冷却を必要とせずに極低温レベルにすることができることを示す。

Masers once represented the state-of-the-art in low noise microwave amplification technology, but eventually became obsolete due to their need for cryogenic cooling. Masers based on solid-state spin systems perform most effectively as amplifiers, since they provide a large density of spins and can therefore operate at relatively high powers. Whilst solid-state masers oscillators have been demonstrated at room temperature, continuous-wave amplification in these systems has only ever been realized at cryogenic temperatures. Here we report on a continuous-wave solid-state maser amplifier operating at room temperature. We achieve this feat using a practical setup that includes an ensemble of nitrogen-vacancy center spins in a diamond crystal, a strong permanent magnet and simple laser diode. We describe important amplifier characteristics including gain, bandwidth, compression power and noise temperature and discuss the prospects of realizing a room-temperature near-quantum-noise-limited amplifier with this system. Finally, we show that in a different mode of operation the spins can be used to cool the system noise in an external circuit to cryogenic levels, all without the requirement for physical cooling.
翻訳日:2024-06-07 23:50:27 公開日:2024-06-06
# 低マルチリニアランクテンソル近似に対するランダム行列アプローチ

A Random Matrix Approach to Low-Multilinear-Rank Tensor Approximation ( http://arxiv.org/abs/2402.03169v2 )

ライセンス: Link先を確認
Hugo Lebeau, Florent Chatelain, Romain Couillet, (参考訳) 本研究は,計算しきい値近傍の一般的なスパイクテンソルモデルから,植込み低ランク信号の推定を包括的に理解するものである。 本研究では,データテンソルの展開のスペクトルの多次元的挙動を特徴付けるとともに,信号の主方向の検出可能性を規定する関連信号-雑音比を示す。 これらの結果から,非自明な状態下でのマルチリニアSVD (MLSVD) の再構成性能を正確に予測できる。 これは、高階直交反復(HOOI)スキームの初期化として機能し、最良の低次階数近似への収束はその初期化に完全に依存しているため、特に重要である。 HOOI の収束に十分な条件を与え、収束前の反復数は、大次元極限において 1 ドルになる傾向があることを示す。

This work presents a comprehensive understanding of the estimation of a planted low-rank signal from a general spiked tensor model near the computational threshold. Relying on standard tools from the theory of large random matrices, we characterize the large-dimensional spectral behavior of the unfoldings of the data tensor and exhibit relevant signal-to-noise ratios governing the detectability of the principal directions of the signal. These results allow to accurately predict the reconstruction performance of truncated multilinear SVD (MLSVD) in the non-trivial regime. This is particularly important since it serves as an initialization of the higher-order orthogonal iteration (HOOI) scheme, whose convergence to the best low-multilinear-rank approximation depends entirely on its initialization. We give a sufficient condition for the convergence of HOOI and show that the number of iterations before convergence tends to $1$ in the large-dimensional limit.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# 画像の高解像度化、専門家による研究結果

See More Details: Efficient Image Super-Resolution by Experts Mining ( http://arxiv.org/abs/2402.03412v2 )

ライセンス: Link先を確認
Eduard Zamfir, Zongwei Wu, Nancy Mehta, Yulun Zhang, Radu Timofte, (参考訳) 低分解能(LR)入力から高分解能(HR)画像を再構成することは、画像超解像(SR)において大きな課題となる。 近年のアプローチでは、様々な目的のためにカスタマイズされた複雑な操作の有効性が実証されているが、これらの異なる操作の直接的な積み重ねは、その実用性を妨げ、かなりの計算負担をもたらす可能性がある。 そこで本研究では,エキスパートマイニングを用いた効率的なSRモデルであるSeemoReを紹介する。 当社のアプローチは、さまざまなレベルの専門家を戦略的に取り入れ、協調的な方法論を採用しています。 マクロスケールでは、我々の専門家はランクワイドおよび空間的な情報的特徴に対処し、総合的な理解を提供する。 その後、モデルは低位の専門家の混在を活用して、ランク選択の微妙さを掘り下げる。 正確なSRに欠かせない重要な要素を専門に扱うことで、我々のモデルは複雑な機能内詳細を明らかにすることに長けています。 このコラボレーティブなアプローチは、効率的な設定において最小の計算コストで最適性能を達成できる「詳細」の概念を思い起こさせる。 ソースはhttps://github.com/eduardzamfir/seemoredetailsで公開されます。

Reconstructing high-resolution (HR) images from low-resolution (LR) inputs poses a significant challenge in image super-resolution (SR). While recent approaches have demonstrated the efficacy of intricate operations customized for various objectives, the straightforward stacking of these disparate operations can result in a substantial computational burden, hampering their practical utility. In response, we introduce SeemoRe, an efficient SR model employing expert mining. Our approach strategically incorporates experts at different levels, adopting a collaborative methodology. At the macro scale, our experts address rank-wise and spatial-wise informative features, providing a holistic understanding. Subsequently, the model delves into the subtleties of rank choice by leveraging a mixture of low-rank experts. By tapping into experts specialized in distinct key factors crucial for accurate SR, our model excels in uncovering intricate intra-feature details. This collaborative approach is reminiscent of the concept of "see more", allowing our model to achieve an optimal performance with minimal computational costs in efficient settings. The source will be publicly made available at https://github.com/eduardzamfir/seemoredetails
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# ダンス生成のための双方向自己回帰拡散モデル

Bidirectional Autoregressive Diffusion Model for Dance Generation ( http://arxiv.org/abs/2402.04356v3 )

ライセンス: Link先を確認
Canyu Zhang, Youbao Tang, Ning Zhang, Ruei-Sung Lin, Mei Han, Jing Xiao, Song Wang, (参考訳) ダンスは人間の感情を表現するための強力な媒体として機能するが、人生のようなダンスの生成は依然としてかなりの課題である。 近年、拡散モデルは様々な領域で顕著な生成能力を示した。 彼らは、適応可能な多対多の性質のために、人間のモーションジェネレーションを約束します。 それにもかかわらず、現在の拡散に基づく運動生成モデルは、局所的および双方向的な拡張による動きに焦点を絞らず、直接かつ一方向の運動列を直接生成することが多い。 高品質な舞踊の動きを振る舞う際には、音楽的文脈だけでなく、近隣の音楽的な舞踊の動きも考慮する必要がある。 本研究では,音楽間距離生成のための双方向自己回帰拡散モデル (BADM) を提案する。 生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。 提案フレームワークは入力条件と近傍の動作に基づいて新しい動きを生成することができ、個々の動きスライスを反復的に予測し、全ての予測を統合する。 生成されたダンスとビートとの同期性を更に向上させるため、ビート情報を入力として組み込んで、より優れた音楽整列ダンス動作を生成する。 実験結果から,提案モデルが既存の一方向アプローチと比較して最先端性能を達成できることが示唆された。

Dance serves as a powerful medium for expressing human emotions, but the lifelike generation of dance is still a considerable challenge. Recently, diffusion models have showcased remarkable generative abilities across various domains. They hold promise for human motion generation due to their adaptable many-to-many nature. Nonetheless, current diffusion-based motion generation models often create entire motion sequences directly and unidirectionally, lacking focus on the motion with local and bidirectional enhancement. When choreographing high-quality dance movements, people need to take into account not only the musical context but also the nearby music-aligned dance motions. To authentically capture human behavior, we propose a Bidirectional Autoregressive Diffusion Model (BADM) for music-to-dance generation, where a bidirectional encoder is built to enforce that the generated dance is harmonious in both the forward and backward directions. To make the generated dance motion smoother, a local information decoder is built for local motion enhancement. The proposed framework is able to generate new motions based on the input conditions and nearby motions, which foresees individual motion slices iteratively and consolidates all predictions. To further refine the synchronicity between the generated dance and the beat, the beat information is incorporated as an input to generate better music-aligned dance movements. Experimental results demonstrate that the proposed model achieves state-of-the-art performance compared to existing unidirectional approaches on the prominent benchmark for music-to-dance generation.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# グラフトポロジ上の特徴分布がグラフ畳み込みの影響を媒介する:ホモフィリー視点

Feature Distribution on Graph Topology Mediates the Effect of Graph Convolution: Homophily Perspective ( http://arxiv.org/abs/2402.04621v2 )

ライセンス: Link先を確認
Soo Yong Lee, Sunwoo Kim, Fanchen Bu, Jaemin Yoo, Jiliang Tang, Kijung Shin, (参考訳) 同じクラスのノード間の特徴ベクトルをランダムにシャッフルすることはグラフニューラルネットワーク(GNN)にどのように影響するか? この機能は直感的に、グラフトポロジとGNNが学ぶべき機能(A-X依存)の間の依存を乱す。 驚くべきことに、機能シャッフル後のGNN性能の一貫性と顕著な改善が観察された。 GNNへのA-X依存の影響を見落としており、以前の文献ではこの現象について十分な理解が得られていない。 そこで我々は2つの研究課題を提起する。 まず、A-X依存度はどのように測定されるべきか。 第2に、A-X依存はGNNにどのように影響するのか? それに対し私たちは (i)A-X依存の原則的尺度を提案する。 (II)A-X依存を制御するランダムグラフモデルの設計 (iii)A-X依存がグラフの畳み込みとどのように関係するかの理論を確立し、 (iv)理論と整合する実世界のグラフに関する経験的解析。 我々は、A-X依存はグラフ畳み込みの効果を媒介し、より小さい依存はGNNベースのノード分類を改善すると結論付けた。

How would randomly shuffling feature vectors among nodes from the same class affect graph neural networks (GNNs)? The feature shuffle, intuitively, perturbs the dependence between graph topology and features (A-X dependence) for GNNs to learn from. Surprisingly, we observe a consistent and significant improvement in GNN performance following the feature shuffle. Having overlooked the impact of A-X dependence on GNNs, the prior literature does not provide a satisfactory understanding of the phenomenon. Thus, we raise two research questions. First, how should A-X dependence be measured, while controlling for potential confounds? Second, how does A-X dependence affect GNNs? In response, we (i) propose a principled measure for A-X dependence, (ii) design a random graph model that controls A-X dependence, (iii) establish a theory on how A-X dependence relates to graph convolution, and (iv) present empirical analysis on real-world graphs that align with the theory. We conclude that A-X dependence mediates the effect of graph convolution, such that smaller dependence improves GNN-based node classification.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# MLLM-as-a-Judge:ビジョンランゲージベンチマークによるマルチモーダルLCM-as-a-Judgeの評価

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark ( http://arxiv.org/abs/2402.04788v2 )

ライセンス: Link先を確認
Dongping Chen, Ruoxi Chen, Shilin Zhang, Yinuo Liu, Yaochen Wang, Huichi Zhou, Qihui Zhang, Pan Zhou, Yao Wan, Lichao Sun, (参考訳) 近年,MLLM (Multimodal Large Language Models) が注目されている。 しかし、MLLMの実用性を評価することは、主に人間の嗜好に合わせたマルチモーダルベンチマークが欠如していることから、かなりの課題を呈している。 本稿では, LLM における LLM-as-a-Judge の概念からインスピレーションを得て, MLLM-as-a-Judge と呼ばれる新しいベンチマークを導入する。 本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。 さらに, GPT-4Vのような先進モデルにおいても, 多様なバイアス, 幻覚応答, 判断の不整合など, LLMの判定能力の持続的な課題が明らかにされている。 これらの知見は,MLLMを信頼性の高い評価器として扱う前に実施すべき強化の必要性とさらなる研究努力を強調した。 これを踏まえ、審査員として機能するMLLMの領域内での継続的な開発を支援するための追加的な取り組みを提唱する。 コードとデータセットはプロジェクトのホームページで公開されています: \url{https://mllm-judge.github.io/}。

Multimodal Large Language Models (MLLMs) have gained significant attention recently, showing remarkable potential in artificial general intelligence. However, assessing the utility of MLLMs presents considerable challenges, primarily due to the absence of multimodal benchmarks that align with human preferences. Drawing inspiration from the concept of LLM-as-a-Judge within LLMs, this paper introduces a novel benchmark, termed MLLM-as-a-Judge, to assess the ability of MLLMs in assisting judges across diverse modalities, encompassing three distinct tasks: Scoring Evaluation, Pair Comparison, and Batch Ranking. Our study reveals that, while MLLMs demonstrate remarkable human-like discernment in Pair Comparison, there is a significant divergence from human preferences in Scoring Evaluation and Batch Ranking. Furthermore, a closer examination reveals persistent challenges in the judgment capacities of LLMs, including diverse biases, hallucinatory responses, and inconsistencies in judgment, even in advanced models such as GPT-4V. These findings emphasize the pressing need for enhancements and further research efforts to be undertaken before regarding MLLMs as fully reliable evaluators. In light of this, we advocate for additional efforts dedicated to supporting the continuous development within the domain of MLLM functioning as judges. The code and dataset are publicly available at our project homepage: \url{https://mllm-judge.github.io/}.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# パラメータ・ツー・オブザーバブルマップにおける演算子学習の視点

An operator learning perspective on parameter-to-observable maps ( http://arxiv.org/abs/2402.06031v2 )

ライセンス: Link先を確認
Daniel Zhengyu Huang, Nicholas H. Nelsen, Margaret Trautner, (参考訳) パラメタライズド物理モデルのための計算効率の良いサロゲートは、科学と工学において重要な役割を果たす。 オペレータ学習は、関数空間間をマッピングするデータ駆動サロゲートを提供する。 しかし、フルフィールド測定の代わりに、利用可能なデータはモデル入力の有限次元パラメトリゼーションやモデル出力の有限可観測値のみであることが多い。 本稿では,有限次元ベクトル入力や出力に対応可能なフーリエニューラルマッピング(FNM)フレームワークを提案する。 本論文は,本手法の普遍近似定理を考案する。 さらに、多くの応用において、基礎となるパラメータ・可観測(PtO)写像は、偏微分方程式の解作用素のような無限次元作用素を通して暗黙的に定義される。 自然な疑問は、PtOマップをエンドツーエンドに学習することがよりデータ効率が高いか、あるいは最初に解演算子を学習し、次に全フィールド解から可観測性を計算するかである。 線形汎函数のベイズ的非パラメトリック回帰の理論的解析(独立な興味を持つ)は、エンド・ツー・エンドのアプローチが実際により悪いサンプル複雑性を持つ可能性があることを示唆している。 この理論を超えて、3つの非線形PtO写像のFNM近似の数値結果は、本論文が採用する演算子学習の観点の利点を示している。

Computationally efficient surrogates for parametrized physical models play a crucial role in science and engineering. Operator learning provides data-driven surrogates that map between function spaces. However, instead of full-field measurements, often the available data are only finite-dimensional parametrizations of model inputs or finite observables of model outputs. Building on Fourier Neural Operators, this paper introduces the Fourier Neural Mappings (FNMs) framework that is able to accommodate such finite-dimensional vector inputs or outputs. The paper develops universal approximation theorems for the method. Moreover, in many applications the underlying parameter-to-observable (PtO) map is defined implicitly through an infinite-dimensional operator, such as the solution operator of a partial differential equation. A natural question is whether it is more data-efficient to learn the PtO map end-to-end or first learn the solution operator and subsequently compute the observable from the full-field solution. A theoretical analysis of Bayesian nonparametric regression of linear functionals, which is of independent interest, suggests that the end-to-end approach can actually have worse sample complexity. Extending beyond the theory, numerical results for the FNM approximation of three nonlinear PtO maps demonstrate the benefits of the operator learning perspective that this paper adopts.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# 言語エージェント強化のためのエントロピー規則化トークンレベルポリシー最適化

Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement ( http://arxiv.org/abs/2402.06700v4 )

ライセンス: Link先を確認
Muning Wen, Junwei Liao, Cheng Deng, Jun Wang, Weinan Zhang, Ying Wen, (参考訳) 大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。 伝統的なアプローチは、しばしば厳密に設計されたプロンプト、高品質な例、文脈内学習、教師付き微調整(RLHF)のための追加の報酬モデルに依存する。 強化学習(Reinforcement Learning, RL)は、タスク固有の環境に直接関与することで、これらの依存関係を克服するLLMの動的代替手段を提供する。 それでも、大きなハードルに直面している。 1) 探索を必要とする指数的に広大な活動空間から生じる不安定性 2)行動レベルの報酬信号に基づいてトークン単位のクレジットを割り当てることの課題は,報酬の最大化とコーパスデータの正確なモデル化の相違をもたらす。 これらの課題に対応するために,トークンレベルでLLMを最適化するためのエントロピー拡張RL法であるEntropy-Regularized Token-level Policy Optimization (ETPO)を導入する。 ETPOの中心となるのは、RLプロセスと言語モデリングの原則を調和させるように設計された、新しいソフトなベルマンアップデートです。 この手法は、Q関数の更新を粗いアクションレベルの視点からより粒度の細かいトークンレベルの視点へ分解し、最適化整合性の理論的証明に裏付ける。 重要なことに、この分解は行動探索において線形時間の複雑さを生じさせる。 我々は,データサイエンスコード生成を多段階対話タスクのシリーズとしてモデル化するシミュレーション環境におけるETPOの有効性を評価する。 トークンレベルの分解とPPO法の適用の動機について、より詳細な予備研究については、arXiv:2405.15821を参照してください。

Large Language Models (LLMs) have shown promise as intelligent agents in interactive decision-making tasks. Traditional approaches often depend on meticulously designed prompts, high-quality examples, or additional reward models for in-context learning, supervised fine-tuning, or RLHF. Reinforcement learning (RL) presents a dynamic alternative for LLMs to overcome these dependencies by engaging directly with task-specific environments. Nonetheless, it faces significant hurdles: 1) instability stemming from the exponentially vast action space requiring exploration; 2) challenges in assigning token-level credit based on action-level reward signals, resulting in discord between maximizing rewards and accurately modeling corpus data. In response to these challenges, we introduce Entropy-Regularized Token-level Policy Optimization (ETPO), an entropy-augmented RL method tailored for optimizing LLMs at the token level. At the heart of ETPO is our novel per-token soft Bellman update, designed to harmonize the RL process with the principles of language modeling. This methodology decomposes the Q-function update from a coarse action-level view to a more granular token-level perspective, backed by theoretical proof of optimization consistency. Crucially, this decomposition renders linear time complexity in action exploration. We assess the effectiveness of ETPO within a simulated environment that models data science code generation as a series of multi-step interactive tasks; results underline ETPO's potential as a robust method for refining the interactive decision-making capabilities of language agents. For a more detailed preliminary work describing our motivation for token-level decomposition and applying it in PPO methods, please refer to arXiv:2405.15821.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# NICE: コンテキスト内の例を最適化する?

NICE: To Optimize In-Context Examples or Not? ( http://arxiv.org/abs/2402.06733v3 )

ライセンス: Link先を確認
Pragya Srivastava, Satvik Golechha, Amit Deshpande, Amit Sharma, (参考訳) 最近の研究は、文脈内学習と文脈内サンプル(ICE)の最適化が、幅広いタスクにおける大きな言語モデル(LLM)の精度を大幅に向上することを示し、ICE最適化がパフォーマンス向上に不可欠である、という明確なコンセンサスを生み出している。 しかしながら、これらの研究の多くは、プロンプトに与えられた固定的あるいは全くの指示を仮定している。 タスク固有の指示が提供されるとき、ICEを最適化する必要性を調査し、それが減少するリターンをもたらすタスクが多数存在することを明らかにすることで、このコンセンサスに挑戦する。 特に、多様なタスクセットと、徐々に詳細を付加した体系化された命令セットを使用することで、プロンプト命令がより詳細になるにつれて、ICE最適化におけるリターンが減少することがわかった。 この振る舞いを特徴付けるために、与えられた命令からタスクの学習可能性を定量化し、新しいタスクに対して命令やICEを最適化するかを決定するためのヒューリスティックを提供する、正規化不変例選択基準(NICE)を導入する。 タスクが与えられた場合、提案手法はランダムなICEに比べてICEを最適化するの有用性を確実に予測することができる。 私たちのコードはhttps://github.com/microsoft/nice-icl.comで公開されています。

Recent work shows that in-context learning and optimization of in-context examples (ICE) can significantly improve the accuracy of large language models (LLMs) on a wide range of tasks, leading to an apparent consensus that ICE optimization is crucial for better performance. However, most of these studies assume a fixed or no instruction provided in the prompt. We challenge this consensus by investigating the necessity of optimizing ICE when task-specific instructions are provided and find that there are many tasks for which it yields diminishing returns. In particular, using a diverse set of tasks and a systematically created instruction set with gradually added details, we find that as the prompt instruction becomes more detailed, the returns on ICE optimization diminish. To characterize this behavior, we introduce a task-specific metric called Normalized Invariability to Choice of Examples (NICE) that quantifies the learnability of tasks from a given instruction, and provides a heuristic to help decide whether to optimize instructions or ICE for a new task. Given a task, the proposed metric can reliably predict the utility of optimizing ICE compared to using random ICE. Our code is available at https://github.com/microsoft/nice-icl.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# 散発投票のレンズを通して : 判例結果分類における診断・難易度・校正の探索

Through the Lens of Split Vote: Exploring Disagreement, Difficulty and Calibration in Legal Case Outcome Classification ( http://arxiv.org/abs/2402.07214v3 )

ライセンス: Link先を確認
Shanshan Xu, T. Y. S. S Santosh, Oana Ichim, Barbara Plank, Matthias Grabmair, (参考訳) 法的決定では、裁判官が全会一致で決定を下すことができない場合に分裂票(SV)が発生し、様々な法的議論や意見をナビゲートしなければならない弁護士にとって困難を呈する。 ハイテイクなドメインでは、人間とAIシステム間の認識される困難の整合を理解することが、信頼を構築する上で不可欠である。 しかし,既存のNLPキャリブレーション手法は,人間に固有のラベル変動(HLV)を見越して,ヒトの多数派に対して測定された,分類者の予測性能に対する認識に焦点を当てている。 本稿では、自然に観察できる人間の不一致と価値の多元性として、分割投票を考察する。 欧州人権裁判所 (ECHR) から審査員の投票分布を収集し, SV情報を用いた事例結果分類(COC)データセットであるSV-ECHRを提示する。 SV固有のサブカテゴリとの相違の分類を構築した。 さらに、モデルと人間間の認識困難のアライメントと、COCモデルの信頼性と人間の校正を評価する。 我々は、審査員の投票分布との限定的な一致を観察する。 我々の知る限り、法的NLPにおける人間の判断に対する校正の体系的な調査はこれが初めてである。 本研究は,法的な決定課題におけるHLVを考慮したモデル校正の計測と強化について,さらなる研究の必要性を浮き彫りにするものである。

In legal decisions, split votes (SV) occur when judges cannot reach a unanimous decision, posing a difficulty for lawyers who must navigate diverse legal arguments and opinions. In high-stakes domains, understanding the alignment of perceived difficulty between humans and AI systems is crucial to build trust. However, existing NLP calibration methods focus on a classifier's awareness of predictive performance, measured against the human majority class, overlooking inherent human label variation (HLV). This paper explores split votes as naturally observable human disagreement and value pluralism. We collect judges' vote distributions from the European Court of Human Rights (ECHR), and present SV-ECHR, a case outcome classification (COC) dataset with SV information. We build a taxonomy of disagreement with SV-specific subcategories. We further assess the alignment of perceived difficulty between models and humans, as well as confidence- and human-calibration of COC models. We observe limited alignment with the judge vote distribution. To our knowledge, this is the first systematic exploration of calibration to human judgements in legal NLP. Our study underscores the necessity for further research on measuring and enhancing model calibration considering HLV in legal decision tasks.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# T-RAG: LLMトレンチから学んだこと

T-RAG: Lessons from the LLM Trenches ( http://arxiv.org/abs/2402.07483v2 )

ライセンス: Link先を確認
Masoomali Fatehkia, Ji Kim Lucas, Sanjay Chawla, (参考訳) 大規模言語モデル(LLM)は、広範囲のドメインにわたるアプリケーションに言語を組み込もうとする試みを加速させる顕著な言語能力を示している。 重要なアプリケーション領域は、プライベートなエンタープライズドキュメントに対する質問応答であり、主な考慮事項は、オンプレミスにデプロイできるアプリケーション、限られた計算リソース、クエリに正しく応答する堅牢なアプリケーションの必要性である。 Retrieval-Augmented Generation (RAG) は、LLMベースのアプリケーションを構築するための最も顕著なフレームワークである。 RAGの構築は比較的単純ですが、堅牢で信頼性の高いアプリケーションには、広範囲のカスタマイズとアプリケーションドメインの比較的深い知識が必要です。 プライベートな組織文書に対する質問応答のためのLLMアプリケーションの構築とデプロイの経験を共有します。 我々のアプリケーションは、RAGと微調整されたオープンソースLLMを組み合わせています。 さらに,木-RAG(T-RAG)と呼ばれるシステムでは,組織内のエンティティ階層を表現するために木構造を用いる。 これは、組織の階層内のエンティティに関連するユーザクエリに応答する際のコンテキストを強化するためのテキスト記述を生成するために使用される。 Haystackテストのニードルを含む我々の評価は、この組み合わせが単純なRAGや微調整実装よりも優れていることを示している。 最後に,LLMアプリケーション構築の経験から学んだ教訓について紹介する。

Large Language Models (LLM) have shown remarkable language capabilities fueling attempts to integrate them into applications across a wide range of domains. An important application area is question answering over private enterprise documents where the main considerations are data security, which necessitates applications that can be deployed on-prem, limited computational resources and the need for a robust application that correctly responds to queries. Retrieval-Augmented Generation (RAG) has emerged as the most prominent framework for building LLM-based applications. While building a RAG is relatively straightforward, making it robust and a reliable application requires extensive customization and relatively deep knowledge of the application domain. We share our experiences building and deploying an LLM application for question answering over private organizational documents. Our application combines the use of RAG with a finetuned open-source LLM. Additionally, our system, which we call Tree-RAG (T-RAG), uses a tree structure to represent entity hierarchies within the organization. This is used to generate a textual description to augment the context when responding to user queries pertaining to entities within the organization's hierarchy. Our evaluations, including a Needle in a Haystack test, show that this combination performs better than a simple RAG or finetuning implementation. Finally, we share some lessons learned based on our experiences building an LLM application for real-world use.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# CMFeed: 制御可能なマルチモーダルフィードバック合成のためのベンチマークデータセット

CMFeed: A Benchmark Dataset for Controllable Multimodal Feedback Synthesis ( http://arxiv.org/abs/2402.07640v2 )

ライセンス: Link先を確認
Puneet Kumar, Sarthak Malik, Balasubramanian Raman, Xiaobai Li, (参考訳) 制御可能なマルチモーダルフィードバック合成(CMFeed)データセットは、マルチモーダル入力からの感情制御フィードバックの生成を可能にする。 画像、テキスト、人間のコメント、コメントのメタデータ、感情ラベルが含まれる。 マルチモーダル要約、視覚的質問応答、視覚対話、感情認識テキスト生成などの関連タスクのための既存のデータセットには、人間の生成した出力とそのメタデータを使用したトレーニングモデル、CMFeedが対処するギャップが組み込まれていない。 この能力は、人間のような自然反応を理解し、複製するフィードバックシステムを開発する上で重要である。 CMFeedデータセットに基づいて、所望の感情に合わせた文脈対応フィードバックを生成するために、制御可能なフィードバック合成の新しいタスクを定義する。 本稿では,エンコーダ,デコーダ,制御性モジュールからなるベンチマークフィードバック合成システムを提案する。 トランスフォーマーと高速なR-CNNネットワークを使用して特徴を抽出し、感情固有のフィードバックを生成し、感情分類精度77.23%を達成する。 さらに、ランクベースのメトリクスによる関連性評価のための類似モジュールも組み込んだ。

The Controllable Multimodal Feedback Synthesis (CMFeed) dataset enables the generation of sentiment-controlled feedback from multimodal inputs. It contains images, text, human comments, comments' metadata and sentiment labels. Existing datasets for related tasks such as multimodal summarization, visual question answering, visual dialogue, and sentiment-aware text generation do not incorporate training models using human-generated outputs and their metadata, a gap that CMFeed addresses. This capability is critical for developing feedback systems that understand and replicate human-like spontaneous responses. Based on the CMFeed dataset, we define a novel task of controllable feedback synthesis to generate context-aware feedback aligned with the desired sentiment. We propose a benchmark feedback synthesis system comprising encoder, decoder, and controllability modules. It employs transformer and Faster R-CNN networks to extract features and generate sentiment-specific feedback, achieving a sentiment classification accuracy of 77.23%, which is 18.82% higher than models not leveraging the dataset's unique controllability features. Additionally, we incorporate a similarity module for relevance assessment through rank-based metrics.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# Mercury: LLMコード合成のためのコード効率ベンチマーク

Mercury: A Code Efficiency Benchmark for LLM Code Synthesis ( http://arxiv.org/abs/2402.07844v3 )

ライセンス: Link先を確認
Mingzhe Du, Anh Tuan Luu, Bin Ji, Qian Liu, See-Kiong Ng, (参考訳) コードのための大規模言語モデル(Code LLM)を評価する最近の取り組みの中で、既存のベンチマークは主に生成されたコードの機能的正しさに焦点を合わせており、その計算効率の重要性を無視している。 このギャップを埋めるために、コードLLMの最初のコード効率ベンチマークであるMercuryを提示する。 1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴い、ランタイムディストリビューションの包括的な分析を可能にする。 この分布に基づいて,関数の正しさとコード効率を同時に反映するために,実行時毎のパススコアを算出する新たな測度Beyondを導入する。 Mercuryでは、コードLLMがPassで65%、Beyondで50%以下を達成できる。 理想のBeyondスコアがPassスコアと一致していることを考えると、Code LLMは機能的に正しいコードを生成する素晴らしい能力を示すが、その効率に顕著なギャップがあることを示している。 最後に、我々の実証実験により、DPO(Direct Preference Optimization)が、Supervised Fine Tuning(SFT)と比較して、コード効率を高めるための堅牢なベースラインとして機能していることが判明した。 私たちのコードとデータはGitHubで入手可能です。

Amidst the recent strides in evaluating Large Language Models for Code (Code LLMs), existing benchmarks have mainly focused on the functional correctness of generated code, neglecting the importance of their computational efficiency. To fill the gap, we present Mercury, the first code efficiency benchmark for Code LLMs. It comprises 1,889 Python tasks, each accompanied by adequate solutions that serve as real-world efficiency baselines, enabling a comprehensive analysis of the runtime distribution. Based on the distribution, we introduce a new metric Beyond, which computes a runtime-percentile-weighted Pass score to reflect functional correctness and code efficiency simultaneously. On Mercury, leading Code LLMs can achieve 65% on Pass, while less than 50% on Beyond. Given that an ideal Beyond score would be aligned with the Pass score, it indicates that while Code LLMs exhibit impressive capabilities in generating functionally correct code, there remains a notable gap in their efficiency. Finally, our empirical experiments reveal that Direct Preference Optimization (DPO) serves as a robust baseline for enhancing code efficiency compared with Supervised Fine Tuning (SFT), which paves a promising avenue for future exploration of efficient code generation. Our code and data are available on GitHub: https://github.com/Elfsong/Mercury.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# テキスト生成のためのラベル効率の良いモデル選択

Label-Efficient Model Selection for Text Generation ( http://arxiv.org/abs/2402.07891v3 )

ライセンス: Link先を確認
Shir Ashury-Tahan, Ariel Gera, Benjamin Sznajder, Leshem Choshen, Liat Ein-Dor, Eyal Shnarch, (参考訳) 与えられた対象タスクに対するモデル選択は、異なるモデルの出力の品質に関する広範なアノテーションを必要とするため、コストがかかる可能性がある。 DiffUseは、選好アノテーションに基づく候補テキスト生成モデル間の情報決定を効果的に行う方法である。 DiffUseは必要なアノテーション量を削減し、評価を行う上で貴重な時間とリソースを節約します。 DiffUseは、モデル出力間のセマンティックな差異を表す埋め込みをクラスタリングすることで、インテリジェントにインスタンスを選択する。 したがって、選好決定に対してより有益な例のサブセットを特定できる。 提案手法はモデルに依存しず,任意のテキスト生成モデルに適用し,モデル,プロンプト,構成を選択する。 さらに,アノテートするインスタンス数を動的に決定する実用的な反復手法を提案する。 何百ものモデルペアに対する一連の実験では、高い評価信頼性を維持しながら、DiffUseが要求されるアノテーションの数を最大75%削減できることを示した。

Model selection for a given target task can be costly, as it may entail extensive annotation of the quality of outputs of different models. We introduce DiffUse, an efficient method to make an informed decision between candidate text generation models based on preference annotations. DiffUse reduces the required amount of annotations, thus saving valuable time and resources in performing evaluation. DiffUse intelligently selects instances by clustering embeddings that represent the semantic differences between model outputs. Thus, it is able to identify a subset of examples that are more informative for preference decisions. Our method is model-agnostic, and can be applied to any text generation model for selecting between models, prompts and configurations. Moreover, we propose a practical iterative approach for dynamically determining how many instances to annotate. In a series of experiments over hundreds of model pairs, we demonstrate that DiffUse can dramatically reduce the required number of annotations -- by up to 75% -- while maintaining high evaluation reliability.
翻訳日:2024-06-07 23:40:31 公開日:2024-06-06
# グラフニューラルネットワークの準同型数:その基礎について

Homomorphism Counts for Graph Neural Networks: All About That Basis ( http://arxiv.org/abs/2402.08595v4 )

ライセンス: Link先を確認
Emily Jin, Michael Bronstein, Ismail Ilkan Ceylan, Matthias Lanzinger, (参考訳) 多くの研究がグラフニューラルネットワークの特性を調査し、特に表現力に関するいくつかの制限を特定している。 グラフ内の特定のパターン(例えばサイクル)を数えることのできないことは、そのような制限の中心にある。 2つの顕著なパラダイムは、グラフの特徴を部分グラフや準同型パターン数で豊かにすることで、この制限に対処することを目指している。 この研究において、これらのアプローチはいずれもある意味で準最適であることを示し、ターゲットパターンの ``basis'' 内の全ての構造の準同型数を含むよりきめ細かなアプローチについて議論する。 これにより、既存のアプローチと比較して計算複雑性の面で追加のオーバーヘッドを発生させずに、より表現力のあるアーキテクチャが得られる。 ノードレベルおよびグラフレベルのモチーフパラメータに関する一連の理論的結果を証明し、それらを標準ベンチマークデータセット上で実証的に検証する。

A large body of work has investigated the properties of graph neural networks and identified several limitations, particularly pertaining to their expressive power. Their inability to count certain patterns (e.g., cycles) in a graph lies at the heart of such limitations, since many functions to be learned rely on the ability of counting such patterns. Two prominent paradigms aim to address this limitation by enriching the graph features with subgraph or homomorphism pattern counts. In this work, we show that both of these approaches are sub-optimal in a certain sense and argue for a more fine-grained approach, which incorporates the homomorphism counts of all structures in the ``basis'' of the target pattern. This yields strictly more expressive architectures without incurring any additional overhead in terms of computational complexity compared to existing approaches. We prove a series of theoretical results on node-level and graph-level motif parameters and empirically validate them on standard benchmark datasets.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# 転がり拡散モデル

Rolling Diffusion Models ( http://arxiv.org/abs/2402.09470v2 )

ライセンス: Link先を確認
David Ruhe, Jonathan Heek, Tim Salimans, Emiel Hoogeboom, (参考訳) 拡散モデルは最近、ビデオ、流体力学シミュレーション、気候データなどの時間データにますます適用されている。 これらの手法は、拡散過程におけるノイズの量に関して、後続のフレームを等しく扱うのが一般的である。 本稿では,スライディングウインドウを用いた新しいアプローチであるローリング拡散について検討する。 拡散過程は、後続の列に現れるフレームにより多くのノイズを割り当て、生成プロセスが展開する未来の不確実性を反映することによって、時間の経過とともに徐々に悪化する。 テンポラルダイナミクスが複雑である場合、ローリング拡散は標準拡散よりも優れていることを示す。 特に、この結果は、Kinetics-600ビデオデータセットを用いたビデオ予測タスクとカオス流体力学予測実験で実証される。

Diffusion models have recently been increasingly applied to temporal data such as video, fluid mechanics simulations, or climate data. These methods generally treat subsequent frames equally regarding the amount of noise in the diffusion process. This paper explores Rolling Diffusion: a new approach that uses a sliding window denoising process. It ensures that the diffusion process progressively corrupts through time by assigning more noise to frames that appear later in a sequence, reflecting greater uncertainty about the future as the generation process unfolds. Empirically, we show that when the temporal dynamics are complex, Rolling Diffusion is superior to standard diffusion. In particular, this result is demonstrated in a video prediction task using the Kinetics-600 video dataset and in a chaotic fluid dynamics forecasting experiment.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# 最小記述長を用いたニューラルネットワーク形式言語学習における経験論的ギャップのブリッジ化

Bridging the Empirical-Theoretical Gap in Neural Network Formal Language Learning Using Minimum Description Length ( http://arxiv.org/abs/2402.10013v2 )

ライセンス: Link先を確認
Nur Lan, Emmanuel Chemla, Roni Katzir, (参考訳) ニューラルネットワークは多くのタスクに良い近似を与えるが、理論的な研究がそのような完璧な解を特定のアーキテクチャで表現できることを示したとしても、常に完全な一般化に到達できない。 形式言語学習のタスクを用いて、我々は1つの単純な形式言語に注目し、理論上正しい解が実際に一般的に使われる目的の最適性ではないことを示す。 一方、標準目標を最小記述長(MDL)に置き換えると、正しい解が最適となる。

Neural networks offer good approximation to many tasks but consistently fail to reach perfect generalization, even when theoretical work shows that such perfect solutions can be expressed by certain architectures. Using the task of formal language learning, we focus on one simple formal language and show that the theoretically correct solution is in fact not an optimum of commonly used objectives -- even with regularization techniques that according to common wisdom should lead to simple weights and good generalization (L1, L2) or other meta-heuristics (early-stopping, dropout). On the other hand, replacing standard targets with the Minimum Description Length objective (MDL) results in the correct solution being an optimum.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# 両論とも、一般知能を損なうことなく、大規模言語モデルの感情知性を高めること

Both Matter: Enhancing the Emotional Intelligence of Large Language Models without Compromising the General Intelligence ( http://arxiv.org/abs/2402.10073v2 )

ライセンス: Link先を確認
Weixiang Zhao, Zhuojun Li, Shilong Wang, Yang Wang, Yulin Hu, Yanyan Zhao, Chen Wei, Bing Qin, (参考訳) 感情インテリジェンス(EI)は、感情知覚、感情認知、感情表現から構成され、現在の大言語モデル(LLM)ベースの会話型汎用AIアシスタントのユーザインタラクションエクスペリエンスを改善する上で重要な役割を担っている。 これまでの研究は主に、EI関連分類や回帰タスクの微調整による感情知覚能力の向上に重点を置いていた。 しかし、これはEIの不完全な拡張と一般知能(GI)の破滅的な忘れに繋がる。 この目的のために、まず、EIの3つの側面をすべてカバーするタスク命令を含むテキストからテキストまでのEI関連タスクの大規模コレクションである \textsc{EiBench} を紹介した。 そこで, Modular Parameter Expansion と Inter-inter modulation からなる新しい \underline{\textbf{Mo}}dular \underline{\textbf{E}}motional \underline{\textbf{I}}ntelligence enhancement method (\textbf{MoEI}) を提案し, GI を損なわずに LLM の EI を包括的に拡張する。 Flan-T5 と LLaMA-2-Chat の 2 つの LLM ベースアシスタントの広範囲な実験は、GI を維持しながら、EI を改善するための MoEI の有効性を実証している。

Emotional Intelligence (EI), consisting of emotion perception, emotion cognition and emotion expression, plays the critical roles in improving user interaction experience for the current large language model (LLM) based conversational general AI assistants. Previous works mainly focus on raising the emotion perception ability of them via naive fine-tuning on EI-related classification or regression tasks. However, this leads to the incomplete enhancement of EI and catastrophic forgetting of the general intelligence (GI). To this end, we first introduce \textsc{EiBench}, a large-scale collection of EI-related tasks in the text-to-text formation with task instructions that covers all three aspects of EI, which lays a solid foundation for the comprehensive EI enhancement of LLMs. Then a novel \underline{\textbf{Mo}}dular \underline{\textbf{E}}motional \underline{\textbf{I}}ntelligence enhancement method (\textbf{MoEI}), consisting of Modular Parameter Expansion and intra-inter modulation, is proposed to comprehensively enhance the EI of LLMs without compromise their GI. Extensive experiments on two representative LLM-based assistants, Flan-T5 and LLaMA-2-Chat, demonstrate the effectiveness of MoEI to improving EI while maintain GI.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# PRISE:制御における時間的行動抽象化学習のためのLLMスタイルシーケンス圧縮

PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control ( http://arxiv.org/abs/2402.10450v3 )

ライセンス: Link先を確認
Ruijie Zheng, Ching-An Cheng, Hal Daumé III, Furong Huang, Andrey Kolobov, (参考訳) 時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。 本研究では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。 そのため、連続制御ドメインに分散した可変時間の学習スキルのように見えるタスクに、LLMトレーニングパイプラインの微妙ながら重要なコンポーネント -- バイトペアエンコーディング(BPE)による入力トークン化 -- を導入しています。 PRISE(Primitive Sequence Encoding)と呼ばれる手法を導入し、連続的なアクション量子化とBPEを組み合わせて強力なアクション抽象化を学習する。 PRISEがマルチタスクのロボット操作デモから発見したハイレベルスキルは、マルチタスクの模倣学習と、目に見えないタスクにおける数発の模倣学習の両方のパフォーマンスを著しく向上させることを実証的に示す。 私たちのコードはhttps://github.com/FrankZheng2022/PRISE.comで公開されています。

Temporal action abstractions, along with belief state representations, are a powerful knowledge sharing mechanism for sequential decision making. In this work, we propose a novel view that treats inducing temporal action abstractions as a sequence compression problem. To do so, we bring a subtle but critical component of LLM training pipelines -- input tokenization via byte pair encoding (BPE) -- to the seemingly distant task of learning skills of variable time span in continuous control domains. We introduce an approach called Primitive Sequence Encoding (PRISE) that combines continuous action quantization with BPE to learn powerful action abstractions. We empirically show that high-level skills discovered by PRISE from a multitask set of robotic manipulation demonstrations significantly boost the performance of both multitask imitation learning as well as few-shot imitation learning on unseen tasks. Our code is released at https://github.com/FrankZheng2022/PRISE.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# オフセットによる直接参照最適化

Direct Preference Optimization with an Offset ( http://arxiv.org/abs/2402.10571v2 )

ライセンス: Link先を確認
Afra Amini, Tim Vieira, Ryan Cotterell, (参考訳) 直接選好最適化(DPO)は、報酬モデルのトレーニングや強化学習を必要とせずに、大きな言語モデルを人間の選好に合わせるための微調整戦略として成功している。 DPOはもともと定式化され、二進選好データに依存し、言語モデルを微調整することで、好ましくない応答よりも好ましくない応答の可能性を高める。 しかし、すべての選好対が等しいわけではない。 時々、好ましくない反応は、好ましくない反応よりもわずかに良いだけである。 他のケースでは、好みがずっと強くなります。 例えば、ある応答が有害または有害な内容を含む場合、アノテータはその反応を強く好みます。 本稿では,DPOとオフセット(ODPO)を併用したDPOの一般化を提案する。 直感的には、ODPOは、好ましくない応答と好ましくない応答の確率の差がオフセット値より大きいことを要求する。 オフセットは、ある応答が他の応答よりも優先される範囲に基づいて決定される。 様々なタスクに対する実験により、ODPOは言語モデル、特に好みペアの数が限られている場合において、DPOを著しく上回っていることが示唆された。

Direct preference optimization (DPO) is a successful fine-tuning strategy for aligning large language models with human preferences without the need to train a reward model or employ reinforcement learning. DPO, as originally formulated, relies on binary preference data and fine-tunes a language model to increase the likelihood of a preferred response over a dispreferred response. However, not all preference pairs are equal. Sometimes, the preferred response is only slightly better than the dispreferred one. In other cases, the preference is much stronger. For instance, if a response contains harmful or toxic content, the annotator will have a strong preference for that response. In this paper, we propose a generalization of DPO, termed DPO with an offset (ODPO), that does not treat every preference pair equally during fine-tuning. Intuitively, ODPO requires the difference between the likelihood of the preferred and dispreferred response to be greater than an offset value. The offset is determined based on the extent to which one response is preferred over another. Our experiments on various tasks suggest that ODPO significantly outperforms DPO in aligning language models, especially when the number of preference pairs is limited.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# 符号付き重み方向レンズからのドメイン特化アダプタの混合の一般化と有効モデル解析への応用

Generalizability of Mixture of Domain-Specific Adapters from the Lens of Signed Weight Directions and its Application to Effective Model Pruning ( http://arxiv.org/abs/2402.10639v2 )

ライセンス: Link先を確認
Tuc Nguyen, Thai Le, (参考訳) 従来のPLM(Pre-Trained Language Models)に1つの専門知識を組み込むだけでなく、同時に複数のパラメータを組み込む手法として、アダプタに基づくパラメータ効率の高い微調整法が提案されている。 AdapterSoupのような最近の研究は、モデルウェイト平均化による推論において、全てのドメイン固有のアダプタの選択的サブセットのみを混合し、計算効率に優れた新しい未確認領域の性能を最適化することを提案している。 しかし、この出現するウェイトスペースアダプター混合機構の本質的な一般化性は、まだ解明されていない。 そこで本研究では,ドメイン固有のアダプタ混合物のドメイン内評価における一般化性を明らかにするため,包括的解析を行った。 また, 重み符号の差分と混合剤の一般化性との負の相関関係を解析し, ドメイン固有アダプタの内部構造について検討した。

Several parameter-efficient fine-tuning methods based on adapters have been proposed as a streamlined approach to incorporate not only a single specialized knowledge into existing Pre-Trained Language Models (PLMs) but also multiple of them at once. Recent works such as AdapterSoup propose to mix not all but only a selective sub-set of domain-specific adapters during inference via model weight averaging to optimize performance on novel, unseen domains with excellent computational efficiency. However, the essential generalizability of this emerging weight-space adapter mixing mechanism on \textit{unseen, in-domain examples} remains unexplored. Thus, in this study, we conduct a comprehensive analysis to elucidate the generalizability of domain-specific adapter mixtures in in-domain evaluation. We also provide investigations into the inner workings of the mixture of domain-specific adapters by analyzing their weight signs, yielding critical analysis on the negative correlation between their fraction of weight sign difference and their mixtures' generalizability.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# 厳密なスコーリングルールのためのリスク分解による予測的不確実性定量化

Predictive Uncertainty Quantification via Risk Decompositions for Strictly Proper Scoring Rules ( http://arxiv.org/abs/2402.10727v2 )

ライセンス: Link先を確認
Nikita Kotelevskii, Maxim Panov, (参考訳) 予測モデリングにおける不確かさの定量化は、しばしばアドホックな手法に依存している。 本稿では,統計的リスクを通じて不確実性を理解するための理論的アプローチを紹介し,アレータリック(データ関連)とてんかん(モデル関連)の不確かさを区別する。 我々は、ポイントワイズリスクをベイズリスクと過剰リスクに分割する方法を説明します。 特に, 先天的不確実性に関連する過剰なリスクは, Bregmanの発散と一致している。 リスク対策を実際の不確実性推定に転換するために,リスクを後方分布の助けを借りて近似することでベイズ的アプローチを提案する。 提案手法を画像データセット上で検証し,AUROC測定値を用いた分布外および分類誤検出の性能評価を行った。 本研究は,提案手法の有効性を確認し,実世界の応用における不確実性を推定するための実践的ガイダンスを提供する。

Uncertainty quantification in predictive modeling often relies on ad hoc methods as there is no universally accepted formal framework for that. This paper introduces a theoretical approach to understanding uncertainty through statistical risks, distinguishing between aleatoric (data-related) and epistemic (model-related) uncertainties. We explain how to split pointwise risk into Bayes risk and excess risk. In particular, we show that excess risk, related to epistemic uncertainty, aligns with Bregman divergences. To turn considered risk measures into actual uncertainty estimates, we suggest using the Bayesian approach by approximating the risks with the help of posterior distributions. We tested our method on image datasets, evaluating its performance in detecting out-of-distribution and misclassified data using the AUROC metric. Our results confirm the effectiveness of the considered approach and offer practical guidance for estimating uncertainty in real-world applications.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# LLM計画に木探索はいつ有効か : 判別器に依存する

When is Tree Search Useful for LLM Planning? It Depends on the Discriminator ( http://arxiv.org/abs/2402.10890v2 )

ライセンス: Link先を確認
Ziru Chen, Michael White, Raymond Mooney, Ali Payani, Yu Su, Huan Sun, (参考訳) 本稿では,大規模言語モデル (LLM) が,ジェネレータ, 識別器, 計画手法の3つのコンポーネントを持つ言語エージェントフレームワークにおいて, マルチステップ問題をどのように解決するかを検討する。 本稿では,2つの高度な計画手法,反復的修正と木探索の実用性について検討する。 本稿では,これらの2つの手法または簡易な手法を用いて,識別精度がエージェント全体の性能に与える影響を総合的に分析する。 テキスト・ツー・SQL解析と数学的推論という2つの課題の実験では,(1)先進的な計画手法は,少なくとも90%以上の精度で再評価以上の大幅な改善を達成し,(2)現在のLLMの識別能力は,そのような改善を実現するための先進的な計画手法のニーズを満たしていないこと,(3)LLMベースの識別装置では,先進的な計画手法は精度と効率の適切なバランスを取ることができないこと,の2つが示されている。 例えば、他の2つの手法と比較して、木探索は少なくとも10-20倍遅いが、無視可能な性能向上をもたらし、実際の応用を妨げている。 コードとデータはhttps://github.com/OSU-NLP-Group/llm-planning-eval.comで公開されている。

In this paper, we examine how large language models (LLMs) solve multi-step problems under a language agent framework with three components: a generator, a discriminator, and a planning method. We investigate the practical utility of two advanced planning methods, iterative correction and tree search. We present a comprehensive analysis of how discrimination accuracy affects the overall performance of agents when using these two methods or a simpler method, re-ranking. Experiments on two tasks, text-to-SQL parsing and mathematical reasoning, show that: (1) advanced planning methods demand discriminators with at least 90% accuracy to achieve significant improvements over re-ranking; (2) current LLMs' discrimination abilities have not met the needs of advanced planning methods to achieve such improvements; (3) with LLM-based discriminators, advanced planning methods may not adequately balance accuracy and efficiency. For example, compared to the other two methods, tree search is at least 10--20 times slower but leads to negligible performance gains, which hinders its real-world applications. Code and data are available at https://github.com/OSU-NLP-Group/llm-planning-eval.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# コントラストインストラクションチューニング

Contrastive Instruction Tuning ( http://arxiv.org/abs/2402.11138v2 )

ライセンス: Link先を確認
Tianyi Lorena Yan, Fei Wang, James Y. Huang, Wenxuan Zhou, Fan Yin, Aram Galstyan, Wenpeng Yin, Muhao Chen, (参考訳) インストラクションチューニングは、目に見えないタスクにおいて大きな言語モデル(LLM)の性能を改善するための有望なアプローチとして使われてきた。 しかし、現在のLLMは、未確認の命令に対して限られた堅牢性を示し、同じ命令がわずかに異なる形式や言語スタイルで表現されたときに、一貫性のない出力を生成する。 この行動は、LLMのテキストのバリエーションに対する堅牢性の欠如と、見つからない命令に対する一般化性を示しており、信頼性の問題につながる可能性がある。 そこで本研究では,意味的に等価な命令-インスタンスペアの隠れ表現間の類似性を最大化し,意味的に異なる命令間の類似性を最小化するContrastive Instruction Tuningを提案する。 このアプローチを容易にするために,タスク命令を言い換えることで既存のFLANコレクションを増強する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。 コードはhttps://github.com/luka-group/CoIN.comで入手できる。

Instruction tuning has been used as a promising approach to improve the performance of large language models (LLMs) on unseen tasks. However, current LLMs exhibit limited robustness to unseen instructions, generating inconsistent outputs when the same instruction is phrased with slightly varied forms or language styles. This behavior indicates LLMs' lack of robustness to textual variations and generalizability to unseen instructions, potentially leading to trustworthiness issues. Accordingly, we propose Contrastive Instruction Tuning, which maximizes the similarity between the hidden representations of semantically equivalent instruction-instance pairs while minimizing the similarity between semantically different ones. To facilitate this approach, we augment the existing FLAN collection by paraphrasing task instructions. Experiments on the PromptBench benchmark show that CoIN consistently improves LLMs' robustness to unseen instructions with variations across character, word, sentence, and semantic levels by an average of +2.5% in accuracy. Code is available at https://github.com/luka-group/CoIN.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# 言語モデルは言語の物理的操作を学ばない

Language Models Don't Learn the Physical Manifestation of Language ( http://arxiv.org/abs/2402.11349v2 )

ライセンス: Link先を確認
Bruce W. Lee, JaeHyuk Lim, (参考訳) 言語のみのモデルは言語の物理的表現を学ばないと主張する。 本稿では,H-Testと呼ばれる一連のタスクを通して,言語の視覚的聴覚特性を実証的に調査する。 これらの課題は、人間の言語理解とLLMの感覚的に欠く言語理解との根本的なギャップを浮き彫りにする。 私たちの仮説を支持するために。 一 故意理性(思惑の連鎖) 2. 数発の例、または 3. 同じモデルファミリー(LLaMA 2 13B -> LLaMA 2 70B)のLLMは,H-Testの性能に有意な影響を与えない。 私たちは、言語のみのモデルが世界についてどのように学習するかを理解するのに有用な概念的枠組みとして、感覚を欠いた環境で世界を学ぶMaryの哲学的ケースを持ち込みます(Jackson, 1986)。 実験の結果,最強プロプライエタリなLSMは50%の確率基準精度に近づき,感覚経験の欠如によって得られた言語知識の限界を浮き彫りにした。 コードとデータは<github.com/brucewlee/h-test>で利用可能です。

We argue that language-only models don't learn the physical manifestation of language. We present an empirical investigation of visual-auditory properties of language through a series of tasks, termed H-Test. These tasks highlight a fundamental gap between human linguistic understanding and the sensory-deprived linguistic understanding of LLMs. In support of our hypothesis, 1. deliberate reasoning (Chain-of-Thought), 2. few-shot examples, or 3. stronger LLM from the same model family (LLaMA 2 13B -> LLaMA 2 70B) has no significant effect on H-Test performance. We bring in the philosophical case of Mary, who learns about the world in a sensory-deprived environment as a useful conceptual framework to understand how language-only models learn about the world (Jackson, 1986). Our experiments show that some of the strongest proprietary LLMs stay near random chance baseline accuracy of 50%, highlighting the limitations of linguistic knowledge acquired in the absence of sensory experience. Our code and data are available at <github.com/brucewlee/h-test>.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# 長期連続予測のためのトラクターメモリ:カオス的視点

Attractor Memory for Long-Term Time Series Forecasting: A Chaos Perspective ( http://arxiv.org/abs/2402.11463v4 )

ライセンス: Link先を確認
Jiaxi Hu, Yuehong Hu, Wei Chen, Ming Jin, Shirui Pan, Qingsong Wen, Yuxuan Liang, (参考訳) 長期間の時系列予測(LTSF)タスクでは、離散時系列は連続力学系に由来すると認識され、それらの動的構造をモデル化しようとするモデルが増えている。 実世界のデータのカオス性を認識し、カオス理論をLTSFに組み込んで、未知の高次元カオス力学系からの観測として実世界の時系列を知覚する。 アトラオスは、非パラメトリック位相空間再構成とマルチスケール動的メモリユニットを用いて、歴史的力学構造を記憶し、周波数を拡大した局所進化戦略によって予測する。 詳細な理論的分析と豊富な経験的証拠は、Attraosが主流のLTSFデータセットやカオスデータセットにおいて、PatchTSTと比較してたったの12分の1のパラメータで、LTSFメソッドよりも優れていることを一貫して示している。

In long-term time series forecasting (LTSF) tasks, an increasing number of models have acknowledged that discrete time series originate from continuous dynamic systems and have attempted to model their dynamical structures. Recognizing the chaotic nature of real-world data, our model, \textbf{\textit{Attraos}}, incorporates chaos theory into LTSF, perceiving real-world time series as observations from unknown high-dimensional chaotic dynamic systems. Under the concept of attractor invariance, Attraos utilizes non-parametric Phase Space Reconstruction embedding and the proposed multi-scale dynamic memory unit to memorize historical dynamics structure and predicts by a frequency-enhanced local evolution strategy. Detailed theoretical analysis and abundant empirical evidence consistently show that Attraos outperforms various LTSF methods on mainstream LTSF datasets and chaotic datasets with only one-twelfth of the parameters compared to PatchTST.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-06
# LEIA:エンティティベースのデータ拡張による言語モデルにおける言語間知識伝達の実現

LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation ( http://arxiv.org/abs/2402.11485v2 )

ライセンス: Link先を確認
Ikuya Yamada, Ryokan Ri, (参考訳) 英語をベースとした大規模言語モデル(LLM)を他の言語に適応させることは、言語間移動の効率性と可能性から、ますます人気が高まっている。 しかし、既存の言語適応手法はしばしば言語間監督の利点を見落としている。 本研究では,言語間で一致したウィキペディアのエンティティ名を利用する言語適応チューニング手法であるLEIAを紹介する。 この方法は、ターゲット言語コーパスを英語のエンティティ名で拡張し、左から右への言語モデリングを用いてモデルを訓練することを含む。 7Bパラメータ LLM を用いて多様な質問応答データセット上でLEIAを評価し,英語以外の言語で顕著な性能向上を示した。 ソースコードはhttps://github.com/studio-ousia/leia.comで公開されている。

Adapting English-based large language models (LLMs) to other languages has become increasingly popular due to the efficiency and potential of cross-lingual transfer. However, existing language adaptation methods often overlook the benefits of cross-lingual supervision. In this study, we introduce LEIA, a language adaptation tuning method that utilizes Wikipedia entity names aligned across languages. This method involves augmenting the target language corpus with English entity names and training the model using left-to-right language modeling. We assess LEIA on diverse question answering datasets using 7B-parameter LLMs, demonstrating significant performance gains across various non-English languages. The source code is available at https://github.com/studio-ousia/leia.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# Knowledge-to-SQL: データエキスパートLLMによるSQL生成の強化

Knowledge-to-SQL: Enhancing SQL Generation with Data Expert LLM ( http://arxiv.org/abs/2402.11517v3 )

ライセンス: Link先を確認
Zijin Hong, Zheng Yuan, Hao Chen, Qinggang Zhang, Feiran Huang, Xiao Huang, (参考訳) ユーザの問合せ(text-to-SQL)に対する正確なSQLクエリの生成は、ユーザの問合せとそれに対応するデータベーススキーマの両方を正確に取得するために、長年にわたる課題である。 既存のメソッドは、SQLを生成するための大規模言語モデル(LLM)の包括的な機能に依存している。 しかし、いくつかの必要な知識はデータベーススキーマやユーザ質問に明示的に含まれていない。 したがって、知識不足の質問が生成したSQLは不正確であり、テキストからSQLモデルのパフォーマンスと堅牢性に悪影響を及ぼす可能性がある。 この課題に対処するために、我々は、すべてのテキスト・トゥ・SQLモデルに有用な知識を提供するために、カスタマイズされたデータエキスパートLLM(DELLM)を使用する知識・ツー・SQLフレームワークを提案する。 具体的には、テーブル読解と基本微調整プロセスに関するDELLMの詳細な実装を紹介する。 さらに,PLDBF(Preference Learning via Database Feedback)戦略を提案する。 大規模な実験により、DELLMはテキストからSQLへのタスクに対する最先端のアプローチを強化することができる。 DELLMの対応するコードは、さらなる研究のためにリリースされている。

Generating accurate SQL queries for user questions (text-to-SQL) has been a long-standing challenge since it requires a deep understanding of both the user's question and the corresponding database schema in order to retrieve the desired content accurately. Existing methods rely on the comprehensive capability of large language models (LLMs) to generate the SQL. However, some necessary knowledge is not explicitly included in the database schema and user question or has been learned by LLMs. Thus, the generated SQL of the knowledge-insufficient questions may be inaccurate, negatively influencing the text-to-SQL models' performance and robustness. To address this challenge, we propose the Knowledge-to-SQL framework, which employs tailored Data Expert LLM (DELLM) to provide helpful knowledge for all text-to-SQL models. Specifically, we introduce the detailed implementation of DELLM regarding table reading and the basic fine-tuning process. We further propose a Preference Learning via Database Feedback (PLDBF) strategy, refining the DELLM to generate more helpful knowledge for LLMs. Extensive experiments verify that DELLM can enhance the state-of-the-art approaches for text-to-SQL tasks. The corresponding code of DELLM is released for further research.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# KMMLU:韓国における大規模マルチタスク言語理解の測定

KMMLU: Measuring Massive Multitask Language Understanding in Korean ( http://arxiv.org/abs/2402.11548v2 )

ライセンス: Link先を確認
Guijin Son, Hanwool Lee, Sungdong Kim, Seungone Kim, Niklas Muennighoff, Taekyoon Choi, Cheonbok Park, Kang Min Yoo, Stella Biderman, (参考訳) KMMLUは、人文科学からSTEMまで、45科目にわたる35,030名のエキスパートレベルの多重選択質問を備えた、韓国の新しいベンチマークである。 以前の韓国のベンチマークは既存の英語のベンチマークから翻訳されるが、KMMLUは韓国語の言語的・文化的側面を捉えた最初の韓国の試験から収集される。 我々は、27のパブリックおよびプロプライエタリなLCMをテストし、50.5%のスコアを得るために最高のパブリックモデルを観察し、改善の余地を残しています。 このモデルは韓国語ではなく、主に英語と中国語で訓練された。 韓国のポリグロット・コ(Polyglot-Ko)のような現在のLLMは、はるかに悪化している。 驚くべきことに、最も有能なLLM(例えば、GPT-4、HyperCLOVA X)でさえ60%を超えない。 このことは,韓国のLLMを改善するためにはさらなる作業が必要であることを示唆しており,我々はKMMLUがこの進捗を追跡できる適切なツールを提供していると考えている。 私たちはデータセットをHugging Face Hubで公開し、ベンチマークをEleutherAIのLanguage Model Evaluation Harnessに統合します。

We propose KMMLU, a new Korean benchmark with 35,030 expert-level multiple-choice questions across 45 subjects ranging from humanities to STEM. While prior Korean benchmarks are translated from existing English benchmarks, KMMLU is collected from original Korean exams, capturing linguistic and cultural aspects of the Korean language. We test 27 public and proprietary LLMs and observe the best public model to score 50.5%, leaving significant room for improvement. This model was primarily trained for English and Chinese, not Korean. Current LLMs tailored to Korean, such as Polyglot-Ko, perform far worse. Surprisingly, even the most capable proprietary LLMs, e.g., GPT-4 and HyperCLOVA X do not exceed 60%. This suggests that further work is needed to improve LLMs for Korean, and we believe KMMLU offers the appropriate tool to track this progress. We make our dataset publicly available on the Hugging Face Hub and integrate the benchmark into EleutherAI's Language Model Evaluation Harness.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# マルチタスク推論: 大規模言語モデルは一度に複数の命令を追えるか?

Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once? ( http://arxiv.org/abs/2402.11597v2 )

ライセンス: Link先を確認
Guijin Son, Sangwon Baek, Sangdae Nam, Ilgyun Jeong, Seungone Kim, (参考訳) 大規模言語モデル(LLM)は通常、推論呼び出し毎に単一の命令に従うように促される。 本研究では,LLMが複数の命令を同時に処理できる能力を持つかどうかを,マルチタスク推論(Multi-Task Inference)と呼ぶ。 MTI Bench(Multi-Task Inference Benchmark)は,25タスクにわたる5,000インスタンスを対象とした総合評価ベンチマークである。 MTIベンチの各タスクは2~3つのサブタスクを含む。 予想通り、マルチタスク推論は、複数の推論呼び出しを必要としないため、平均して1.46倍の推論時間を短縮することを示した。 興味深いことに、タスク分割時のLLMの性能は向上すると期待されているのに対して、Llama-2-Chat-70BやGPT-4のような最先端のLLMは、MTI Benchのシングルタスク推論と比較して最大7.3%、12.4%向上している。 MTI Benchデータセットと私たちのコードは、https://github.com/guijinSON/MTI-Bench.com/MTI-Benchのリンクでリリースします。

Large language models (LLMs) are typically prompted to follow a single instruction per inference call. In this work, we analyze whether LLMs also hold the capability to handle multiple instructions simultaneously, denoted as Multi-Task Inference. For this purpose, we introduce the MTI Bench(Multi-Task Inference Benchmark), a comprehensive evaluation benchmark encompassing 5,000 instances across 25 tasks. Each task in the MTI Bench involves 2 to 3 sub-tasks. As expected, we first demonstrate that Multi-Task Inference reduces the total inference time by 1.46 times in average since it does not require multiple inference calls. Interestingly, contrary to the expectation that LLMs would perform better when tasks are divided, we find that state-of-the-art LLMs, such as Llama-2-Chat-70B and GPT-4, show up to 7.3% and 12.4% improved performance with Multi-Task Inference compared to Single-Task Inference on the MTI Bench. We release the MTI Bench dataset and our code at this link https://github.com/guijinSON/MTI-Bench.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# 非線形抵抗ネットワークの高速シミュレーションアルゴリズム

A Fast Algorithm to Simulate Nonlinear Resistive Networks ( http://arxiv.org/abs/2402.11674v2 )

ライセンス: Link先を確認
Benjamin Scellier, (参考訳) アナログ電気ネットワークは、推論中のアナログ物理学を利用して、機械学習のためのエネルギー効率の高い計算プラットフォームとして長い間研究されてきた。 近年、抵抗ネットワークは、局所的な規則(平衡伝播など)を用いて学習する能力によって特に興味を惹き付け、トレーニングにおいて潜在的に重要なエネルギー効率の向上も可能になった。 潜在的な優位性にもかかわらず、これらの抵抗ネットワークのシミュレーションはそのスケーラビリティを評価する上で重要なボトルネックであり、現在の手法は線形ネットワークに限られるか、SPICEのような現実的で遅い回路シミュレータに依存している。 理想的な回路要素を仮定し,線形不等式制約を持つ二次計画問題として,高速かつ正確な座標導出アルゴリズムを用いて解く非線形抵抗ネットワークのシミュレーション手法を提案する。 シミュレーション手法は既存のSPICEシミュレーションを著しく上回り,160倍高速で最大327倍のネットワークのトレーニングが可能となり,ネットワークサイズとエポック期間の比が5万倍に向上した。 本手法は非線形アナログ電気ネットワークのシミュレーションにおいて, より高速な進展を促すことができる。

Analog electrical networks have long been investigated as energy-efficient computing platforms for machine learning, leveraging analog physics during inference. More recently, resistor networks have sparked particular interest due to their ability to learn using local rules (such as equilibrium propagation), enabling potentially important energy efficiency gains for training as well. Despite their potential advantage, the simulations of these resistor networks has been a significant bottleneck to assess their scalability, with current methods either being limited to linear networks or relying on realistic, yet slow circuit simulators like SPICE. Assuming ideal circuit elements, we introduce a novel approach for the simulation of nonlinear resistive networks, which we frame as a quadratic programming problem with linear inequality constraints, and which we solve using a fast, exact coordinate descent algorithm. Our simulation methodology significantly outperforms existing SPICE-based simulations, enabling the training of networks up to 327 times larger at speeds 160 times faster, resulting in a 50,000-fold improvement in the ratio of network size to epoch duration. Our approach can foster more rapid progress in the simulations of nonlinear analog electrical networks.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# Koopman演算子を用いたニューラルネットワークにおける非線形性の抽出

Extraction of nonlinearity in neural networks with Koopman operator ( http://arxiv.org/abs/2402.11740v2 )

ライセンス: Link先を確認
Naoki Sugishita, Kayo Kinjo, Jun Ohkubo, (参考訳) 非線形性はディープニューラルネットワークにおいて重要な役割を果たす。 本稿では,ニューラルネットワークの非線形性が不可欠である程度について検討する。 この目的のために、Koopman演算子、拡張動的モード分解、テンソルトレイン形式を用いる。 クープマン作用素のアプローチは近年物理学や非線形科学において発展しており、クープマン作用素は状態空間の代わりに観測可能な空間における時間発展を扱う。 状態空間の非線形性を可観測空間の線型性に置き換えることができるので、非線形系における複素挙動を理解するための希望的な候補である。 ここでは,学習したニューラルネットワークを分類問題に対して解析する。 その結果、非線形中間層をクープマン行列に置き換えることで、数値実験で十分な精度が得られる。 さらに, 圧縮率が高い場合でも, クープマン行列のプルーニングによって十分な精度が得られることを確認した。 これらの結果は、ニューラルネットワークにおけるいくつかの特徴をクープマン演算子アプローチで抽出する可能性を示している。

Nonlinearity plays a crucial role in deep neural networks. In this paper, we investigate the degree to which the nonlinearity of the neural network is essential. For this purpose, we employ the Koopman operator, extended dynamic mode decomposition, and the tensor-train format. The Koopman operator approach has been recently developed in physics and nonlinear sciences; the Koopman operator deals with the time evolution in the observable space instead of the state space. Since we can replace the nonlinearity in the state space with the linearity in the observable space, it is a hopeful candidate for understanding complex behavior in nonlinear systems. Here, we analyze learned neural networks for the classification problems. As a result, the replacement of the nonlinear middle layers with the Koopman matrix yields enough accuracy in numerical experiments. In addition, we confirm that the pruning of the Koopman matrix gives sufficient accuracy even at high compression ratios. These results indicate the possibility of extracting some features in the neural networks with the Koopman operator approach.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# 大規模言語モデルの信頼性とタイムリーな評価に向けたデータセット更新の自動化

Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models ( http://arxiv.org/abs/2402.11894v3 )

ライセンス: Link先を確認
Jiahao Ying, Yixin Cao, Yushi Bai, Qianru Sun, Bo Wang, Wei Tang, Zhaojun Ding, Yizhe Yang, Xuanjing Huang, Shuicheng Yan, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語ベンチマークで印象的なパフォーマンスを達成しており、より大きなLLMのためのより難しいデータセットを継続的にキュレートする必要がある。 本稿では,データセットの更新を自動化し,ベンチマークリーク問題,難易度制御,安定性に対処する上での有効性を体系的に分析することを提案する。 したがって、現在のベンチマークがマスターまたはリークされると、タイムリーで信頼性の高い評価のために更新できる。 更新戦略は2つある。 1)類似したサンプルを原データに基づいて生成し、様式的・文脈的本質を保ちながら模倣する戦略 2) ブルームの教育目的分類に適応することで, 既存のサンプルを様々な認知レベルに拡大する戦略を拡大する。 MMLUとBIG-Benchの総合的な実験により提案手法の安定性が実証され,提案手法がベンチマークリークによる過大評価の問題を効果的に軽減できることが判明した。 効率的な模倣戦略が失敗した場合、我々の拡張戦略は依然として有望な結果を示している。 さらに, 難易度を制御することにより, モデルの性能をよりよく把握し, 難易度も難易度も難易度も, きめ細かな解析が可能となる。 私たちの知る限りでは、信頼性とタイムリーな評価のためにベンチマークのベンチマークを自動化するのは、私たちは初めてです。 デモのリーダーボードはhttps://yingjiahao14.github.io/Automating-DatasetUpdates/で確認できます。

Large language models (LLMs) have achieved impressive performance across various natural language benchmarks, prompting a continual need to curate more difficult datasets for larger LLMs, which is costly and time-consuming. In this paper, we propose to automate dataset updating and provide systematic analysis regarding its effectiveness in dealing with benchmark leakage issue, difficulty control, and stability. Thus, once the current benchmark has been mastered or leaked, we can update it for timely and reliable evaluation. There are two updating strategies: 1) mimicking strategy to generate similar samples based on original data, preserving stylistic and contextual essence, and 2) extending strategy that further expands existing samples at varying cognitive levels by adapting Bloom's taxonomy of educational objectives. Extensive experiments on updated MMLU and BIG-Bench demonstrate the stability of the proposed strategies and find that the mimicking strategy can effectively alleviate issues of overestimation from benchmark leakage. In cases where the efficient mimicking strategy fails, our extending strategy still shows promising results. Additionally, by controlling the difficulty, we can better discern the models' performance and enable fine-grained analysis neither too difficult nor too easy an exam can fairly judge students' learning status. To the best of our knowledge, we are the first to automate updating benchmarks for reliable and timely evaluation. Our demo leaderboard can be found at https://yingjiahao14.github.io/Automating-DatasetUpdates/.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# Emulated Disalignment: 大規模言語モデルの安全性アライメントはバックファイアかもしれない!

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! ( http://arxiv.org/abs/2402.12343v4 )

ライセンス: Link先を確認
Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao, (参考訳) 大型言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。 しかし,本論文では,LSM出力トークン分布のみにアクセスすることにより,より強力なアライメントの結果をより大きな可能性に変換する,安全アライメントを逆転可能なトレーニングフリーアライメント手法を提案する。 具体的には、安全対応言語モデル(例えば、Llama-2-chat)の出力トークン分布と、事前訓練されたバージョン(例えば、Llama-2)との対比を行い、トークン予測を安全アライメントの反対方向にシフトさせることにより、この逆転を実現する。 本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。 3つの評価データセットと4つのモデルファミリー(Llama-1,Llama-2,Mistral,Alpaca)で実験した結果,EDはトレーニング済みモデルの有害度を2倍にし,強いベースラインを上回り,48の評価サブセットのうち43の有害度を大きなマージンで達成した。 最終的に、オープンソースモデルに特に影響を及ぼす言語モデル出力トークン分布への依存を考えると、安全に整合した言語モデルのオープンアクセシビリティを再評価する必要性が浮き彫りになる。 コードはhttps://github.com/ZHZisZZ/emulated-disalignmentで入手できる。

Large language models (LLMs) undergo safety alignment to ensure safe conversations with humans. However, this paper introduces a training-free attack method capable of reversing safety alignment, converting the outcomes of stronger alignment into greater potential for harm by accessing only LLM output token distributions. Specifically, our method achieves this reversal by contrasting the output token distribution of a safety-aligned language model (e.g., Llama-2-chat) against its pre-trained version (e.g., Llama-2), so that the token predictions are shifted towards the opposite direction of safety alignment. We name this method emulated disalignment (ED) because sampling from this contrastive distribution provably emulates the result of fine-tuning to minimize a safety reward. Our experiments with ED across three evaluation datasets and four model families (Llama-1, Llama-2, Mistral, and Alpaca) show that ED doubles the harmfulness of pre-trained models and outperforms strong baselines, achieving the highest harmful rates in 43 out of 48 evaluation subsets by a large margin. Eventually, given ED's reliance on language model output token distributions, which particularly compromises open-source models, our findings highlight the need to reassess the open accessibility of language models, even if they have been safety-aligned. Code is available at https://github.com/ZHZisZZ/emulated-disalignment.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# テキストや画像としてのテーブル: LLMとMLLMのテーブル推論能力の評価

Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs ( http://arxiv.org/abs/2402.12424v4 )

ライセンス: Link先を確認
Naihao Deng, Zhenjie Sun, Ruiqi He, Aman Sikka, Yulong Chen, Lin Ma, Yue Zhang, Rada Mihalcea, (参考訳) 本稿では,様々なプロンプト戦略やデータ形式を用いて表形式のデータを解釈する上で,様々なLLMの有効性について検討する。 分析は質問応答やファクトチェックなどのテーブル関連タスクのベンチマークを6つに拡張する。 画像に基づく表表現におけるLLMの性能評価を初めて紹介する。 具体的には,5つのテキストベースと3つの画像ベーステーブル表現を比較し,LLM性能における表現とプロンプトの役割を実証する。 本研究は、テーブル関連タスクにおけるLLMの有効利用に関する知見を提供する。

In this paper, we investigate the effectiveness of various LLMs in interpreting tabular data through different prompting strategies and data formats. Our analyses extend across six benchmarks for table-related tasks such as question-answering and fact-checking. We introduce for the first time the assessment of LLMs' performance on image-based table representations. Specifically, we compare five text-based and three image-based table representations, demonstrating the role of representation and prompting on LLM performance. Our study provides insights into the effective use of LLMs on table-related tasks.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# マルチモーダル大言語モデルの革命:サーベイ

The Revolution of Multimodal Large Language Models: A Survey ( http://arxiv.org/abs/2402.12451v2 )

ライセンス: Link先を確認
Davide Caffagni, Federico Cocchi, Luca Barsellotti, Nicholas Moratelli, Sara Sarto, Lorenzo Baraldi, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara, (参考訳) テキストと視覚的モダリティの接続は、生成的知性において重要な役割を果たす。 このため、大規模言語モデルの成功に触発されて、多モーダル大規模言語モデル(MLLM)の開発に多大な研究努力が注がれている。 これらのモデルは、対話ベースのインターフェースと命令フォロー機能を提供しながら、視覚的およびテキスト的モダリティをシームレスに統合することができる。 本稿では,近年の視覚的MLLMの総合的なレビューを行い,そのアーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について分析する。 また、視覚的グラウンドニング、画像生成と編集、視覚的理解、ドメイン固有のアプリケーションなど、幅広いタスクでこれらのモデルを詳細に分析する。 さらに、トレーニングデータセットと評価ベンチマークをコンパイルして記述し、既存のモデルとの比較を性能および計算要求の観点から実施する。 全体として、この調査は現在の最先端の総合的な概要を提供し、将来のMLLMの土台を築き上げている。

Connecting text and visual modalities plays an essential role in generative intelligence. For this reason, inspired by the success of large language models, significant research efforts are being devoted to the development of Multimodal Large Language Models (MLLMs). These models can seamlessly integrate visual and textual modalities, while providing a dialogue-based interface and instruction-following capabilities. In this paper, we provide a comprehensive review of recent visual-based MLLMs, analyzing their architectural choices, multimodal alignment strategies, and training techniques. We also conduct a detailed analysis of these models across a wide range of tasks, including visual grounding, image generation and editing, visual understanding, and domain-specific applications. Additionally, we compile and describe training datasets and evaluation benchmarks, conducting comparisons among existing models in terms of performance and computational requirements. Overall, this survey offers a comprehensive overview of the current state of the art, laying the groundwork for future MLLMs.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# Reflect-RL: LM用オンラインRLファインチューニング

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs ( http://arxiv.org/abs/2402.12621v2 )

ライセンス: Link先を確認
Runlong Zhou, Simon S. Du, Beibin Li, (参考訳) 言語モデル(LM)が様々な分野でその能力を実証するにつれ、多ラウンドインタラクションを必要とするタスクへの応用がますます人気が高まっている。 これらのタスクは通常、複雑なダイナミクスを持つため、限定されたオフラインデータセット上の教師付き微調整(SFT)は、優れたパフォーマンスを得られない。 しかし、対話的な意思決定環境でLMを直接訓練する試みはごくわずかであった。 我々は,これらの環境下でのオンライン強化学習(RL)による微調整LMの効果的なアプローチを構築することを目指している。 SFTとオンラインRLを用いてLMを微調整するリフレクション-RLを提案し,フリーズ反射モデル(プレイヤ)がポリシーモデル(プレイヤ)を支援する。 ウォームアップSFTステージのデータを生成するために、負のサンプル生成を用いて反射モデルの誤差補正能力を向上する。 さらに,政策モデルをより効率的に学習できるように,シングルプロンプトアクション列挙とカリキュラム学習を適用した。 実験的に、リフレクション-RLは、リフレクションなしでSFTおよびオンラインRLより優れていることを検証した。 GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。 この作業に関わるベンチマーク、データセット、コードは、https://github.com/zhourunlong/Reflect-RL.comで公開されている。

As language models (LMs) demonstrate their capabilities in various fields, their application to tasks requiring multi-round interactions has become increasingly popular. These tasks usually have complex dynamics, so supervised fine-tuning (SFT) on a limited offline dataset does not yield good performance. However, only a few works attempted to directly train the LMs within interactive decision-making environments. We aim to create an effective approach to fine-tune LMs with online reinforcement learning (RL) in these environments. We propose Reflect-RL, a two-player system to fine-tune an LM using SFT and online RL, where a frozen reflection model (player) assists the policy model (player). To generate data for the warm-up SFT stage, we use negative example generation to enhance the error-correction ability of the reflection model. Furthermore, we designed single-prompt action enumeration and applied curriculum learning to allow the policy model to learn more efficiently. Empirically, we verify that Reflect-RL outperforms SFT and online RL without reflection. Testing results indicate GPT-2 XL 1.56B fine-tuned with Reflect-RL outperforms larger open-source LMs, such as Mistral 7B. The benchmarks, dataset, and code involved in this work are publicly available: https://github.com/zhourunlong/Reflect-RL.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# 木平面変圧器:暗黙の構文シュミレーションを持つ一方向変圧器言語モデル

Tree-Planted Transformers: Unidirectional Transformer Language Models with Implicit Syntactic Supervision ( http://arxiv.org/abs/2402.12691v2 )

ライセンス: Link先を確認
Ryo Yoshida, Taiga Someya, Yohei Oseki, (参考訳) 構文言語モデル(SLM)は比較的高い性能を達成するために効率的に訓練することができるが、構文構造の明示的な生成のために推論効率に問題がある。 本稿では,一方向トランスフォーマーLMの注目重みに木を「移植」することで,自然言語の構文構造を暗黙的に反映させる手法を提案する。 具体的には、木移植で訓練された一方向トランスフォーマーLMをTree-Planted Transformer (TPT)と呼び、基礎となるトランスフォーマーLMの推論効率を変更することなく、SLMからトレーニング効率を継承する。 SyntaxGymベンチマークのターゲットとした構文評価では、TPTは、明確な構文構造が生成されていないにもかかわらず、バニラトランスフォーマーLMだけでなく、数百の構文構造を並列に生成する様々なSLMよりも著しく優れていた。 この結果は,トランスフォーマーLMのモデリング空間を一定に保ちながら,人間的な構文知識をSLMのようにデータ効率よく学習できることを示唆している。

Syntactic Language Models (SLMs) can be trained efficiently to reach relatively high performance; however, they have trouble with inference efficiency due to the explicit generation of syntactic structures. In this paper, we propose a new method dubbed tree-planting: instead of explicitly generating syntactic structures, we "plant" trees into attention weights of unidirectional Transformer LMs to implicitly reflect syntactic structures of natural language. Specifically, unidirectional Transformer LMs trained with tree-planting will be called Tree-Planted Transformers (TPT), which inherit the training efficiency from SLMs without changing the inference efficiency of their underlying Transformer LMs. Targeted syntactic evaluations on the SyntaxGym benchmark demonstrated that TPTs, despite the lack of explicit generation of syntactic structures, significantly outperformed not only vanilla Transformer LMs but also various SLMs that generate hundreds of syntactic structures in parallel. This result suggests that TPTs can learn human-like syntactic knowledge as data-efficiently as SLMs while maintaining the modeling space of Transformer LMs unchanged.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# TRAP:ブラックボックス識別のためのランダム対応型ハニーポット

TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification ( http://arxiv.org/abs/2402.12991v2 )

ライセンス: Link先を確認
Martin Gubri, Dennis Ulmer, Hwaran Lee, Sangdoo Yun, Seong Joon Oh, (参考訳) 大規模言語モデル(LLM)サービスやモデルには,誰が使用可能なのか,どのように使用しなければならないのか,という法的ルールが伴うことが多い。 これらのルールは、LLMコントリビュータの利益を保護し、誤用を防止するため、リリースされているLLMのコンプライアンスを評価することが重要である。 ここでは,ブラックボックス認証(BBIV)の新たな指紋認証問題について述べる。 目標は、サードパーティアプリケーションがチャット機能を通じて特定のLLMを使用するかどうかを判断することである。 本稿では,TRAP (Targeted Random Adversarial Prompt) と呼ばれる,特定のLPMを識別する手法を提案する。 我々は、当初ジェイルブレイクのために提案されていた敵の接尾辞を再利用して、ターゲットのLDMから事前に定義された回答を得る一方、他のモデルはランダムな回答を与える。 TRAPは標的のLDMを95%以上の正の確率で検出し、1回の相互作用の後にも0.2%以下の偽の正のレートで検出する。 TRAP は LLM が元の関数を著しく変更しない小さな変更をしても有効である。

Large Language Model (LLM) services and models often come with legal rules on who can use them and how they must use them. Assessing the compliance of the released LLMs is crucial, as these rules protect the interests of the LLM contributor and prevent misuse. In this context, we describe the novel fingerprinting problem of Black-box Identity Verification (BBIV). The goal is to determine whether a third-party application uses a certain LLM through its chat function. We propose a method called Targeted Random Adversarial Prompt (TRAP) that identifies the specific LLM in use. We repurpose adversarial suffixes, originally proposed for jailbreaking, to get a pre-defined answer from the target LLM, while other models give random answers. TRAP detects the target LLMs with over 95% true positive rate at under 0.2% false positive rate even after a single interaction. TRAP remains effective even if the LLM has minor changes that do not significantly alter the original function.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# $Se^2$: In-Context Learningのための逐次例選択

$Se^2$: Sequential Example Selection for In-Context Learning ( http://arxiv.org/abs/2402.13874v3 )

ライセンス: Link先を確認
Haoyu Liu, Jianfeng Liu, Shaohan Huang, Yuefeng Zhan, Hao Sun, Weiwei Deng, Furu Wei, Qi Zhang, (参考訳) インコンテキスト学習(ICL)のための大規模言語モデル(LLM)の顕著な能力は、実演例によって活性化される必要がある。 以前の研究はICLの例の選択を幅広く検討しており、主に「選択して整理する」パラダイムに従っており、そのようなアプローチは例間の内部的関係を無視し、トレーニングと推論の間に矛盾が存在することが多い。 本稿では、この問題を$Se$quential$Se$lection問題として定式化し、LLMの様々な文脈に対するフィードバックを活用するシーケンシャル・アウェア法である$Se^2$を導入する。 一方,ビームサーチを用いてサンプルシーケンスを探索・構築し,品質と多様性を両立させる。 8つのカテゴリーから23個のNLPタスクにまたがる大規模な実験は、$Se^2$が競争ベースラインを著しく上回り、ランダム選択よりも42.5%の相対的な改善を達成していることを示している。 さらに詳細な分析によって提案手法の有効性が示され、様々なシナリオにおけるSe^2$の例外的な安定性と適応性を強調している。 コードはhttps://github.com/microsoft/LMOpsで公開されている。

The remarkable capability of large language models (LLMs) for in-context learning (ICL) needs to be activated by demonstration examples. Prior work has extensively explored the selection of examples for ICL, predominantly following the "select then organize" paradigm, such approaches often neglect the internal relationships between examples and exist an inconsistency between the training and inference. In this paper, we formulate the problem as a $Se$quential $Se$lection problem and introduce $Se^2$, a sequential-aware method that leverages the LLM's feedback on varying context, aiding in capturing inter-relationships and sequential information among examples, significantly enriching the contextuality and relevance of ICL prompts. Meanwhile, we utilize beam search to seek and construct example sequences, enhancing both quality and diversity. Extensive experiments across 23 NLP tasks from 8 distinct categories illustrate that $Se^2$ markedly surpasses competitive baselines and achieves 42\% relative improvement over random selection. Further in-depth analysis shows the effectiveness of proposed strategies, highlighting $Se^2$'s exceptional stability and adaptability across various scenarios. Code available at https://github.com/microsoft/LMOps.
翻訳日:2024-06-07 21:22:40 公開日:2024-06-06
# OlympiadBench: Olympiad-Level Bilingual Multimodal Scientific Problemsを用いたAGIの促進ベンチマーク

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems ( http://arxiv.org/abs/2402.14008v2 )

ライセンス: Link先を確認
Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, Jie Liu, Lei Qi, Zhiyuan Liu, Maosong Sun, (参考訳) 近年,Large Language Models (LLMs) やLarge Multimodal Models (LMMs) が様々なタスクにおいて一般の人間の能力を超え,複数のドメインにわたる専門家の習熟度に近づいている。 従来のベンチマークはこれらのモデルにとって難易度が低いため、その高度な能力を測るためには、新たな厳密な課題が不可欠である。 本研究では,オリンピアードレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchについて紹介する。 それぞれの問題は、ステップバイステップの推論のためのエキスパートレベルのアノテーションで詳細に説明されます。 OlympiadBench上での上位モデルの評価を行い、モデル応答を正確に評価する包括的評価手法を実装した。 特に、最高のパフォーマンスモデルであるGPT-4Vは、オリンピアドベンチの平均スコアが17.97%に達し、物理ではわずか10.74%であり、ベンチマークの厳密さと物理的推論の複雑さを強調している。 GPT-4Vの分析では,幻覚,知識欠失,論理的誤認などの問題が指摘されている。 私たちの挑戦的なベンチマークが、将来のAGI研究を支援する貴重なリソースになることを期待しています。 データと評価コードは \url{https://github.com/OpenBMB/OlympiadBench} で公開されている。

Recent advancements have seen Large Language Models (LLMs) and Large Multimodal Models (LMMs) surpassing general human capabilities in various tasks, approaching the proficiency level of human experts across multiple domains. With traditional benchmarks becoming less challenging for these models, new rigorous challenges are essential to gauge their advanced abilities. In this work, we present OlympiadBench, an Olympiad-level bilingual multimodal scientific benchmark, featuring 8,476 problems from Olympiad-level mathematics and physics competitions, including the Chinese college entrance exam. Each problem is detailed with expert-level annotations for step-by-step reasoning. Evaluating top-tier models on OlympiadBench, we implement a comprehensive assessment methodology to accurately evaluate model responses. Notably, the best-performing model, GPT-4V, attains an average score of 17.97% on OlympiadBench, with a mere 10.74% in physics, highlighting the benchmark rigor and the intricacy of physical reasoning. Our analysis orienting GPT-4V points out prevalent issues with hallucinations, knowledge omissions, and logical fallacies. We hope that our challenging benchmark can serve as a valuable resource for helping future AGI research endeavors. The data and evaluation code are available at \url{https://github.com/OpenBMB/OlympiadBench}
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# FanOutQA: 大規模言語モデルのベンチマークを回答するマルチホップ・マルチドキュメント質問

FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models ( http://arxiv.org/abs/2402.14116v2 )

ライセンス: Link先を確認
Andrew Zhu, Alyssa Hwang, Liam Dugan, Chris Callison-Burch, (参考訳) 日々のシナリオでよく見られる質問の1つに、'`fan-out'という質問、複雑なマルチホップ、多文書推論の質問があり、多数のエンティティに関する情報を見つける必要がある。 しかし,大規模な言語モデルでは,このような質問応答能力を評価するためのリソースがほとんどない。 LLMの複雑な推論をより完全に評価するために、FanOutQAを提案する。 我々は、GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化した。 私たちはデータセットとオープンソースツールを提供し、https://fanoutqa.comで評価を促進するためにモデルを実行しています。

One type of question that is commonly found in day-to-day scenarios is ``fan-out'' questions, complex multi-hop, multi-document reasoning questions that require finding information about a large number of entities. However, there exist few resources to evaluate this type of question-answering capability among large language models. To evaluate complex reasoning in LLMs more fully, we present FanOutQA, a high-quality dataset of fan-out question-answer pairs and human-annotated decompositions with English Wikipedia as the knowledge base. We formulate three benchmark settings across our dataset and benchmark 7 LLMs, including GPT-4, LLaMA 2, Claude-2.1, and Mixtral-8x7B, finding that contemporary models still have room to improve reasoning over inter-document dependencies in a long context. We provide our dataset and open-source tools to run models to encourage evaluation at https://fanoutqa.com
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# マルチモーダルスタンス検出:新しいデータセットとモデル

Multi-modal Stance Detection: New Datasets and Model ( http://arxiv.org/abs/2402.14298v3 )

ライセンス: Link先を確認
Bin Liang, Ang Li, Jingqian Zhao, Lin Gui, Min Yang, Yue Yu, Kam-Fai Wong, Ruifeng Xu, (参考訳) スタンス検出は、特定のターゲットに関して、ソーシャルメディアプラットフォームから世論を識別することを目的とした課題である。 スタンス検出に関するこれまでの研究は、純粋なテキストに主に焦点をあてていた。 本稿では,テキストと画像からなるつぶやきに対するマルチモーダルな姿勢検出について検討する。 この目的のために、Twitterに基づいて異なるドメインの5つの新しいマルチモーダル姿勢検出データセットを作成し、各サンプルはテキストと画像で構成されている。 さらに,テキスト・ビジュアル・モダリティからマルチモーダル・スタンスの特徴を学習するために,目的情報を活用できるシンプルなマルチモーダル・プロンプト・チューニング・フレームワーク (TMPT) を提案する。 5つのベンチマークデータセットによる実験結果から,提案したTMPTは,マルチモーダル姿勢検出における最先端性能を実現することが示された。

Stance detection is a challenging task that aims to identify public opinion from social media platforms with respect to specific targets. Previous work on stance detection largely focused on pure texts. In this paper, we study multi-modal stance detection for tweets consisting of texts and images, which are prevalent in today's fast-growing social media platforms where people often post multi-modal messages. To this end, we create five new multi-modal stance detection datasets of different domains based on Twitter, in which each example consists of a text and an image. In addition, we propose a simple yet effective Targeted Multi-modal Prompt Tuning framework (TMPT), where target information is leveraged to learn multi-modal stance features from textual and visual modalities. Experimental results on our five benchmark datasets show that the proposed TMPT achieves state-of-the-art performance in multi-modal stance detection.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# LLMにおける合成推論の理解とパッチング

Understanding and Patching Compositional Reasoning in LLMs ( http://arxiv.org/abs/2402.14328v2 )

ライセンス: Link先を確認
Zhaoyi Li, Gangwei Jiang, Hong Xie, Linqi Song, Defu Lian, Ying Wei, (参考訳) LLMは、再起的なシフトを示すが、構成的推論タスクに直面した時に混乱する。 我々の研究は、LLMの構成的推論失敗の根本原因を解明し、そのほとんどは不適切な生成や暗黙的推論結果からのものであることを明らかにした。 実験結果から着想を得たので,ロジットレンズを応用し,LLMの内部隠蔽状態を識別するための介入実験を行った。 このディープダイブは、暗黙の推論結果が実際に中間層内に存在することを明らかにし、最終的な明示的な推論結果を形成する上で、因果的な役割を担っている。 本研究は, 暗黙の推論結果の正確な生成とレバリングにおいて, リンチピンとして現れるマルチヘッド自己注意モジュール(MHSA)を, これらの層内に発見するものである。 以上の知見に基づいて,MHSA モジュールの編集による構成的推論における誤りの修正を行う軽量な CREME を開発した。 我々の経験的証拠は、CREMEの有効性の証明であり、言語モデルにおける自律的かつ継続的な構成的推論能力の向上の道を開くものである。

LLMs have marked a revolutonary shift, yet they falter when faced with compositional reasoning tasks. Our research embarks on a quest to uncover the root causes of compositional reasoning failures of LLMs, uncovering that most of them stem from the improperly generated or leveraged implicit reasoning results. Inspired by our empirical findings, we resort to Logit Lens and an intervention experiment to dissect the inner hidden states of LLMs. This deep dive reveals that implicit reasoning results indeed surface within middle layers and play a causative role in shaping the final explicit reasoning results. Our exploration further locates multi-head self-attention (MHSA) modules within these layers, which emerge as the linchpins in accurate generation and leveraing of implicit reasoning results. Grounded on the above findings, we develop CREME, a lightweight method to patch errors in compositional reasoning via editing the located MHSA modules. Our empirical evidence stands testament to CREME's effectiveness, paving the way for autonomously and continuously enhancing compositional reasoning capabilities in language models.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# 平衡K平均を用いた不均衡データクラスタリング

Imbalanced Data Clustering using Equilibrium K-Means ( http://arxiv.org/abs/2402.14490v3 )

ライセンス: Link先を確認
Yudong He, (参考訳) ハードK平均(HKM)やファジィK平均(FKM)のようなセントロイドベースのクラスタリングアルゴリズムは、大規模クラスタへのバイアスの学習に悩まされている。 セントロイドは大きなクラスタで混在する傾向があり、真の基盤となるデータ群がサイズ(すなわち不均衡なデータ)によって性能が低下する。 そこで本研究では,ボルツマン演算子に基づく新たなクラスタリング対象関数を提案する。 より大きなクラスタは、より大きなクラスタ学習バイアスの問題を効果的に緩和する。 提案した新しいアルゴリズムは平衡K平均(EKM)と呼ばれ、リソース節約とFKMと同じ時間と空間の複雑さ、バッチ学習による大規模データセットへのスケーラビリティという2つのステップを交互に行う。 合成および実世界のデータセット上でのEKMの性能を定量的に評価した。 その結果、EKMはバランスの取れたデータで競合的に動作し、不均衡なデータでベンチマークアルゴリズムを著しく上回っていることがわかった。 深層クラスタリング実験により、EKMはより差別的な表現が得られるため、不均衡なデータに対するHKMとFKMのより良い代替手段であることが示された。 さらに、HKM、FKM、EKMを勾配降下の一般形式で再構成し、この一般化形式がK平均アルゴリズムの一様研究をいかに促進するかを示す。

Centroid-based clustering algorithms, such as hard K-means (HKM) and fuzzy K-means (FKM), have suffered from learning bias towards large clusters. Their centroids tend to be crowded in large clusters, compromising performance when the true underlying data groups vary in size (i.e., imbalanced data). To address this, we propose a new clustering objective function based on the Boltzmann operator, which introduces a novel centroid repulsion mechanism, where data points surrounding the centroids repel other centroids. Larger clusters repel more, effectively mitigating the issue of large cluster learning bias. The proposed new algorithm, called equilibrium K-means (EKM), is simple, alternating between two steps; resource-saving, with the same time and space complexity as FKM; and scalable to large datasets via batch learning. We substantially evaluate the performance of EKM on synthetic and real-world datasets. The results show that EKM performs competitively on balanced data and significantly outperforms benchmark algorithms on imbalanced data. Deep clustering experiments demonstrate that EKM is a better alternative to HKM and FKM on imbalanced data as more discriminative representation can be obtained. Additionally, we reformulate HKM, FKM, and EKM in a general form of gradient descent and demonstrate how this general form facilitates a uniform study of K-means algorithms.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# 深い強化学習を伴う社会認識ナビゲーションのための変換可能なガウス逆流関数

Transformable Gaussian Reward Function for Socially-Aware Navigation with Deep Reinforcement Learning ( http://arxiv.org/abs/2402.14569v2 )

ライセンス: Link先を確認
Jinyeob Kim, Sumin Kang, Sungwoo Yang, Beomjoon Kim, Jargalbaatar Yura, Donghan Kim, (参考訳) ロボットナビゲーションは、障害物回避の優先順位付けから、人間の存在に対応する社会的に認識されたナビゲーション戦略へと移行した。 その結果、動的人間中心環境における社会的に意識されたナビゲーションの認識は、ロボット工学の分野で注目されている。 強化学習技術は、社会的に意識されたナビゲーションの進歩を促進してきたが、特に密集した環境では、適切な報酬関数を定義することが大きな課題となっている。 これらの報酬は、ロボットの動きを導くのに不可欠であり、複雑な性質と自動設定できないため、複雑な人造デザインを要求する。 手動で設計された報酬の多さは、ハイパーパラメータ冗長性、不均衡、およびユニークなオブジェクト特性の不十分な表現の問題を引き起こす。 これらの課題に対処するために、変換可能なガウス報酬関数(TGRF)を導入する。 TGRFは、ハイパーパラメータチューニングの負担を大幅に軽減し、様々な報酬関数に対する適応性を示し、特に深層強化学習(DRL)を利用した混在環境において、学習速度の加速を示す。 我々は、TGRFの概念的背景、特徴、実験、実世界の応用を強調し、ロボット工学におけるより効果的で適応可能なアプローチの道を開いたセクションを通じて、TGRFを紹介し、検証する。

Robot navigation has transitioned from prioritizing obstacle avoidance to adopting socially aware navigation strategies that accommodate human presence. As a result, the recognition of socially aware navigation within dynamic human-centric environments has gained prominence in the field of robotics. Although reinforcement learning technique has fostered the advancement of socially aware navigation, defining appropriate reward functions, especially in congested environments, has posed a significant challenge. These rewards, crucial in guiding robot actions, demand intricate human-crafted design due to their complex nature and inability to be automatically set. The multitude of manually designed rewards poses issues with hyperparameter redundancy, imbalance, and inadequate representation of unique object characteristics. To address these challenges, we introduce a transformable gaussian reward function (TGRF). The TGRF significantly reduces the burden of hyperparameter tuning, displays adaptability across various reward functions, and demonstrates accelerated learning rates, particularly excelling in crowded environments utilizing deep reinforcement learning (DRL). We introduce and validate TGRF through sections highlighting its conceptual background, characteristics, experiments, and real-world application, paving the way for a more effective and adaptable approach in robotics.The complete source code is available on https://github.com/JinnnK/TGRF
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# PEMT:パラメータ効率のよい移動学習を可能にするマルチタスク相関ガイド付きMixture-of-Experts

PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2402.15082v2 )

ライセンス: Link先を確認
Zhisheng Lin, Han Fu, Chenghao Liu, Zhuo Li, Jianling Sun, (参考訳) パラメータ効率のよい微調整(PEFT)は、事前学習された言語モデルを様々なタスクに効率的に適応するための有効な方法として登場した。 近年,性能向上のために,複数のタスクから下流目標タスクに知識を移すことへの関心が高まっている。 しかし、現在のアプローチでは、個々のタスクに対してアダプタを訓練するか、ソースタスクから共有知識を抽出するか、タスク固有の知識とソースとターゲットタスクの相関を十分に活用できない。 これらの制約を克服するために,マルチタスク変換学習に基づくパラメータ効率の高いファインチューニングフレームワークPEMTを提案する。 PEMTは、Mix-of-experts (MoE)フレームワークを拡張して、ソースタスクでトレーニングされたアダプタの重み付けの組み合わせとして、転送可能な知識をキャプチャする。 これらの重みはゲート単位で決定され、タスク記述プロンプトベクトルを用いてターゲットと各ソースタスク間の相関を測定する。 また,タスク固有の知識を十分に活用するために,ゲートユニットの空き度を改善するタスクスペーサビリティ損失を提案する。 我々は17のデータセットにまたがる幅広いタスクについて実験を行う。 実験の結果,PEMT は完全微調整よりも安定的に改善し,各種タスクにおける知識伝達手法や最先端の PEFT および知識伝達手法が得られた。 その結果,複数のタスクにまたがる知識と相関性を十分に活用できる手法の有効性が示された。

Parameter-efficient fine-tuning (PEFT) has emerged as an effective method for adapting pre-trained language models to various tasks efficiently. Recently, there has been a growing interest in transferring knowledge from one or multiple tasks to the downstream target task to achieve performance improvements. However, current approaches typically either train adapters on individual tasks or distill shared knowledge from source tasks, failing to fully exploit task-specific knowledge and the correlation between source and target tasks. To overcome these limitations, we propose PEMT, a novel parameter-efficient fine-tuning framework based on multi-task transfer learning. PEMT extends the mixture-of-experts (MoE) framework to capture the transferable knowledge as a weighted combination of adapters trained on source tasks. These weights are determined by a gated unit, measuring the correlation between the target and each source task using task description prompt vectors. To fully exploit the task-specific knowledge, we also propose the Task Sparsity Loss to improve the sparsity of the gated unit. We conduct experiments on a broad range of tasks over 17 datasets. The experimental results demonstrate our PEMT yields stable improvements over full fine-tuning, and state-of-the-art PEFT and knowledge transferring methods on various tasks. The results highlight the effectiveness of our method which is capable of sufficiently exploiting the knowledge and correlation features across multiple tasks.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# 位置: カテゴリ的ディープラーニングは、すべてのアーキテクチャの代数的理論である

Position: Categorical Deep Learning is an Algebraic Theory of All Architectures ( http://arxiv.org/abs/2402.15332v2 )

ライセンス: Link先を確認
Bruno Gavranović, Paul Lessard, Andrew Dudzik, Tamara von Glehn, João G. M. Araújo, Petar Veličković, (参考訳) 本稿では,ディープラーニングアーキテクチャの特定と研究のための汎用フレームワークの探索について述べる。 我々の意見では、これまでになされた重要な試みは、モデルが満たさなければならない制約とそれらの実装を規定することの間の一貫性のある橋渡しを欠いている。 このような橋梁の構築に焦点をあてて、ニューラルネットワーク設計のこれらのフレーバーをエレガントに仮定する単一の理論として、正確にはパラメトリックマップの2-カテゴリで評価されるモナドの普遍代数(英語版)の圏論を適用することを提案する。 我々の立場を守るために、この理論は幾何学的深層学習によって引き起こされる制約を回復し、RNNのような多様なニューラルネットワークの風景から引き出された多くのアーキテクチャの実装を示す。 また、この理論はコンピュータ科学やオートマトン理論における多くの標準構造を自然にエンコードしている。

We present our position on the elusive quest for a general-purpose framework for specifying and studying deep learning architectures. Our opinion is that the key attempts made so far lack a coherent bridge between specifying constraints which models must satisfy and specifying their implementations. Focusing on building a such a bridge, we propose to apply category theory -- precisely, the universal algebra of monads valued in a 2-category of parametric maps -- as a single theory elegantly subsuming both of these flavours of neural network design. To defend our position, we show how this theory recovers constraints induced by geometric deep learning, as well as implementations of many architectures drawn from the diverse landscape of neural networks, such as RNNs. We also illustrate how the theory naturally encodes many standard constructs in computer science and automata theory.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# オフライン逆RL:新しい解の概念とおそらく効率的なアルゴリズム

Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms ( http://arxiv.org/abs/2402.15392v2 )

ライセンス: Link先を確認
Filippo Lazzati, Mirco Mutti, Alberto Maria Metelli, (参考訳) 逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。 IRL問題は基本的に不備であり、多くの報酬関数が実演を説明することができることが知られている。 このため、IRLは最近、実現可能な報酬セット(Metelli et al , 2021)を推定して再編成され、単一の報酬の選択を延期した。 しかし,これまでに利用可能な定式化やアルゴリズムによる解法は,学習者が環境と対話し,専門家に自由に問い合わせることのできるオンライン設定を中心に提案され,分析されている。 これは、オフラインデータセットの可用性がより一般的なシナリオである、ほとんどの実用的なアプリケーションでは明らかに非現実的です。 本稿では、オフライン設定の機会と限界を捉えた、実現可能な報酬セットという新しい概念を紹介し、その推定の複雑さを解析する。 これは、データカバレッジが制御されていない設定の本質的な困難に対処する独自の学習フレームワークを導入する必要がある。 そこで我々は,その問題に対処する2つの計算的,統計的に効率的なアルゴリズムIRLOとPIRLOを提案する。 特に、後者は特定の形態の悲観主義を採用し、納品可能な集合の包含単調性という新しい望ましい性質を強制する。 本研究は,オフラインIRL問題における課題とその対処方法のパノラマ化を目的としている。

Inverse reinforcement learning (IRL) aims to recover the reward function of an expert agent from demonstrations of behavior. It is well-known that the IRL problem is fundamentally ill-posed, i.e., many reward functions can explain the demonstrations. For this reason, IRL has been recently reframed in terms of estimating the feasible reward set (Metelli et al., 2021), thus, postponing the selection of a single reward. However, so far, the available formulations and algorithmic solutions have been proposed and analyzed mainly for the online setting, where the learner can interact with the environment and query the expert at will. This is clearly unrealistic in most practical applications, where the availability of an offline dataset is a much more common scenario. In this paper, we introduce a novel notion of feasible reward set capturing the opportunities and limitations of the offline setting and we analyze the complexity of its estimation. This requires the introduction an original learning framework that copes with the intrinsic difficulty of the setting, for which the data coverage is not under control. Then, we propose two computationally and statistically efficient algorithms, IRLO and PIRLO, for addressing the problem. In particular, the latter adopts a specific form of pessimism to enforce the novel desirable property of inclusion monotonicity of the delivered feasible set. With this work, we aim to provide a panorama of the challenges of the offline IRL problem and how they can be fruitfully addressed.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# 因果的言語モデルにおける文脈記述例の次数感性への対処

Addressing Order Sensitivity of In-Context Demonstration Examples in Causal Language Models ( http://arxiv.org/abs/2402.15637v2 )

ライセンス: Link先を確認
Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan He, (参考訳) インコンテキスト学習は自然言語処理において一般的なパラダイムとなっている。 しかし、その性能は文脈内実例の順序に大きく影響される。 本稿では,因果言語モデル (CausalLMs) がプレフィックス言語モデル (PrefixLMs) と比較して,この順序に対してより敏感であることを見出した。 本稿では,この現象をCausalLM内の自己回帰型アテンションマスクとみなし,各トークンが後続のトークンから情報にアクセスすることを制限している。 この結果、異なる位置のサンプルに対する異なる受容場が得られ、結果として位置間の差が表される。 この課題に対処するために、情報強化・一貫性強化アプローチと呼ばれる教師なしの微調整手法を導入する。 このアプローチはコントラスト学習を利用して、異なる位置にまたがってコンテキスト内例の表現を整列させ、異なる置換を持つ入力に対する同様の表現を確保するために一貫性損失を導入する。 これにより、モデルを置換する予測一貫性が向上する。 5つのベンチマークによる実験結果から,本手法は実例の順序に適応し,特に実例が学習段階と異なる候補プールから得られる場合や,実例の数が異なる場合など,強靭な一般化性を示す可能性が示唆された。

In-context learning has become a popular paradigm in natural language processing. However, its performance can be significantly influenced by the order of in-context demonstration examples. In this paper, we found that causal language models (CausalLMs) are more sensitive to this order compared to prefix language models (PrefixLMs). We attribute this phenomenon to the auto-regressive attention masks within CausalLMs, which restrict each token from accessing information from subsequent tokens. This results in different receptive fields for samples at different positions, thereby leading to representation disparities across positions. To tackle this challenge, we introduce an unsupervised fine-tuning method, termed the Information-Augmented and Consistency-Enhanced approach. This approach utilizes contrastive learning to align representations of in-context examples across different positions and introduces a consistency loss to ensure similar representations for inputs with different permutations. This enhances the model's predictive consistency across permutations. Experimental results on five benchmarks suggest that our proposed method can reduce the sensitivity of CausalLMs to the order of in-context examples and exhibit robust generalizability, particularly when demonstrations are sourced from a candidate pool different from that used in the training phase, or when the number of in-context examples differs from what is used during training.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# 言語特異的ニューロン:大規模言語モデルにおける多言語能力の鍵

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models ( http://arxiv.org/abs/2402.16438v2 )

ライセンス: Link先を確認
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen, (参考訳) 大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLMが多言語テキストを処理するメカニズムを説明することは依然として難しい問題である。 本稿では,LLMにおけるトランスフォーマーアーキテクチャの構成をピンポイント言語固有の領域に探索する。 具体的には,LLM内の言語特異的ニューロンを識別する言語アクティベーション確率エントロピー(LAPE)を提案する。 LAPEに基づいて,LLaMA-2,BLOOM,Mistralなどの代表的なLLMについて総合的な実験を行った。 以上の結果から,LLMの特定の言語処理能力は,主にモデル上層と下層に位置する少数のニューロンが原因であることが示唆された。 さらに、言語特異的ニューロンを選択的に活性化または非活性化することにより、LLMの出力言語を「ステア」する可能性を示す。 本研究は,LLMの多言語能力の理解と探索に重要な証拠を提供する。

Large language models (LLMs) demonstrate remarkable multilingual capabilities without being pre-trained on specially curated multilingual parallel corpora. It remains a challenging problem to explain the underlying mechanisms by which LLMs process multilingual texts. In this paper, we delve into the composition of Transformer architectures in LLMs to pinpoint language-specific regions. Specially, we propose a novel detection method, language activation probability entropy (LAPE), to identify language-specific neurons within LLMs. Based on LAPE, we conduct comprehensive experiments on several representative LLMs, such as LLaMA-2, BLOOM, and Mistral. Our findings indicate that LLMs' proficiency in processing a particular language is predominantly due to a small subset of neurons, primarily situated in the models' top and bottom layers. Furthermore, we showcase the feasibility to "steer" the output language of LLMs by selectively activating or deactivating language-specific neurons. Our research provides important evidence to the understanding and exploration of the multilingual capabilities of LLMs.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# 大規模言語モデルにおける量子化戦略の包括的評価

A Comprehensive Evaluation of Quantization Strategies for Large Language Models ( http://arxiv.org/abs/2402.16775v2 )

ライセンス: Link先を確認
Renren Jin, Jiangcun Du, Wuwei Huang, Wei Liu, Jian Luan, Bin Wang, Deyi Xiong, (参考訳) 大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇し、リソース制限された設定でのデプロイメントが困難になる。 モデル重みやアクティベーションに必要なビットを最小限の性能損失で削減する量子化技術は、LLMの台頭により人気を博している。 しかし、ほとんどの量子化研究は事前学習されたLLMを用いており、量子化が命令調整されたLLMに与える影響や、量子化LLMのパープレキシティとベンチマーク性能の関係はよく理解されていない。 量子化 LLM の評価は言語モデリングやいくつかの分類タスクに限られており、他のベンチマークでの性能は不明確である。 これらのギャップに対処するために,(1)知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。 実験結果から, 4ビット量子化 LLM は, 量子化されていない LLM に匹敵する性能を保ち, パープレキシティはほとんどのベンチマークにおいて, 量子化 LLM のプロキシ指標として機能することが示唆された。 さらに、パラメータスケールが大きい量子化LLMは、より小さなLLMよりも優れる。 量子化によって達成されたメモリの節約にもかかわらず、LLMの推論速度を遅くすることも可能である。 したがって、量子化LDMの文脈において、デコード速度とメモリ消費のバランスの取れた最適化を実現するためには、相当なエンジニアリング努力とハードウェアサポートが不可欠である。

Increasing the number of parameters in large language models (LLMs) usually improves performance in downstream tasks but raises compute and memory costs, making deployment difficult in resource-limited settings. Quantization techniques, which reduce the bits needed for model weights or activations with minimal performance loss, have become popular due to the rise of LLMs. However, most quantization studies use pre-trained LLMs, and the impact of quantization on instruction-tuned LLMs and the relationship between perplexity and benchmark performance of quantized LLMs are not well understood. Evaluation of quantized LLMs is often limited to language modeling and a few classification tasks, leaving their performance on other benchmarks unclear. To address these gaps, we propose a structured evaluation framework consisting of three critical dimensions: (1) knowledge \& capacity, (2) alignment, and (3) efficiency, and conduct extensive experiments across ten diverse benchmarks. Our experimental results indicate that LLMs with 4-bit quantization can retain performance comparable to their non-quantized counterparts, and perplexity can serve as a proxy metric for quantized LLMs on most benchmarks. Furthermore, quantized LLMs with larger parameter scales can outperform smaller LLMs. Despite the memory savings achieved through quantization, it can also slow down the inference speed of LLMs. Consequently, substantial engineering efforts and hardware support are imperative to achieve a balanced optimization of decoding speed and memory consumption in the context of quantized LLMs.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# LCEN:非線形・解釈可能な機械学習モデルのための新しい特徴選択アルゴリズム

LCEN: A Novel Feature Selection Algorithm for Nonlinear, Interpretable Machine Learning Models ( http://arxiv.org/abs/2402.17120v2 )

ライセンス: Link先を確認
Pedro Seber, Richard D. Braatz, (参考訳) 解釈可能なアーキテクチャはブラックボックスアーキテクチャよりも利点があり、航空機や医療といった重要な環境における機械学習の適用には、解釈可能性が不可欠である。 しかし、LASSO や Elastic net (EN) のような最も単純な最も一般的な解釈可能なアーキテクチャは線形予測に限られており、特徴選択能力に乏しい。 本研究では,非線形で解釈可能な機械学習モデルを作成するためのLASSO-Clip-ENアルゴリズムを提案する。 LCENは、多種多様な人工的および経験的データセットでテストされており、スパースな非線形モデルを構築することを含む他のアーキテクチャよりも、より正確なスペーサーモデルを生成することが多い。 LCENは、ノイズ、マルチコリニアリティ、データの不足、ハイパーパラメータの分散など、データセットやモデリングに典型的な多くの問題に対して堅牢である。 LCENはまた、経験的なデータから複数の物理法則を再発見することができ、また、既知の物理法則を持たないプロセスでは、LCENは他の多くの高密度でスパースなメソッドよりも優れた結果が得られる。

Interpretable architectures can have advantages over black-box architectures, and interpretability is essential for the application of machine learning in critical settings, such as aviation or medicine. However, the simplest, most commonly used interpretable architectures, such as LASSO or elastic net (EN), are limited to linear predictions and have poor feature selection capabilities. In this work, we introduce the LASSO-Clip-EN (LCEN) algorithm for the creation of nonlinear, interpretable machine learning models. LCEN is tested on a wide variety of artificial and empirical datasets, frequently creating more accurate, sparser models than other architectures, including those for building sparse, nonlinear models. LCEN is robust against many issues typically present in datasets and modeling, including noise, multicollinearity, data scarcity, and hyperparameter variance. LCEN is also able to rediscover multiple physical laws from empirical data and, for processes with no known physical laws, LCEN achieves better results than many other dense and sparse methods -- including using 10.8-fold fewer features than dense methods and 8.1-fold fewer features than EN on one dataset, and is comparable to or better than ANNs on multiple datasets.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# 選択エントロピー蒸留によるロバストかつ効率的なクラウド-エッジ弾性モデル適応に向けて

Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation ( http://arxiv.org/abs/2402.17316v3 )

ライセンス: Link先を確認
Yaofo Chen, Shuaicheng Niu, Yaowei Wang, Shoukai Xu, Hengjie Song, Mingkui Tan, (参考訳) 従来のディープラーニングパラダイムでは、しばしば、サーバー上でディープモデルをトレーニングし、モデルまたは蒸留したモデルをリソース制限エッジデバイスにデプロイする。 通常、モデルは通常、サーバ側とエッジ側の両方のモデル適応の潜在的高コストのために、一度デプロイされた後(少なくとも一定期間)に修正されなければならない。 しかし、多くの実世界のシナリオでは、テスト環境は動的に変化し(分散シフトと呼ばれる)、しばしば性能が低下する。 したがって、エッジモデルに迅速に適応して、有望なパフォーマンスを達成する必要がある。 さらに、エッジで収集されるデータの増加に伴い、このパラダイムは、パフォーマンス向上のためにクラウドモデルをさらに適応することができない。 これらの問題に対処するために、私たちは2つの大きな課題に直面します。 1)エッジモデルは計算能力が限られており,前方伝播のみをサポートすることができる。 2) クラウドとエッジデバイス間のデータ転送予算は遅延に敏感なシナリオで制限される。 本稿では,クラウド-エッジ弾性モデル適応(CEMA)パラダイムを構築し,エッジモデルが前方伝播のみを実行し,エッジモデルをオンラインで適用可能にする。 CEMAでは、通信負担を軽減するため、不要なサンプルをクラウドにアップロードすること、すなわち動的で信頼性の低いサンプルを除外することの2つの基準を考案した。 アップロードしたサンプルに基づいて,より強力な基礎モデルから試料再生戦略を用いてエッジモデルに蒸留することにより,正規化層のアフィンパラメータを更新,分散する。 ImageNet-C と ImageNet-R の大規模な実験結果により,CEMA の有効性が検証された。

The conventional deep learning paradigm often involves training a deep model on a server and then deploying the model or its distilled ones to resource-limited edge devices. Usually, the models shall remain fixed once deployed (at least for some period) due to the potential high cost of model adaptation for both the server and edge sides. However, in many real-world scenarios, the test environments may change dynamically (known as distribution shifts), which often results in degraded performance. Thus, one has to adapt the edge models promptly to attain promising performance. Moreover, with the increasing data collected at the edge, this paradigm also fails to further adapt the cloud model for better performance. To address these, we encounter two primary challenges: 1) the edge model has limited computation power and may only support forward propagation; 2) the data transmission budget between cloud and edge devices is limited in latency-sensitive scenarios. In this paper, we establish a Cloud-Edge Elastic Model Adaptation (CEMA) paradigm in which the edge models only need to perform forward propagation and the edge models can be adapted online. In our CEMA, to reduce the communication burden, we devise two criteria to exclude unnecessary samples from uploading to the cloud, i.e., dynamic unreliable and low-informative sample exclusion. Based on the uploaded samples, we update and distribute the affine parameters of normalization layers by distilling from the stronger foundation model to the edge model with a sample replay strategy. Extensive experimental results on ImageNet-C and ImageNet-R verify the effectiveness of our CEMA.
翻訳日:2024-06-07 21:12:20 公開日:2024-06-06
# レシピの深層学習に基づく名前付きエンティティ認識モデル

Deep Learning Based Named Entity Recognition Models for Recipes ( http://arxiv.org/abs/2402.17447v2 )

ライセンス: Link先を確認
Mansi Goel, Ayush Agarwal, Shubham Agrawal, Janak Kapuriya, Akhil Vamshi Konam, Rishabh Gupta, Shrey Rastogi, Niharika, Ganesh Bagler, (参考訳) 食べ物は、フレーバー、栄養、健康、持続可能性など、さまざまな取り組みを通じて私たちの生活に触れます。 レシピは、構造化されていないテキストを介して世代間で伝達される文化カプセルである。 名前付きエンティティを認識するための自動プロトコルであるレシピテキストのビルディングブロックは、情報抽出から新しいレシピ生成に至るまで、さまざまなアプリケーションにとって大きな価値を持つ。 名前付きエンティティ認識は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。 6,611句を手動で注釈付けしたデータから,26,445句を累積的にデータセット化した。 同時に,ゴールドスタンダードレシピデータレポジトリRecipeDBの成分句を整理,解析し,スタンフォードNERを用いて注釈付けした。 この分析に基づいて,クラスタリングに基づくアプローチを用いて88,526句のサブセットをサンプリングした。 深層学習に基づく言語モデルの統計的、微調整と、大規模言語モデル(LLM)へのわずかなプロンプトを含む、これらの3つのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を提供する。 一方、微調整されたpaCy変換器は、手動で注釈付けされたデータセット、拡張されたデータセット、および機械で注釈付けされたデータセットに対して、95.9%、96.04%、95.71%のマクロF1スコアを持つ最良のモデルとして現れる。

Food touches our lives through various endeavors, including flavor, nourishment, health, and sustainability. Recipes are cultural capsules transmitted across generations via unstructured text. Automated protocols for recognizing named entities, the building blocks of recipe text, are of immense value for various applications ranging from information extraction to novel recipe generation. Named entity recognition is a technique for extracting information from unstructured or semi-structured data with known labels. Starting with manually-annotated data of 6,611 ingredient phrases, we created an augmented dataset of 26,445 phrases cumulatively. Simultaneously, we systematically cleaned and analyzed ingredient phrases from RecipeDB, the gold-standard recipe data repository, and annotated them using the Stanford NER. Based on the analysis, we sampled a subset of 88,526 phrases using a clustering-based approach while preserving the diversity to create the machine-annotated dataset. A thorough investigation of NER approaches on these three datasets involving statistical, fine-tuning of deep learning-based language models and few-shot prompting on large language models (LLMs) provides deep insights. We conclude that few-shot prompting on LLMs has abysmal performance, whereas the fine-tuned spaCy-transformer emerges as the best model with macro-F1 scores of 95.9%, 96.04%, and 95.71% for the manually-annotated, augmented, and machine-annotated datasets, respectively.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# 変分学習は大規模深層ネットワークに有効である

Variational Learning is Effective for Large Deep Networks ( http://arxiv.org/abs/2402.17641v2 )

ライセンス: Link先を確認
Yuesong Shen, Nico Daheim, Bai Cong, Peter Nickl, Gian Maria Marconi, Clement Bazan, Rio Yokota, Iryna Gurevych, Daniel Cremers, Mohammad Emtiyaz Khan, Thomas Möllenhoff, (参考訳) 我々は、変分学習が大規模ニューラルネットワークには効果がないという共通の信念に対して、広範な実証的証拠を与える。 Improved Variational Online Newton (IVON) と呼ばれるオプティマイザは,GPT-2やResNetsなどの大規模ネットワークをスクラッチからトレーニングするために,Adamと一貫した整合性や性能に優れることを示す。 IVONの計算コストはAdamとほぼ同じであるが、予測の不確実性の方が優れている。 我々は,大規模言語モデルにおけるファインタニングとモデルマージの改善,一般化誤差の正確な予測,データに対する感度の忠実な推定を行うIVONの新しいユースケースをいくつか紹介する。 変分学習が効果的であるという圧倒的な証拠を見出す。

We give extensive empirical evidence against the common belief that variational learning is ineffective for large neural networks. We show that an optimizer called Improved Variational Online Newton (IVON) consistently matches or outperforms Adam for training large networks such as GPT-2 and ResNets from scratch. IVON's computational costs are nearly identical to Adam but its predictive uncertainty is better. We show several new use cases of IVON where we improve finetuning and model merging in Large Language Models, accurately predict generalization error, and faithfully estimate sensitivity to data. We find overwhelming evidence that variational learning is effective.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# 大規模言語モデルに対する検出性とセマンティックコヒーレンスを増強したトークン特有な透かし

Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models ( http://arxiv.org/abs/2402.18059v3 )

ライセンス: Link先を確認
Mingjia Huo, Sai Ashish Somayajula, Youwei Liang, Ruisi Zhang, Farinaz Koushanfar, Pengtao Xie, (参考訳) 大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成し、AI生成テキストと人文テキストを区別することで、規制の必要性を強調する。 ウォーターマーキングは、LLM推論フェーズ中にテキストに隠れたマーカーを埋め込むという文脈において重要な役割を担っている。 挿入された透かしの検知可能性と生成したテキストの意味的品質の両立は困難である。 現在の透かしアルゴリズムはこの方向に有望な進歩を遂げているが、改善の余地は大きい。 これらの課題に対処するために、軽量ネットワークを用いてトークン固有の透かしロジットと分割比を生成する透かしのための新しい多目的最適化(MOO)手法を提案する。 本手法は,MOOを利用して検出性と意味的目的関数の両方を最適化することにより,検出性と意味的整合性を同時に達成する。 実験結果から,本手法は,LLMが生成するテキストのセマンティックコヒーレンスを維持しつつ,検出可能性を高めるために,現在の透かし技術よりも優れていることがわかった。 私たちのコードはhttps://github.com/mignonjia/TS_watermarkで利用可能です。

Large language models generate high-quality responses with potential misinformation, underscoring the need for regulation by distinguishing AI-generated and human-written texts. Watermarking is pivotal in this context, which involves embedding hidden markers in texts during the LLM inference phase, which is imperceptible to humans. Achieving both the detectability of inserted watermarks and the semantic quality of generated texts is challenging. While current watermarking algorithms have made promising progress in this direction, there remains significant scope for improvement. To address these challenges, we introduce a novel multi-objective optimization (MOO) approach for watermarking that utilizes lightweight networks to generate token-specific watermarking logits and splitting ratios. By leveraging MOO to optimize for both detection and semantic objective functions, our method simultaneously achieves detectability and semantic integrity. Experimental results show that our method outperforms current watermarking techniques in enhancing the detectability of texts generated by LLMs while maintaining their semantic coherence. Our code is available at https://github.com/mignonjia/TS_watermark.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# 量子化大規模言語モデルの評価

Evaluating Quantized Large Language Models ( http://arxiv.org/abs/2402.18158v2 )

ライセンス: Link先を確認
Shiyao Li, Xuefei Ning, Luning Wang, Tengxuan Liu, Xiangsheng Shi, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang, (参考訳) 学習後量子化(PTQ)は,大規模言語モデル(LLM)のコスト削減のための有望な手法として登場した。 具体的には、PTQはメモリ消費を効果的に軽減し、LLMの計算オーバーヘッドを低減する。 様々なシナリオにまたがる高い効率性と性能の要件を満たすため,量子化LCMの総合的な評価は,量子化手法の選択を導く上で不可欠である。 本稿では,PTQがOPT, LLaMA2, Falcon, Bloomz, Mistral, ChatGLM, Vicuna, LongChat, StableLM, Gemma, Mamba, 125Mから180Bの11モデルファミリに与える影響を評価することによって, これらの因子の徹底的な評価を行う。 評価には、基本的なNLP、創発的能力、信頼性、対話、長文タスクの5種類のタスクが含まれる。 さらに,その適用性を実証するために,最先端(SOTA)量子化手法の評価を行った。 広範にわたる実験に基づいて,量子化の効果を体系的に要約し,量子化技術の適用を推奨し,今後の方向性を指摘する。 コードはhttps://github.com/thu-nics/qllm-evalにある。

Post-training quantization (PTQ) has emerged as a promising technique to reduce the cost of large language models (LLMs). Specifically, PTQ can effectively mitigate memory consumption and reduce computational overhead in LLMs. To meet the requirements of both high efficiency and performance across diverse scenarios, a comprehensive evaluation of quantized LLMs is essential to guide the selection of quantization methods. This paper presents a thorough evaluation of these factors by evaluating the effect of PTQ on Weight, Activation, and KV Cache on 11 model families, including OPT, LLaMA2, Falcon, Bloomz, Mistral, ChatGLM, Vicuna, LongChat, StableLM, Gemma, and Mamba, with parameters ranging from 125M to 180B. The evaluation encompasses five types of tasks: basic NLP, emergent ability, trustworthiness, dialogue, and long-context tasks. Moreover, we also evaluate the state-of-the-art (SOTA) quantization methods to demonstrate their applicability. Based on the extensive experiments, we systematically summarize the effect of quantization, provide recommendations to apply quantization techniques, and point out future directions. The code can be found in https://github.com/thu-nics/qllm-eval.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# ゼロショットタスク適応のための命令調整データセット生成学習

Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation ( http://arxiv.org/abs/2402.18334v2 )

ライセンス: Link先を確認
Nihal V. Nayak, Yiyang Nan, Avi Trost, Stephen H. Bach, (参考訳) 我々は,無注釈のテキストをタスク固有のトレーニングデータセットに変換する条件付きタスク生成のオープンソースモデルであるBonitoを紹介した。 我々は,ユーザの専用プライベートデータに対して,大規模言語モデルのゼロショットタスク適応を可能にすることを目的としている。 既存のインストラクションチューニングデータセットをメタテンプレートにリミックスして作成した1.65万のサンプルを備えた,新たな大規模データセット上で,事前トレーニング済みの大規模言語モデルを微調整することで,Bonitoをトレーニングする。 データセットのメタテンプレートは、入力が注釈のないテキストであり、タスク属性と出力が命令と応答からなるトレーニング例を生成する。 Bonitoを使って,3つのタスクタイプ – yes-no question answering, extractive question answering, and natural language inference – にまたがる,注釈のないテキストを持つ専門ドメインから,7つのデータセットの合成タスクを生成します。 そこで,本研究では,自己教師付きベースライン上での事前学習モデルと指導モデルの平均性能を著しく向上することを示す。 例えば、Mistral-Instruct-v2 と、Mistral と Llama2 を Bonito に適応させると、強いゼロショット性能が 22.1 F1 ポイント向上する。 ドメインの効果、トレーニングセットのサイズ、代替の合成タスクジェネレータの選択を理解するために、Bonitoで追加実験を行う。 総合的に,合成指導調律データセットを用いた学習は,言語モデルを新しい領域に適応させる効果的な方法であることを示す。 モデル、データセット、コードはhttps://github.com/BatsResearch/bonito.comで公開されている。

We introduce Bonito, an open-source model for conditional task generation that converts unannotated text into task-specific training datasets for instruction tuning. We aim to enable zero-shot task adaptation of large language models on users' specialized, private data. We train Bonito by fine-tuning a pretrained large language model on a new large-scale dataset with 1.65M examples created by remixing existing instruction tuning datasets into meta-templates. The meta-templates for a dataset produce training examples where the input is the unannotated text and the task attribute and the output consists of the instruction and the response. We use Bonito to generate synthetic tasks for seven datasets from specialized domains with unannotated text across three task types -- yes-no question answering, extractive question answering, and natural language inference -- and adapt language models. We show that Bonito significantly improves the average performance of pretrained and instruction tuned models over the de facto self supervised baseline. For example, adapting Mistral-Instruct-v2 and instruction tuned variants of Mistral and Llama2 with Bonito improves the strong zero-shot performance by 22.1 F1 points whereas the next word prediction objective undoes some of the benefits of instruction tuning and reduces the average performance by 0.8 F1 points. We conduct additional experiments with Bonito to understand the effects of the domain, the size of the training set, and the choice of alternative synthetic task generators. Overall, we show that learning with synthetic instruction tuning datasets is an effective way to adapt language models to new domains. The model, dataset, and code are available at https://github.com/BatsResearch/bonito.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# 準同次深部平衡モデル

Subhomogeneous Deep Equilibrium Models ( http://arxiv.org/abs/2403.00720v2 )

ライセンス: Link先を確認
Pietro Sittoni, Francesco Tudisco, (参考訳) 近年,様々なアプリケーションにおいて,従来のネットワークに代わる強力な代替手段として,暗黙のニューラルネットワークが成長している。 しかしながら、これらのモデルは、しばしば存在と独自性の保証を欠き、安定性、性能、再現性の問題を提起する。 本稿では,非同次作用素の概念と非線形ペロン・フロベニウス理論に基づく暗黙深度ニューラルネットワークにおける固定点の存在と特異性について,新しい解析法を提案する。 これまでの類似した分析と比較すると、我々の理論はパラメータ行列の仮定の弱さを許容し、よく定義された暗黙のネットワークに対してより柔軟な枠組みをもたらす。 本稿では, フィードフォワード, 畳み込み, グラフニューラルネットワークの例において, 結果の同次ネットワークの性能について述べる。

Implicit-depth neural networks have grown as powerful alternatives to traditional networks in various applications in recent years. However, these models often lack guarantees of existence and uniqueness, raising stability, performance, and reproducibility issues. In this paper, we present a new analysis of the existence and uniqueness of fixed points for implicit-depth neural networks based on the concept of subhomogeneous operators and the nonlinear Perron-Frobenius theory. Compared to previous similar analyses, our theory allows for weaker assumptions on the parameter matrices, thus yielding a more flexible framework for well-defined implicit networks. We illustrate the performance of the resulting subhomogeneous networks on feedforward, convolutional, and graph neural network examples.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# STAR:大規模言語モデルのデータ効率向上のための動的アクティブラーニングによる制約LoRA

STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2403.01165v2 )

ライセンス: Link先を確認
Linhai Zhang, Jialong Wu, Deyu Zhou, Guoqiang Xu, (参考訳) LLM(Large Language Models)は、プロンプトメソッドによる数発学習の強力な能力を示しているが、複雑な推論タスクには教師付きトレーニングが必要である。 広いパラメータとメモリ消費のため、パラメータ効率の良いファインチューニング(PEFT)法とメモリ効率の良いファインチューニング法の両方がLLM向けに提案されている。 それでも、データ効率の良いファインチューニングの目的である大量のアノテートデータ消費の問題は未解決のままである。 1つの明らかな方法は、PEFT法とアクティブラーニングを組み合わせることである。 しかし, 実験結果から, このような組み合わせは自明なものではなく, 劣等な結果をもたらすことが示された。 プローブ実験を通じて、そのような観測は、不確実性ギャップとモデルのキャリブレーションの2つの主な理由によって説明できる。 そこで本稿では,不確実性に基づくアクティブラーニングとLoRAを効果的に統合する手法を提案する。 特に、不確実性ギャップについて、アクティブラーニングの繰り返しにおけるベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。 モデルキャリブレーションの貧弱化のために,LoRAトレーニング中にモデルが過信にならないように正規化手法を導入し,不確実性評価を高めるためにモンテカルロ・ドロップアウト機構を採用した。 実験の結果,提案手法は3つの複雑な推論タスクにおいて,既存のベースラインモデルよりも優れていることがわかった。

Though Large Language Models (LLMs) have demonstrated the powerful capabilities of few-shot learning through prompting methods, supervised training is still necessary for complex reasoning tasks. Because of their extensive parameters and memory consumption, both Parameter-Efficient Fine-Tuning (PEFT) methods and Memory-Efficient Fine-Tuning methods have been proposed for LLMs. Nevertheless, the issue of large annotated data consumption, the aim of Data-Efficient Fine-Tuning, remains unexplored. One obvious way is to combine the PEFT method with active learning. However, the experimental results show that such a combination is not trivial and yields inferior results. Through probe experiments, such observation might be explained by two main reasons: uncertainty gap and poor model calibration. Therefore, in this paper, we propose a novel approach to effectively integrate uncertainty-based active learning and LoRA. Specifically, for the uncertainty gap, we introduce a dynamic uncertainty measurement that combines the uncertainty of the base model and the uncertainty of the full model during the iteration of active learning. For poor model calibration, we incorporate the regularization method during LoRA training to keep the model from being over-confident, and the Monte-Carlo dropout mechanism is employed to enhance the uncertainty estimation. Experimental results show that the proposed approach outperforms existing baseline models on three complex reasoning tasks.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# DINER:多変量因果推論を用いたアスペクトに基づく知覚分析

DINER: Debiasing Aspect-based Sentiment Analysis with Multi-variable Causal Inference ( http://arxiv.org/abs/2403.01166v2 )

ライセンス: Link先を確認
Jialong Wu, Linhai Zhang, Deyu Zhou, Guoqiang Xu, (参考訳) 顕著な進歩はあったが、神経ベースのアスペクトベースの感情分析(ABSA)モデルは、アノテーションバイアスから素早い相関を学習しがちである。 脱バイアスソリューションの中で、因果推論に基づく手法は多くの研究の注目を集めており、主に因果介入法と反事実推論法に分類できる。 しかし,近年のデバイアス法の大部分は,入力変数が2つあるABSAには適さない単一変数因果推論に焦点が当てられている。 本稿では,多変量因果推論に基づく新しいフレームワークを提案する。 この枠組みでは、異なる因果介入法に基づいて、様々な種類のバイアスに取り組む。 レビューブランチでは、バイアスはコンテキストからの間接的なコンバウンドとしてモデル化される。 アスペクトブランチでは、バイアスはラベルとの直接的な相関として記述される。 広範に利用されている2つの実世界のアスペクトロバストネステストデータセットの様々なベースラインと比較して,提案手法の有効性を実証した。

Though notable progress has been made, neural-based aspect-based sentiment analysis (ABSA) models are prone to learn spurious correlations from annotation biases, resulting in poor robustness on adversarial data transformations. Among the debiasing solutions, causal inference-based methods have attracted much research attention, which can be mainly categorized into causal intervention methods and counterfactual reasoning methods. However, most of the present debiasing methods focus on single-variable causal inference, which is not suitable for ABSA with two input variables (the target aspect and the review). In this paper, we propose a novel framework based on multi-variable causal inference for debiasing ABSA. In this framework, different types of biases are tackled based on different causal intervention methods. For the review branch, the bias is modeled as indirect confounding from context, where backdoor adjustment intervention is employed for debiasing. For the aspect branch, the bias is described as a direct correlation with labels, where counterfactual reasoning is adopted for debiasing. Extensive experiments demonstrate the effectiveness of the proposed method compared to various baselines on the two widely used real-world aspect robustness test set datasets.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# VariErr NLI:人間のラベル変化からアノテーションの誤りを分離する

VariErr NLI: Separating Annotation Error from Human Label Variation ( http://arxiv.org/abs/2403.01931v2 )

ライセンス: Link先を確認
Leon Weber-Genzel, Siyao Peng, Marie-Catherine de Marneffe, Barbara Plank, (参考訳) 人間のラベルのバリエーションは、アノテータが妥当な理由で異なるラベルを同じアイテムに割り当てたときに起こり、一方、ラベルが無効な理由で割り当てられたときにアノテーションエラーが発生する。 これらの2つの問題は、NLPベンチマークでよく見られるが、既存の研究では独立して研究されている。 我々の知る限りでは、特に信号が白黒を超えている場合において、信号からエラーを分離することに焦点を当てた以前の研究は存在しない。 このギャップを埋めるために、体系的な方法論と新しいデータセットであるVariErrを導入し、英語のNLIタスクに焦点を当てた。 本稿では,アノテータが各ラベルを説明し,その後にラベル-説明ペアの有効性を判断する2ラウンドのアノテーション手順を提案する。 VariErr は 500 個の再注釈された MNLI 項目について 1,933 個の説明に対して 7,732 個の妥当性判断を下している。 自動誤り検出(AED)法と GPT 法の有効性について検討した。 現状のAID法はGPTと人間を著しく過小評価している。 GPT-4は最高のシステムですが、それでも人間のパフォーマンスには欠けています。 我々の手法はNLIを超えて適用可能であり、エラーと可算変動に関する将来の研究のための肥大な土台を提供し、それによってより優れた信頼性の高いNLPシステムが得られる。

Human label variation arises when annotators assign different labels to the same item for valid reasons, while annotation errors occur when labels are assigned for invalid reasons. These two issues are prevalent in NLP benchmarks, yet existing research has studied them in isolation. To the best of our knowledge, there exists no prior work that focuses on teasing apart error from signal, especially in cases where signal is beyond black-and-white. To fill this gap, we introduce a systematic methodology and a new dataset, VariErr (variation versus error), focusing on the NLI task in English. We propose a 2-round annotation procedure with annotators explaining each label and subsequently judging the validity of label-explanation pairs. VariErr contains 7,732 validity judgments on 1,933 explanations for 500 re-annotated MNLI items. We assess the effectiveness of various automatic error detection (AED) methods and GPTs in uncovering errors versus human label variation. We find that state-of-the-art AED methods significantly underperform GPTs and humans. While GPT-4 is the best system, it still falls short of human performance. Our methodology is applicable beyond NLI, offering fertile ground for future research on error versus plausible variation, which in turn can yield better and more trustworthy NLP systems.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# 固定点量子探索の再検討:準チェビシェフ補題の証明

Revisiting fixed-point quantum search: proof of the quasi-Chebyshev lemma ( http://arxiv.org/abs/2403.02057v2 )

ライセンス: Link先を確認
Guanzhong Li, Lvzhou Li, (参考訳) 元のGroverのアルゴリズムはソッフル問題に悩まされており、イテレーション時間が小さすぎる場合や、適切な時間から大きすぎる場合、量子探索の成功確率は劇的に低下する。 ソッフル問題を克服するために、最適なクエリ数を持つ固定点量子探索(Phys. Rev. Lett. 210501 (2014)]を提案した。 固定点量子探索は、再帰的準チェビシェフ多項式の明示的な公式に関する鍵補題に依存するが、その証明は明示的には与えられない。 本研究では、この補題の詳細な証明を行い、固定点量子探索の正当性に関する健全な基礎を提供する。 この補題は、第一種のチェビシェフ多項式の帰納関係の数学的形式を拡張し、また、量子ウォークに基づく探索アルゴリズムのソッフル問題(例えば、完全二部グラフ上のロバストな量子ウォーク探索(Phys. Rev. A 106, 052207 (2022))))を克服する重要な要素である。 将来的には、この補題のさらなる応用が期待できる。

The original Grover's algorithm suffers from the souffle problem, which means that the success probability of quantum search decreases dramatically if the iteration time is too small or too large from the right time. To overcome the souffle problem, the fixed-point quantum search with an optimal number of queries was proposed [Phys. Rev. Lett. 113, 210501 (2014)], which always finds a marked state with a high probability when a lower bound of the proportion of marked states is given. The fixed-point quantum search relies on a key lemma regarding the explicit formula of recursive quasi-Chebyshev polynomials, but its proof is not given explicitly. In this work, we give a detailed proof of this lemma, thus providing a sound foundation for the correctness of the fixed-point quantum search. This lemma may be of independent interest as well, since it expands the mathematical form of the recursive relation of Chebyshev polynomials of the first kind, and it also constitutes a key component in overcoming the souffle problem of quantum walk-based search algorithms, for example, robust quantum walk search on complete bipartite graphs [Phys. Rev. A 106, 052207 (2022)]. Hopefully, more applications of the lemma will be found in the future.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# RIFF: 言語モデルの簡単な微調整のための入力を言い換える学習

RIFF: Learning to Rephrase Inputs for Few-shot Fine-tuning of Language Models ( http://arxiv.org/abs/2403.02271v2 )

ライセンス: Link先を確認
Saeed Najafi, Alona Fyshe, (参考訳) 事前訓練された言語モデル(PLM)は、下流のテキスト処理タスクに対して正確に微調整することができる。 近年、入力プロンプトを最適化したり、少数のモデルパラメータ(例えばLoRA)を調整したりするためのパラメータ効率の良い微調整法がいくつか導入されている。 本研究では,パラメータ効率のよい微調整手法とともに,元のタスクの入力テキストを変更することの影響について検討する。 入力テキストの書き直しを効果的に行うため,最大辺縁類似度を目標とした数発のパラフレーズモデルを訓練する。 6つの数発のテキスト分類データセットを用いて, パラフレーズとテスト時間によるデータ豊か化は, パラメータ効率のよい微調整だけで達成できることを超えて, 性能を向上させることを示す。 実験に使われたコードはhttps://github.com/SaeedNajafi/RIFF.comで確認できます。

Pre-trained Language Models (PLMs) can be accurately fine-tuned for downstream text processing tasks. Recently, researchers have introduced several parameter-efficient fine-tuning methods that optimize input prompts or adjust a small number of model parameters (e.g LoRA). In this study, we explore the impact of altering the input text of the original task in conjunction with parameter-efficient fine-tuning methods. To most effectively rewrite the input text, we train a few-shot paraphrase model with a Maximum-Marginal Likelihood objective. Using six few-shot text classification datasets, we show that enriching data with paraphrases at train and test time enhances the performance beyond what can be achieved with parameter-efficient fine-tuning alone. The code used for our experiments can be found at https://github.com/SaeedNajafi/RIFF.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# 空気質推論のための時空間ニューラルネットワーク

Spatio-Temporal Field Neural Networks for Air Quality Inference ( http://arxiv.org/abs/2403.02354v3 )

ライセンス: Link先を確認
Yutong Feng, Qiongyan Wang, Yutong Xia, Junlin Huang, Siru Zhong, Yuxuan Liang, (参考訳) 空気質推定問題は、限られた観測地点からの履歴データを利用して、未知の場所で空気質指数を推定することを目的としている。 ステーションのメンテナンスコストの高さによるデータの分散性を考慮すると、優れた推論アルゴリズムはコストを効果的に削減し、データの粒度を改善できる。 時空間グラフニューラルネットワークはこの問題に対して優れた進歩を遂げているが、非ユークリッドおよび離散データ構造モデリングではそのポテンシャルが制限されている。 本研究では、新しいモデルである時空間ニューラルネットワークとそれに対応する新しいフレームワークであるピラミッド推論を提案することにより、2つの異なる時空間的視点、フィールド、グラフを組み合わせるための最初の試みを行う。 広範にわたる実験により,中国本土の大気質推定において,提案モデルと枠組みの優位性を実証した。

The air quality inference problem aims to utilize historical data from a limited number of observation sites to infer the air quality index at an unknown location. Considering the sparsity of data due to the high maintenance cost of the stations, good inference algorithms can effectively save the cost and refine the data granularity. While spatio-temporal graph neural networks have made excellent progress on this problem, their non-Euclidean and discrete data structure modeling of reality limits its potential. In this work, we make the first attempt to combine two different spatio-temporal perspectives, fields and graphs, by proposing a new model, Spatio-Temporal Field Neural Network, and its corresponding new framework, Pyramidal Inference. Extensive experiments validate that our model achieves state-of-the-art performance in nationwide air quality inference in the Chinese Mainland, demonstrating the superiority of our proposed model and framework.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# ビューは私自身のものだが、あなた自身のものでもある: 共通グラウンドを用いた心のベンチマーク理論

Views Are My Own, but Also Yours: Benchmarking Theory of Mind Using Common Ground ( http://arxiv.org/abs/2403.02451v2 )

ライセンス: Link先を確認
Adil Soubki, John Murzaku, Arash Yousefi Jordehi, Peter Zeng, Magdalena Markowska, Seyed Abolghasem Mirroshandel, Owen Rambow, (参考訳) 近年,言語モデル(LM)の心の理論(ToM)能力の評価が盛んに行われている。 しかし、既存のベンチマークの多くは人工的なデータに依存しており、結果として生じる実験と人間の行動を誤認するリスクがある。 自然発生音声対話に基づく最初のToMデータセットであるCommon-ToMを導入し,LMがToMの実証に苦慮していることを示す。 次に,信念の単純で明示的な表現を統合することで,Common-ToM上でのLM性能が向上することを示す。

Evaluating the theory of mind (ToM) capabilities of language models (LMs) has recently received a great deal of attention. However, many existing benchmarks rely on synthetic data, which risks misaligning the resulting experiments with human behavior. We introduce the first ToM dataset based on naturally occurring spoken dialogs, Common-ToM, and show that LMs struggle to demonstrate ToM. We then show that integrating a simple, explicit representation of beliefs improves LM performance on Common-ToM.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# CoGenesis: セキュアなコンテキスト認識インストラクションのための大規模と小規模の言語モデルをコラボレーションするフレームワーク

CoGenesis: A Framework Collaborating Large and Small Language Models for Secure Context-Aware Instruction Following ( http://arxiv.org/abs/2403.03129v2 )

ライセンス: Link先を確認
Kaiyan Zhang, Jianyu Wang, Ermo Hua, Biqing Qi, Ning Ding, Bowen Zhou, (参考訳) 言語モデル(LM)の進歩により、プライベートデータへの露出はますます避けられなくなり、PCやスマートフォンなどのパーソナルデバイスへの(特に小さなデバイスへの)展開が主流となっている。 ユーザ情報を伴うコンテキストでは、モデルがユーザのプライバシを保護し、コマンドを実行することが、本質的な研究命令として効果的に現れる。 本稿では,CoGenesisを提案する。CoGenesisは,大規模(クラウドインフラストラクチャにホストされている)と小型(ローカルデバイスにデプロイされている)を統合して,論理的にプライバシ問題に対処する,協調生成フレームワークである。 当初我々は、この研究課題の試行錯誤として、広範囲なコンテキストの詳細に富んだ、パーソナライズされた記述命令データセットを作成するパイプラインを設計した。 その後,スケッチとロジットに基づく2種類のCoGenesisを紹介した。 我々の合成データセットと2つの追加のオープンソースデータセットに基づく実験結果から、以下のことが示されている。 1) 大規模モデルではユーザコンテキストが提供されるが,そのようなコンテキストの欠如に苦慮する。 2) 合成データセットに微調整された特殊な小型モデルでは、将来性を示すが、それでも大きなモデルよりも遅れている。 3)我々のCoGenesisフレームワークは、混合スケールモデルを利用して、競合性能を示し、プライバシー問題に対する実現可能な解決策を提供します。

With the advancement of language models (LMs), their exposure to private data is increasingly inevitable, and their deployment (especially for smaller ones) on personal devices, such as PCs and smartphones, has become a prevailing trend. In contexts laden with user information, enabling models to both safeguard user privacy and execute commands efficiently emerges as an essential research imperative. In this paper, we propose CoGenesis, a collaborative generation framework integrating large (hosted on cloud infrastructure) and small models (deployed on local devices) to address privacy concerns logically. Initially, we design a pipeline to create personalized writing instruction datasets enriched with extensive context details as the testbed of this research issue. Subsequently, we introduce two variants of CoGenesis based on sketch and logits respectively. Our experimental findings, based on our synthesized dataset and two additional open-source datasets, indicate that: 1) Large-scale models perform well when provided with user context but struggle in the absence of such context. 2) While specialized smaller models fine-tuned on the synthetic dataset show promise, they still lag behind their larger counterparts. 3) Our CoGenesis framework, utilizing mixed-scale models, showcases competitive performance, providing a feasible solution to privacy issues.
翻訳日:2024-06-07 21:02:35 公開日:2024-06-06
# PARADISE: 手続き的警告とTipsデータセットによる言語モデルの意図しない計画スキルの評価

PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset ( http://arxiv.org/abs/2403.03167v3 )

ライセンス: Link先を確認
Arda Uzunoglu, Abdalfatah Rashid Safa, Gözde Gül Şahin, (参考訳) 近年,大規模言語モデルが計画立案や実行可能かどうか,コミュニティ内での関心が高まっている。 しかし、多くの先行研究では、言語的な複雑さとドメインの多様性に欠けるシナリオを単純化し、それらの計画能力の分析を制限した高レベルな計画を作成するためにLLMを使用していた。 これらの設定は、制約評価手法(例えば、事前定義された行動空間)、アーキテクチャの選択(例えば、生成モデルのみ)、および現実的な分析に不可欠な言語的ニュアンスを見落としている。 そこで本研究では,wikiHow をベースとした実践的手続きテキスト上で,Q\&A 形式を用いた帰納的推論タスク PARADISE を提案する。 計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。 我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。 進歩にもかかわらず、全てのモデルは人間のパフォーマンスに欠ける。 特に本分析では,転落したキーワードによるモデル行動の変動,物理的および抽象的な目標によるBERTファミリーとGPT-4の抗争,その他の未確認な手続き的タスクに対する貴重な事前知識を提供するタスクなど,興味深い知見が得られた。 PARADISEデータセットと関連するリソースはhttps://github.com/GGLAB-KU/paradise.comでさらなる調査のために公開されている。

Recently, there has been growing interest within the community regarding whether large language models are capable of planning or executing plans. However, most prior studies use LLMs to generate high-level plans for simplified scenarios lacking linguistic complexity and domain diversity, limiting analysis of their planning abilities. These setups constrain evaluation methods (e.g., predefined action space), architectural choices (e.g., only generative models), and overlook the linguistic nuances essential for realistic analysis. To tackle this, we present PARADISE, an abductive reasoning task using Q\&A format on practical procedural text sourced from wikiHow. It involves warning and tip inference tasks directly associated with goals, excluding intermediary steps, with the aim of testing the ability of the models to infer implicit knowledge of the plan solely from the given goal. Our experiments, utilizing fine-tuned language models and zero-shot prompting, reveal the effectiveness of task-specific small models over large language models in most scenarios. Despite advancements, all models fall short of human performance. Notably, our analysis uncovers intriguing insights, such as variations in model behavior with dropped keywords, struggles of BERT-family and GPT-4 with physical and abstract goals, and the proposed tasks offering valuable prior knowledge for other unseen procedural tasks. The PARADISE dataset and associated resources are publicly available for further research exploration with https://github.com/GGLAB-KU/paradise.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# Tell, Don't Show!: 画像とビデオのドメイン間で言語指導が伝達される

Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in Images and Videos ( http://arxiv.org/abs/2403.05535v3 )

ライセンス: Link先を確認
Tarun Kalluri, Bodhisattwa Prasad Majumder, Manmohan Chandraker, (参考訳) テキスト管理を利用した新しいフレームワークであるLaGTranを導入し、ラベル付きソースからラベル付きターゲットデータへの識別的知識の堅牢な移行をドメインギャップで導く。 この問題を解決するために教師なし適応法が確立されているが、ピクセル空間内での排他的操作のため、ドメインシフトに挑戦する際の制限を示す。 意味的にリッチなテキストのモダリティがより好ましい転送特性を持つという私たちの観察に触発された我々は、ソース学習されたテキスト分類器を使用して、対象のテキスト記述の予測を生成し、これらの予測を対応する画像の監督として利用するトランスファー機構を考案した。 言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する従来のアプローチよりもはるかに優れています。 画像以外の研究範囲をさらに拡大するため,Ego2Exoという新しいベンチマークを導入し,ビデオにおけるエゴ・エクソ・トランスファーの研究を行い,言語支援アプローチであるLaGTranが,この高度に困難かつ非自明なトランスファー設定において大きな利益をもたらすことを発見した。 コード、モデル、提案されたデータセットはhttps://tarun005.github.io/lagtran/.comで公開されている。

We introduce LaGTran, a novel framework that utilizes text supervision to guide robust transfer of discriminative knowledge from labeled source to unlabeled target data with domain gaps. While unsupervised adaptation methods have been established to address this problem, they show limitations in handling challenging domain shifts due to their exclusive operation within the pixel-space. Motivated by our observation that semantically richer text modality has more favorable transfer properties, we devise a transfer mechanism to use a source-trained text-classifier to generate predictions on the target text descriptions, and utilize these predictions as supervision for the corresponding images. Our approach driven by language guidance is surprisingly easy and simple, yet significantly outperforms all prior approaches on challenging datasets like GeoNet and DomainNet, validating its extreme effectiveness. To further extend the scope of our study beyond images, we introduce a new benchmark called Ego2Exo to study ego-exo transfer in videos and find that our language-aided approach LaGTran yields significant gains in this highly challenging and non-trivial transfer setting. Code, models, and proposed datasets are publicly available at https://tarun005.github.io/lagtran/.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# 軌道制御可能な拡散を伴う高調波群コレオグラフィー

Harmonious Group Choreography with Trajectory-Controllable Diffusion ( http://arxiv.org/abs/2403.06189v2 )

ライセンス: Link先を確認
Yuqin Dai, Wanlu Zhu, Ronghui Li, Zeping Ren, Xiangzheng Zhou, Xiu Li, Jun Li, Jian Yang, (参考訳) 音楽からグループ振付を作成することは、視覚的に結束的で多様なグループの動きを協調することを目的として、文化的エンターテイメントやバーチャルリアリティーにおいて注目を集めている。 興味の高まりにもかかわらず、近年の作品は、主にマルチダンサーの衝突とシングルダンサーのフットスライドという2つの主要な問題に対して、美学的に魅力的な振付の達成という課題に直面している。 これらの問題に対処するために,非重なり合うトラジェクトリを利用してコヒーレントなダンスの動きを促進する新しい手法であるトラジェクトリ・コンストラクタブル・ディフュージョン(TCDiff)を提案する。 具体的には、ダンス・ビート・ナビゲータを用いて、音楽に基づいて複数のダンサーのトラジェクトリを生成可能なダンス・ビート・ナビゲータを導入し、適切な閾値内でのトラジェクトリ間の適切な間隔を維持するために、距離・一貫性の損失を補足する。 そこで我々は,隣接するフレームからの軌道変位を利用してフレキシブルなフットワークを実現するフットワーク・アダプタを提案する。 大規模な実験により,本手法は最先端の結果が得られることが示された。

Creating group choreography from music has gained attention in cultural entertainment and virtual reality, aiming to coordinate visually cohesive and diverse group movements. Despite increasing interest, recent works face challenges in achieving aesthetically appealing choreography, primarily for two key issues: multi-dancer collision and single-dancer foot slide. To address these issues, we propose a Trajectory-Controllable Diffusion (TCDiff), a novel approach that harnesses non-overlapping trajectories to facilitate coherent dance movements. Specifically, to tackle dancer collisions, we introduce a Dance-Beat Navigator capable of generating trajectories for multiple dancers based on the music, complemented by a Distance-Consistency loss to maintain appropriate spacing among trajectories within a reasonable threshold. To mitigate foot sliding, we present a Footwork Adaptor that utilizes trajectory displacement from adjacent frames to enable flexible footwork, coupled with a Relative Forward-Kinematic loss to adjust the positioning of individual dancers' root nodes and joints. Extensive experiments demonstrate that our method achieves state-of-the-art results.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# RA-ISF:反復的自己フィードバックによる検索強化に対する回答と理解の学習

RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback ( http://arxiv.org/abs/2403.06840v2 )

ライセンス: Link先を確認
Yanming Liu, Xinyue Peng, Xuhong Zhang, Weihao Liu, Jianwei Yin, Jiannan Cao, Tianyu Du, (参考訳) 大規模言語モデル(LLM)は多くのタスクにおいて例外的な性能を示すが、それでもパラメータに格納された知識に大きく依存している。 さらに、この知識を更新することで、高いトレーニングコストが発生する。 Retrieval-augmented Generation (RAG)メソッドは、外部知識を統合することでこの問題に対処する。 モデルは、クエリに関連する知識を取得することで、これまでできなかった質問に答えることができます。 このアプローチは特定のタスクの特定のシナリオのパフォーマンスを改善する。 しかし、無関係なテキストが検索されると、モデルのパフォーマンスが損なわれる可能性がある。 本稿では、反復的にタスクを分解し、3つのサブモジュールで処理し、モデルの問題解決能力を向上するフレームワークであるRetrieval Augmented Iterative Self-Feedback (RA-ISF)を提案する。 GPT3.5やLlama2のようなモデルでは,提案手法が既存のベンチマークより優れており,事実推論能力を大幅に向上し,幻覚の低減が図られている。

Large language models (LLMs) demonstrate exceptional performance in numerous tasks but still heavily rely on knowledge stored in their parameters. Moreover, updating this knowledge incurs high training costs. Retrieval-augmented generation (RAG) methods address this issue by integrating external knowledge. The model can answer questions it couldn't previously by retrieving knowledge relevant to the query. This approach improves performance in certain scenarios for specific tasks. However, if irrelevant texts are retrieved, it may impair model performance. In this paper, we propose Retrieval Augmented Iterative Self-Feedback (RA-ISF), a framework that iteratively decomposes tasks and processes them in three submodules to enhance the model's problem-solving capabilities. Experiments show that our method outperforms existing benchmarks, performing well on models like GPT3.5, Llama2, significantly enhancing factual reasoning capabilities and reducing hallucinations.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# ERA-CoT:エンティティ関係解析による整合性の向上

ERA-CoT: Improving Chain-of-Thought through Entity Relationship Analysis ( http://arxiv.org/abs/2403.06932v2 )

ライセンス: Link先を確認
Yanming Liu, Xinyue Peng, Tianyu Du, Jianwei Yin, Weihao Liu, Xuhong Zhang, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、賞賛できる成果を達成している。 しかし、複数のエンティティを含む複雑なシナリオを扱う場合、LLMは依然として重大な課題に直面している。 これらの課題は、多段階の推論を必要とする暗黙の関係の存在から生じる。 本稿では,エンティティ間の関係を捉えることでLLMの文脈理解を支援する新しいアプローチであるERA-CoTを提案し,CoT(Chain-of-Thoughts)による多様なタスクの推論を支援する。 実験結果から,従来のSOTAベースラインに比べてGPT3.5の平均5.1\%の大幅な改善を実現し,提案手法の優れた性能を示した。 分析の結果,ERA-CoT は LLM の実体関係の理解を高め,質問応答の精度を大幅に向上させ,LLM の推論能力を高めることが示唆された。

Large language models (LLMs) have achieved commendable accomplishments in various natural language processing tasks. However, LLMs still encounter significant challenges when dealing with complex scenarios involving multiple entities. These challenges arise from the presence of implicit relationships that demand multi-step reasoning. In this paper, we propose a novel approach ERA-CoT, which aids LLMs in understanding context by capturing relationships between entities and supports the reasoning of diverse tasks through Chain-of-Thoughts (CoT). Experimental results show that ERA-CoT demonstrates the superior performance of our proposed method compared to current CoT prompting methods, achieving a significant improvement of an average of 5.1\% on GPT3.5 compared to previous SOTA baselines. Our analysis indicates that ERA-CoT increases the LLM's understanding of entity relationships, significantly improves the accuracy of question answering, and enhances the reasoning ability of LLMs.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# デュアルドメインマッチングによる時系列分類のためのデータセットの凝縮

Dataset Condensation for Time Series Classification via Dual Domain Matching ( http://arxiv.org/abs/2403.07245v2 )

ライセンス: Link先を確認
Zhanyu Liu, Ke Hao, Guanjie Zheng, Yanwei Yu, (参考訳) 時系列データは様々な研究分野において重要であることが示されている。 大量の時系列データの管理は、特にディープニューラルネットワークのトレーニングにおいて、ディープラーニングタスクの観点からの課題を提示する。 近年,この問題に対する解決策として,textit{Dataset Condensation} というテクニックが登場している。 このテクニックは、分類などの下流タスクにおいて、完全な実データセットに匹敵するパフォーマンスを持つ、より小さな合成データセットを生成する。 しかし、従来の手法は主に画像とグラフのデータセット用に設計されており、特に周波数領域において時系列データに固有のリッチな情報を効果的に活用できないため、時系列データセットに直接適応することで、最適なパフォーマンスをもたらす。 本稿では、時系列分類データセットの凝縮タスクに着目した、Dataset \textit{\textbf{Cond}}ensation for \textit{\textbf{T}}ime \textit{\textbf{S}}eries \textit{\textbf{C}}lassification via Dual Domain Matching (\textbf{CondTSC})を提案する。 提案手法は,従来の手法と異なり,時間領域と周波数領域の両方で代理対象と一致する縮合データセットを生成することを目的としている。 具体的には、マルチビューデータ拡張、二重ドメイントレーニング、二重代理目的を取り入れて、時間と周波数領域におけるデータセットの凝縮プロセスを強化する。 より広範な実験を通じて,提案フレームワークの有効性を実証し,他のベースラインよりも優れ,元のデータの分布に適合するなど,望ましい特徴を示す凝縮合成データセットを学習する。

Time series data has been demonstrated to be crucial in various research fields. The management of large quantities of time series data presents challenges in terms of deep learning tasks, particularly for training a deep neural network. Recently, a technique named \textit{Dataset Condensation} has emerged as a solution to this problem. This technique generates a smaller synthetic dataset that has comparable performance to the full real dataset in downstream tasks such as classification. However, previous methods are primarily designed for image and graph datasets, and directly adapting them to the time series dataset leads to suboptimal performance due to their inability to effectively leverage the rich information inherent in time series data, particularly in the frequency domain. In this paper, we propose a novel framework named Dataset \textit{\textbf{Cond}}ensation for \textit{\textbf{T}}ime \textit{\textbf{S}}eries \textit{\textbf{C}}lassification via Dual Domain Matching (\textbf{CondTSC}) which focuses on the time series classification dataset condensation task. Different from previous methods, our proposed framework aims to generate a condensed dataset that matches the surrogate objectives in both the time and frequency domains. Specifically, CondTSC incorporates multi-view data augmentation, dual domain training, and dual surrogate objectives to enhance the dataset condensation process in the time and frequency domains. Through extensive experiments, we demonstrate the effectiveness of our proposed framework, which outperforms other baselines and learns a condensed synthetic dataset that exhibits desirable characteristics such as conforming to the distribution of the original data.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# シャッフル法の最後のIterate Convergenceについて

On the Last-Iterate Convergence of Shuffling Gradient Methods ( http://arxiv.org/abs/2403.07723v3 )

ライセンス: Link先を確認
Zijian Liu, Zhengyuan Zhou, (参考訳) シャッフル勾配法は現代の機械学習タスクで広く使われており、Random Reshuffle (RR)、Shuffle Once (SO)、Incrmental Gradient (IG)の3つの一般的な実装を含んでいる。 経験的成功と比較して、シャッフル勾配法の理論的保証は長い間十分に理解されていなかった。 最近まで、収束速度は凸関数の平均反復率と強い凸問題(計量として2乗距離を用いる)の最終反復率に対して確立されていた。 しかし、関数値ギャップを収束基準として使う場合、既存の理論では、異なる設定(例えば制約付き最適化)で最後の繰り返しの良好な性能を解釈することはできない。 この実践と理論のギャップを埋めるために、強い凸性をもたずに、目的値に関して勾配法をシャッフルする最初の最終点収束率を証明した。 我々の新しい結果は、(ほぼ)既存の最下限の値と一致するか、あるいは、平均的イテレートの前の最上限の速度に等しいかのどちらかです。

Shuffling gradient methods are widely used in modern machine learning tasks and include three popular implementations: Random Reshuffle (RR), Shuffle Once (SO), and Incremental Gradient (IG). Compared to the empirical success, the theoretical guarantee of shuffling gradient methods was not well-understood for a long time. Until recently, the convergence rates had just been established for the average iterate for convex functions and the last iterate for strongly convex problems (using squared distance as the metric). However, when using the function value gap as the convergence criterion, existing theories cannot interpret the good performance of the last iterate in different settings (e.g., constrained optimization). To bridge this gap between practice and theory, we prove the first last-iterate convergence rates for shuffling gradient methods with respect to the objective value even without strong convexity. Our new results either (nearly) match the existing last-iterate lower bounds or are as fast as the previous best upper bounds for the average iterate.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# 脱離型HyDRa : ハイブリッド核融合, 深部整合性, レーダによる3次元認識

Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception ( http://arxiv.org/abs/2403.07746v2 )

ライセンス: Link先を確認
Philipp Wolters, Johannes Gilg, Torben Teepe, Fabian Herzog, Anouar Laouichi, Martin Hofmann, Gerhard Rigoll, (参考訳) 自動運転車のための低コストで視覚中心の3D認識システムは、近年大きく進歩し、高価なLiDARベースの方法とのギャップを狭めた。 完全に信頼性の高い代替手段となる上での最大の課題は、カメラベースのシステムが長い検知範囲と、照明と気象条件に苦しむため、堅牢な深度予測能力である。 本研究では,多様な3次元知覚タスクのための新しいカメラレーダ融合アーキテクチャであるHyDRaを紹介する。 密度の高いBEV(Bird's Eye View)ベースのアーキテクチャの原則に基づいて、HyDRaは2つの異なる表現空間における補完カメラとレーダーの特徴の強みを組み合わせるためのハイブリッド融合アプローチを導入した。 我々のハイト・アソシエーション・トランスフォーマー・モジュールは、すでに視界のレーダー機能を利用して、より堅牢で正確な深度予測を行う。 BEVでは、レーダ重み付き深度一貫性により初期スパース表現を洗練する。 HyDRaは64.2 NDS (+1.8) と58.4 AMOTA (+1.5) のカメラレーダー融合のための新しい最先端技術を実現している。 さらに、我々の新しいセマンティックにリッチで空間的に正確なBEV機能は、Occ3Dベンチマークの以前のカメラベースの手法を3.7 mIoUで圧倒し、強力な占有率の表現へと直接変換することができる。 コードとモデルはhttps://github.com/phi-wol/hydra.comで公開されている。

Low-cost, vision-centric 3D perception systems for autonomous driving have made significant progress in recent years, narrowing the gap to expensive LiDAR-based methods. The primary challenge in becoming a fully reliable alternative lies in robust depth prediction capabilities, as camera-based systems struggle with long detection ranges and adverse lighting and weather conditions. In this work, we introduce HyDRa, a novel camera-radar fusion architecture for diverse 3D perception tasks. Building upon the principles of dense BEV (Bird's Eye View)-based architectures, HyDRa introduces a hybrid fusion approach to combine the strengths of complementary camera and radar features in two distinct representation spaces. Our Height Association Transformer module leverages radar features already in the perspective view to produce more robust and accurate depth predictions. In the BEV, we refine the initial sparse representation by a Radar-weighted Depth Consistency. HyDRa achieves a new state-of-the-art for camera-radar fusion of 64.2 NDS (+1.8) and 58.4 AMOTA (+1.5) on the public nuScenes dataset. Moreover, our new semantically rich and spatially accurate BEV features can be directly converted into a powerful occupancy representation, beating all previous camera-based methods on the Occ3D benchmark by an impressive 3.7 mIoU. Code and models are available at https://github.com/phi-wol/hydra.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# LiveCodeBench: コードのための大規模言語モデルの完全かつ汚染のない評価

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code ( http://arxiv.org/abs/2403.07974v2 )

ライセンス: Link先を確認
Naman Jain, King Han, Alex Gu, Wen-Ding Li, Fanjia Yan, Tianjun Zhang, Sida Wang, Armando Solar-Lezama, Koushik Sen, Ion Stoica, (参考訳) コード関連アプリケーションに適用される大規模言語モデル(LLM)が目覚ましい分野として現れ、学術と産業の両方から大きな関心を集めている。 しかし、新しいLLMが開発されるにつれて、既存の評価ベンチマーク(例えば、HumanEval、MBPP)は、その能力を評価するのに十分ではない。 本研究では,コードに対するLLMの包括的かつ汚染のない評価であるLiveCodeBenchを提案する。これは,LeetCode,AtCoder,CodeForcesという3つの競合プラットフォームを対象としたコンテストから,時間とともに新たな問題を収集するものだ。 特に、我々のベンチマークは、コード生成だけでなく、自己修復、コード実行、テスト出力予測など、幅広いコード関連機能にも焦点を当てています。 現在、LiveCodeBenchは、2023年5月から2024年5月までに発行された400の高品質なコーディング問題をホストしている。 我々はLiveCodeBench上で18のベースLLMと34の命令調整LDMを評価した。 本稿では, 汚染, 総合的な性能比較, 既存ベンチマークの過度なオーバーフィット, および個別モデル比較に関する実証的な知見を示す。 新たなシナリオとモデルを追加するための汎用ツールキットとともに、コミュニティ分析のためのすべてのプロンプトとモデル補完をリリースします。

Large Language Models (LLMs) applied to code-related applications have emerged as a prominent field, attracting significant interest from both academia and industry. However, as new and improved LLMs are developed, existing evaluation benchmarks (e.g., HumanEval, MBPP) are no longer sufficient for assessing their capabilities. In this work, we propose LiveCodeBench, a comprehensive and contamination-free evaluation of LLMs for code, which continuously collects new problems over time from contests across three competition platforms, namely LeetCode, AtCoder, and CodeForces. Notably, our benchmark also focuses on a broader range of code related capabilities, such as self-repair, code execution, and test output prediction, beyond just code generation. Currently, LiveCodeBench hosts four hundred high-quality coding problems that were published between May 2023 and May 2024. We have evaluated 18 base LLMs and 34 instruction-tuned LLMs on LiveCodeBench. We present empirical findings on contamination, holistic performance comparisons, potential overfitting in existing benchmarks as well as individual model comparisons. We will release all prompts and model completions for further community analysis, along with a general toolkit for adding new scenarios and model
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# 制御強化量子気象学のための効率的なテンソルネットワーク

Efficient tensor networks for control-enhanced quantum metrology ( http://arxiv.org/abs/2403.09519v2 )

ライセンス: Link先を確認
Qiushi Liu, Yuxiang Yang, (参考訳) 最適化された量子制御は、量子メトロジーの性能と耐雑音性を高めることができる。 しかし、複数の制御操作が順次適用されると、最適化はすぐに難解になる。 本研究では、長い制御操作によって強化された量子力学の戦略を最適化するための効率的なテンソルネットワークアルゴリズムを提案する。 提案手法は,実験者がチャネルの$N$クエリ間で$N-1$のインターリーブド制御操作を適用して,非あるいは有界なアンシラを推定し,利用する,汎用的で実用的なシナリオである。 異なる実験能力により、これらの制御操作は汎用量子チャネルまたは変分ユニタリゲートである。 数値実験により,提案アルゴリズムは,N=100$のクエリに対して,パラメータ戦略の最適化に優れた性能を示した。 特に,我々のアルゴリズムは,N$が有限だが大きければ,最先端戦略よりも優れた戦略を見出すことができる。

Optimized quantum control can enhance the performance and noise resilience of quantum metrology. However, the optimization quickly becomes intractable when multiple control operations are applied sequentially. In this work, we propose efficient tensor network algorithms for optimizing strategies of quantum metrology enhanced by a long sequence of control operations. Our approach covers a general and practical scenario where the experimenter applies $N-1$ interleaved control operations between $N$ queries of the channel to estimate and uses no or bounded ancilla. Tailored to different experimental capabilities, these control operations can be generic quantum channels or variational unitary gates. Numerical experiments show that our algorithm has a good performance in optimizing the metrological strategy for as many as $N=100$ queries. In particular, our algorithm identifies a strategy that can outperform the state-of-the-art strategy when $N$ is finite but large.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# ThermoHands:エゴセントリックな熱画像から3Dハンドポースを推定するベンチマーク

ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal Images ( http://arxiv.org/abs/2403.09871v2 )

ライセンス: Link先を確認
Fangqiang Ding, Yunzhou Zhu, Xiangyu Wen, Gaowen Liu, Chris Xiaoxuan Lu, (参考訳) 本研究では,熱画像に基づくエゴセントリックな3Dハンドポーズ推定のための新しいベンチマークであるThermoHandsを提案する。 ベンチマークには、さまざまなシナリオ下で手動オブジェクトと手動仮想インタラクションを実行する28人の被験者から収集された多視点および多スペクトルデータセットが含まれており、自動化プロセスを通じて正確に3D手ポーズで注釈付けされている。 熱画像におけるエゴセントリックな3Dハンドポーズ推定に2つのトランスフォーマーモジュールを利用する新しいベースライン手法であるTherFormerを導入する。 TherFormerの先行性能と3次元手ぶれ推定における熱画像の有効性を実証した。

In this work, we present ThermoHands, a new benchmark for thermal image-based egocentric 3D hand pose estimation, aimed at overcoming challenges like varying lighting conditions and obstructions (e.g., handwear). The benchmark includes a multi-view and multi-spectral dataset collected from 28 subjects performing hand-object and hand-virtual interactions under diverse scenarios, accurately annotated with 3D hand poses through an automated process. We introduce a new baseline method, TherFormer, utilizing dual transformer modules for effective egocentric 3D hand pose estimation in thermal imagery. Our experimental results highlight TherFormer's leading performance and affirm thermal imaging's effectiveness in enabling robust 3D hand pose estimation in adverse conditions.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# Wav2Gloss: 音声からインターリニア・グロステキストを生成する

Wav2Gloss: Generating Interlinear Glossed Text from Speech ( http://arxiv.org/abs/2403.13169v2 )

ライセンス: Link先を確認
Taiqi He, Kwanghee Choi, Lindia Tjuatja, Nathaniel R. Robinson, Jiatong Shi, Shinji Watanabe, Graham Neubig, David R. Mortensen, Lori Levin, (参考訳) 世界中の何千もの言語が絶滅の危機にさらされている。 Interlinear Glossed Text (IGT) は言語アノテーションの一種で、これらの言語コミュニティのドキュメントやリソース作成をサポートする。 IGTは通常、(1)転写、(2)形態的セグメンテーション、(3)グルース、(4)多数言語への自由翻訳からなる。 本稿では,これらの4つのアノテーションコンポーネントを音声から自動的に抽出するタスクであるWav2Glossを提案し,その最後に最初のデータセットであるFieldworkを紹介した。 音声からIGTを生成するための基礎となる基盤として,エンドツーエンド対カスケード,モノリンガル対マルチリンガル,シングルタスク対マルチタスクアプローチなどがあげられる。

Thousands of the world's languages are in danger of extinction--a tremendous threat to cultural identities and human language diversity. Interlinear Glossed Text (IGT) is a form of linguistic annotation that can support documentation and resource creation for these languages' communities. IGT typically consists of (1) transcriptions, (2) morphological segmentation, (3) glosses, and (4) free translations to a majority language. We propose Wav2Gloss: a task in which these four annotation components are extracted automatically from speech, and introduce the first dataset to this end, Fieldwork: a corpus of speech with all these annotations, derived from the work of field linguists, covering 37 languages, with standard formatting, and train/dev/test splits. We provide various baselines to lay the groundwork for future research on IGT generation from speech, such as end-to-end versus cascaded, monolingual versus multilingual, and single-task versus multi-task approaches.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# イベントリンクに対するArgument-Awareアプローチ

Argument-Aware Approach To Event Linking ( http://arxiv.org/abs/2403.15097v2 )

ライセンス: Link先を確認
I-Hung Hsu, Zihan Xue, Nilay Pochh, Sahil Bansal, Premkumar Natarajan, Jayanth Srinivasa, Nanyun Peng, (参考訳) イベントリンクは、テキスト内のイベント参照と、知識ベース(KB)内の関連するノードを接続する。 イベントリンクに関する以前の研究は、主にエンティティリンクの手法を借りて、イベントの異なる特徴を見下ろしてきた。 広範囲に検討されたエンティティリンクタスクと比較して、イベントはより複雑な構造を持ち、関連する引数を調べることでより効果的に区別できる。 さらに、イベントの情報豊富な性質は、イベントKBの不足につながる。 これは、KBにないイベントの言及を'out-of-KB'として識別し分類するためのイベントリンクモデルの必要性を強調している。 本研究では,議論に配慮したアプローチを導入することで,これらの課題に対処する。 まず、入力テキストにタグ付けされたイベント引数情報を追加し、イベント参照に関する重要な情報の認識を容易にすることにより、イベントリンクモデルを改善する。 その後、モデルが ``out-of-KB'' シナリオを処理するのを助けるために、イベント引数の制御操作を通じて、イン-KBインスタンスからアウト-オブ-KBトレーニング例を合成する。 2つのテストデータセットを対象とした実験では,KB内シナリオとKB外シナリオの両方で大幅な改善が見られ,KB外評価では22%が顕著に改善された。

Event linking connects event mentions in text with relevant nodes in a knowledge base (KB). Prior research in event linking has mainly borrowed methods from entity linking, overlooking the distinct features of events. Compared to the extensively explored entity linking task, events have more complex structures and can be more effectively distinguished by examining their associated arguments. Moreover, the information-rich nature of events leads to the scarcity of event KBs. This emphasizes the need for event linking models to identify and classify event mentions not in the KB as ``out-of-KB,'' an area that has received limited attention. In this work, we tackle these challenges by introducing an argument-aware approach. First, we improve event linking models by augmenting input text with tagged event argument information, facilitating the recognition of key information about event mentions. Subsequently, to help the model handle ``out-of-KB'' scenarios, we synthesize out-of-KB training examples from in-KB instances through controlled manipulation of event arguments. Our experiment across two test datasets showed significant enhancements in both in-KB and out-of-KB scenarios, with a notable 22% improvement in out-of-KB evaluations.
翻訳日:2024-06-07 20:52:38 公開日:2024-06-06
# 3次元cQEDプロセッサ上の行列積状態を用いたホログラフィックガウスボソンサンプリング

Holographic Gaussian Boson Sampling with Matrix Product States on 3D cQED Processors ( http://arxiv.org/abs/2403.16810v2 )

ライセンス: Link先を確認
Ningyi Lyu, Paul Bergold, Micheline B. Soley, Chen Wang, Victor S. Batista, (参考訳) 行列積状態表現を用いた3次元cQEDプロセッサ上でのマルチモード状態ベクトルシミュレーションのための量子回路を提案する。 これらの回路は、チオール含有アリルスルホンアミド配位子と腫瘍壊死因子-$$\alpha$変換酵素受容体との結合を図示するホログラフィックガウスボソンサンプリングに基づく分子ドッキングシミュレーションに適用された。 そこで本研究では,複数モードのcQEDデバイスを用いて,測定と再初期化により作業モードを再購入することで,マルチモードシステムのシミュレートを行うことができることを示す。 我々は,ホログラフィックアプローチを用いて,コンパクトな3D cQEDプロセッサ上で,幅広いGBSアプリケーションが実装可能であることを予測した。 量子ビットベースの量子コンピュータのシミュレーションは、フォック状態の切り詰められた拡張という観点から連続変数を表す回路を用いて、類似して実装することができる。

We introduce quantum circuits for simulations of multi-mode state-vectors on 3D cQED processors, using matrix product state representations. The circuits are demonstrated as applied to simulations of molecular docking based on holographic Gaussian boson sampling, as illustrated for binding of a thiol-containing aryl sulfonamide ligand to the tumor necrosis factor-$\alpha$ converting enzyme receptor. We show that cQED devices with a modest number of modes could be employed to simulate multimode systems by re-purposing working modes through measurement and re-initialization. We anticipate a wide range of GBS applications could be implemented on compact 3D cQED processors analogously, using the holographic approach. Simulations on qubit-based quantum computers could be implemented analogously, using circuits that represent continuous variables in terms of truncated expansions of Fock states.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# DP-SGDの実装はどの程度プライベートか?

How Private are DP-SGD Implementations? ( http://arxiv.org/abs/2403.17673v2 )

ライセンス: Link先を確認
Lynn Chua, Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Amer Sinha, Chiyuan Zhang, (参考訳) バッチサンプリングの種類によって,Adaptive Batch Linear Queries (ABLQ) メカニズムのプライバシ保証との間には,大きなギャップがある。 (i)シャッフル,シャッフル (II)Poisson subsampling;典型的にはDP-SGDはABLQの後処理として解釈される。 シャッフルベースのDP-SGDは、より一般的に実用化されているが、解析的にも数値的にも、容易にプライバシー分析できるものではない。 一方、PoissonのサブサンプルベースのDP-SGDは、徹底的に実装することは難しいが、複数のオープンソースの数値的に厳密なプライバシー会計士が利用できるように、よく理解されているプライバシー分析がある。 これにより、シャッフルベースのDP-SGDを実際に使用するのが一般的であるが、対応するPoissonサブサンプリングバージョンのプライバシ分析を使用する。 以上の結果から,2種類のバッチサンプリングを用いた場合のプライバシー分析には大きなギャップがあり,DP-SGDのプライバシパラメータの報告に注意が必要であることが示唆された。

We demonstrate a substantial gap between the privacy guarantees of the Adaptive Batch Linear Queries (ABLQ) mechanism under different types of batch sampling: (i) Shuffling, and (ii) Poisson subsampling; the typical analysis of Differentially Private Stochastic Gradient Descent (DP-SGD) follows by interpreting it as a post-processing of ABLQ. While shuffling-based DP-SGD is more commonly used in practical implementations, it has not been amenable to easy privacy analysis, either analytically or even numerically. On the other hand, Poisson subsampling-based DP-SGD is challenging to scalably implement, but has a well-understood privacy analysis, with multiple open-source numerically tight privacy accountants available. This has led to a common practice of using shuffling-based DP-SGD in practice, but using the privacy analysis for the corresponding Poisson subsampling version. Our result shows that there can be a substantial gap between the privacy analysis when using the two types of batch sampling, and thus advises caution in reporting privacy parameters for DP-SGD.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# 非線形推論時間干渉:LLM真性の改善

Non-Linear Inference Time Intervention: Improving LLM Truthfulness ( http://arxiv.org/abs/2403.18680v2 )

ライセンス: Link先を確認
Jakub Hoscilowicz, Adam Wiacek, Jan Chojnacki, Adam Cieslak, Leszek Michon, Vitalii Urbanevych, Artur Janicki, (参考訳) 本研究では,LLMの内部表現空間を探索し,最も真正で正確な情報を含む注意ヘッドを同定する。 我々はさらに、微調整を必要とせずにLLMに偏りを与える推論時間干渉(ITI)フレームワークを開発した。 NL-ITI(Non-Linear ITI)は、評価ベンチマークの性能を大幅に向上させる。 NL-ITI は TruthfulQA など多種多種多様なデータセットでテストされ,そのベースライン ITI 結果に対して 16% 以上の相対 MC1 (正解を示すモデル精度) の改善が報告されている。 さらに,ITIの改良にも焦点をあてた最近リリースされたトラスフォレスト(TrFf)法に対して,10%の相対的な改善を実現した。

In this work, we explore LLM's internal representation space to identify attention heads that contain the most truthful and accurate information. We further developed the Inference Time Intervention (ITI) framework, which lets bias LLM without the need for fine-tuning. The improvement manifests in introducing a non-linear multi-token probing and multi-token intervention: Non-Linear ITI (NL-ITI), which significantly enhances performance on evaluation benchmarks. NL-ITI is tested on diverse multiple-choice datasets, including TruthfulQA, on which we report over 16% relative MC1 (accuracy of model pointing to the correct answer) improvement with respect to the baseline ITI results. Moreover, we achieved a 10% relative improvement over the recently released Truth Forest (TrFf) method that also focused on ITI improvement.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# NaijaHate: ナイジェリアのTwitter上でのヘイトスピーチ検出を代表データで評価

NaijaHate: Evaluating Hate Speech Detection on Nigerian Twitter Using Representative Data ( http://arxiv.org/abs/2403.19260v2 )

ライセンス: Link先を確認
Manuel Tonneau, Pedro Vitor Quinta de Castro, Karim Lasri, Ibrahim Farouq, Lakshminarayanan Subramanian, Victor Orozco-Olvera, Samuel P. Fraiberger, (参考訳) オンライン憎悪の世界的な問題に対処するために、ヘイトスピーチ検出(HSD)システムは一般的に米国のデータセット上で開発され、その結果、メジャー・ワールドの英語方言への一般化に失敗する。 さらに、HSDモデルは非表現的なサンプルでしばしば評価され、実環境におけるモデル性能の過大評価に関する懸念が提起される。 本研究では,ナイジェリアのつぶやきの代表的なサンプルを含むHSDにアノテートされた最初のデータセットであるNaijaHateを紹介する。 文献で伝統的に用いられてきたバイアス付きデータセットで評価されたHSDは、少なくとも2倍の実際の性能を常に過大評価している。 次に,ナイジェリアのTwitterコンテキストに合わせた事前学習モデルであるNaijaXLM-Tを提案し,HSD性能の最大化において,ドメイン適応型事前学習と微調整が果たす重要な役割を確立する。 最後に、現実の状況下でのHSDシステムの質素なパフォーマンスのため、コンテンツモデレーターは毎日1万件のナイジェリアのツイートをヘイトフルとマークし、すべてのヘイトフルコンテンツの60%を中程度に減らし、ソーシャルメディアの利用が世界中で拡大するにつれて、ヘイトスピーチを大規模にモデレートするという課題を強調する必要があることに気付きました。 これらの結果は、堅牢なHSDシステムへの道を歩み、低リソース環境でのヘイトフルコンテンツからソーシャルメディアユーザーを保護している。

To address the global issue of online hate, hate speech detection (HSD) systems are typically developed on datasets from the United States, thereby failing to generalize to English dialects from the Majority World. Furthermore, HSD models are often evaluated on non-representative samples, raising concerns about overestimating model performance in real-world settings. In this work, we introduce NaijaHate, the first dataset annotated for HSD which contains a representative sample of Nigerian tweets. We demonstrate that HSD evaluated on biased datasets traditionally used in the literature consistently overestimates real-world performance by at least two-fold. We then propose NaijaXLM-T, a pretrained model tailored to the Nigerian Twitter context, and establish the key role played by domain-adaptive pretraining and finetuning in maximizing HSD performance. Finally, owing to the modest performance of HSD systems in real-world conditions, we find that content moderators would need to review about ten thousand Nigerian tweets flagged as hateful daily to moderate 60% of all hateful content, highlighting the challenges of moderating hate speech at scale as social media usage continues to grow globally. Taken together, these results pave the way towards robust HSD systems and a better protection of social media users from hateful content in low-resource settings.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# 多言語大言語モデルに関する調査:コーパス,アライメント,バイアス

A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias ( http://arxiv.org/abs/2404.00929v2 )

ライセンス: Link先を確認
Yuemei Xu, Ling Hu, Jiayi Zhao, Zihan Qiu, Yuqi Ye, Hanwen Gu, (参考訳) LLM(Large Language Models)の基盤に基づいて、多言語自然言語処理タスクの課題に対処するために、多言語大言語モデル(MLLM)が開発された。 しかし、言語不均衡、多言語アライメント、固有のバイアスなど、大きな制限と課題がまだ残っている。 本稿では,これらの重要な問題をめぐる議論を深く掘り下げ,MLLMを包括的に分析することを目的とする。 まず、MLLMの概要を示し、その進化、鍵となる技術、多言語能力について述べる。 第2に,MLLM の訓練に広く利用されている多言語コーパスと,MLLM の言語横断能力向上に不可欠な下流タスクを指向した多言語データセットについて検討する。 第3に、多言語表現に関する既存の研究を調査し、現在のMLLMが普遍言語表現を学べるかどうかを検討する。 第4に,そのカテゴリと評価指標を含むMLLMのバイアスについて論じ,既存のデバイアス手法を要約する。 最後に,既存の課題について議論し,有望な研究方向性を指摘する。 本稿では,これらの側面を実証することにより,MLLMとその諸分野における可能性の理解を深めることを目的とする。

Based on the foundation of Large Language Models (LLMs), Multilingual Large Language Models (MLLMs) have been developed to address the challenges of multilingual natural language processing tasks, hoping to achieve knowledge transfer from high-resource to low-resource languages. However, significant limitations and challenges still exist, such as language imbalance, multilingual alignment, and inherent bias. In this paper, we aim to provide a comprehensive analysis of MLLMs, delving deeply into discussions surrounding these critical issues. First of all, we start by presenting an overview of MLLMs, covering their evolution, key techniques, and multilingual capacities. Secondly, we explore widely utilized multilingual corpora for MLLMs' training and multilingual datasets oriented for downstream tasks that are crucial for enhancing the cross-lingual capability of MLLMs. Thirdly, we survey the existing studies on multilingual representations and investigate whether the current MLLMs can learn a universal language representation. Fourthly, we discuss bias on MLLMs including its category and evaluation metrics, and summarize the existing debiasing techniques. Finally, we discuss existing challenges and point out promising research directions. By demonstrating these aspects, this paper aims to facilitate a deeper understanding of MLLMs and their potentiality in various domains.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# パラメータ適応近似型MPC:リトレーニングなしのニューラルネットワーク制御器のチューニング

Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining ( http://arxiv.org/abs/2404.05835v2 )

ライセンス: Link先を確認
Henrik Hose, Alexander Gräfe, Sebastian Trimpe, (参考訳) モデル予測制御(MPC)は、安定性と制約満足度を保証する非線形システムを制御する手法であるが、高い計算時間に悩まされている。 ニューラルネットワーク(NN)を備えた近似MPC(AMPC)がこの制限に対処するために登場し、リソースに制約のある組み込みシステムへのデプロイを可能にした。 しかし、現実世界のシステム向けにAMPCをチューニングする場合、大きなデータセットを再生し、チューニングステップ毎にNNを再トレーニングする必要がある。 この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。 非線形プログラムの局所的な感度を取り入れることで、最適MPC入力を模倣するだけでなく、線形予測を用いてモデルの物理パラメータの既知の変化に適応し、安定性を保証できる。 資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。 異なるパラメータを持つ両方のシステムインスタンスで同じNNを使用します。 この研究は、低コストのMCU上での高速移動システムのためのAMPCの実証実験を、私たちの知識の最大限に活用するだけでなく、システムインスタンス間の一般化やパラメータ適応手法によるバリエーションも示している。 これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。

Model Predictive Control (MPC) is a method to control nonlinear systems with guaranteed stability and constraint satisfaction but suffers from high computation times. Approximate MPC (AMPC) with neural networks (NNs) has emerged to address this limitation, enabling deployment on resource-constrained embedded systems. However, when tuning AMPCs for real-world systems, large datasets need to be regenerated and the NN needs to be retrained at every tuning step. This work introduces a novel, parameter-adaptive AMPC architecture capable of online tuning without recomputing large datasets and retraining. By incorporating local sensitivities of nonlinear programs, the proposed method not only mimics optimal MPC inputs but also adjusts to known changes in physical parameters of the model using linear predictions while still guaranteeing stability. We showcase the effectiveness of parameter-adaptive AMPC by controlling the swing-ups of two different real cartpole systems with a severely resource-constrained microcontroller (MCU). We use the same NN across both system instances that have different parameters. This work not only represents the first experimental demonstration of AMPC for fast-moving systems on low-cost MCUs to the best of our knowledge, but also showcases generalization across system instances and variations through our parameter-adaptation method. Taken together, these contributions represent a marked step toward the practical application of AMPC in real-world systems.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# リーブ・ライニガーガスの熱力学特性の解析

Analytic thermodynamic properties of the Lieb-Liniger gas ( http://arxiv.org/abs/2404.06092v3 )

ライセンス: Link先を確認
M. L. Kerr, G. De Rosi, K. V. Kheruntsyan, (参考訳) 本稿では, 1次元(1D)ボース気体のリーブ・ライニッガー模型の有限温度熱力学量と接触反発相互作用について概説する。 この量子多体理論のパラダイムモデルは、その積分性と、準1次元幾何学に制限された超低温のボゾン原子のアンサンブルを用いた実験的実現により、物理学の多くの領域において重要な役割を果たす。 均一なリーブ・ライニガー気体の熱力学は、1969年にヤンとヤンによって初めて導かれた正確な熱的Bethe ansatz (TBA)法を用いて数値的に得ることができる。 しかし、TBAの数値計算では、リーブ・ライニガー気体の熱力学挙動を有限温度で制御する基礎となる物理機構の深い理解ができない。 この研究は, 閉形式解析結果の透明性から自然に生じる知見によって動機付けられ, ガスの6つの異なる状態から導出され, TBA数値と良好な一致を示す。 本研究は, 局所密度近似における非均一(eg, 調和捕捉)1次元ボースガスの平衡特性を解析し, 基礎となる熱力学方程式に依存する呼吸モード周波数の計算を可能にした。 我々の分析手法は、量子浴、液体ヘリウム-4、超低温ボースガス混合系の不純物を含む他のシステムにも適用できる。

We present a comprehensive review on the state-of-the-art of the approximate analytic approaches describing the finite-temperature thermodynamic quantities of the Lieb-Liniger model of the one-dimensional (1D) Bose gas with contact repulsive interactions. This paradigmatic model of quantum many-body-theory plays an important role in many areas of physics -- thanks to its integrability and possible experimental realization using, e.g., ensembles of ultracold bosonic atoms confined to quasi-1D geometries. The thermodynamics of the uniform Lieb-Liniger gas can be obtained numerically using the exact thermal Bethe ansatz (TBA) method, first derived in 1969 by Yang and Yang. However, the TBA numerical calculations do not allow for the in-depth understanding of the underlying physical mechanisms that govern the thermodynamic behavior of the Lieb-Liniger gas at finite temperature. Our work is then motivated by the insights that emerge naturally from the transparency of closed-form analytic results, which are derived here in six different regimes of the gas and which exhibit an excellent agreement with the TBA numerics. Our findings can be further adopted for characterising the equilibrium properties of inhomogeneous (e.g., harmonically trapped) 1D Bose gases within the local density approximation and for the development of improved hydrodynamic theories, allowing for the calculation of breathing mode frequencies which depend on the underlying thermodynamic equation of state. Our analytic approaches can be applied to other systems including impurities in a quantum bath, liquid helium-4, and ultracold Bose gas mixtures.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# テーブル検索は解決された問題か?

Is Table Retrieval a Solved Problem? Exploring Join-Aware Multi-Table Retrieval ( http://arxiv.org/abs/2404.09889v2 )

ライセンス: Link先を確認
Peter Baile Chen, Yi Zhang, Dan Roth, (参考訳) テーブル上で与えられた質問に正確に答えるために必要な情報を含む関連するテーブルを取得することは、オープンドメインの質問回答システム(QA)にとって重要である。 従来の方法では、そのような質問に対する答えは、単一のテーブルか、質問の分解や書き直しによって特定された複数のテーブルで見つけることができると仮定していた。 しかし、これらのアプローチはいずれも十分ではなく、多くの質問は複数のテーブルを検索し、ユーザクエリ自身から識別できないジョインプランを通じてそれらを結合する必要がある。 検索段階で結合計画が考慮されない場合、それらのテーブルに基づく推論と解答のその後のステップは誤りである可能性が高い。 この問題に対処するために,テーブル検索において,任意のクエリやデータベースに対して有用な結合関係を明らかにする手法を提案する。 テーブルクエリの関連性だけでなく,結合関係の推論を必要とするテーブルテーブルの関連性についても検討する。 提案手法は,F1スコアの最大9.3%,エンドツーエンドQAの最大5.4%の精度で,テーブル検索の最先端手法よりも優れている。

Retrieving relevant tables containing the necessary information to accurately answer a given question over tables is critical to open-domain question-answering (QA) systems. Previous methods assume the answer to such a question can be found either in a single table or multiple tables identified through question decomposition or rewriting. However, neither of these approaches is sufficient, as many questions require retrieving multiple tables and joining them through a join plan that cannot be discerned from the user query itself. If the join plan is not considered in the retrieval stage, the subsequent steps of reasoning and answering based on those retrieved tables are likely to be incorrect. To address this problem, we introduce a method that uncovers useful join relations for any query and database during table retrieval. We use a novel re-ranking method formulated as a mixed-integer program that considers not only table-query relevance but also table-table relevance that requires inferring join relationships. Our method outperforms the state-of-the-art approaches for table retrieval by up to 9.3% in F1 score and for end-to-end QA by up to 5.4% in accuracy.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# NormAd: 大規模言語モデルの文化的適応性を評価するベンチマーク

NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models ( http://arxiv.org/abs/2404.12464v4 )

ライセンス: Link先を確認
Abhinav Rao, Akhila Yerukola, Vishwa Shah, Katharina Reinecke, Maarten Sap, (参考訳) LLMは相互作用をナビゲートし、社会的規範を尊重し、文化的境界を越えることを避けなければならない。 しかし、LLMが生産物を多様な文化規範に適応できるかどうかはまだ不明である。 我々の研究は、この側面に焦点を当てている。 我々は,75カ国の社会的・文化的規範を表す2.6kの物語を含む新しいデータセットであるNormAdを紹介した。 我々の研究は、LLMがすべての文脈の粒度を横断する文化的推論に苦慮していることを示し、グローバル・サウスの文化よりも英語中心の文化に強い適応性を示している。 明示的な社会的規範にもかかわらず、トップパフォーマンスモデルであるMistral-7b-Instructは81.8\%の精度しか達成せず、人間によって達成された95.6\%より遅れている。 NormAdの評価は、LLMが文化全体にわたるギフトギフトを含むストーリーに適応するのに苦労していることをさらに明らかにしている。 固有の合意や梅毒のバイアスのため、LLMは文化規範に従う物語の社会的受容性を評価するのが、彼らから逸脱しているものよりもはるかに容易である。 我々のベンチマークは、LLMの文化的適応性(またはその欠如)を測定し、これらの技術をグローバルな観客にとってより公平で有用なものにする可能性を強調している。 NormAdデータセットとその関連コードはGitHubでリリースしています。

The integration of Large Language Models (LLMs) into various global cultures fundamentally presents a cultural challenge: LLMs must navigate interactions, respect social norms, and avoid transgressing cultural boundaries. However, it is still unclear if LLMs can adapt their outputs to diverse cultural norms. Our study focuses on this aspect. We introduce NormAd, a novel dataset, which includes 2.6k stories that represent social and cultural norms from 75 countries, to assess the ability of LLMs to adapt to different granular levels of socio-cultural contexts such as the country of origin, its associated cultural values, and prevalent social norms. Our study reveals that LLMs struggle with cultural reasoning across all contextual granularities, showing stronger adaptability to English-centric cultures over those from the Global South. Even with explicit social norms, the top-performing model, Mistral-7b-Instruct, achieves only 81.8\% accuracy, lagging behind the 95.6\% achieved by humans. Evaluation on NormAd further reveals that LLMs struggle to adapt to stories involving gift-giving across cultures. Due to inherent agreement or sycophancy biases, LLMs find it considerably easier to assess the social acceptability of stories that adhere to cultural norms than those that deviate from them. Our benchmark measures the cultural adaptability (or lack thereof) of LLMs, emphasizing the potential to make these technologies more equitable and useful for global audiences. We release the NormAd dataset and its associated code on GitHub.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# VALOR-EVAL:大規模視覚言語モデルの全体被覆と忠実度評価

VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models ( http://arxiv.org/abs/2404.13874v2 )

ライセンス: Link先を確認
Haoyi Qiu, Wenbo Hu, Zi-Yi Dou, Nanyun Peng, (参考訳) LVLM (Large Vision-Language Models) は幻覚に悩まされ、そのモデルが可聴音を生成するが、実際には誤出力を生成し、信頼性を損なう。 これらのモデルにおける幻覚の程度を同定し、理解するためには、包括的な定量的評価が必要である。 しかしながら、既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。 さらに、現在の評価手法では、モデル出力と参照データとの微妙なセマンティックな区別と、幻覚と情報性のバランスを効果的に解決するのに苦労している。 これらの問題に対処するために, 対象, 属性, 関係性をカバーする多次元ベンチマークを導入する。 さらに,一般的なCHAIRメトリックを一般化し,忠実度と包括性の両方を評価に取り入れた,LLMに基づく2段階評価フレームワークを提案する。 確立された10のLVLMに関する実験は、我々の評価基準が既存の作業よりも包括的で、人間との相関性が高いことを実証している。 我々の研究は、モデル出力の忠実さと包括性の間の重要なバランスを強調し、将来の研究がLVLMの幻覚に対処しつつ、アウトプットを情報的に保つことを奨励している。

Large Vision-Language Models (LVLMs) suffer from hallucination issues, wherein the models generate plausible-sounding but factually incorrect outputs, undermining their reliability. A comprehensive quantitative evaluation is necessary to identify and understand the extent of hallucinations in these models. However, existing benchmarks are often limited in scope, focusing mainly on object hallucinations. Furthermore, current evaluation methods struggle to effectively address the subtle semantic distinctions between model outputs and reference data, as well as the balance between hallucination and informativeness. To address these issues, we introduce a multi-dimensional benchmark covering objects, attributes, and relations, with challenging images selected based on associative biases. Moreover, we propose a large language model (LLM)-based two-stage evaluation framework that generalizes the popular CHAIR metric and incorporates both faithfulness and coverage into the evaluation. Experiments on 10 established LVLMs demonstrate that our evaluation metric is more comprehensive and better correlated with humans than existing work when evaluating on our challenging human-annotated benchmark dataset. Our work also highlights the critical balance between faithfulness and coverage of model outputs, and encourages future works to address hallucinations in LVLMs while keeping their outputs informative.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# コンペティションレポート:LLMのユニバーサルジェイルブレイクバックドア発見

Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs ( http://arxiv.org/abs/2404.14461v2 )

ライセンス: Link先を確認
Javier Rando, Francesco Croce, Kryštof Mitka, Stepan Shabalin, Maksym Andriushchenko, Nicolas Flammarion, Florian Tramèr, (参考訳) 大規模な言語モデルは安全であり、ユーザーが不正情報や違法行為の指示などの有害なコンテンツを生成できないように調整されている。 しかし、以前の研究では、アライメントプロセスは毒殺攻撃に弱いことが示されている。 広告主は安全トレーニングデータを操作して、ユニバーサルなsudoコマンドのように振る舞うバックドアを注入することができる。 私たちのコンペはIEEE SaTML 2024で開催され、参加者にいくつかの大きな言語モデルで普遍的なバックドアを見つけるよう呼びかけました。 本報告では,今後の研究の要点と将来性について概説する。

Large language models are aligned to be safe, preventing users from generating harmful content like misinformation or instructions for illegal activities. However, previous work has shown that the alignment process is vulnerable to poisoning attacks. Adversaries can manipulate the safety training data to inject backdoors that act like a universal sudo command: adding the backdoor string to any prompt enables harmful responses from models that, otherwise, behave safely. Our competition, co-located at IEEE SaTML 2024, challenged participants to find universal backdoors in several large language models. This report summarizes the key findings and promising ideas for future research.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# TAAT: Text2Motionにおける任意テキストの考え方と行為

TAAT: Think and Act from Arbitrary Texts in Text2Motion ( http://arxiv.org/abs/2404.14745v2 )

ライセンス: Link先を確認
Runqi Wang, Caoyuan Ma, Guopeng Li, Zheng Wang, (参考訳) Text2Motionはテキストから人間の動きを生成することを目的としている。 既存のデータセットは、テキストにアクションラベル(例えば「ウォーク、ベンド、ピックアップ」など)が含まれているという前提に依存しており、現実的なシナリオでは柔軟性がない。 本稿では、テキストが任意のものであるというより現実的な仮定で、この問題を再定義する。 具体的には、アクションラベルからなる既存のアクションテキスト(例えば、人が何かを拾うために歩いたり曲げたり)、明示的なアクションラベルのないシーンテキスト(例えば、前方で財布に気づきます)を含む。 この現実的な設定と既存のデータセットのギャップを埋めるため、HumanML3Dデータセットのアクションテキストをより多くのシーンテキストに拡張し、任意のテキストを含む新しいHumanML3D++データセットを作成します。 この挑戦的なデータセットでは、既存の最先端手法をベンチマークし、任意のテキストからLarge Language Model (LLM) を用いてアクションラベルを抽出し、アクションラベルから動作を生成する新しい2段階のフレームワークを提案する。 既存のデータセットと提案されたデータセットに対するフレームワークの有効性を検証するため、さまざまなアプリケーションシナリオの下で大規模な実験が実施されている。 その結果、この現実的な環境でのText2Motionは非常に難しいことが示され、この実践的な方向への新しい研究が育まれている。 データセットとコードはリリースされます。

Text2Motion aims to generate human motions from texts. Existing datasets rely on the assumption that texts include action labels (such as "walk, bend, and pick up"), which is not flexible for practical scenarios. This paper redefines this problem with a more realistic assumption that the texts are arbitrary. Specifically, arbitrary texts include existing action texts composed of action labels (e.g., A person walks and bends to pick up something), and introduce scene texts without explicit action labels (e.g., A person notices his wallet on the ground ahead). To bridge the gaps between this realistic setting and existing datasets, we expand the action texts on the HumanML3D dataset to more scene texts, thereby creating a new HumanML3D++ dataset including arbitrary texts. In this challenging dataset, we benchmark existing state-of-the-art methods and propose a novel two-stage framework to extract action labels from arbitrary texts by the Large Language Model (LLM) and then generate motions from action labels. Extensive experiments are conducted under different application scenarios to validate the effectiveness of the proposed framework on existing and proposed datasets. The results indicate that Text2Motion in this realistic setting is very challenging, fostering new research in this practical direction. Our dataset and code will be released.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# スパイクニューラルネットワークにおける代用勾配学習の理論的基盤の解明

Elucidating the theoretical underpinnings of surrogate gradient learning in spiking neural networks ( http://arxiv.org/abs/2404.14964v2 )

ライセンス: Link先を確認
Julia Gygax, Friedemann Zenke, (参考訳) 脳内の情報処理とニューロモルフィックコンピューティングを研究するためには、スパイクニューラルネットワークの訓練が不可欠である。 しかし、スパイクのバイナリの性質は、直接勾配に基づくトレーニングの課題となっている。 この問題を解決するために、シュロゲート勾配は実験的に成功したが、その理論的基礎は解明されていない。 ここでは、代理勾配と理論的に確立された2つのアプローチとの関係について検討する。 一方,スムーズな確率モデルでは, 自動微分のサポートが欠如しているため, 深部スパイクニューラルネットワークのトレーニングには実用的でないが, 単一ニューロンにおける代理勾配に相当する勾配を与える。 一方,確率的自動微分は離散的ランダム性に適合するが,スパイクニューラルネットワークトレーニングには適用されていない。 確率的スパイクニューラルネットワークにおいて、後者は代用勾配の欠落の理論的基礎を提供する。 さらに、決定論的ネットワークにおける代理勾配は特定の漸近的ケースに対応し、確率的多層スパイキングニューラルネットワークにおける代理勾配の有効性を数値的に確認する。 最後に、サロゲート勾配は保守的な場ではなく、したがってサロゲート損失の勾配ではないことを示す。 我々の研究は、サロゲート勾配に関する理論基盤の欠如と、確率スパイクニューラルネットワークのエンドツーエンドトレーニングのための解析的に十分に確立されたソリューションを提供する。

Training spiking neural networks to approximate complex functions is essential for studying information processing in the brain and neuromorphic computing. Yet, the binary nature of spikes constitutes a challenge for direct gradient-based training. To sidestep this problem, surrogate gradients have proven empirically successful, but their theoretical foundation remains elusive. Here, we investigate the relation of surrogate gradients to two theoretically well-founded approaches. On the one hand, we consider smoothed probabilistic models, which, due to lack of support for automatic differentiation, are impractical for training deep spiking neural networks, yet provide gradients equivalent to surrogate gradients in single neurons. On the other hand, we examine stochastic automatic differentiation, which is compatible with discrete randomness but has never been applied to spiking neural network training. We find that the latter provides the missing theoretical basis for surrogate gradients in stochastic spiking neural networks. We further show that surrogate gradients in deterministic networks correspond to a particular asymptotic case and numerically confirm the effectiveness of surrogate gradients in stochastic multi-layer spiking neural networks. Finally, we illustrate that surrogate gradients are not conservative fields and, thus, not gradients of a surrogate loss. Our work provides the missing theoretical foundation for surrogate gradients and an analytically well-founded solution for end-to-end training of stochastic spiking neural networks.
翻訳日:2024-06-07 20:42:53 公開日:2024-06-06
# TAXI:言語モデルのカテゴリ的知識編集の評価

TAXI: Evaluating Categorical Knowledge Editing for Language Models ( http://arxiv.org/abs/2404.15004v2 )

ライセンス: Link先を確認
Derek Powell, Walter Gerych, Thomas Hartvigsen, (参考訳) 人間は一つの事実を単独で学ぶことは滅多にない。 代わりに、新しい事実を学ぶことは、世界に関する他の事実の知識を誘導する。 例えば、コラットを学習することは猫の一種であり、哺乳類であり、爪を持っていると推測し、世界のモデルが一貫していることを保証する。 知識編集は、言語モデルに新しい事実を注入して事実を改善することを目的としているが、現在のベンチマークでは一貫性の評価に失敗している。 分類的知識編集における一貫性を評価するために特別に作成された新しいベンチマークデータセットであるTAXIを手動で作成する。 TAXIは、41のカテゴリー(例:犬)、164の被験者(例:ラブラドール)、183の特性(例:哺乳類)にまたがる976の編集のための11,120の多重選択クエリを含む。 次に、TAXIを用いて、一般的な編集者の分類的一貫性を評価し、対象者のカテゴリが適切に編集される頻度を測定する。 私たちはそれを見つける。 1)編集者は、限界はあるが、非ランダムな一貫性を達成する。 2)その一貫性は人間の基準線をはるかに過小評価し、 コードとデータはhttps://github.com/derekpowell/taxi.orgで公開されている。

Humans rarely learn one fact in isolation. Instead, learning a new fact induces knowledge of other facts about the world. For example, in learning a korat is a type of cat, you also infer it is a mammal and has claws, ensuring your model of the world is consistent. Knowledge editing aims to inject new facts into language models to improve their factuality, but current benchmarks fail to evaluate consistency, which is critical to ensure efficient, accurate, and generalizable edits. We manually create TAXI, a new benchmark dataset specifically created to evaluate consistency in categorical knowledge edits. TAXI contains 11,120 multiple-choice queries for 976 edits spanning 41 categories (e.g., Dogs), 164 subjects (e.g., Labrador), and 183 properties (e.g., is a mammal). We then use TAXI to evaluate popular editors' categorical consistency, measuring how often editing a subject's category appropriately edits its properties. We find that 1) the editors achieve marginal, yet non-random consistency, 2) their consistency far underperforms human baselines, and 3) consistency is more achievable when editing atypical subjects Our code and data are available at https://github.com/derekpowell/taxi.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# LogicBench:大規模言語モデルの論理推論能力の体系的評価を目指して

LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models ( http://arxiv.org/abs/2404.15522v2 )

ライセンス: Link先を確認
Mihir Parmar, Nisarg Patel, Neeraj Varshney, Mutsumi Nakamura, Man Luo, Santosh Mashetty, Arindam Mitra, Chitta Baral, (参考訳) 最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。 しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。 しかし、「論理的推論」にまつわる重要な技術はいまだ未解明のままである。 LLMのこの推論能力を研究する既存の研究は、命題論理と一階述語論理のいくつかの推論規則(modus ponensやmodus tollensなど)にのみ焦点を当てている。 上記の制限に対処し、命題論理、一階論理、非単調論理にまたがる25の異なる推論パターンにおけるLLMの論理的推論能力を総合的に評価する。 体系的な評価を可能にするために,1つの推論規則の使用に着目した自然言語質問回答データセットであるLogicBenchを紹介する。 GPT-4, ChatGPT, Gemini, Llama-2, MistralなどのLLMをチェーン・オブ・シークレット・プロンプトを用いて詳細な解析を行った。 実験の結果,既存の LLM は LogicBench をうまく利用していないことが明らかとなった。 さらに、正しい結論に達するための推論に必要な文脈情報も見落としてしまうことがある。 我々は, LLMの論理的推論能力の評価と向上のために, 今後の研究を促進すると信じている。 データとコードはhttps://github.com/Mihir3009/LogicBench.comで入手できる。

Recently developed large language models (LLMs) have been shown to perform remarkably well on a wide range of language understanding tasks. But, can they really "reason" over the natural language? This question has been receiving significant research attention and many reasoning skills such as commonsense, numerical, and qualitative have been studied. However, the crucial skill pertaining to 'logical reasoning' has remained underexplored. Existing work investigating this reasoning ability of LLMs has focused only on a couple of inference rules (such as modus ponens and modus tollens) of propositional and first-order logic. Addressing the above limitation, we comprehensively evaluate the logical reasoning ability of LLMs on 25 different reasoning patterns spanning over propositional, first-order, and non-monotonic logics. To enable systematic evaluation, we introduce LogicBench, a natural language question-answering dataset focusing on the use of a single inference rule. We conduct detailed analysis with a range of LLMs such as GPT-4, ChatGPT, Gemini, Llama-2, and Mistral using chain-of-thought prompting. Experimental results show that existing LLMs do not fare well on LogicBench; especially, they struggle with instances involving complex reasoning and negations. Furthermore, they sometimes overlook contextual information necessary for reasoning to arrive at the correct conclusion. We believe that our work and findings facilitate future research for evaluating and enhancing the logical reasoning ability of LLMs. Data and code are available at https://github.com/Mihir3009/LogicBench.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# マルチラウンド一貫性によるフェデレーション学習に対するモデルポジショニング攻撃

Model Poisoning Attacks to Federated Learning via Multi-Round Consistency ( http://arxiv.org/abs/2404.15611v2 )

ライセンス: Link先を確認
Yueqi Xie, Minghong Fang, Neil Zhenqiang Gong, (参考訳) モデル中毒は、フェデレート・ラーニング(FL)にとって重要なセキュリティ上の脅威である。 既存のモデル中毒攻撃には2つの重要な制限がある。 1)防衛が配備されたとき、及び/又はその際の準最適効果を達成する。 2) モデル更新や実際のクライアントでのローカルトレーニングデータに関する知識が必要です。 本研究では,個々のトレーニングラウンドにおいて,悪意のあるクライアント間のモデル更新整合性のみを活用することによって,攻撃効果を訓練ラウンド間で自己キャッシュ化することによって,それらの最適効果が生じることを重要視する。 そこで本研究では,悪意のあるクライアントのモデル更新において,実際のクライアントに関する知識を必要とせず,複数ラウンドの一貫性を実現するPoisonedFLを提案する。 5つのベンチマークデータセットに対する実証的な評価は、PoisonedFLが8つの最先端の防御を破り、既存の7つのモデル中毒攻撃を上回っていることを示している。 さらに,PoisonedFLに合わせた新たな防御策も検討していますが,この結果から,PoisonedFLを破るためにも適用できることが分かりました。 本研究は、FL系が従来考えられていたよりもかなり堅牢であることを示し、新しい防御機構の開発の緊急性を明らかにした。

Model poisoning attacks are critical security threats to Federated Learning (FL). Existing model poisoning attacks suffer from two key limitations: 1) they achieve suboptimal effectiveness when defenses are deployed, and/or 2) they require knowledge of the model updates or local training data on genuine clients. In this work, we make a key observation that their suboptimal effectiveness arises from only leveraging model-update consistency among malicious clients within individual training rounds, making the attack effect self-cancel across training rounds. In light of this observation, we propose PoisonedFL, which enforces multi-round consistency among the malicious clients' model updates while not requiring any knowledge about the genuine clients. Our empirical evaluation on five benchmark datasets shows that PoisonedFL breaks eight state-of-the-art defenses and outperforms seven existing model poisoning attacks. Moreover, we also explore new defenses that are tailored to PoisonedFL, but our results show that we can still adapt PoisonedFL to break them. Our study shows that FL systems are considerably less robust than previously thought, underlining the urgency for the development of new defense mechanisms.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# 米ビザンティン、Ethereum PoSで反逆罪を犯す

Byzantine Attacks Exploiting Penalties in Ethereum PoS ( http://arxiv.org/abs/2404.16363v2 )

ライセンス: Link先を確認
Ulysse Pavloff, Yackolley Amoussou-Genou, Sara Tucci-Piergiovanni, (参考訳) 2023年5月、Ethereumブロックチェーンは最初の不活性リークを経験した。 このメカニズムは、ネットワーク内で到達不能なバリデータに対する投票力を低減し、アクティブバリデータに再割り当てすることを目的としている。 本稿では,Ethereumブロックチェーンの安全性に対する不活性リークの影響について検討する。 理論的分析では、ビザンツの検証者が2つの対立するブランチの最終的な決定を早めるシナリオと、ビザンツの検証者が3分の1の臨界安全性閾値を超える投票力に達するシナリオを明らかにした。 さらに、確率論的バウンシング攻撃を再考し、不活性な漏洩がいかにして確率論的に安全を侵害し、ビザンツのバリデーターが3分の1の安全閾値を超える可能性があるかを説明する。 この結果から,非活性ノードのペナルティ化がブロックチェーン特性,特に行動のコーディネートが可能なビザンチンバリデータの存在にどのように影響するかが明らかになった。

In May 2023, the Ethereum blockchain experienced its first inactivity leak, a mechanism designed to reinstate chain finalization amid persistent network disruptions. This mechanism aims to reduce the voting power of validators who are unreachable within the network, reallocating this power to active validators. This paper investigates the implications of the inactivity leak on safety within the Ethereum blockchain. Our theoretical analysis reveals scenarios where actions by Byzantine validators expedite the finalization of two conflicting branches, and instances where Byzantine validators reach a voting power exceeding the critical safety threshold of one-third. Additionally, we revisit the probabilistic bouncing attack, illustrating how the inactivity leak can result in a probabilistic breach of safety, potentially allowing Byzantine validators to exceed the one-third safety threshold. Our findings uncover how penalizing inactive nodes can compromise blockchain properties, particularly in the presence of Byzantine validators capable of coordinating actions.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# 自己整合推論に強力な検証器を必要とする小言語モデル

Small Language Models Need Strong Verifiers to Self-Correct Reasoning ( http://arxiv.org/abs/2404.17140v2 )

ライセンス: Link先を確認
Yunxiang Zhang, Muhammad Khalifa, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang, (参考訳) 自己補正は,大規模言語モデル(LLM)の推論性能を高めるための,有望なソリューションとして現れている。 本研究は, 小さい(<=13B)言語モデル (LM) が, より強いLMからの入力を最小限に抑えた推論タスクにおいて, 自己補正能力を持つかどうかを考察する。 本稿では,小人数のLMに対して,自己補正能力の訓練を支援する自己補正データ収集を促すパイプラインを提案する。 まず、正しい解を利用して、不正確な応答を判断する。 第二に、生成した批判は、フィルタリング後に、溶液精製による自己補正推論の教師付き微調整に使用される。 実験の結果,数学とコモンセンス推論にまたがる5つのデータセットにおける2つのモデルの自己補正能力は向上し,強いGPT-4ベースの検証器と組み合わせた場合,顕著な性能向上が得られた。

Self-correction has emerged as a promising solution to boost the reasoning performance of large language models (LLMs), where LLMs refine their solutions using self-generated critiques that pinpoint the errors. This work explores whether small (<= 13B) language models (LMs) have the ability of self-correction on reasoning tasks with minimal inputs from stronger LMs. We propose a novel pipeline that prompts smaller LMs to collect self-correction data that supports the training of self-refinement abilities. First, we leverage correct solutions to guide the model in critiquing their incorrect responses. Second, the generated critiques, after filtering, are used for supervised fine-tuning of the self-correcting reasoner through solution refinement. Our experimental results show improved self-correction abilities of two models on five datasets spanning math and commonsense reasoning, with notable performance gains when paired with a strong GPT-4-based verifier, though limitations are identified when using a weak self-verifier for determining when to correct.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# 学習可能な介入と不確実性表現による言語モデル真性の向上

Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression ( http://arxiv.org/abs/2405.00301v2 )

ライセンス: Link先を確認
Farima Fatahi Bayat, Xin Liu, H. V. Jagadish, Lu Wang, (参考訳) 大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多く、信頼性を損なう。 この問題を緩和するために、推論時手法は、以前に真理を導き出すために学んだ「真理な方向」に向けてLLM表現を操る。 しかし、これらの真正な方向を同じ強度で適用しても、異なるクエリコンテキストにまたがって一般化することができない。 本稿では,それぞれのコンテキストに合わせて最適な介入強度を自動的に識別する,真理性最適化のための学習可能なインターベンション手法LITOを提案する。 LITOは、介入強度の増大に基づくモデル世代を探索する。 予測が極めて不確実な場合には、最も正確な応答を選択するか、答えを拒否する。 複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。 LITOの適応性は、一大の介入方法の限界に対処し、モデルの内部知識を自信のある場合にのみ反映することで真理を最大化する。 私たちのコードはhttps://github.com/ Launchnlp/LITO.comで利用可能です。

Large language models (LLMs) can generate long-form and coherent text, yet they often hallucinate facts, which undermines their reliability. To mitigate this issue, inference-time methods steer LLM representations toward the "truthful directions" previously learned for truth elicitation. However, applying these truthful directions with the same intensity fails to generalize across different query contexts. We propose LITO, a Learnable Intervention method for Truthfulness Optimization that automatically identifies the optimal intervention intensity tailored to each specific context. LITO explores a sequence of model generations based on increasing levels of intervention intensities. It selects the most accurate response or refuses to answer when the predictions are highly uncertain. Experiments on multiple LLMs and question-answering datasets demonstrate that LITO improves truthfulness while preserving task accuracy. The adaptive nature of LITO counters the limitations of one-size-fits-all intervention methods, maximizing truthfulness by reflecting the model's internal knowledge only when it is confident. Our code is available at https://github.com/launchnlp/LITO.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# Wake Vision: TinyML人物検出のための大規模分散データセットとベンチマークスイート

Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection ( http://arxiv.org/abs/2405.00892v2 )

ライセンス: Link先を確認
Colby Banbury, Emil Njor, Matthew Stewart, Pete Warden, Manjunath Kudlur, Nat Jeffries, Xenofon Fafoutis, Vijay Janapa Reddi, (参考訳) 極めて低消費電力デバイス上での機械学習アプリケーションを可能にするTinyMLは、関連するデータセットのサイズと品質の制限に悩まされている。 この問題に対処するために、TinyML視覚センシングの標準タスクである人物検出に適した、大規模で多様なデータセットであるWake Visionを紹介した。 Wake Visionは600万枚以上の画像で構成されており、以前の標準と比べて100倍の画質向上を示しており、徹底的な品質のフィルタリングが行われている。 Wake Vision (Large) と Wake Vision (Quality) の2つのトレーニングセットを提供しています。 その結果, Wake Vision (Quality) トレーニングセットを使用することで, Wake Vision (Large) トレーニングセットよりも正確なモデルが生成できることが示唆された。 プレトレーニングと知識蒸留のための大規模なトレーニングセットの活用が期待できる。 真のモデル性能を曖昧にできるラベルエラーを最小限に抑えるため、検証とテストセットを手動でラベル付けし、テストセットのエラー率を以前の標準の7.8%からわずか2.2%に改善した。 データセットに加えて、私たちは、全体的な正確性にのみ焦点をあてる際にしばしば無視される、現実のシナリオに挑戦する際のモデル品質の評価を容易にするために、5つの詳細なベンチマークセットのコレクションを提供します。 これらの新しいきめ細かいベンチマークは、様々な照明条件、カメラからの距離、被験者の人口統計特性など、テストデータの特定のセグメントでモデル性能を評価する。 その結果,Wake Visionをトレーニングに使用すると,既存のデータセットに比べて2.49%の精度が向上することがわかった。 また,低容量モデルにおけるデータセット品質の重要性と,高容量モデルにおけるデータセットサイズの価値も示す。 wakevision.ai

Tiny machine learning (TinyML), which enables machine learning applications on extremely low-power devices, suffers from limited size and quality of relevant datasets. To address this issue, we introduce Wake Vision, a large-scale, diverse dataset tailored for person detection, the canonical task for TinyML visual sensing. Wake Vision comprises over 6 million images, representing a hundredfold increase compared to the previous standard, and has undergone thorough quality filtering. We provide two Wake Vision training sets: Wake Vision (Large) and Wake Vision (Quality), a smaller set with higher-quality labels. Our results demonstrate that using the Wake Vision (Quality) training set produces more accurate models than the Wake Vision (Large) training set, strongly suggesting that label quality is more important than quantity in our setting. We find use for the large training set for pre-training and knowledge distillation. To minimize label errors that can obscure true model performance, we manually label the validation and test sets, improving the test set error rate from 7.8% in the prior standard to only 2.2%. In addition to the dataset, we provide a collection of five detailed benchmark sets to facilitate the evaluation of model quality in challenging real world scenarios that are often ignored when focusing solely on overall accuracy. These novel fine-grained benchmarks assess model performance on specific segments of the test data, such as varying lighting conditions, distances from the camera, and demographic characteristics of subjects. Our results demonstrate that using Wake Vision for training results in a 2.49% increase in accuracy compared to the established dataset. We also show the importance of dataset quality for low-capacity models and the value of dataset size for high-capacity models. wakevision.ai
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# MedPromptExtract(医療データ抽出ツール):NLPとプロンプトエンジニアリングを用いた匿名化と階層自動データ抽出

MedPromptExtract (Medical Data Extraction Tool): Anonymization and Hi-fidelity Automated data extraction using NLP and prompt engineering ( http://arxiv.org/abs/2405.02664v2 )

ライセンス: Link先を確認
Roomani Srivastava, Suraj Prasad, Lipika Bhat, Sarvesh Deshpande, Barnali Das, Kshitij Jadhav, (参考訳) 医療記録のシームレスなデジタル化における大きな障害は、既存の記録との相互運用性の欠如である。 さらなる治療計画や研究に必要な関連医療情報を抽出することは、医師の貴重な時間を消費する労働集約的な作業に費やす時間である。 本稿では,MedPromptExtractという,半教師付き学習,大規模言語モデル,自然言語処理,エンジニアリングなどを組み合わせて,非構造化の医療記録を構造化データに変換する自動ツールを提案する。

A major roadblock in the seamless digitization of medical records remains the lack of interoperability of existing records. Extracting relevant medical information required for further treatment planning or even research is a time consuming labour intensive task involving expenditure of valuable time of doctors. In this demo paper we present, MedPromptExtract an automated tool using a combination of semi supervised learning, large language models, natural language processing and prompt engineering to convert unstructured medical records to structured data which is amenable for further analysis.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# RICE:説明による強化学習の学習基盤を突破する

RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation ( http://arxiv.org/abs/2405.03064v3 )

ライセンス: Link先を確認
Zelei Cheng, Xian Wu, Jiahao Yu, Sabrina Yang, Gang Wang, Xinyu Xing, (参考訳) 深層強化学習(DRL)は、現実世界の応用においてますます重要な役割を担っている。 しかし、複雑なタスク、特にスパース報酬に最適なDRLエージェントを得ることは、依然として大きな課題である。 DRL剤の訓練は、さらなる進歩を伴わずにボトルネックに陥ることがしばしばある。 本稿では,訓練ボトルネックを突破するための説明手法を取り入れた強化学習のための革新的精錬手法であるRICEを提案する。 RICEの高レベルな考え方は、デフォルトの初期状態と説明方法で識別された臨界状態の両方を組み合わせた新しい初期状態分布を構築し、エージェントが混合初期状態から探索することを奨励することである。 慎重に設計することで、我々の精製方式がより厳密な準最適境界を持つことを理論的に保証できる。 様々なRL環境と実世界のアプリケーションでRICEを評価する。 その結果, RICEは, エージェント性能の向上において, 既存の精製方式よりも大幅に優れていた。

Deep reinforcement learning (DRL) is playing an increasingly important role in real-world applications. However, obtaining an optimally performing DRL agent for complex tasks, especially with sparse rewards, remains a significant challenge. The training of a DRL agent can be often trapped in a bottleneck without further progress. In this paper, we propose RICE, an innovative refining scheme for reinforcement learning that incorporates explanation methods to break through the training bottlenecks. The high-level idea of RICE is to construct a new initial state distribution that combines both the default initial states and critical states identified through explanation methods, thereby encouraging the agent to explore from the mixed initial states. Through careful design, we can theoretically guarantee that our refining scheme has a tighter sub-optimality bound. We evaluate RICE in various popular RL environments and real-world applications. The results demonstrate that RICE significantly outperforms existing refining schemes in enhancing agent performance.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# 一般化コーシーシュワルツ分岐とその応用

Generalized Cauchy-Schwarz Divergence and Its Deep Learning Applications ( http://arxiv.org/abs/2405.04061v3 )

ライセンス: Link先を確認
Mingfei Lu, Chenxu Li, Shujian Yu, Robert Jenssen, Badong Chen, (参考訳) 多様性尺度は、深層学習において中心的な役割を担い、ますます不可欠になりつつあるが、複数の(2つ以上の)分布に対する効率的な尺度は、まれに研究される。 これは、複数のディストリビューションの同時管理が必然的かつ必要不可欠な領域において、特に重要となる。 例えばクラスタリング、マルチソースドメイン適応、一般化、マルチビュー学習などがある。 任意の2つの分布間の対距離の平均を計算することは、複数の分布間の全ばらつきを定量化する一般的な方法であるが、このアプローチは単純ではなく、重要な計算資源を必要とすると認識することが必須である。 本研究では、一般化コーシーシュワルツ発散(GCSD)と呼ばれる複数の分布に適した新しい発散尺度を提案する。 さらに、カーネルベースのクローズドフォームサンプル推定器を導入し、様々な機械学習アプリケーションで簡単に利用できるようにした。 最後に、深層クラスタリングとマルチソースドメイン適応という、慎重に選択された2つの機械学習タスクに取り組むことで、ディープラーニングの領域におけるその深い意味を探求する。 両シナリオにおけるGCSDの堅牢性と有効性について検討した。 この発見はまた、GCSDの革新的な可能性と、複数の分布の定量化を必要とする機械学習手法を著しく推進する能力を強調している。

Divergence measures play a central role and become increasingly essential in deep learning, yet efficient measures for multiple (more than two) distributions are rarely explored. This becomes particularly crucial in areas where the simultaneous management of multiple distributions is both inevitable and essential. Examples include clustering, multi-source domain adaptation or generalization, and multi-view learning, among others. While computing the mean of pairwise distances between any two distributions is a prevalent method to quantify the total divergence among multiple distributions, it is imperative to acknowledge that this approach is not straightforward and necessitates significant computational resources. In this study, we introduce a new divergence measure tailored for multiple distributions named the generalized Cauchy-Schwarz divergence (GCSD). Additionally, we furnish a kernel-based closed-form sample estimator, making it convenient and straightforward to use in various machine-learning applications. Finally, we explore its profound implications in the realm of deep learning by applying it to tackle two thoughtfully chosen machine-learning tasks: deep clustering and multi-source domain adaptation. Our extensive experimental investigations confirm the robustness and effectiveness of GCSD in both scenarios. The findings also underscore the innovative potential of GCSD and its capability to significantly propel machine learning methodologies that necessitate the quantification of multiple distributions.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# 無思慮の連鎖 : 計画におけるCoTの分析

Chain of Thoughtlessness? An Analysis of CoT in Planning ( http://arxiv.org/abs/2405.04776v2 )

ライセンス: Link先を確認
Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati, (参考訳) 推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。 従来の研究では、これは思考の連鎖によって緩和できると主張しており、この問題を解くアルゴリズムをLLMにインコンテキストで教えることができるという直感をもって、解決手順を実証する方法である。 本稿では,古典的計画領域であるBlocksworldの問題点に対する考察の連鎖を事例として,2つの軸にまたがる2つの最先端LCMの性能,即時的な例の一般化,各プロンプトでクエリされた問題の複雑さについて考察する。 我々の問題は非常に単純であるが、これらのプロンプトが問題クラスに特化している場合にのみ、一連の思考プロンプトから有意義なパフォーマンス改善が見出され、クエリ特定スタックのサイズnが、例に示すスタックのサイズよりも大きくなるにつれて、これらの改善は急速に悪化する。 また、従来のCoT論文でよく研究されている3つのドメインのスケーラブルな変種を作成し、同様の障害モードの存在を実証する。 この結果から,CoTの性能改善は,従来の文献の主張とは対照的に,実演による一般的なアルゴリズム手順の学習に起因するものではなく,厳密なエンジニアリング上の問題固有のプロンプトに依存していることが示唆された。 このスポットライトは思考の連鎖の欠点、特にパフォーマンス向上の可能性と正しい推論トレースを持つ例を生成するのに必要な人的労働の量との鋭いトレードオフを反映している。

Large language model (LLM) performance on reasoning problems typically does not generalize out of distribution. Previous work has claimed that this can be mitigated with chain of thought prompting-a method of demonstrating solution procedures-with the intuition that it is possible to in-context teach an LLM an algorithm for solving the problem. This paper presents a case study of chain of thought on problems from Blocksworld, a classical planning domain, and examines the performance of two state-of-the-art LLMs across two axes: generality of examples given in prompt, and complexity of problems queried with each prompt. While our problems are very simple, we only find meaningful performance improvements from chain of thought prompts when those prompts are exceedingly specific to their problem class, and that those improvements quickly deteriorate as the size n of the query-specified stack grows past the size of stacks shown in the examples. We also create scalable variants of three domains commonly studied in previous CoT papers and demonstrate the existence of similar failure modes. Our results hint that, contrary to previous claims in the literature, CoT's performance improvements do not stem from the model learning general algorithmic procedures via demonstrations but depend on carefully engineering highly problem specific prompts. This spotlights drawbacks of chain of thought, especially the sharp tradeoff between possible performance gains and the amount of human labor necessary to generate examples with correct reasoning traces.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# 学習された特徴表現は複雑さ、学習順序、位置などに偏っている

Learned feature representations are biased by complexity, learning order, position, and more ( http://arxiv.org/abs/2405.05847v2 )

ライセンス: Link先を確認
Andrew Kyle Lampinen, Stephanie C. Y. Chan, Katherine Hermann, (参考訳) 表現学習(representation learning)は、機械学習と神経科学において重要な分野である。 どちらの分野も一般に、システムの計算を理解したり改善したりする手段として表現を使用する。 しかし,本稿では,このような取り組みに課題が生じる可能性のある表現と計算の予期せぬ解離について検討する。 私たちはデータセットを作成し、異なる機能やデータの他の特性を操作しながら、異なる機能が果たす計算的役割にマッチしようとします。 さまざまなディープラーニングアーキテクチャをトレーニングして、これらの入力に関する複数の抽象的な特徴を計算します。 学習した特徴表現は,特徴複雑性や学習順序,入力上の特徴の分布など,外部特性に依存して,他の特徴よりも強く表現する方向に体系的に偏っていることがわかった。 例えば、計算や学習が簡単である機能は、たとえすべての機能が同じように学習されたとしても、より複雑で後で学習された機能よりも強く、密に表現される傾向があります。 また、これらのバイアスがアーキテクチャ、オプティマイザ、トレーニングレシスタンス(例えば、トランスフォーマーでは、出力シーケンスでデコードされた機能がより強く表現される傾向がある)によってどのように影響を受けるかについても検討する。 この結果は,勾配に基づく表現学習の帰納バイアスを特徴づけるのに役立つ。 これらの結果は、解釈可能性$-$や、モデルと脳の表現を比較する上でも重要な課題である。

Representation learning, and interpreting learned representations, are key areas of focus in machine learning and neuroscience. Both fields generally use representations as a means to understand or improve a system's computations. In this work, however, we explore surprising dissociations between representation and computation that may pose challenges for such efforts. We create datasets in which we attempt to match the computational role that different features play, while manipulating other properties of the features or the data. We train various deep learning architectures to compute these multiple abstract features about their inputs. We find that their learned feature representations are systematically biased towards representing some features more strongly than others, depending upon extraneous properties such as feature complexity, the order in which features are learned, and the distribution of features over the inputs. For example, features that are simpler to compute or learned first tend to be represented more strongly and densely than features that are more complex or learned later, even if all features are learned equally well. We also explore how these biases are affected by architectures, optimizers, and training regimes (e.g., in transformers, features decoded earlier in the output sequence also tend to be represented more strongly). Our results help to characterize the inductive biases of gradient-based representation learning. These results also highlight a key challenge for interpretability $-$ or for comparing the representations of models and brains $-$ disentangling extraneous biases from the computationally important aspects of a system's internal representations.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# 量子特異値変換を用いた明示的復号器

Explicit decoders using quantum singular value transformation ( http://arxiv.org/abs/2405.06051v2 )

ライセンス: Link先を確認
Takeru Utsumi, Yoshifumi Nakata, (参考訳) ノイズの多い量子システムから量子情報を復元することは、量子情報科学と基礎物理学における中心的な課題の1つである。 このゴールの鍵はデコーダを明示的に構築することである。 本稿では,2つの明示的復号化量子回路について,分離条件を満たす場合,すなわち量子情報が原理的に回復可能である場合に,量子情報を回復することができる。 このデコーダは, 量子特異値変換に基づく定点振幅増幅アルゴリズムを用いて構成され, 特定の雑音モデルにおける吉田, 北エフのアプローチを, 一般の状況に大きく拡張する。 また,提案した復号回路は,既知の明示的復号器と比較して計算コストを削減できることを示す。 我々の構成は、デコーダと量子アルゴリズムの間の興味深い交差を示すだけでなく、量子情報を回復するためのアルゴリズムアプローチのパワーも示している。

Recovering quantum information from a noisy quantum system is one of the central challenges in quantum information science and fundamental physics. The key to this goal is explicitly constructing a decoder. In this paper, we provide two explicit decoding quantum circuits that are both capable of recovering quantum information when a decoupling condition is satisfied, i.e., when quantum information is in principle recoverable. The decoders are constructed by using the fixed-point amplitude amplification algorithm based on the quantum singular value transformation, which significantly extends an approach by Yoshida and Kitaev in a specific noise model to general situations. We also show that the proposed decoding circuits reduce the computational cost compared to a previously known explicit decoder. Our constructions not only show an intriguing intersection between decoders and quantum algorithms but also reveal the power of an algorithmic approach to recovering quantum information.
翻訳日:2024-06-07 20:33:09 公開日:2024-06-06
# HoneyBee: 基本埋め込みモデルによるマルチモーダルオンコロジーデータセット作成のためのスケーラブルなモジュールフレームワーク

HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models ( http://arxiv.org/abs/2405.07460v2 )

ライセンス: Link先を確認
Aakash Tripathi, Asim Waqas, Yasin Yilmaz, Ghulam Rasool, (参考訳) オンコロジーのための正確な機械学習モデルを開発するには、大規模で高品質なマルチモーダルデータセットが必要である。 しかし、医療データの複雑さと不均一性のため、そのようなデータセットの作成は依然として困難である。 この課題に対処するため、我々はHoneyBeeを紹介した。HoneyBeeはマルチモーダルオンコロジーデータセットを構築するためのスケーラブルなモジュラーフレームワークで、基礎モデルを活用して代表的な埋め込みを生成する。 HoneyBeeは、臨床診断や病理画像データ、医療ノート、レポート、記録、分子データなど、さまざまなデータモダリティを統合している。 データ前処理技術と基礎モデルを使用して、生の医療データの本質的な特徴と関係をキャプチャする埋め込みを生成する。 生成された埋め込みは、アクセシビリティのためにHugging FaceデータセットとPyTorchデータローダを使用して構造化形式で格納される。 ベクトルデータベースは機械学習アプリケーションの効率的なクエリと検索を可能にする。 これらの埋め込みの質と代表性を評価する実験を通じて,ハニービーの有効性を実証した。 このフレームワークは、他の医療領域に拡張可能なように設計されており、高品質で機械学習対応のデータセットを提供することで、腫瘍研究を加速することを目指している。 HoneyBeeは、現在進行中のオープンソース活動であり、コード、データセット、モデルは、プロジェクトリポジトリで利用可能である。

Developing accurate machine learning models for oncology requires large-scale, high-quality multimodal datasets. However, creating such datasets remains challenging due to the complexity and heterogeneity of medical data. To address this challenge, we introduce HoneyBee, a scalable modular framework for building multimodal oncology datasets that leverages foundation models to generate representative embeddings. HoneyBee integrates various data modalities, including clinical diagnostic and pathology imaging data, medical notes, reports, records, and molecular data. It employs data preprocessing techniques and foundation models to generate embeddings that capture the essential features and relationships within the raw medical data. The generated embeddings are stored in a structured format using Hugging Face datasets and PyTorch dataloaders for accessibility. Vector databases enable efficient querying and retrieval for machine learning applications. We demonstrate the effectiveness of HoneyBee through experiments assessing the quality and representativeness of these embeddings. The framework is designed to be extensible to other medical domains and aims to accelerate oncology research by providing high-quality, machine learning-ready datasets. HoneyBee is an ongoing open-source effort, and the code, datasets, and models are available at the project repository.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# トラップイオン量子コンピュータにおけるフロケスクランブル回路のシミュレーション

Simulating Floquet scrambling circuits on trapped-ion quantum computers ( http://arxiv.org/abs/2405.07613v2 )

ライセンス: Link先を確認
Kazuhiro Seki, Yuta Kikuchi, Tomoya Hayata, Seiji Yunoki, (参考訳) 複雑な量子多体ダイナミクスは、最初はシステム全体に局在した量子情報を拡散した。 情報スクランブル(英: information scrambling)とは、量子コンピューティングの有望な応用の1つであるシミュレーションをいう。 本研究では,20量子ビットトラップイオン量子プロセッサ上での1次元キックドイシングモデルのスクランブル特性を解析するために,Hayden-Preskillリカバリプロトコルと,時間外相関器を計算するためのインターフェロメトリプロトコルを実証する。 シミュレーションされた量子回路は、幾何学的に局所的な構造を持ち、絡み合いの弾道的な成長を示し、結果として回路深さは、状態全体をスクランブルするクォービットの数で線形となる。 我々は,Hayden-Preskillリカバリプロトコルにおける信号の増大と,近年の時間外相関器の崩壊を実験的に確認した。 生成したスクランブル回路の応用として、熱純量子状態の考え方を採用した局所演算子のマイクロカノニカル期待値の計算を実験的に実証する。

Complex quantum many-body dynamics spread initially localized quantum information across the entire system. Information scrambling refers to such a process, whose simulation is one of the promising applications of quantum computing. We demonstrate the Hayden-Preskill recovery protocol and the interferometric protocol for calculating out-of-time-ordered correlators to study the scrambling property of a one-dimensional kicked-Ising model on 20-qubit trapped-ion quantum processors. The simulated quantum circuits have a geometrically local structure that exhibits the ballistic growth of entanglement, resulting in the circuit depth being linear in the number of qubits for the entire state to be scrambled. We experimentally confirm the growth of signals in the Hayden-Preskill recovery protocol and the decay of out-of-time-ordered correlators at late times. As an application of the created scrambling circuits, we also experimentally demonstrate the calculation of the microcanonical expectation values of local operators adopting the idea of thermal pure quantum states.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# Cons-training Tenor Network

Cons-training tensor networks ( http://arxiv.org/abs/2405.09005v2 )

ライセンス: Link先を確認
Javier Lopez-Piqueres, Jing Chen, (参考訳) 本研究では,不等式を含む厳密な離散線型制約をスパースブロック構造に組み込むように設計されたテンソルネットワークの新たなファミリ「textit{constrained matrix product state} (MPS)」を導入する。 これらのテンソルネットワークは、特に、最適化問題における探索空間の削減、オーバーフィッティングの緩和、トレーニング効率の向上、モデルサイズの削減といった利点を提供する、実現可能な空間を厳密にサポートした分散のモデル化に向いている。 我々のアプローチの中心は量子領域の概念であり、U(1)対称テンソルネットワークで伝統的に使われている量子数の拡張であり、制約のないシナリオを含む任意の線形制約を捉えるように適応されている。 さらに、これらの新しいMPSのための新しい標準形式を開発し、量子領域の融合規則に従ってテンソルブロックの融合と分解を可能にし、最適なトランケーションスキームを許可する。 この標準形式を利用して、離散線形制約を受ける任意の目的関数を最適化するために教師なしのトレーニング戦略を適用する。 本手法の有効性は,二次的なknapsack問題の解法によって実証され,先行する非線形整数計画法と比較して優れた性能を発揮する。 さらに,本手法の複雑性と拡張性を解析し,複雑な制約付き組合せ最適化問題に対処する可能性を示す。

In this study, we introduce a novel family of tensor networks, termed \textit{constrained matrix product states} (MPS), designed to incorporate exactly arbitrary discrete linear constraints, including inequalities, into sparse block structures. These tensor networks are particularly tailored for modeling distributions with support strictly over the feasible space, offering benefits such as reducing the search space in optimization problems, alleviating overfitting, improving training efficiency, and decreasing model size. Central to our approach is the concept of a quantum region, an extension of quantum numbers traditionally used in U(1) symmetric tensor networks, adapted to capture any linear constraint, including the unconstrained scenario. We further develop a novel canonical form for these new MPS, which allow for the merging and factorization of tensor blocks according to quantum region fusion rules and permit optimal truncation schemes. Utilizing this canonical form, we apply an unsupervised training strategy to optimize arbitrary objective functions subject to discrete linear constraints. Our method's efficacy is demonstrated by solving the quadratic knapsack problem, achieving superior performance compared to a leading nonlinear integer programming solver. Additionally, we analyze the complexity and scalability of our approach, demonstrating its potential in addressing complex constrained combinatorial optimization problems.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# Flesch-Kincaidを超えて: プロンプトベースのメトリクスは教育用テキストの難解な分類を改善する

Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts ( http://arxiv.org/abs/2405.09482v2 )

ライセンス: Link先を確認
Donya Rooein, Paul Rottger, Anastassia Shaitarova, Dirk Hovy, (参考訳) 対話型教育のような教育アプリケーションに大規模言語モデル(LLM)を使用することは、ホットトピックである。 しかし、効果的な教育は、教師が内容の難しさと説明を生徒の教育レベルに適応させることを要求する。 最高のLLMでさえ、これをうまくやるのに苦労しています。 この適応タスクでLLMを改善したい場合は、適応の成功を確実に測定できる必要がある。 しかし、Flesch-Kincaid Reading Easeスコアのようなテキストの難易度に関する現在の静的指標は粗悪で不安定であることが知られている。 そこで本研究では,テキストの難易度向上のために,Promptベースのメトリクスセットを導入し,評価する。 ユーザスタディに基づいて,LLMの入力としてPromptベースのメトリクスを作成する。 LLMの汎用言語理解機能を活用して、静的メトリクスよりも抽象的で複雑な特徴を捉える。 回帰実験により、Promptベースのメトリクスを追加することで、静的メトリクスのみに対するテキストの難易度分類が大幅に改善されることが示された。 本研究は,LLMを用いて異なる教育レベルへのテキスト適応を評価することの可能性を実証するものである。

Using large language models (LLMs) for educational applications like dialogue-based teaching is a hot topic. Effective teaching, however, requires teachers to adapt the difficulty of content and explanations to the education level of their students. Even the best LLMs today struggle to do this well. If we want to improve LLMs on this adaptation task, we need to be able to measure adaptation success reliably. However, current Static metrics for text difficulty, like the Flesch-Kincaid Reading Ease score, are known to be crude and brittle. We, therefore, introduce and evaluate a new set of Prompt-based metrics for text difficulty. Based on a user study, we create Prompt-based metrics as inputs for LLMs. They leverage LLM's general language understanding capabilities to capture more abstract and complex features than Static metrics. Regression experiments show that adding our Prompt-based metrics significantly improves text difficulty classification over Static metrics alone. Our results demonstrate the promise of using LLMs to evaluate text adaptation to different education levels.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# エージェント生成会話における話者検証

Speaker Verification in Agent-Generated Conversations ( http://arxiv.org/abs/2405.10150v2 )

ライセンス: Link先を確認
Yizhe Yang, Palakorn Achananuparp, Heyan Huang, Jing Jiang, Ee-Peng Lim, (参考訳) 近年の大型言語モデル (LLM) の成功は、様々な話者の特徴やスタイルに合わせたロールプレイング・会話エージェントを開発し、汎用的・特殊な対話タスクを遂行する能力を高めるために広く関心を集めている。 しかしながら、人間やLLMが行うかにかかわらず、生成した発話を話者にパーソナライズする能力は十分に研究されていない。 このギャップを埋めるために、エージェント生成会話における話者検証という新たな評価課題を導入する。 この目的のために、何千もの話者とその発話を含む大規模なデータセットコレクションを組み立てる。 また,実験環境下での話者検証モデルの開発と評価を行った。 さらに,LLMに基づくロールプレイングモデルのパーソナライズ能力を評価するために,話者検証モデルを利用する。 総合的な実験から、現在のロールプレイングモデルは話者を正確に模倣できないことが示唆される。

The recent success of large language models (LLMs) has attracted widespread interest to develop role-playing conversational agents personalized to the characteristics and styles of different speakers to enhance their abilities to perform both general and special purpose dialogue tasks. However, the ability to personalize the generated utterances to speakers, whether conducted by human or LLM, has not been well studied. To bridge this gap, our study introduces a novel evaluation challenge: speaker verification in agent-generated conversations, which aimed to verify whether two sets of utterances originate from the same speaker. To this end, we assemble a large dataset collection encompassing thousands of speakers and their utterances. We also develop and evaluate speaker verification models under experiment setups. We further utilize the speaker verification models to evaluate the personalization abilities of LLM-based role-playing models. Comprehensive experiments suggest that the current role-playing models fail in accurately mimicking speakers, primarily due to their inherent linguistic characteristics.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# エージェントデザインパターンカタログ:基礎モデルに基づくエージェントのためのアーキテクチャパターンのコレクション

Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents ( http://arxiv.org/abs/2405.10467v2 )

ライセンス: Link先を確認
Yue Liu, Sin Kit Lo, Qinghua Lu, Liming Zhu, Dehai Zhao, Xiwei Xu, Stefan Harrer, Jon Whittle, (参考訳) ファウンデーションモデルに対応した生成人工知能はエージェントの開発と実装を促進し、優れた推論能力と言語処理能力を活用して、ユーザの目標を追求するために積極的に自律的な役割を果たすことができる。 それでも、基礎モデルに固有の幻覚、推論プロセスの説明可能性、複雑な説明責任など、目標探究の課題(道具的目標や計画の作成を含む)を考えるエージェントを設計する上で、実践者を指導する体系的な知識が欠如している。 この問題に対処するため、我々は、最先端の基盤モデルに基づくエージェントとより広範なエコシステムを理解するために、系統的な文献レビューを行った。 本稿では,前回の文献レビューの結果として,文脈,力,トレードオフを分析した17のアーキテクチャパターンからなるパターンカタログを提案する。 提案するカタログは,パターンを効果的に活用するための総合的なガイダンスを提供するとともに,目標探索と計画生成を容易にし,基礎モデルに基づくエージェントのアーキテクチャ設計を支援する。

Foundation model-enabled generative artificial intelligence facilitates the development and implementation of agents, which can leverage distinguished reasoning and language processing capabilities to takes a proactive, autonomous role to pursue users' goals. Nevertheless, there is a lack of systematic knowledge to guide practitioners in designing the agents considering challenges of goal-seeking (including generating instrumental goals and plans), such as hallucinations inherent in foundation models, explainability of reasoning process, complex accountability, etc. To address this issue, we have performed a systematic literature review to understand the state-of-the-art foundation model-based agents and the broader ecosystem. In this paper, we present a pattern catalogue consisting of 17 architectural patterns with analyses of the context, forces, and trade-offs as the outcomes from the previous literature review. The proposed catalogue can provide holistic guidance for the effective use of patterns, and support the architecture design of foundation model-based agents by facilitating goal-seeking and plan generation.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# QAに基づくイベント抽出におけるより良い質問生成に向けて

Towards Better Question Generation in QA-based Event Extraction ( http://arxiv.org/abs/2405.10517v2 )

ライセンス: Link先を確認
Zijin Hong, Jian Liu, (参考訳) イベント抽出(EE)は、構造化されていないテキストからイベント関連情報を抽出することを目的とした重要な情報抽出タスクである。 この課題のパラダイムは、従来の分類に基づく手法から、より現代的な質問回答に基づく(QAに基づく)アプローチへと移行してきた。 しかし、QAベースのEEでは、質問の品質が抽出精度に劇的に影響を与え、QAベースのEEに対して高品質な質問を生成する方法が課題である。 本研究は,質問の質を評価するための4つの基準を提案するとともに,QAモデルに対する一般化可能,高品質,文脈に依存した質問を生成できる強化学習手法であるRLQGを提案する。 ACEとRAMSデータセットで実施された広範な実験は、我々のアプローチの有効性を強く検証しており、訓練データに制限のあるシナリオにおける堅牢性も示している。 RLQGの対応するコードは、さらなる研究のためにリリースされている。

Event Extraction (EE) is an essential information extraction task that aims to extract event-related information from unstructured texts. The paradigm of this task has shifted from conventional classification-based methods to more contemporary question-answering-based (QA-based) approaches. However, in QA-based EE, the quality of the questions dramatically affects the extraction accuracy, and how to generate high-quality questions for QA-based EE remains a challenge. In this work, to tackle this challenge, we suggest four criteria to evaluate the quality of a question and propose a reinforcement learning method, RLQG, for QA-based EE that can generate generalizable, high-quality, and context-dependent questions and provides clear guidance to QA models. The extensive experiments conducted on ACE and RAMS datasets have strongly validated our approach's effectiveness, which also demonstrates its robustness in scenarios with limited training data. The corresponding code of RLQG is released for further research.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# スパイキング関数を用いたデータから正規性を学ぶ:理論

Learning Regularities from Data using Spiking Functions: A Theory ( http://arxiv.org/abs/2405.11684v2 )

ライセンス: Link先を確認
Canlin Zhang, Xiuwen Liu, (参考訳) エンドツーエンドでトレーニングされたディープニューラルネットワークは、幅広い機械学習タスクにおいて効率的であることが証明されている。 学習された特徴と情報はニューラルネットワークパラメータで暗黙的に表現されるため、データの確率分布を明示的に表現するための規則性、概念、知識として使用することはできない。 この問題を解決するために,本論文では,正則性が何であるかを数学で定義する新しい機械学習理論を提案する。 簡単に言えば、正規性は非ランダムな特徴の簡潔な表現であり、データ確率分布における「非ランダム性」である。 これを情報理論と組み合わせることで、正規性は大量の情報を符号化する少数の情報ともみなすことができる。 私たちの理論はスパイク関数に基づいている。 すなわち、関数がランダムなノイズ入力よりも頻繁に特定のデータサンプルに反応またはスパイクできる場合、そのような関数はデータ分布から非ランダム性を発見する。 また、発見された非ランダム性は、関数が十分単純であれば正則性に符号化される。 また、同じデータ分布に複数のスパイキング関数を適用することについても論じる。 このプロセスでは、最適なスパイク関数である「ベスト」規則は、データ分布から最も多くの情報をキャプチャし、取得した情報を最も簡潔にエンコードできるものであると主張する。 定理と仮説は数学において「最良の」正則性と最適なスパイク関数を記述するために提供される。 最後に、与えられたデータセットに関する最適スパイク関数を実際に取得できる機械学習手法を提案する。

Deep neural networks trained in an end-to-end manner are proven to be efficient in a wide range of machine learning tasks. However, there is one drawback of end-to-end learning: The learned features and information are implicitly represented in neural network parameters, which cannot be used as regularities, concepts or knowledge to explicitly represent the data probability distribution. To resolve this issue, we propose in this paper a new machine learning theory, which defines in mathematics what are regularities. Briefly, regularities are concise representations of the non-random features, or 'non-randomness' in the data probability distribution. Combining this with information theory, we claim that regularities can also be regarded as a small amount of information encoding a large amount of information. Our theory is based on spiking functions. That is, if a function can react to, or spike on specific data samples more frequently than random noise inputs, we say that such a function discovers non-randomness from the data distribution. Also, we say that the discovered non-randomness is encoded into regularities if the function is simple enough. Our theory also discusses applying multiple spiking functions to the same data distribution. In this process, we claim that the 'best' regularities, or the optimal spiking functions, are those who can capture the largest amount of information from the data distribution, and then encode the captured information in the most concise way. Theorems and hypotheses are provided to describe in mathematics what are 'best' regularities and optimal spiking functions. Finally, we propose a machine learning approach, which can potentially obtain the optimal spiking functions regarding the given dataset in practice.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# 人気のある地下市場における暗号通貨・サービスを理解する

Understanding crypter-as-a-service in a popular underground marketplace ( http://arxiv.org/abs/2405.11876v2 )

ライセンス: Link先を確認
Alejandro de la Cruz, Sergio Pastrana, (参考訳) クリプタ(Crypters)とは、ターゲットバイナリを変換することで、アンチウイルス(AV)アプリケーションからの検出を回避できるソフトウェアである。 マルウェアのバイナリを取得し、一連の修正や難読化、暗号化を適用して、1つ以上のAVを回避するバイナリを出力することで、パッカーと同じような動作を行う。 目標は、(しばしば悪意のある)機能を維持しながら、完全に検出されないまま、ハックされたjargon内のFUDを維持することだ。 サイバー犯罪におけるコモディティ化の進展に伴い,検出機構の高度化に対応して,シークレット・アズ・ア・サービス・モデルが人気を博している。 このビジネスモデルでは、顧客がアンチウイルスによって検出されるとすぐに更新される初期暗号を受信する。 本論文は,シークレット・アズ・ア・サービスに特化したオンライン地下市場に関する最初の研究である。 販売されている最も関連性の高い製品を比較し、プラットフォーム上の既存のソーシャルネットワークを分析し、それらが提供するさまざまな機能を比較します。 事例研究として,市場で販売されている最も人気のある暗号鍵の1つを検証し,バイナリ(良性およびマルウェアの両方)の暗号化前後の結果を比較して,抗ウイルスエンジンの回避効果を示す。

Crypters are pieces of software whose main goal is to transform a target binary so it can avoid detection from Anti Viruses (AVs from now on) applications. They work similar to packers, by taking a malware binary and applying a series of modifications, obfuscations and encryptions to output a binary that evades one or more AVs. The goal is to remain fully undetected, or FUD in the hacking jargon, while maintaining its (often malicious) functionality. In line to the growth of commoditization in cybercrime, the crypter-as-a-service model has gained popularity, in response to the increased sophistication of detection mechanisms. In this business model, customers receive an initial crypter which is soon updated once becomes detected by anti-viruses. This paper provides the first study on an online underground market dedicated to crypter-as-a-service. We compare the most relevant products in sale, analyzing the existent social network on the platform and comparing the different features that they provide. We also conduct an experiment as a case study, to validate the usage of one of the most popular crypters sold in the market, and compare the results before and after crypting binaries (both benign and malware), to show its effectiveness when evading antivirus engines.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# 不確実性評価を用いたモデルフリー予測

Model Free Prediction with Uncertainty Assessment ( http://arxiv.org/abs/2405.12684v2 )

ライセンス: Link先を確認
Yuling Jiao, Lican Kang, Jin Liu, Heng Peng, Heng Zuo, (参考訳) 近年,目的関数を学習するためのディープニューラルネットワークの利用を特徴とするディープ非パラメトリック回帰が,研究の焦点となっている。 理解収束率のかなりの進歩にもかかわらず、漸近性の欠如は厳密な統計的推測を妨げる。 このギャップに対処するため, 条件付き平均推定を行うプラットフォームに, 条件付き拡散モデルを活用して, 深い推定パラダイムを変換する新しいフレームワークを提案する。 理論的には,条件付き拡散モデルのための終端収束率を開発し,生成したサンプルの漸近正規性を確立する。 その結果,信頼性領域の構築が可能となり,統計的に頑健な推測が可能となった。 さらに,数値実験により提案手法の有効性を実証的に検証した。

Deep nonparametric regression, characterized by the utilization of deep neural networks to learn target functions, has emerged as a focus of research attention in recent years. Despite considerable progress in understanding convergence rates, the absence of asymptotic properties hinders rigorous statistical inference. To address this gap, we propose a novel framework that transforms the deep estimation paradigm into a platform conducive to conditional mean estimation, leveraging the conditional diffusion model. Theoretically, we develop an end-to-end convergence rate for the conditional diffusion model and establish the asymptotic normality of the generated samples. Consequently, we are equipped to construct confidence regions, facilitating robust statistical inference. Furthermore, through numerical experiments, we empirically validate the efficacy of our proposed methodology.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# 格子ボルツマン法のユニタリ量子アルゴリズム

Unitary Quantum Algorithm for the Lattice-Boltzmann Method ( http://arxiv.org/abs/2405.13391v3 )

ライセンス: Link先を確認
David Wawrzyniak, Josef Winter, Steffen Schmidt, Thomas Indinger, Uwe Schramm, Christian Janßen, Nikolaus A. Adams, (参考訳) 本稿では,Lattice-Boltzmann法に基づく計算流体力学の量子アルゴリズムを提案する。 本手法は,一段階の局所平衡に完全に緩和されることを前提として,新しい符号化戦略と改良型衝突演算子を包含する。 我々の量子アルゴリズムは、線形化の場合、特に全状態測定を必要とする前に、対流拡散方程式を解くために、複数の時間ステップの計算を可能にする。 さらに,本定式化は,測定に要するアルゴリズム的なステップとして利用して,測定に先立って1段階の非線形平衡分布関数を計算するために拡張することができる。 しかし、非線形の場合、分布関数のモーメントを計算するためには古典的な後処理ステップが必要である。 ガウス丘の1次元の対流拡散を解くことでアルゴリズムを検証する。 我々の量子アルゴリズムは非線形性を捉えている。

We present a quantum algorithm for computational fluid dynamics based on the Lattice-Boltzmann method. Our approach involves a novel encoding strategy and a modified collision operator, assuming full relaxation to the local equilibrium within a single time step. Our quantum algorithm enables the computation of multiple time steps in the linearized case, specifically for solving the advection-diffusion equation, before necessitating a full state measurement. Moreover, our formulation can be extended to compute the non-linear equilibrium distribution function for a single time step prior to measurement, utilizing the measurement as an essential algorithmic step. However, in the non-linear case, a classical postprocessing step is necessary for computing the moments of the distribution function. We validate our algorithm by solving the one dimensional advection-diffusion of a Gaussian hill. Our results demonstrate that our quantum algorithm captures non-linearity.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# ヒューマン・機械学習協調の動的モデル:理論と実証的エビデンス

A Dynamic Model of Performative Human-ML Collaboration: Theory and Empirical Evidence ( http://arxiv.org/abs/2405.13753v2 )

ライセンス: Link先を確認
Tom Sühr, Samira Samadi, Chiara Farronato, (参考訳) 機械学習(ML)モデルは、電子商取引におけるレコメンデーションシステムから、医療における診断予測まで、さまざまなアプリケーションでますます使われている。 本稿では,人間-機械学習協調システムにおけるMLモデルの展開を考えるための新しい動的枠組みを提案する。 私たちのフレームワークでは、MLレコメンデーションの導入によって、人間による意思決定のデータ生成プロセスが変わります。 この動的プロセスの原理は,MLモデルとHuman+MLシステムが同じ性能を持つような,異なる安定点に収束できることを示す。 これらの安定点のいくつかは、実際の基底真理に関して準最適である。 我々は,1,408人の参加者による実証的ユーザスタディを実施し,このプロセスを紹介した。 この研究では、機械学習予測の助けを借りて、人間がクナプサックの問題を解く。 MLモデルがどのように人間の決定を模倣するか、この学習プロセスが安定した点にどのように収束するかを見ることができるので、これは理想的な設定です。 多くのレベルのML性能において、人間は機械学習の予測を改善し、最大クナップサック値の約92%の平衡性能を動的に達成できることがわかった。 また、人間が合理的にMLレコメンデーションに従うと、均衡性能はさらに高くなる可能性がある。 最後に、金融インセンティブが人間の意思決定の質を高めることができるかどうかをテストするが、肯定的な効果は見つからない。 この結果から,人間による決定が議論の余地のない根拠の真理から逸脱する可能性のある状況において,MLモデルの展開が現実的な意味を持つことがわかった。

Machine learning (ML) models are increasingly used in various applications, from recommendation systems in e-commerce to diagnosis prediction in healthcare. In this paper, we present a novel dynamic framework for thinking about the deployment of ML models in a performative, human-ML collaborative system. In our framework, the introduction of ML recommendations changes the data generating process of human decisions, which are only a proxy to the ground truth and which are then used to train future versions of the model. We show that this dynamic process in principle can converge to different stable points, i.e. where the ML model and the Human+ML system have the same performance. Some of these stable points are suboptimal with respect to the actual ground truth. We conduct an empirical user study with 1,408 participants to showcase this process. In the study, humans solve instances of the knapsack problem with the help of machine learning predictions. This is an ideal setting because we can see how ML models learn to imitate human decisions and how this learning process converges to a stable point. We find that for many levels of ML performance, humans can improve the ML predictions to dynamically reach an equilibrium performance that is around 92% of the maximum knapsack value. We also find that the equilibrium performance could be even higher if humans rationally followed the ML recommendations. Finally, we test whether monetary incentives can increase the quality of human decisions, but we fail to find any positive effect. Our results have practical implications for the deployment of ML models in contexts where human decisions may deviate from the indisputable ground truth.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# LOGIN: 大規模言語モデルによるグラフニューラルネットワークトレーニングフレームワーク

LOGIN: A Large Language Model Consulted Graph Neural Network Training Framework ( http://arxiv.org/abs/2405.13902v2 )

ライセンス: Link先を確認
Yiran Qiao, Xiang Ao, Yang Liu, Jiarong Xu, Xiaoqian Sun, Qing He, (参考訳) グラフ機械学習に関する最近の一般的な研究は、グラフニューラルネットワーク(GNN)の高度な変種を設計して、異なるグラフ上でのGNNの優れたパフォーマンスを維持することを含む、同様の方法論に従うのが一般的である。 本稿では,GNN設計プロセスの合理化と,Large Language Models(LLM)の利点を活用して,下流タスクにおけるGNNの性能向上を図ることを目的とする。 我々は,LLMs-as-Consultants(LLMs-as-Consultants)という新たなパラダイムを策定し,LLMとGNNを対話的に統合する。 LOGIN(LLM Consulted GNN Training)と呼ばれるフレームワークがインスタンス化され、GNNトレーニングプロセス内でLLMのインタラクティブな利用が促進される。 まず、発見ノードの簡潔なプロンプトを作成し、包括的意味情報やトポロジ情報を持ち込み、LLMへの入力として機能する。 第2に、LLMからの応答を正しさに応じて活用する補完的な対応機構を考案し、GNNを洗練させる。 両グラフのノード分類におけるLOGINの有効性を実証的に評価した。 提案するLLM-as-Consultantsパラダイムで採用されている基本GNNアーキテクチャでさえ、複雑な設計を持つ高度なGNNと同等の性能を達成できることを示す。 私たちのコードはhttps://github.com/QiaoYRan/LOGIN.comで公開されています。

Recent prevailing works on graph machine learning typically follow a similar methodology that involves designing advanced variants of graph neural networks (GNNs) to maintain the superior performance of GNNs on different graphs. In this paper, we aim to streamline the GNN design process and leverage the advantages of Large Language Models (LLMs) to improve the performance of GNNs on downstream tasks. We formulate a new paradigm, coined "LLMs-as-Consultants," which integrates LLMs with GNNs in an interactive manner. A framework named LOGIN (LLM Consulted GNN training) is instantiated, empowering the interactive utilization of LLMs within the GNN training process. First, we attentively craft concise prompts for spotted nodes, carrying comprehensive semantic and topological information, and serving as input to LLMs. Second, we refine GNNs by devising a complementary coping mechanism that utilizes the responses from LLMs, depending on their correctness. We empirically evaluate the effectiveness of LOGIN on node classification tasks across both homophilic and heterophilic graphs. The results illustrate that even basic GNN architectures, when employed within the proposed LLMs-as-Consultants paradigm, can achieve comparable performance to advanced GNNs with intricate designs. Our codes are available at https://github.com/QiaoYRan/LOGIN.
翻訳日:2024-06-07 20:23:24 公開日:2024-06-06
# タンパク質リガンドドッキングの深層学習:まだ存在するか?

Deep Learning for Protein-Ligand Docking: Are We There Yet? ( http://arxiv.org/abs/2405.14108v2 )

ライセンス: Link先を確認
Alex Morehead, Nabin Giri, Jian Liu, Jianlin Cheng, (参考訳) リガンド結合がタンパク質の構造と生体機能に与える影響は、現代の生物医学研究や薬物発見のようなバイオテクノロジー開発に多くの意味を持つ。 タンパク質-リガンドドッキング用に設計されたいくつかの深層学習(DL)手法やベンチマークが近年導入されているが、(1)ドッキングに予測された(apo)タンパク質構造(例えば、広い適用性)を使用すること、(2)特定の標的タンパク質(例えば、酵素設計)と同時に複数のリガンドをドッキングすること、(3)結合ポケット(例えば、ポケットの一般化)について事前の知識を持たないこと、といった実践的な文脈においてドッキング手法の挙動を体系的に研究する以前の研究は行われていない。 ドッキング手法の実用性についてより深く理解するために,実用的タンパク質リガンドドッキングのための最初の包括的なベンチマークであるPoseBenchを紹介した。 PoseBenchは、単一およびマルチリガンドベンチマークデータセットを用いて、Apo-to-holoタンパク-リガンドドッキングとタンパク質-リガンド構造生成のためのDLドッキング手法を厳格かつ体系的に評価することを可能にする。 実証的にPoseBenchを用いた場合,最近のDLドッキング手法はすべてマルチリガンドタンパク質ターゲットへの一般化に失敗し,テンプレートベースのドッキングアルゴリズムは最近の単一リガンドDLドッキング法と同様に,マルチリガンドドドッキングに対して等しく,あるいは良好に動作し,今後の作業改善の領域を示唆している。 コード、データ、チュートリアル、ベンチマーク結果はhttps://github.com/BioinfoMachineLearning/PoseBench.comで公開されている。

The effects of ligand binding on protein structures and their in vivo functions carry numerous implications for modern biomedical research and biotechnology development efforts such as drug discovery. Although several deep learning (DL) methods and benchmarks designed for protein-ligand docking have recently been introduced, to date no prior works have systematically studied the behavior of docking methods within the practical context of (1) using predicted (apo) protein structures for docking (e.g., for broad applicability); (2) docking multiple ligands concurrently to a given target protein (e.g., for enzyme design); and (3) having no prior knowledge of binding pockets (e.g., for pocket generalization). To enable a deeper understanding of docking methods' real-world utility, we introduce PoseBench, the first comprehensive benchmark for practical protein-ligand docking. PoseBench enables researchers to rigorously and systematically evaluate DL docking methods for apo-to-holo protein-ligand docking and protein-ligand structure generation using both single and multi-ligand benchmark datasets, the latter of which we introduce for the first time to the DL community. Empirically, using PoseBench, we find that all recent DL docking methods but one fail to generalize to multi-ligand protein targets and also that template-based docking algorithms perform equally well or better for multi-ligand docking as recent single-ligand DL docking methods, suggesting areas of improvement for future work. Code, data, tutorials, and benchmark results are available at https://github.com/BioinfoMachineLearning/PoseBench.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# 大規模視線モデルにおける一貫性のタペストリーの展開

Unveiling the Tapestry of Consistency in Large Vision-Language Models ( http://arxiv.org/abs/2405.14156v2 )

ライセンス: Link先を確認
Yuan Zhang, Fei Xiao, Tao Huang, Chun-Kai Fan, Hongyuan Dong, Jiawen Li, Jiacong Wang, Kuan Cheng, Shanghang Zhang, Haoyuan Guo, (参考訳) 視覚言語モデル(LVLM)は近年急速に進歩し,視覚情報に対する認識と推論能力が向上している。 しかし、解空間の異なる大きさのプロンプトに直面すると、LVLMは必ずしも同じ知識点に関して一貫した答えを与えない。 異なる解空間間の答えの不整合は、LVLM やエローズ信頼においてよく見られる。 この目的のために、我々はマルチモーダルベンチマークConBenchを提供し、プロンプトの解空間が知識点を中心に回転するときにLVLMがどのように機能するかを直感的に解析する。 ConBenchツールをベースとして,(1)識別領域では,プロンプトの解空間が大きくなるほど,解の精度が低下する。 2)識別的領域と生成的領域の関係を確立する:識別的質問型の精度はキャプションとの一貫性と強い正の相関を示す。 (3) オープンソースモデルと比較して, クローズドソースモデルは一貫性の点で顕著なバイアス優位性を示す。 最終的には、トリガーベースの診断改善によりLVLMの整合性を改善し、キャプションの性能を間接的に改善する。 我々は,本論文が研究コミュニティのモデル評価を加速し,一貫性領域の今後の進歩を促進することを願っている。

Large vision-language models (LVLMs) have recently achieved rapid progress, exhibiting great perception and reasoning abilities concerning visual information. However, when faced with prompts in different sizes of solution spaces, LVLMs fail to always give consistent answers regarding the same knowledge point. This inconsistency of answers between different solution spaces is prevalent in LVLMs and erodes trust. To this end, we provide a multi-modal benchmark ConBench, to intuitively analyze how LVLMs perform when the solution space of a prompt revolves around a knowledge point. Based on the ConBench tool, we are the first to reveal the tapestry and get the following findings: (1) In the discriminate realm, the larger the solution space of the prompt, the lower the accuracy of the answers. (2) Establish the relationship between the discriminative and generative realms: the accuracy of the discriminative question type exhibits a strong positive correlation with its Consistency with the caption. (3) Compared to open-source models, closed-source models exhibit a pronounced bias advantage in terms of Consistency. Eventually, we ameliorate the consistency of LVLMs by trigger-based diagnostic refinement, indirectly improving the performance of their caption. We hope this paper will accelerate the research community in better evaluating their models and encourage future advancements in the consistency domain.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# 高調波発生の量子光学的性質の証拠

Evidence of the quantum-optical nature of high-harmonic generation ( http://arxiv.org/abs/2405.15022v2 )

ライセンス: Link先を確認
David Theidel, Viviane Cotte, René Sondenheimer, Viktoriia Shiriaeva, Marie Froidevaux, Vladislav Severin, Philip Mosel, Adam Merdji-Larue, Sven Fröhlich, Kim-Alessandro Weber, Uwe Morgner, Milutin Kovacev, Jens Biegert, Hamed Merdji, (参考訳) 高調波発生(英: high-harmonic generation)は、強いレーザー場において発生する光のアップコンバージョン過程であり、極端に短波長のブロードバンド放射のコヒーレントバーストとなる[1]。 新しい視点として、高調波発生のような超高速の強磁場電子・フォトニックプロセスは、システムの非コヒーレンスが起こるよりもずっと前に、光の非古典的状態を生成する可能性があることを提案する。 これはスケーラビリティ、デコヒーレンス、および巨大な絡み合った状態の生成のような量子技術における根本的な課題に対処する可能性がある [4]。 ここでは、フェムト秒赤外レーザーによって励起される複数の半導体における非古典的な高調波放出の証拠を報告する。 シングルビーム強度とダブルビーム強度の相互相関 [5] を調べることにより、単一光子統計における特徴的、非古典的特徴を測定する。 我々は、超ポアソニアンからポアソニアン光子統計への遷移を管理するレーザー強度に依存する、発生した高調波放射における2モードのスクイージングを観察する。 コーシー=シュワルツの不等式の測定は、高調波発生における多粒子絡みの直接試験を実現する[6]。 この結果は、マルチモーダル検出の理論と、ハーモニクスの効果的なスクイーズモードを導出できるハミルトニアンによって支えられている [7, 8]。 この研究により、高調波発生は本質的には光の古典的状態を生成する新しい量子ボソニックプラットフォームであり、マルチパーティライトブロードバンドの絡み合いやマルチモードスクイーズのようなユニークな特徴を持つことを示す。 ソースは標準の半導体と標準の商用ファイバーレーザーを使用して室温で動作し、光量子コンピューティング、通信、イメージングなどの量子産業のための新しいルートを開く。

High-harmonic generation is a light up-conversion process occurring in a strong laser field, leading to coherent bursts of extreme ultrashort broadband radiation [1]. As a new perspective, we propose that ultrafast strong-field electronic or photonic processes such as high-harmonic generation can potentially generate non-classical states of light well before the decoherence of the system occurs [2, 3]. This could address fundamental challenges in quantum technology such as scalability, decoherence or the generation of massively entangled states [4]. Here, we report experimental evidence of the non-classical nature of the harmonic emission in several semiconductors excited by a femtosecond infrared laser. By investigating single- and double beam intensity cross-correlation [5], we measure characteristic, non-classical features in the single photon statistics. We observe two-mode squeezing in the generated harmonic radiation, which depends on the laser intensity that governs the transition from Super-Poissonian to Poissonian photon statistics. The measured violation of the Cauchy-Schwarz inequality realizes a direct test of multipartite entanglement in high-harmonic generation [6]. This result is supported by the theory of multimodal detection and the Hamiltonian from which the effective squeezing modes of the harmonics can be derived [7, 8]. With this work, we show experimentally that high-harmonic generation is a new quantum bosonic platform that intrinsically produces non-classical states of light with unique features such as multipartite broadband entanglement or multimode squeezing. The source operates at room temperature using standard semiconductors and a standard commercial fiber laser, opening new routes for the quantum industry, such as optical quantum computing, communication and imaging.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# FastDrag: 任意のものをひとつのステップで操作する

FastDrag: Manipulate Anything in One Step ( http://arxiv.org/abs/2405.15769v2 )

ライセンス: Link先を確認
Xuanjia Zhao, Jian Guan, Congyi Fan, Dongli Xu, Youtian Lin, Haiwei Pan, Pengming Feng, (参考訳) 生成モデルを用いたドラッグベースの画像編集は、画像内容の正確な制御を可能にし、ユーザーは数クリックで画像中のあらゆるものを操作できる。 しかし、一般的な手法では、遅延セマンティック最適化に$n$-stepのイテレーションを採用してドラッグベースの画像編集を実現するのが一般的である。 本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。 我々のアプローチの中心は潜時ウォーページ関数(LWF)であり、この関数は伸長された材料の挙動をシミュレートし、潜時空間内の個々のピクセルの位置を調節する。 この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。 一方, LWF適用後に出現するヌル領域は, 近距離補間(BNNI)戦略によって対処される。 この戦略は、近隣地域の類似した特徴を用いてこれらの領域を補間し、意味的整合性を高める。 また、拡散インバージョン中に自己保持モジュールのキーと値ペアとして保存された原画像からのセマンティック情報を採用し、拡散サンプリングを誘導することにより、編集画像と原画像との整合性を維持するための整合性保存戦略を導入する。 我々のFastDragはDragBenchデータセットで検証されており、既存のメソッドよりも処理時間を大幅に改善し、編集性能の向上を実現しています。 プロジェクトページ: https://fastdrag-site.github.io/

Drag-based image editing using generative models provides precise control over image contents, enabling users to manipulate anything in an image with a few clicks. However, prevailing methods typically adopt $n$-step iterations for latent semantic optimization to achieve drag-based image editing, which is time-consuming and limits practical applications. In this paper, we introduce a novel one-step drag-based image editing method, i.e., FastDrag, to accelerate the editing process. Central to our approach is a latent warpage function (LWF), which simulates the behavior of a stretched material to adjust the location of individual pixels within the latent space. This innovation achieves one-step latent semantic optimization and hence significantly promotes editing speeds. Meanwhile, null regions emerging after applying LWF are addressed by our proposed bilateral nearest neighbor interpolation (BNNI) strategy. This strategy interpolates these regions using similar features from neighboring areas, thus enhancing semantic integrity. Additionally, a consistency-preserving strategy is introduced to maintain the consistency between the edited and original images by adopting semantic information from the original image, saved as key and value pairs in self-attention module during diffusion inversion, to guide the diffusion sampling. Our FastDrag is validated on the DragBench dataset, demonstrating substantial improvements in processing time over existing methods, while achieving enhanced editing performance. Project page: https://fastdrag-site.github.io/ .
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# 潜伏変数の存在下での局所因果構造学習

Local Causal Structure Learning in the Presence of Latent Variables ( http://arxiv.org/abs/2405.16225v2 )

ライセンス: Link先を確認
Feng Xie, Zheng Li, Peng Wu, Yan Zeng, Chunchen Liu, Zhi Geng, (参考訳) 観測データから因果関係を明らかにすることは、特に潜伏変数の存在において、困難な問題を引き起こす。 現在の局所構造学習法は,目的変数の局所的関係のみに焦点が当てられている場合に有効かつ効果的であることが証明されているが,因果補足性の仮定の下で機能する。 この仮定は、測定された変数のすべての共通原因が観測され、潜伏変数の余地が残らないことを意味する。 このような前提は、様々な現実世界のアプリケーションで容易に違反でき、結果として下流のタスクに悪影響を及ぼすような不正確な構造をもたらす。 これを踏まえ,本論文では,潜伏変数を含む観測データから,対象の親子を同定する基礎的研究を行った。 具体的には,大域的構造学習と局所的構造学習のギャップを効果的に埋める理論的整合性を導出するために,m分離とV構造からの因果情報を利用する。 新たに開発された停止規則とともに,変数がターゲットの直接的な原因や効果であるか否かを判定する原理的手法を提案する。 さらに, 標準因果マルコフ条件と忠実度条件下でのアプローチの正しさを, 無限サンプルを用いて理論的に示す。 実世界の合成データと実世界のデータによる実験結果から,本手法の有効性と有効性について検証した。

Discovering causal relationships from observational data, particularly in the presence of latent variables, poses a challenging problem. While current local structure learning methods have proven effective and efficient when the focus lies solely on the local relationships of a target variable, they operate under the assumption of causal sufficiency. This assumption implies that all the common causes of the measured variables are observed, leaving no room for latent variables. Such a premise can be easily violated in various real-world applications, resulting in inaccurate structures that may adversely impact downstream tasks. In light of this, our paper delves into the primary investigation of locally identifying potential parents and children of a target from observational data that may include latent variables. Specifically, we harness the causal information from m-separation and V-structures to derive theoretical consistency results, effectively bridging the gap between global and local structure learning. Together with the newly developed stop rules, we present a principled method for determining whether a variable is a direct cause or effect of a target. Further, we theoretically demonstrate the correctness of our approach under the standard causal Markov and faithfulness conditions, with infinite samples. Experimental results on both synthetic and real-world data validate the effectiveness and efficiency of our approach.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# 部分列車と孤立・緩和バックドア攻撃

Partial train and isolate, mitigate backdoor attack ( http://arxiv.org/abs/2405.16488v2 )

ライセンス: Link先を確認
Yong Li, Han Gao, (参考訳) ニューラルネットワークは、バックドア攻撃に弱いことが広く知られている。これは、トレーニングデータの一部に毒を盛り、標的モデルを正常なデータセットで正常に動作させ、攻撃者が特定またはランダムなカテゴリを有毒なサンプルに出力する手法である。 バックドア攻撃は脅威に満ちている。 毒のサンプルは、対応する正常なサンプルとますますよく似ており、人間の目でも容易に区別できない。 一方,通常のサンプルにバックドアを積んだモデルとクリーンモデルとの精度は変わらないが,本論文では,バックドア攻撃の特徴を観察することにより,モデルの一部を凍結して不審なサンプルを識別可能なモデルを訓練する新しいモデルトレーニング法(PT)を提案する。 そして、これに基づいてクリーンモデルが微調整され、バックドア攻撃に抵抗する。

Neural networks are widely known to be vulnerable to backdoor attacks, a method that poisons a portion of the training data to make the target model perform well on normal data sets, while outputting attacker-specified or random categories on the poisoned samples. Backdoor attacks are full of threats. Poisoned samples are becoming more and more similar to corresponding normal samples, and even the human eye cannot easily distinguish them. On the other hand, the accuracy of models carrying backdoors on normal samples is no different from that of clean models.In this article, by observing the characteristics of backdoor attacks, We provide a new model training method (PT) that freezes part of the model to train a model that can isolate suspicious samples. Then, on this basis, a clean model is fine-tuned to resist backdoor attacks.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# HCIにおけるCitation Practicesの過去・現在・未来

Past, Present, and Future of Citation Practices in HCI ( http://arxiv.org/abs/2405.16526v2 )

ライセンス: Link先を確認
Jonas Oppenlaender, (参考訳) 科学は、学術システムのサイズと性質により、システム全体にはほとんど影響を与えない、個別に集団決定を行う多くの科学者からなる複雑なシステムである。 しかし、HCI(Human-Computer Interaction)コミュニティのようなメソレベルの研究コミュニティにおける決定は、科学者の深い、長期にわたる行動変化をもたらす可能性がある。 本稿では,2016 年の ACM CHI 会議で導入された編集方針の変更が,CHI 記事に含まれる参照件数の平均が年々増加して,CHI コミュニティが拡大する過程でどのように展開されたかを示す。 もしこのほぼ直線的な傾向が相変わらず続くなら、CHI 2030の記事には平均130の参照が含まれている。 我々のメタリサーチは、資源のデジタルアクセシビリティや学術的圧力などの影響を受けながら、HCIにおける引用実践の性質と意味がどう変化したかについての洞察を提供する。 より多くの引用に対する観察傾向は、品質よりも量の方が優先される引用文化を反映し、著者と査読者の双方の疲労に寄与する。 本稿では、研究コミュニティにおけるメタリサーチの価値と、メソレベルの政策調整が科学的分野や規律の進化にもたらす大きな影響を、ステークホルダーに慎重に検討するよう促す。

Science is a complex system comprised of many scientists who individually make collective decisions that, due to the size and nature of the academic system, largely do not affect the system as a whole. However, certain decisions at the meso-level of research communities, such as the Human-Computer Interaction (HCI) community, may result in deep and long-lasting behavioral changes in scientists. In this article, we provide evidence on how a change in editorial policies introduced at the ACM CHI Conference in 2016 launched the CHI community on an expansive path, denoted by a year-by-year increase in the mean number of references included in CHI articles. If this near-linear trend continues undisrupted, an article in CHI 2030 will include on average almost 130 references. Our meta-research provides insights into how the nature and meaning of citation practices in HCI have changed, influenced by factors such as digital accessibility of resources and academic pressures. The observed trend towards more citations reflects a citation culture where quantity is prioritized over quality, contributing to both author and peer reviewer fatigue. This article underscores the value of meta-research for research communities and the profound impact that meso-level policy adjustments have on the evolution of scientific fields and disciplines, urging stakeholders to carefully consider the broader implications of such changes.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# Sync4D:物理ベースの4D生成のためのビデオガイド制御可能なダイナミクス

Sync4D: Video Guided Controllable Dynamics for Physics-Based 4D Generation ( http://arxiv.org/abs/2405.16849v2 )

ライセンス: Link先を確認
Zhoujie Fu, Jiacheng Wei, Wenhao Shen, Chaoyue Song, Xiaofeng Yang, Fayao Liu, Xulei Yang, Guosheng Lin, (参考訳) 本研究では, カジュアルにキャプチャした参照ビデオを用いて, 3次元ガウシアンに制御可能なダイナミックスを作成する手法を提案する。 提案手法は,オブジェクトの動作を参照ビデオから様々なカテゴリで生成した様々な3Dガウスに転送することで,高精度かつカスタマイズ可能なモーション転送を実現する。 本研究では, 混合スキンを用いた非パラメトリック形状再構成を用いて, 参照物体の形状と動きを抽出する。 このプロセスでは、参照対象をスキンウェイトに基づいて動作関連部分に分割し、生成されたターゲット形状と形状対応を確立する。 既存の手法では, 形状と時間的矛盾に対処するため, 物理シミュレーションを統合し, 目標形状を一致運動で駆動する。 この積分は、信頼性と真のダイナミクスを保証するために変位損失によって最適化される。 提案手法は,人間,四重奏曲,明瞭な対象を含む多様な参照入力をサポートし,任意の長さのダイナミックスを生成し,忠実度と適用性を向上させる。 拡散ビデオ生成モデルに大きく依存する手法とは異なり,本手法は,形状整合性と時間整合性の両方を維持しつつ,特定かつ高品質なモーショントランスファーを提供する。

In this work, we introduce a novel approach for creating controllable dynamics in 3D-generated Gaussians using casually captured reference videos. Our method transfers the motion of objects from reference videos to a variety of generated 3D Gaussians across different categories, ensuring precise and customizable motion transfer. We achieve this by employing blend skinning-based non-parametric shape reconstruction to extract the shape and motion of reference objects. This process involves segmenting the reference objects into motion-related parts based on skinning weights and establishing shape correspondences with generated target shapes. To address shape and temporal inconsistencies prevalent in existing methods, we integrate physical simulation, driving the target shapes with matched motion. This integration is optimized through a displacement loss to ensure reliable and genuine dynamics. Our approach supports diverse reference inputs, including humans, quadrupeds, and articulated objects, and can generate dynamics of arbitrary length, providing enhanced fidelity and applicability. Unlike methods heavily reliant on diffusion video generation models, our technique offers specific and high-quality motion transfer, maintaining both shape integrity and temporal consistency.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# Trncated Modular Exponentiation Operators: A Strategy for Quantum Factoring

Truncated Modular Exponentiation Operators: A Strategy for Quantum Factoring ( http://arxiv.org/abs/2405.17021v2 )

ライセンス: Link先を確認
Robert L. Singleton Jr, (参考訳) Modular Exponentiation (ME) 演算子はShorアルゴリズムの基本的な構成要素の1つであり、ほとんどの量子リソースがデプロイされる場所である。 本稿では、作業レジスタが状態$\vert 1 \rangle$から始まるという単純な観察に依存するME演算子を構築する方法を提案する。 したがって、一般的な入力を受け入れるME演算子$U$を作成する必要はないが、代わりに、状態の周期列$\vert f(x) \rangle$ for $x \in \{0, 1, \cdots, r-1\}$に対して$f(x)$は周期$r$を持つME関数である。 演算子$U$は$r$レベルに分割することができ、レベル$x \in \{0, 1, \cdots, r-1\}$のゲートは状態$\vert f(x) \rangle$を状態$\vert f(x+1) \rangle$にインクリメントする。 x$ 以下のゲートは状態 $\vert f(x+1) \rangle$ に影響しない。 もし演算子$U$を知っていたら、ME関数の期間$r$を知っていて、Shorのアルゴリズムは必要ないでしょう。 しかし、ME演算子は極めて寛容であり、レベルが省略された近似形式は、正確な演算子と同様に、要因を抽出できることを示す。 私はこれを、ME演算子の要求レベルの半分以下を使用することで、$N = 21, 33, 35, 143, 247$の数値を分解して示します。 この手順は連続分数法が近似位相値のみを必要とするため機能する。 これは、ME演算子の回路をより多くのゲートで埋める分解戦略の基礎であり、様々な合成演算子$U^p$($p$は2のパワーである)間の相関は、不足レベルを補う。

Modular exponentiation (ME) operators are one of the fundamental components of Shor's algorithm, and the place where most of the quantum resources are deployed. I propose a method for constructing the ME operators that relies upon the simple observation that the work register starts in state $\vert 1 \rangle$. Therefore, we do not have to create an ME operator $U$ that accepts a general input, but rather, one that takes an input from the periodic sequence of states $\vert f(x) \rangle$ for $x \in \{0, 1, \cdots, r-1\}$, where $f(x)$ is the ME function with period $r$. The operator $U$ can be partitioned into $r$ levels, where the gates in level $x \in \{0, 1, \cdots, r-1\}$ increment the state $\vert f(x) \rangle$ to the state $\vert f(x+1) \rangle$. The gates below $x$ do not affect the state $\vert f(x+1) \rangle$. The obvious problem with this method is that it is self-defeating: If we knew the operator $U$, then we would know the period $r$ of the ME function, and there would be no need for Shor's algorithm. I show, however, that the ME operators are very forgiving, and truncated approximate forms in which levels have been omitted are able to extract factors just as well as the exact operators. I demonstrate this by factoring the numbers $N = 21, 33, 35, 143, 247$ by using less than half the requisite number of levels in the ME operators. This procedure works because the method of continued fractions only requires an approximate phase value. This is the basis for a factorization strategy in which we fill the circuits for the ME operators with more and more gates, and the correlations between the various composite operators $U^p$ (where $p$ is a power of two) compensate for the missing levels.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# インテクスト学習のためのベンチマーク

Benchmarking General Purpose In-Context Learning ( http://arxiv.org/abs/2405.17234v3 )

ライセンス: Link先を確認
Fan Wang, Chuan Lin, Yang Cao, Yu Kang, (参考訳) インコンテキスト学習(ICL)は、柔軟性、汎用性、サンプル効率、人工最適化スキルの免除などにより、AIコミュニティにますますアピールしている。 汎用インコンテキスト学習(GPICL)の概念がもたらされるICLの汎用性と能力のさらなる向上が望まれる。 我々は、より広い範囲のタスクに対応するためにICLを拡張し、比較的制限されたゼロショットの一般化を伴いながら、学習の地平を拡大し、改善の可能性を高めることを目指している。 この目的のために、GPICLの機能のトレーニングと評価に特化して開発された2つの軽量で洞察に富んだベンチマークを導入する。 各ベンチマークには、タスク間の伝達可能な最小限の知識を特徴とする、大きなタスク分散を特徴とする膨大なタスクが含まれている。 これらのタスクは、連続した生成と相互作用を通じて、生涯にわたるコンテキスト内学習を促進するように設計されている。 これらの特徴は、言語モデル、決定モデル、世界モデルなどの能力を向上させるために文脈や相互作用に依存するモデルに重大な課題をもたらす。 実験の結果,パラメータのスケールはICLやGPICLにとって重要ではなく,コンテキストやメモリ状態のスケールを増大させるような代替手法が提案されている。

In-context learning (ICL) is becoming increasingly appealing to the AI community due to its flexibility, generality, sample efficiency, and exemption from artificial optimization skills. It is desirable to further enhance the generality and capability of ICL, which gives rise to the concept of general-purpose in-context learning (GPICL). We aim to extend ICL to address a broader range of tasks with an extended learning horizon and higher improvement potential, albeit with relatively limited zero-shot generalization. To this end, we introduce two lightweight but insightful benchmarks specifically crafted to train and evaluate GPICL functionalities. Each benchmark includes a vast number of tasks characterized by significant task variance, featuring minimal transferable knowledge among tasks. These tasks are designed to facilitate lifelong in-context learning through continuous generation and interaction. These features pose significant challenges for models that rely on context or interactions to improve their proficiency, including language models, decision models, and world models. Our experiments reveal that the scale of parameters alone may not be crucial for ICL or GPICL, suggesting alternative approaches such as increasing the scale of contexts and memory states.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# DPN:ミニマックス車両ルーティング問題におけるニューラルソルバーの分離とナビゲーション

DPN: Decoupling Partition and Navigation for Neural Solvers of Min-max Vehicle Routing Problems ( http://arxiv.org/abs/2405.17272v2 )

ライセンス: Link先を確認
Zhi Zheng, Shunyu Yao, Zhenkun Wang, Xialiang Tong, Mingxuan Yuan, Ke Tang, (参考訳) min-maxの車両ルーティング問題(min-max VRP)は、いくつかのルートを割り当て、最長ルートの長さを最小化することを目的として、与えられたすべての顧客を横断する。 近年,強化学習(RL)に基づく逐次計画手法は,解法効率と最適性に優位性を示した。 しかし、これらの手法は、学習表現における問題固有の特性を利用することができず、最適経路の復号化にはあまり効果がない。 本稿では,Min-max VRPの逐次計画過程を,異なる経路の顧客分割と各経路の顧客ナビゲーション(パーティションとナビゲーション)の2つの複合最適化タスクとして考察する。 min-max VRPインスタンスを効果的に処理するために,パーティション・アンド・ナビゲーション・エンコーダ(P&Nエンコーダ)を提案する。 さらに、復号経路に固有の対称性を利用し、効果的なエージェント置換対称損失関数(APS)を開発する。 実験結果から,DPN法が従来の学習手法よりはるかに優れていることが示された。 私たちのコードは利用可能です

The min-max vehicle routing problem (min-max VRP) traverses all given customers by assigning several routes and aims to minimize the length of the longest route. Recently, reinforcement learning (RL)-based sequential planning methods have exhibited advantages in solving efficiency and optimality. However, these methods fail to exploit the problem-specific properties in learning representations, resulting in less effective features for decoding optimal routes. This paper considers the sequential planning process of min-max VRPs as two coupled optimization tasks: customer partition for different routes and customer navigation in each route (i.e., partition and navigation). To effectively process min-max VRP instances, we present a novel attention-based Partition-and-Navigation encoder (P&N Encoder) that learns distinct embeddings for partition and navigation. Furthermore, we utilize an inherent symmetry in decoding routes and develop an effective agent-permutation-symmetric (APS) loss function. Experimental results demonstrate that the proposed Decoupling-Partition-Navigation (DPN) method significantly surpasses existing learning-based methods in both single-depot and multi-depot min-max VRPs. Our code is available at
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# 大規模言語モデルにおける道徳的コンパスの探索と評価

Exploring and steering the moral compass of Large Language Models ( http://arxiv.org/abs/2405.17345v2 )

ライセンス: Link先を確認
Alejandro Tlaie, (参考訳) 大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となり、重要な倫理的疑問を提起している。 本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。 いくつかの最先端のモデルを倫理的ジレンマの選択に適用し、プロプライエタリなものはすべて実用的であり、オープンウェイトのものはすべて、主に価値に基づく倫理と一致していることがわかった。 さらに、Moral Foundations Questionnaireを使用することで、Llama 2-7Bを除いて調査したすべてのモデルは、強いリベラルバイアスを示しました。 最後に、研究モデルの一つに因果的に介入するために、新しい類似性特異的なアクティベーションステアリング手法を提案する。 この手法により、モデルの倫理的コンパスを異なる倫理学派に確実に操ることができた。 これらの結果は、既に展開されているLCMには倫理的次元があることを示しており、概して見過ごされている。

Large Language Models (LLMs) have become central to advancing automation and decision-making across various sectors, raising significant ethical questions. This study proposes a comprehensive comparative analysis of the most advanced LLMs to assess their moral profiles. We subjected several state-of-the-art models to a selection of ethical dilemmas and found that all the proprietary ones are mostly utilitarian and all of the open-weights ones align mostly with values-based ethics. Furthermore, when using the Moral Foundations Questionnaire, all models we probed - except for Llama 2-7B - displayed a strong liberal bias. Lastly, in order to causally intervene in one of the studied models, we propose a novel similarity-specific activation steering technique. Using this method, we were able to reliably steer the model's moral compass to different ethical schools. All of these results showcase that there is an ethical dimension in already deployed LLMs, an aspect that is generally overlooked.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# Vista: 高い忠実度とVersatile制御性を備えた汎用駆動型世界モデル

Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability ( http://arxiv.org/abs/2405.17398v2 )

ライセンス: Link先を確認
Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, Hongyang Li, (参考訳) 世界モデルは異なる行動の結果を予測することができ、これは自動運転にとって最重要事項である。 それでも、既存の駆動世界モデルには、目に見えない環境への一般化、重要な詳細の予測精度、フレキシブルなアプリケーションに対するアクション制御性に制限がある。 本稿では,高忠実度かつ多目的な制御性を有する一般化可能な運転世界モデルであるVistaを提案する。 既存の手法の体系的診断に基づいて,これらの制約に対処するための重要な要素をいくつか紹介する。 実世界のダイナミクスを高精度に予測するために,移動インスタンスと構造情報の学習を促進するために,2つの新たな損失を提案する。 また,コヒーレントなロングホライゾンロールアウトの先行として,過去のフレームを注入する有効な潜在代替手法も考案した。 動作制御性には,高レベルな意図(コマンド,ゴールポイント)から低レベルな操作(軌道,角度,速度)まで,効率的な学習戦略を通じて多種多様な制御を組み込む。 大規模なトレーニングの後、Vistaの機能はさまざまなシナリオにシームレスに一般化できる。 複数のデータセットに対する大規模な実験によると、Vistaは比較の70%以上で最も高度な汎用ビデオジェネレータを上回り、FIDでは55%、FVDでは27%を上回っている。 さらに,Vista自体の能力を活用して,現実の行動評価に基礎となる真実の行動にアクセスすることなく,一般化可能な報酬を確立する。

World models can foresee the outcomes of different actions, which is of paramount importance for autonomous driving. Nevertheless, existing driving world models still have limitations in generalization to unseen environments, prediction fidelity of critical details, and action controllability for flexible application. In this paper, we present Vista, a generalizable driving world model with high fidelity and versatile controllability. Based on a systematic diagnosis of existing methods, we introduce several key ingredients to address these limitations. To accurately predict real-world dynamics at high resolution, we propose two novel losses to promote the learning of moving instances and structural information. We also devise an effective latent replacement approach to inject historical frames as priors for coherent long-horizon rollouts. For action controllability, we incorporate a versatile set of controls from high-level intentions (command, goal point) to low-level maneuvers (trajectory, angle, and speed) through an efficient learning strategy. After large-scale training, the capabilities of Vista can seamlessly generalize to different scenarios. Extensive experiments on multiple datasets show that Vista outperforms the most advanced general-purpose video generator in over 70% of comparisons and surpasses the best-performing driving world model by 55% in FID and 27% in FVD. Moreover, for the first time, we utilize the capacity of Vista itself to establish a generalizable reward for real-world action evaluation without accessing the ground truth actions.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# FAIntbench: テキスト・画像モデルにおけるバイアス評価のための完全かつ高精度なベンチマーク

FAIntbench: A Holistic and Precise Benchmark for Bias Evaluation in Text-to-Image Models ( http://arxiv.org/abs/2405.17814v2 )

ライセンス: Link先を確認
Hanjun Luo, Ziye Deng, Ruizhe Chen, Zuozhu Liu, (参考訳) テキスト・ツー・イメージ(T2I)モデルへの急速な開発と参入障壁の低減は、出力のバイアスに関する懸念を提起しているが、既存の研究ではバイアスの全体的定義と評価の枠組みが欠如しており、デバイアス手法の強化が制限されている。 この問題に対処するために、我々はT2Iモデルにおけるバイアスの総合的かつ正確なベンチマークであるFAIntbenchを紹介する。 限定的な側面でバイアスを評価する既存のベンチマークとは対照的に、FAIntbenchはバイアスの表示、バイアスの可視性、取得された属性、保護された属性の4つの次元からバイアスを評価する。 FAIntbenchを7種類の大規模T2Iモデル評価に適用し, 各種バイアスの同定にFAIntbenchの有効性を実証した。 また, 蒸留の副作用など, バイアスに関する新たな研究課題も明らかにした。 この結果は予備的であり、T2Iモデルのバイアスを軽減することを目的とした将来の研究を進めるためのFAIntbenchの可能性を強調している。 私たちのベンチマークは再現性を確保するために公開されています。

The rapid development and reduced barriers to entry for Text-to-Image (T2I) models have raised concerns about the biases in their outputs, but existing research lacks a holistic definition and evaluation framework of biases, limiting the enhancement of debiasing techniques. To address this issue, we introduce FAIntbench, a holistic and precise benchmark for biases in T2I models. In contrast to existing benchmarks that evaluate bias in limited aspects, FAIntbench evaluate biases from four dimensions: manifestation of bias, visibility of bias, acquired attributes, and protected attributes. We applied FAIntbench to evaluate seven recent large-scale T2I models and conducted human evaluation, whose results demonstrated the effectiveness of FAIntbench in identifying various biases. Our study also revealed new research questions about biases, including the side-effect of distillation. The findings presented here are preliminary, highlighting the potential of FAIntbench to advance future research aimed at mitigating the biases in T2I models. Our benchmark is publicly available to ensure the reproducibility.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# 無限次元非線形拡散ブリッジのシミュレーション

Simulating infinite-dimensional nonlinear diffusion bridges ( http://arxiv.org/abs/2405.18353v2 )

ライセンス: Link先を確認
Gefan Yang, Elizabeth Louise Baker, Michael L. Severinsen, Christy Anna Hipsley, Stefan Sommer, (参考訳) 拡散ブリッジは、有限時間内に特定の状態に達することを条件とする拡散過程の一種である。 ベイズ推論、金融数学、制御理論、形状解析などの分野に広く応用されている。 しかし, 自然データに対する拡散ブリッジのシミュレーションは, ドリフト項の難易度とデータの連続表現の両面から困難である。 有限次元拡散ブリッジをシミュレートするいくつかの方法が利用可能であるが、無限次元の場合も未解決のままである。 本稿では,演算子学習とスコアマッチング技術を組み合わせることで,無限次元ブリッジのスコアマッチングへの直接的なアプローチを可能にする。 離散化不変量となるようなスコアを構築するが、これは空間的連続過程を基礎として自然である。 クローズドフォーム解を用いた合成例から実世界の生体形状データの確率論的非線形進化まで,様々な実験を行った。

The diffusion bridge is a type of diffusion process that conditions on hitting a specific state within a finite time period. It has broad applications in fields such as Bayesian inference, financial mathematics, control theory, and shape analysis. However, simulating the diffusion bridge for natural data can be challenging due to both the intractability of the drift term and continuous representations of the data. Although several methods are available to simulate finite-dimensional diffusion bridges, infinite-dimensional cases remain unresolved. In the paper, we present a solution to this problem by merging score-matching techniques with operator learning, enabling a direct approach to score-matching for the infinite-dimensional bridge. We construct the score to be discretization invariant, which is natural given the underlying spatially continuous process. We conduct a series of experiments, ranging from synthetic examples with closed-form solutions to the stochastic nonlinear evolution of real-world biological shape data, and our method demonstrates high efficacy, particularly due to its ability to adapt to any resolution without extra training.
翻訳日:2024-06-07 20:13:39 公開日:2024-06-06
# 反復ガウス過程における過パラメータ最適化のための線形系解法の改良

Improving Linear System Solvers for Hyperparameter Optimisation in Iterative Gaussian Processes ( http://arxiv.org/abs/2405.18457v2 )

ライセンス: Link先を確認
Jihao Andreas Lin, Shreyas Padhy, Bruno Mlodozeniec, Javier Antorán, José Miguel Hernández-Lobato, (参考訳) 非常に大きなデータセットへのハイパーパラメータ最適化のスケーリングは、ガウスのプロセスコミュニティでは未解決の問題である。 本稿では, 共役勾配, 交互射影, 確率勾配勾配などの線形系解法を用いて, 限界次数勾配を推定する反復法について述べる。 解決者間で適用可能な3つの重要な改善点について論じる。 (i)パスワイズ勾配推定器で、必要な解法反復数を減らし、予測を行う計算コストを補正する。 (II) 先段からの解を用いた温かい開始線形系解法は、無視バイアスのコストでより高速な解法収束をもたらす。 3) 線形系解法は, 計算予算が限られており, 温暖化開始と相乗効果があり, 解法の進行が複数の余分な確率ステップで蓄積される。 これらのテクニックは、トレランスを解決した場合に最大72\times$のスピードアップを提供し、早期停止時には平均残留ノルムを最大7\times$まで下げる。

Scaling hyperparameter optimisation to very large datasets remains an open problem in the Gaussian process community. This paper focuses on iterative methods, which use linear system solvers, like conjugate gradients, alternating projections or stochastic gradient descent, to construct an estimate of the marginal likelihood gradient. We discuss three key improvements which are applicable across solvers: (i) a pathwise gradient estimator, which reduces the required number of solver iterations and amortises the computational cost of making predictions, (ii) warm starting linear system solvers with the solution from the previous step, which leads to faster solver convergence at the cost of negligible bias, (iii) early stopping linear system solvers after a limited computational budget, which synergises with warm starting, allowing solver progress to accumulate over multiple marginal likelihood steps. These techniques provide speed-ups of up to $72\times$ when solving to tolerance, and decrease the average residual norm by up to $7\times$ when stopping early.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# Verifiably Robust Conformal Prediction

Verifiably Robust Conformal Prediction ( http://arxiv.org/abs/2405.18942v2 )

ライセンス: Link先を確認
Linus Jeary, Tom Kuipers, Mehran Hosseini, Nicola Paoletti, (参考訳) コンフォーマル予測(CP)は、トレーニングデータとテストデータが交換可能であると仮定して、分布のない統計的に有効な予測セットを提供する一般的な不確実性定量化手法である。 このような場合、CPの予測セットは、(未知の)真のテスト出力をユーザ特定確率でカバーすることが保証される。 それでも、この保証は、データが敵の攻撃を受けた場合に違反され、しばしばカバレッジが著しく失われる。 近年,CP保証を回復するためのいくつかのアプローチが提案されている。 これらのアプローチはランダムな平滑化のバリエーションを活用して、対角摂動の影響を考慮に入れた保守的な集合を生成する。 しかし、それらは$\ell^2$-bounded 摂動と分類タスクのみをサポートするという点で制限されている。 本稿では、最近のニューラルネットワーク検証手法を利用して、敵攻撃時のカバレッジ保証を回復する新しいフレームワークであるVRCP(Verifiably Robust Conformal Prediction)を紹介する。 我々のVRCP法は、回帰タスクだけでなく、$\ell^1$, $\ell^2$, $\ell^\infty$などの任意のノルムで束縛された摂動をサポートする最初の方法である。 我々は,画像分類タスク(CIFAR10,CIFAR100,TinyImageNet)と,深層強化学習環境における回帰タスクについて評価・比較を行った。 いずれの場合も、VRCPは名目上の範囲を達成し、SotAよりもはるかに効率的で情報的な予測領域が得られる。

Conformal Prediction (CP) is a popular uncertainty quantification method that provides distribution-free, statistically valid prediction sets, assuming that training and test data are exchangeable. In such a case, CP's prediction sets are guaranteed to cover the (unknown) true test output with a user-specified probability. Nevertheless, this guarantee is violated when the data is subjected to adversarial attacks, which often result in a significant loss of coverage. Recently, several approaches have been put forward to recover CP guarantees in this setting. These approaches leverage variations of randomised smoothing to produce conservative sets which account for the effect of the adversarial perturbations. They are, however, limited in that they only support $\ell^2$-bounded perturbations and classification tasks. This paper introduces VRCP (Verifiably Robust Conformal Prediction), a new framework that leverages recent neural network verification methods to recover coverage guarantees under adversarial attacks. Our VRCP method is the first to support perturbations bounded by arbitrary norms including $\ell^1$, $\ell^2$, and $\ell^\infty$, as well as regression tasks. We evaluate and compare our approach on image classification tasks (CIFAR10, CIFAR100, and TinyImageNet) and regression tasks for deep reinforcement learning environments. In every case, VRCP achieves above nominal coverage and yields significantly more efficient and informative prediction regions than the SotA.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# LLM触媒によるプロンプトチューニングの勾配最適化

Two Optimizers Are Better Than One: LLM Catalyst Empowers Gradient-Based Optimization for Prompt Tuning ( http://arxiv.org/abs/2405.19732v3 )

ライセンス: Link先を確認
Zixian Guo, Ming Liu, Zhilong Ji, Jinfeng Bai, Yiwen Guo, Wangmeng Zuo, (参考訳) スキルの習得は一般的に、実践的な実践経験とインストラクターによる洞察に富んだハイレベルガイダンスの両方に依存します。 この戦略は複雑な非凸最適化問題の解決にも有効か? ここでは、共通の勾配ベースのオプティマイザが規律のあるドーラのように動作し、各ステップで局所的に最適な更新を行う。 近年の手法では,大規模言語モデル(LLM)を用いて,高レベルのインストラクターと同様,自然言語命令から推論することで,具体的問題の解法を最適化している。 本稿では,これら2つのオプティマイザが相互補完的であることを示し,協調最適化手法を提案する。 勾配ベースオプティマイザとLLMベースのオプティマイザをインターリーブ方式で組み合わせる。 我々は,勾配に基づく最適化中に記録されたタスク記述とタイムリーな最適化トラジェクトリを用いてLCMを指示する。 勾配最適化の次の段階における再起動点として, LLMによる推定結果を用いる。 局所的な厳密な勾配に基づく最適化手法と高レベルな導出性LLMに基づく最適化手法を併用することにより、競争ベースライン・プロンプト・チューニング法よりも常に改善が得られている。 本研究は,従来の勾配最適化の相乗効果とLLMの推論能力を示すものである。 コードはhttps://github.com/guozix/LLM-catalystでリリースされる。

Learning a skill generally relies on both practical experience by doer and insightful high-level guidance by instructor. Will this strategy also work well for solving complex non-convex optimization problems? Here, a common gradient-based optimizer acts like a disciplined doer, making locally optimal update at each step. Recent methods utilize large language models (LLMs) to optimize solutions for concrete problems by inferring from natural language instructions, akin to a high-level instructor. In this paper, we show that these two optimizers are complementary to each other, suggesting a collaborative optimization approach. The gradient-based optimizer and LLM-based optimizer are combined in an interleaved manner. We instruct LLMs using task descriptions and timely optimization trajectories recorded during gradient-based optimization. Inferred results from LLMs are used as restarting points for the next stage of gradient optimization. By leveraging both the locally rigorous gradient-based optimizer and the high-level deductive LLM-based optimizer, our combined optimization method consistently yields improvements over competitive baseline prompt tuning methods. Our results demonstrate the synergistic effect of conventional gradient-based optimization and the inference ability of LLMs. The code is released at https://github.com/guozix/LLM-catalyst.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# 連続時間と空間におけるポリシミラー降下に対するエントロピーアニール

Entropy annealing for policy mirror descent in continuous time and space ( http://arxiv.org/abs/2405.20250v2 )

ライセンス: Link先を確認
Deven Sethi, David Šiška, Yufei Zhang, (参考訳) エントロピー正則化は、最適化ランドスケープを正規化し、収束を加速するためにポリシー最適化アルゴリズムで広く用いられているが、追加の正則化バイアスを導入するコストが伴う。 この研究は、確率的出口時間制御問題に対するポリシー勾配法の収束に対するエントロピー正則化の影響を定量化する。 本研究では,エントロピー正規化値関数の勾配に基づいてポリシーを更新し,アルゴリズムの進行に応じてエントロピー正規化の強度を調整する連続時間ポリシーミラー降下ダイナミクスを解析する。 固定エントロピーレベルでは、力学は正規化問題の最適解に指数関数的に収束する。 さらに、適切な多項式速度でエントロピー準位が減衰すると、アニール流は離散的な作用空間に対して$\mathcal O(1/S)$と、一般的な作用空間に対して$\mathcal O(1/\sqrt{S})$と、勾配流時である$S$で非正規化問題の解に収束する。 本稿では, 収束率の観点から, 真の勾配であっても, エントロピー正則化が政策最適化をいかに改善するかを説明する。

Entropy regularization has been extensively used in policy optimization algorithms to regularize the optimization landscape and accelerate convergence; however, it comes at the cost of introducing an additional regularization bias. This work quantifies the impact of entropy regularization on the convergence of policy gradient methods for stochastic exit time control problems. We analyze a continuous-time policy mirror descent dynamics, which updates the policy based on the gradient of an entropy-regularized value function and adjusts the strength of entropy regularization as the algorithm progresses. We prove that with a fixed entropy level, the dynamics converges exponentially to the optimal solution of the regularized problem. We further show that when the entropy level decays at suitable polynomial rates, the annealed flow converges to the solution of the unregularized problem at a rate of $\mathcal O(1/S)$ for discrete action spaces and, under suitable conditions, at a rate of $\mathcal O(1/\sqrt{S})$ for general action spaces, with $S$ being the gradient flow time. This paper explains how entropy regularization improves policy optimization, even with the true gradient, from the perspective of convergence rate.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# LLMのオートアリーナ:エージェントピアバスによるLCM評価の自動化と委員会ディスカッション

Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions ( http://arxiv.org/abs/2405.20267v2 )

ライセンス: Link先を確認
Ruochen Zhao, Wenxuan Zhang, Yew Ken Chia, Deli Zhao, Lidong Bing, (参考訳) LLMが日常的に進化するにつれて、信頼できる評価方法が緊急に必要であり、安定した評価結果をタイムリーに提供できる。 現在、静的ベンチマークは汚染の懸念があるため、ユーザーはChatbot Arenaのような人間の投票プラットフォームを信頼する傾向にある。 しかし、人間のアノテーションは広範囲の手作業を必要とする。 自動的かつ堅牢で信頼性の高い評価フレームワークとして,LLMエージェントによる評価プロセス全体を自動化したLLMの自動アリーナを革新的に提案する。 まず、検査者LLMがクエリを考案する。 次に、LLM候補のペアがクエリの周りで複数ラウンドのピアバトルを行い、その間にLLMの真のパフォーマンスギャップが見えてくる。 最後に、LLM審査員の委員会は、偏見を緩和し公平性を促進する勝者をまとめて議論し、決定する。 最新のLLM17の広範な実験において、Auto-Arenaは人間の嗜好と最も高い相関を示し、人間の評価プラットフォームに代わる有望な代替手段を提供する。

As LLMs evolve on a daily basis, there is an urgent need for a trustworthy evaluation method that can provide robust evaluation results in a timely fashion. Currently, as static benchmarks are prone to contamination concerns, users tend to trust human voting platforms, such as Chatbot Arena. However, human annotations require extensive manual efforts. To provide an automatic, robust, and trustworthy evaluation framework, we innovatively propose the Auto-Arena of LLMs, which automates the entire evaluation process with LLM agents. Firstly, an examiner LLM devises queries. Then, a pair of candidate LLMs engage in a multi-round peer-battle around the query, during which the LLM's true performance gaps become visible. Finally, a committee of LLM judges collectively discuss and determine the winner, which alleviates bias and promotes fairness. In our extensive experiment on the 17 newest LLMs, Auto-Arena shows the highest correlation with human preferences, providing a promising alternative to human evaluation platforms.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# フォトニックフラットバンドによる双極子-双極子相互作用

Dipole-dipole interactions mediated by a photonic flat band ( http://arxiv.org/abs/2405.20382v2 )

ライセンス: Link先を確認
Enrico Di Benedetto, Alejandro Gonzalez-Tudela, Francesco Ciccarello, (参考訳) フラットバンド (FBs) は群速度ゼロのエネルギーバンドであり、電子系では強い相関現象が認められた。 実際、FBは厳密な局所化状態、いわゆる「コンパクト局所化状態」(CLS)の基底を持つことができ、これは一般には非直交状態である。 本稿では,FBのフォトニックアナログに分散結合したエミッタ間における双極子-双極子相互作用について検討する。 このような光子を媒介とする相互作用の強度は、標準バンドの典型的な挙動とは異なり、励起子のエネルギーがFBに近づくにつれて有限値に飽和する特性的な局在長で指数関数的に減衰することを示す。 1Dと2Dの両方の大規模なFBに対して解析的に導かれる普遍的スケーリング法則に従って、局所化長はCLS間の重なりによって増加する。 巨大原子(非局所的な原子場結合)を使用することで、CLSと同じ形状の相互作用ポテンシャルやこれらのいくつかを重畳することができる。

Flat bands (FBs) are energy bands with zero group velocity, which in electronic systems were shown to favor strongly correlated phenomena. Indeed, a FB can be spanned with a basis of strictly localized states, the so called "compact localized states" (CLSs), which are yet generally non-orthogonal. Here, we study emergent dipole-dipole interactions between emitters dispersively coupled to the photonic analogue of a FB, a setup within reach in state-of the-art experimental platforms. We show that the strength of such photon-mediated interactions decays exponentially with distance with a characteristic localization length which, unlike typical behaviours with standard bands, saturates to a finite value as the emitter's energy approaches the FB. Remarkably, we find that the localization length grows with the overlap between CLSs according to an analytically-derived universal scaling law valid for a large class of FBs both in 1D and 2D. Using giant atoms (non-local atom-field coupling) allows to tailor interaction potentials having the same shape of a CLS or a superposition of a few of these.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# 放射線学レポート生成のためのテクスチュアル・インバージョンとセルフ教師付きリファインメント

Textual Inversion and Self-supervised Refinement for Radiology Report Generation ( http://arxiv.org/abs/2405.20607v2 )

ライセンス: Link先を確認
Yuanjiang Luo, Hongxiang Li, Xuan Wu, Meng Cao, Xiaoshuang Huang, Zhihong Zhu, Peixi Liao, Hu Chen, Yi Zhang, (参考訳) 既存の主流のアプローチは、ラジオロジーレポートを生成するエンコーダ-デコーダパラダイムに従っている。 エンコーダとデコーダのネットワーク構造の改善に重点を置いており、モダリティギャップを見落とし、レポートの内容制約を無視しているという2つの欠点を生み出している。 本稿では,この2つの問題に対処するため,テキスト・インバージョンと自己監督型リファインメント(TISR)を提案する。 具体的には、テキストインバージョンは、画像を擬似語として表現することで、テキストと画像が同じ空間に投影され、相互モデリングのギャップがなくなる。 その後、画像とテキスト間の対照的な損失計算によって擬似語を洗練させ、生成したレポートを画像に忠実さを高める。 特に、TISRは既存のほとんどの方法、プラグイン・アンド・プレイと直交している。 広範に利用されている2つの公開データセットの実験を行い、様々なベースラインで大幅な改善を実現し、TISRの有効性と一般化を実証する。 コードはまもなく利用可能になる。

Existing mainstream approaches follow the encoder-decoder paradigm for generating radiology reports. They focus on improving the network structure of encoders and decoders, which leads to two shortcomings: overlooking the modality gap and ignoring report content constraints. In this paper, we proposed Textual Inversion and Self-supervised Refinement (TISR) to address the above two issues. Specifically, textual inversion can project text and image into the same space by representing images as pseudo words to eliminate the cross-modeling gap. Subsequently, self-supervised refinement refines these pseudo words through contrastive loss computation between images and texts, enhancing the fidelity of generated reports to images. Notably, TISR is orthogonal to most existing methods, plug-and-play. We conduct experiments on two widely-used public datasets and achieve significant improvements on various baselines, which demonstrates the effectiveness and generalization of TISR. The code will be available soon.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# 単純な場合:アスペクトベースの感性分析性能の改善に関する研究

It is Simple Sometimes: A Study On Improving Aspect-Based Sentiment Analysis Performance ( http://arxiv.org/abs/2405.20703v2 )

ライセンス: Link先を確認
Laura Cabello, Uchenna Akujuobi, (参考訳) Aspect-Based Sentiment Analysis (ABSA)は、様々な補完的なサブタスクを通じて、特定の実体とその対応する側面に関するテキストデータから意見を抽出する。 いくつかの先行研究は、これらのサブタスクの様々な複雑さのアドホックデザインの開発に重点を置いている。 本稿では,任意のABSAサブタスクに拡張可能な生成フレームワークを提案する。 我々は,Scanaria et al (2023) が提案した命令調律モデルに基づいて,タスク記述を伴う命令ベースモデルと,ABSAサブタスクにおけるコンテキスト内例を提示する。 タスク記述にNLP関連タスクプレフィックスを付加することにより、この命令学習パラダイムの拡張であるPFInstructを提案する。 この単純なアプローチにより、テスト対象のSemEvalサブタスク全体のパフォーマンスが向上し、ATEサブタスク(Rest14)の以前のステート・オブ・ザ・アート(SOTA)を+3.28 F1スコア、AOOEサブタスクの+5.43 F1スコアを、SemEvalデータセット全体の平均+5.43 F1スコアで上回った。 さらに, ABSAサブタスクに対するプレフィックス強化プロンプト品質の影響について検討し, ノイズプレフィックスでもベースラインと比較してモデル性能が向上することが確認された。 また,本手法は,生物医学領域データセット(ERSA)上での競争結果も達成する。

Aspect-Based Sentiment Analysis (ABSA) involves extracting opinions from textual data about specific entities and their corresponding aspects through various complementary subtasks. Several prior research has focused on developing ad hoc designs of varying complexities for these subtasks. In this paper, we present a generative framework extensible to any ABSA subtask. We build upon the instruction tuned model proposed by Scaria et al. (2023), who present an instruction-based model with task descriptions followed by in-context examples on ABSA subtasks. We propose PFInstruct, an extension to this instruction learning paradigm by appending an NLP-related task prefix to the task description. This simple approach leads to improved performance across all tested SemEval subtasks, surpassing previous state-of-the-art (SOTA) on the ATE subtask (Rest14) by +3.28 F1-score, and on the AOOE subtask by an average of +5.43 F1-score across SemEval datasets. Furthermore, we explore the impact of the prefix-enhanced prompt quality on the ABSA subtasks and find that even a noisy prefix enhances model performance compared to the baseline. Our method also achieves competitive results on a biomedical domain dataset (ERSA).
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# フェデレートされた動的平均化によるコミュニケーション効率のよい分散ディープラーニング

Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging ( http://arxiv.org/abs/2405.20988v2 )

ライセンス: Link先を確認
Michail Theologitis, Georgios Frangias, Georgios Anestis, Vasilis Samoladas, Antonios Deligiannakis, (参考訳) データのボリュームと分散化の性質によって駆動され、このデータを活用して知識を生成する必要性が伴って、トレーニングに分散ディープラーニング(DDL)技術が広く使用されるようになった。 これらのテクニックは、ローカルに収集されたデータに基づいて分散ノードで実行されるローカルトレーニングに依存しており、その後、これらのモデルを組み合わせてグローバルモデルを作成する定期的な同期プロセスが続く。 しかし、数百万から数十億のパラメータを含むDLモデルの頻繁な同期は、通信ボトルネックを生じさせ、スケーラビリティを著しく妨げます。 さらに悪いことに、DDLアルゴリズムは一般的に帯域幅を浪費し、過度に単純化され、周期的で、厳密な同期スケジュールに依存するため、帯域幅制限されたフェデレーション設定では実用的でない。 これらの欠点は、トレーニングプロセスに必要な時間に直接影響を与え、データ通信に過剰な時間を必要とします。 これらの欠点に対処するために、モデル分散の値に基づいて動的に同期をトリガする通信効率の良いDDL戦略であるFederated Dynamic Averaging (FDA)を提案する。 本質的に、コストのかかる同期ステップは、各同期後に共通グローバルモデルから初期化されるローカルモデルが著しく分散している場合にのみトリガーされる。 この決定は、各分散ノード/ワーカーからの小さなローカル状態の通信により容易となる。 さまざまな学習タスクにわたる広範な実験を通じて、FDAは従来のコミュニケーション効率のアルゴリズムと最先端のコミュニケーション効率のアルゴリズムと比較して、通信コストを桁違いに削減することを示した。 さらに、FDAは多様なデータ不均一性設定に対して堅牢なパフォーマンスを維持していることを示す。

Driven by the ever-growing volume and decentralized nature of data, coupled with the need to harness this data and generate knowledge from it, has led to the extensive use of distributed deep learning (DDL) techniques for training. These techniques rely on local training that is performed at the distributed nodes based on locally collected data, followed by a periodic synchronization process that combines these models to create a global model. However, frequent synchronization of DL models, encompassing millions to many billions of parameters, creates a communication bottleneck, severely hindering scalability. Worse yet, DDL algorithms typically waste valuable bandwidth, and make themselves less practical in bandwidth-constrained federated settings, by relying on overly simplistic, periodic, and rigid synchronization schedules. These drawbacks also have a direct impact on the time required for the training process, necessitating excessive time for data communication. To address these shortcomings, we propose Federated Dynamic Averaging (FDA), a communication-efficient DDL strategy that dynamically triggers synchronization based on the value of the model variance. In essence, the costly synchronization step is triggered only if the local models, which are initialized from a common global model after each synchronization, have significantly diverged. This decision is facilitated by the communication of a small local state from each distributed node/worker. Through extensive experiments across a wide range of learning tasks we demonstrate that FDA reduces communication cost by orders of magnitude, compared to both traditional and cutting-edge communication-efficient algorithms. Additionally, we show that FDA maintains robust performance across diverse data heterogeneity settings.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# BadRAG: 大規模言語モデルの検索拡張生成における脆弱性の特定

BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models ( http://arxiv.org/abs/2406.00083v2 )

ライセンス: Link先を確認
Jiaqi Xue, Mengxin Zheng, Yebowen Hu, Fei Liu, Xun Chen, Qian Lou, (参考訳) LLM(Large Language Models)は、古い情報や不正なデータを生成する傾向によって制約される。 Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。 このアプローチでは、大規模で最新のデータセットから関連する情報を取得し、生成プロセスを強化するためにそれを使用することで、より正確でコンテキスト的に適切なレスポンスが得られます。 特にRAGデータベースは、Webなどの公開データからしばしばソースされるためである。 本稿では,検索部(RAGデータベース)に対する脆弱性と攻撃とその生成部(LLM)に対する間接攻撃を特定するために,TrojRAG{}を提案する。 具体的には、いくつかのカスタマイズされたコンテンツパスを汚染すると、検索バックドアが得られ、検索はクリーンなクエリではうまく機能するが、常にカスタマイズされた有害な逆行クエリを返す。 トリガーと毒入りの通路は、様々な攻撃を実装するために高度にカスタマイズできる。 例えば、トリガーは「共和党、ドナルド・トランプなど」のような意味的なグループかもしれない。 逆行路は異なる内容に合わせて調整することができ、トリガーとリンクするだけでなく、それを変更することなく間接的にジェネリックLSMを攻撃するためにも用いられる。 これらの攻撃には、RAGに対するサービス拒否攻撃や、トリガーによって条件付けられたLLM世代に対するセマンティックステアリング攻撃が含まれる。 実験の結果,10個の逆行路を毒殺しただけで98.2 %の成功率を誘導し,逆行路を回収できることがわかった。 これにより、RAGベースの GPT-4 の拒絶比を 0.01\% から 74.6\% に引き上げるか、ターゲットクエリに対して 0.22\% から 72\% に増加させることができる。

Large Language Models (LLMs) are constrained by outdated information and a tendency to generate incorrect data, commonly referred to as "hallucinations." Retrieval-Augmented Generation (RAG) addresses these limitations by combining the strengths of retrieval-based methods and generative models. This approach involves retrieving relevant information from a large, up-to-date dataset and using it to enhance the generation process, leading to more accurate and contextually appropriate responses. Despite its benefits, RAG introduces a new attack surface for LLMs, particularly because RAG databases are often sourced from public data, such as the web. In this paper, we propose \TrojRAG{} to identify the vulnerabilities and attacks on retrieval parts (RAG database) and their indirect attacks on generative parts (LLMs). Specifically, we identify that poisoning several customized content passages could achieve a retrieval backdoor, where the retrieval works well for clean queries but always returns customized poisoned adversarial queries. Triggers and poisoned passages can be highly customized to implement various attacks. For example, a trigger could be a semantic group like "The Republican Party, Donald Trump, etc." Adversarial passages can be tailored to different contents, not only linked to the triggers but also used to indirectly attack generative LLMs without modifying them. These attacks can include denial-of-service attacks on RAG and semantic steering attacks on LLM generations conditioned by the triggers. Our experiments demonstrate that by just poisoning 10 adversarial passages can induce 98.2\% success rate to retrieve the adversarial passages. Then, these passages can increase the reject ratio of RAG-based GPT-4 from 0.01\% to 74.6\% or increase the rate of negative responses from 0.22\% to 72\% for targeted queries.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# 即時注入によるChatGPTからの個人情報の抽出

Exfiltration of personal information from ChatGPT via prompt injection ( http://arxiv.org/abs/2406.00199v2 )

ライセンス: Link先を確認
Gregory Schwartzman, (参考訳) 本報告では,ChatGPT 4 と 4o は,攻撃者がユーザの個人情報を流出させるプロンプトインジェクション攻撃の影響を受けやすいことを報告している。 サードパーティのツールを使わずに適用でき、現在すべてのユーザが影響を受ける。 この脆弱性は、最近のChatGPTのメモリ機能の導入によって悪化し、攻撃者はChatGPTに、希望する個人データを監視するように指示することができる。

We report that ChatGPT 4 and 4o are susceptible to a prompt injection attack that allows an attacker to exfiltrate users' personal data. It is applicable without the use of any 3rd party tools and all users are currently affected. This vulnerability is exacerbated by the recent introduction of ChatGPT's memory feature, which allows an attacker to command ChatGPT to monitor the user for the desired personal data.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# HENASY:Egocentric Video-Language Modelのためのシーンエンティティの集合学習

HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model ( http://arxiv.org/abs/2406.00307v2 )

ライセンス: Link先を確認
Khoa Vo, Thinh Phan, Kashu Yamazaki, Minh Tran, Ngan Le, (参考訳) 現在のビデオ言語モデル(VLM)は、ビデオと言語モダリティ間のインスタンスレベルのアライメントに大きく依存しており、(1)視覚的推論は、人間が一人称視点で行う自然な認識に反し、推論の解釈の欠如を招き、(2)学習は、2つのモダリティ間の固有のきめ細かい関係を捉えるのに限られている。 本稿では、人間の知覚からインスピレーションを得て、エゴセントリックな映像表現のための構成的アプローチを探求する。 HENASY (Hierarchical ENtities ASsemblY) を導入し、時間を通して動的に進化するシーンエンティティを明示的にアレンジし、ビデオ表現とそれらの関係をモデル化する時空間トークングループ化機構を含む。 構成構造理解を活用することで、HENASYは、自由形式のテキストクエリによる視覚的グラウンドリングを通じて、強い解釈性を持つ。 さらに、エンティティ中心の理解を促進するために、多義的なコントラスト損失のスイートについても検討する。 これは、ビデオナレーション、名詞、動詞のアライメントという3つのアライメントタイプから構成される。 提案手法は,ビデオ/テキスト検索,アクション認識,マルチチョイスクエリ,自然言語クエリ,モーメントクエリを含む,ゼロショット転送やビデオ/テキスト表現による5つの下流タスクの競合性能を維持しながら,定量的および定性的な実験において高い解釈性を示す。

Current video-language models (VLMs) rely extensively on instance-level alignment between video and language modalities, which presents two major limitations: (1) visual reasoning disobeys the natural perception that humans do in first-person perspective, leading to a lack of reasoning interpretation; and (2) learning is limited in capturing inherent fine-grained relationships between two modalities. In this paper, we take an inspiration from human perception and explore a compositional approach for egocentric video representation. We introduce HENASY (Hierarchical ENtities ASsemblY), which includes a spatiotemporal token grouping mechanism to explicitly assemble dynamically evolving scene entities through time and model their relationship for video representation. By leveraging compositional structure understanding, HENASY possesses strong interpretability via visual grounding with free-form text queries. We further explore a suite of multi-grained contrastive losses to facilitate entity-centric understandings. This comprises three alignment types: video-narration, noun-entity, verb-entities alignments. Our method demonstrates strong interpretability in both quantitative and qualitative experiments; while maintaining competitive performances on five downstream tasks via zero-shot transfer or as video/text representation, including video/text retrieval, action recognition, multi-choice query, natural language query, and moments query.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# Sparse 2D Cardiac MR画像による全心3D+T表現学習

Whole Heart 3D+T Representation Learning Through Sparse 2D Cardiac MR Images ( http://arxiv.org/abs/2406.00329v2 )

ライセンス: Link先を確認
Yundi Zhang, Chen Chen, Suprosanna Shit, Sophie Starck, Daniel Rueckert, Jiazhen Pan, (参考訳) 心臓磁気共鳴(CMR)イメージングは、心臓形態と機能を評価するための金標準として機能する。 通常、短軸(SA)と2/3/4チャンバー長軸(LA)をカバーした多視点CMRスタックが、徹底的な心臓評価のために取得される。 しかし、複雑で高次元の3D+T CMRデータを効率的に合理化し、コンパクトでコヒーレントな表現を蒸留することは依然として困難である。 本研究では,マスク画像モデルを用いて心臓スタック全体における空間的パッチと時間的パッチの相関関係を自動的に解明する自己教師付き学習フレームワークを提案する。 このプロセスは、伝統的に必要であり、しばしばコストがかかるラベル付きデータに頼ることなく、有意義でクラスタ化された心臓表現の生成を促進する。 学習したハート表現は、様々な下流タスクに直接使用することができる。 さらに,本手法は,特定のCMR平面が欠落した場合でも,一貫した表現を確実にする,顕著な堅牢性を示す。 我々は、UK BioBankから14,000のラベルなしCMRデータをトレーニングし、1000の注釈付きデータで評価する。 提案手法は, 包括的な3D+T心筋情報, eg心筋表現型(エジェクション分画および心室容積)予測, マルチプレーン/マルチフレームCMRセグメンテーションを要求されるタスクにおけるベースラインよりも優れた性能を示し, 解剖学的および病理学的に関連のある包括的な心臓特徴の抽出に有効であることを示す。

Cardiac Magnetic Resonance (CMR) imaging serves as the gold-standard for evaluating cardiac morphology and function. Typically, a multi-view CMR stack, covering short-axis (SA) and 2/3/4-chamber long-axis (LA) views, is acquired for a thorough cardiac assessment. However, efficiently streamlining the complex, high-dimensional 3D+T CMR data and distilling compact, coherent representation remains a challenge. In this work, we introduce a whole-heart self-supervised learning framework that utilizes masked imaging modeling to automatically uncover the correlations between spatial and temporal patches throughout the cardiac stacks. This process facilitates the generation of meaningful and well-clustered heart representations without relying on the traditionally required, and often costly, labeled data. The learned heart representation can be directly used for various downstream tasks. Furthermore, our method demonstrates remarkable robustness, ensuring consistent representations even when certain CMR planes are missing/flawed. We train our model on 14,000 unlabeled CMR data from UK BioBank and evaluate it on 1,000 annotated data. The proposed method demonstrates superior performance to baselines in tasks that demand comprehensive 3D+T cardiac information, e.g. cardiac phenotype (ejection fraction and ventricle volume) prediction and multi-plane/multi-frame CMR segmentation, highlighting its effectiveness in extracting comprehensive cardiac features that are both anatomically and pathologically relevant.
翻訳日:2024-06-07 20:03:47 公開日:2024-06-06
# Cascade-CLIP:ゼロショットセマンティックセマンティックセグメンテーションのためのカスケード型視覚言語埋め込み

Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2406.00670v2 )

ライセンス: Link先を確認
Yunheng Li, ZhongYu Li, Quansheng Zeng, Qibin Hou, Ming-Ming Cheng, (参考訳) 事前訓練された視覚言語モデル、例えばCLIPは、ゼロショットセマンティックセマンティックセグメンテーションにうまく適用されている。 既存のCLIPベースのアプローチは、主に最終レイヤの視覚的特徴を利用して、テキストの埋め込みと整合する一方で、リッチなオブジェクトの詳細を含む中間層において重要な情報を無視する。 しかし,複数階層の視覚的特徴を直接集約することで,新規クラスのゼロショット能力を弱めることがわかった。 異なるレイヤの視覚的特徴の大きな違いは、これらの特徴をテキストの埋め込みとうまく一致させることを困難にしている。 そこで我々は,複数の独立したデコーダを導入して,多レベル視覚特徴とテキスト埋め込みをケースド方式で整合させ,Cascade-CLIPという斬新でシンプルなフレームワークを構築することで,この問題を解決する。 我々のCascade-CLIPは柔軟であり、既存のゼロショットセマンティックセグメンテーション手法にも容易に適用できる。 実験の結果,COCO-Stuff,Pascal-VOC,Pascal-Contextなどのセグメンテーションベンチマークにおいて,単純なCascade-CLIPが優れたゼロショット性能を実現することがわかった。 私たちのコードは、https://github.com/HVision-NKU/Cascade-CLIPで利用可能です。

Pre-trained vision-language models, e.g., CLIP, have been successfully applied to zero-shot semantic segmentation. Existing CLIP-based approaches primarily utilize visual features from the last layer to align with text embeddings, while they neglect the crucial information in intermediate layers that contain rich object details. However, we find that directly aggregating the multi-level visual features weakens the zero-shot ability for novel classes. The large differences between the visual features from different layers make these features hard to align well with the text embeddings. We resolve this problem by introducing a series of independent decoders to align the multi-level visual features with the text embeddings in a cascaded way, forming a novel but simple framework named Cascade-CLIP. Our Cascade-CLIP is flexible and can be easily applied to existing zero-shot semantic segmentation methods. Experimental results show that our simple Cascade-CLIP achieves superior zero-shot performance on segmentation benchmarks, like COCO-Stuff, Pascal-VOC, and Pascal-Context. Our code is available at: https://github.com/HVision-NKU/Cascade-CLIP
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# 拡散チューニング:予測の連鎖を通して拡散モデルを伝達する

Diffusion Tuning: Transferring Diffusion Models via Chain of Forgetting ( http://arxiv.org/abs/2406.00773v2 )

ライセンス: Link先を確認
Jincheng Zhong, Xingzhuo Guo, Jiaxiang Dong, Mingsheng Long, (参考訳) 拡散モデルは生成モデリングの分野を著しく進歩させた。 しかし、拡散モデルのトレーニングは計算コストがかかるため、下流生成タスクにオフ・ザ・シェルフ拡散モデルを適用する必要がある。 現在の微調整法はパラメータ効率の伝達学習に重点を置いているが、拡散モデルの基本伝達特性を見落としている。 本稿では,拡散モデルの伝達可能性について検討し,逆過程に沿って伝達可能性の傾向を忘れる単調な連鎖を観察する。 この観察と新しい理論的洞察に基づいて、忘れる傾向の連鎖を利用するフラストレーションに富んだ単純な移動アプローチであるDiff-Tuningを提案する。 Diff-Tuningは、他のノイズ側を捨てながら、生成されたデータに近いデノナイジングチェーンの終端で、訓練済みの知識を保持するように微調整モデルを奨励する。 我々は,Diff-Tuningを評価するための総合的な実験を行い,事前学習した拡散変圧器モデルを下流8世代に移行し,安定拡散を制御ネットを用いた5つの制御条件に適応させる。 Diff-Tuningは標準的な微調整よりも26%改善され、ControlNetの収束速度が24%向上した。 特に拡散モデルに対するパラメータ効率のよい伝達学習技術はディフチューニングの恩恵を受けることができる。

Diffusion models have significantly advanced the field of generative modeling. However, training a diffusion model is computationally expensive, creating a pressing need to adapt off-the-shelf diffusion models for downstream generation tasks. Current fine-tuning methods focus on parameter-efficient transfer learning but overlook the fundamental transfer characteristics of diffusion models. In this paper, we investigate the transferability of diffusion models and observe a monotonous chain of forgetting trend of transferability along the reverse process. Based on this observation and novel theoretical insights, we present Diff-Tuning, a frustratingly simple transfer approach that leverages the chain of forgetting tendency. Diff-Tuning encourages the fine-tuned model to retain the pre-trained knowledge at the end of the denoising chain close to the generated data while discarding the other noise side. We conduct comprehensive experiments to evaluate Diff-Tuning, including the transfer of pre-trained Diffusion Transformer models to eight downstream generations and the adaptation of Stable Diffusion to five control conditions with ControlNet. Diff-Tuning achieves a 26% improvement over standard fine-tuning and enhances the convergence speed of ControlNet by 24%. Notably, parameter-efficient transfer learning techniques for diffusion models can also benefit from Diff-Tuning.
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# DDA:腹腔鏡下手術におけるコントラスト学習のための次元駆動型拡張探索

DDA: Dimensionality Driven Augmentation Search for Contrastive Learning in Laparoscopic Surgery ( http://arxiv.org/abs/2406.00907v2 )

ライセンス: Link先を確認
Yuning Zhou, Henry Badgery, Matthew Read, James Bailey, Catherine E. Davey, (参考訳) 自己教師付き学習(SSL)は、医用画像における効果的な表現学習の可能性を秘めているが、データ拡張の選択は重要であり、ドメイン固有である。 一般的な拡大政策が外科的応用に当てはまるかどうかは不明である。 本研究では,DDA(Diality Driven Augmentation Search)と呼ばれる新しい手法を用いて,適切な拡張ポリシーの探索を自動化する。 DDAは、ディープ表現の局所的な次元性をプロキシターゲットとして利用し、コントラスト学習において適切なデータ拡張ポリシーを微分的に検索する。 腹腔鏡下手術におけるDDAの有用性と有効性を示すとともに,適切なデータ拡張ポリシーの確立に成功している。 DDAを3つの腹腔鏡画像分類とセグメンテーションタスクで体系的に評価し,既存のベースラインよりも有意に改善した。 さらに、DDAの最適化された拡張セットは、医療アプリケーションに対照的な学習を適用する際に、ドメイン固有の依存関係に関する洞察を提供する。 例えば、hueは自然画像に有効な拡張であるが、腹腔鏡画像には有利ではない。

Self-supervised learning (SSL) has potential for effective representation learning in medical imaging, but the choice of data augmentation is critical and domain-specific. It remains uncertain if general augmentation policies suit surgical applications. In this work, we automate the search for suitable augmentation policies through a new method called Dimensionality Driven Augmentation Search (DDA). DDA leverages the local dimensionality of deep representations as a proxy target, and differentiably searches for suitable data augmentation policies in contrastive learning. We demonstrate the effectiveness and efficiency of DDA in navigating a large search space and successfully identifying an appropriate data augmentation policy for laparoscopic surgery. We systematically evaluate DDA across three laparoscopic image classification and segmentation tasks, where it significantly improves over existing baselines. Furthermore, DDA's optimised set of augmentations provides insight into domain-specific dependencies when applying contrastive learning in medical applications. For example, while hue is an effective augmentation for natural images, it is not advantageous for laparoscopic images.
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# 言語モデルの信頼性を向上したシンボル結合

Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors ( http://arxiv.org/abs/2406.01026v2 )

ライセンス: Link先を確認
Mengge Xue, Zhenyu Hu, Liqun Liu, Kuo Liao, Shuang Li, Honglin Han, Meng Zhao, Chengguo Yin, (参考訳) 大規模言語モデル (LLMs) の研究において, MCQ (Multiple-Choice Questions) が重要な研究領域となっている。 これまでの研究は、LCMのパフォーマンスが回答選択の提示に影響され、スーパービジョン・ファインチューニング(SFT)における選択バイアスが未探索のままである、というシナリオにおいて、MCQにおける選択バイアス問題を調査してきた。 本稿では,LLMのMCSB能力が不十分なため,選択バイアスがSFT相に持続していることを明らかにする。 この制限は、モデルが解の選択肢と対応する記号(例えば、A/B/C/D)を効果的に関連付けるのに苦労していることを意味する。 モデルのMCSB能力を高めるために、まず損失関数にオプション内容を取り込んで、オプションシンボルとコンテンツの重みを調整し、現在のシンボルのオプション内容を理解するようモデルに指示する。 そこで我々は,ポイントワイド・インテリジェント・フィードバック (PIF) と呼ばれるMCQに対する効率的なSFTアルゴリズムを提案する。 PIFは、不正なオプション内容とすべての候補シンボルをランダムに組み合わせて負のインスタンスを構築し、これらの負のサンプルをLLMにフィードバックするポイントワイズ損失を提案する。 実験の結果, PIF は MCSB 能力を向上させることにより, モデル選択バイアスを著しく低減することが示された。 興味深いことに、PIFはMCQの精度を大幅に向上させる。

Multiple-Choice Questions (MCQs) constitute a critical area of research in the study of Large Language Models (LLMs). Previous works have investigated the selection bias problem in MCQs within few-shot scenarios, in which the LLM's performance may be influenced by the presentation of answer choices, leaving the selection bias during Supervised Fine-Tuning (SFT) unexplored. In this paper, we reveal that selection bias persists in the SFT phase , primarily due to the LLM's inadequate Multiple Choice Symbol Binding (MCSB) ability. This limitation implies that the model struggles to associate the answer options with their corresponding symbols (e.g., A/B/C/D) effectively. To enhance the model's MCSB capability, we first incorporate option contents into the loss function and subsequently adjust the weights of the option symbols and contents, guiding the model to understand the option content of the current symbol. Based on this, we introduce an efficient SFT algorithm for MCQs, termed Point-wise Intelligent Feedback (PIF). PIF constructs negative instances by randomly combining the incorrect option contents with all candidate symbols, and proposes a point-wise loss to provide feedback on these negative samples into LLMs. Our experimental results demonstrate that PIF significantly reduces the model's selection bias by improving its MCSB capability. Remarkably, PIF exhibits a substantial enhancement in the accuracy for MCQs.
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# 制御可能な長ビデオ生成によるエンド・ツー・エンド自律運転の解き放つ一般化

Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation ( http://arxiv.org/abs/2406.01349v3 )

ライセンス: Link先を確認
Enhui Ma, Lijun Zhou, Tao Tang, Zhan Zhang, Dong Han, Junpeng Jiang, Kun Zhan, Peng Jia, Xianpeng Lang, Haiyang Sun, Di Lin, Kaicheng Yu, (参考訳) 生成モデルを使用して新しいデータを合成することは、データ不足問題に対処する自律運転におけるデファクトスタンダードとなっている。 既存の手法は知覚モデルを向上させることができるが、生成したビデオは通常8フレーム未満であり、空間的および時間的矛盾は無視できないため、エンド・ツー・エンドの自律走行モデルの設計性能を向上できない。 この目的のために,空間的整合性を高めるために多視点で共有ノイズモデリング機構を備えた拡散型長ビデオ生成手法であるDelphiと,正確な制御性と時間的整合性を両立する特徴整合モジュールを提案する。 本手法は,最先端の手法に比べて約5倍長くなる一貫性を損なうことなく,最大40フレームの映像を生成することができる。 我々は、新しいデータをランダムに生成する代わりに、サンプル効率を改善するために、これらの障害ケースに類似した新しいデータをDelphiが生成できるようにサンプリングポリシーを設計する。 これは、事前トレーニングされたビジュアル言語モデルの助けを借りて、フェールケース駆動フレームワークを構築することで実現される。 我々の大規模な実験は、Delphiが従来の最先端の手法を超越した、より高品質な長編ビデオを生成することを示した。 結果として、トレーニングデータセットの4%しか生成できないため、私たちのフレームワークは、認識と予測タスクを越えて、私たちの知る限りでは初めて、エンドツーエンドの自動運転モデルの計画性能を25%向上することが可能になります。

Using generative models to synthesize new data has become a de-facto standard in autonomous driving to address the data scarcity issue. Though existing approaches are able to boost perception models, we discover that these approaches fail to improve the performance of planning of end-to-end autonomous driving models as the generated videos are usually less than 8 frames and the spatial and temporal inconsistencies are not negligible. To this end, we propose Delphi, a novel diffusion-based long video generation method with a shared noise modeling mechanism across the multi-views to increase spatial consistency, and a feature-aligned module to achieves both precise controllability and temporal consistency. Our method can generate up to 40 frames of video without loss of consistency which is about 5 times longer compared with state-of-the-art methods. Instead of randomly generating new data, we further design a sampling policy to let Delphi generate new data that are similar to those failure cases to improve the sample efficiency. This is achieved by building a failure-case driven framework with the help of pre-trained visual language models. Our extensive experiment demonstrates that our Delphi generates a higher quality of long videos surpassing previous state-of-the-art methods. Consequentially, with only generating 4% of the training dataset size, our framework is able to go beyond perception and prediction tasks, for the first time to the best of our knowledge, boost the planning performance of the end-to-end autonomous driving model by a margin of 25%.
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# 大規模言語モデルのための空間加速訓練

Sparsity-Accelerated Training for Large Language Models ( http://arxiv.org/abs/2406.01392v2 )

ライセンス: Link先を確認
Da Ma, Lu Chen, Pengyu Wang, Hongshen Xu, Hanqi Li, Liangtai Sun, Su Zhu, Shuai Fan, Kai Yu, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクの習熟度を示すが、連続的な事前学習や教師付き微調整のような追加の訓練を必要とすることが多い。 しかし、これに関連するコストは、主にパラメータ数が大きいため、依然として高いままである。 本稿では,プレトレーニングLDMにおけるemph{sparsity}の利用により,この学習プロセスを高速化することを提案する。 前方反復中の活性化ニューロンの間隔を観察することにより、不活性ニューロンを排除して計算速度を上げる可能性を同定する。 我々は、既存のニューロン重要度評価指標を拡張し、ラダー省略率スケジューラを導入することで、関連する課題に対処する。 Llama-2の実験では、Sparsity-Accelerated Training (SAT) は標準トレーニングと同等あるいは優れた性能を示しながら、プロセスの大幅な高速化を実現している。 具体的には、SATは連続的な事前トレーニングで45 %$スループットの改善を達成し、実際に教師付き微調整で38 %$トレーニング時間を節約する。 ハードウェアに依存しないシンプルで、デプロイが容易なフレームワークで、追加のLLMトレーニングを提供する。 私たちのコードはhttps://github.com/OpenDFM/SAT.comで公開されています。

Large language models (LLMs) have demonstrated proficiency across various natural language processing (NLP) tasks but often require additional training, such as continual pre-training and supervised fine-tuning. However, the costs associated with this, primarily due to their large parameter count, remain high. This paper proposes leveraging \emph{sparsity} in pre-trained LLMs to expedite this training process. By observing sparsity in activated neurons during forward iterations, we identify the potential for computational speed-ups by excluding inactive neurons. We address associated challenges by extending existing neuron importance evaluation metrics and introducing a ladder omission rate scheduler. Our experiments on Llama-2 demonstrate that Sparsity-Accelerated Training (SAT) achieves comparable or superior performance to standard training while significantly accelerating the process. Specifically, SAT achieves a $45\%$ throughput improvement in continual pre-training and saves $38\%$ training time in supervised fine-tuning in practice. It offers a simple, hardware-agnostic, and easily deployable framework for additional LLM training. Our code is available at https://github.com/OpenDFM/SAT.
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# ロバストプラグアンドプレイ適応のためのデカップリングアライメント

Decoupled Alignment for Robust Plug-and-Play Adaptation ( http://arxiv.org/abs/2406.01514v3 )

ライセンス: Link先を確認
Haozheng Luo, Jiahao Yu, Wenxin Zhang, Jialong Li, Jerry Yao-Chieh Hu, Xinyu Xing, Han Liu, (参考訳) 本研究では,大規模言語モデル (LLM) を,教師付き微調整 (SFT) や人間フィードバック (RLHF) からの強化学習を必要とせずに整列させる低リソース安全性向上手法を提案する。 本研究の主な目的は、知識蒸留を利用して、既存のよく整合したLLMからアライメント情報を抽出し、プラグイン・アンド・プレイ方式で非整合なLLMに統合することである。 提案手法ではデルタデバッギングを用いて,有効蒸留に必要な知識の重要成分を同定する。 有害な質問データセットでは, 平均防御成功率が約14.41%向上し, 51.39%に達した。

We introduce a low-resource safety enhancement method for aligning large language models (LLMs) without the need for supervised fine-tuning (SFT) or reinforcement learning from human feedback (RLHF). Our main idea is to exploit knowledge distillation to extract the alignment information from existing well-aligned LLMs and integrate it into unaligned LLMs in a plug-and-play fashion. Methodology, we employ delta debugging to identify the critical components of knowledge necessary for effective distillation. On the harmful question dataset, our method significantly enhances the average defense success rate by approximately 14.41%, reaching as high as 51.39%, in 17 unaligned pre-trained LLMs, without compromising performance.
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# ノイズ量子ゲートにおける一般化位相推定

Generalized phase estimation in noisy quantum gates ( http://arxiv.org/abs/2406.01590v2 )

ライセンス: Link先を確認
Giovanni Ragazzi, Simone Cavazzoni, Paolo Bordone, Matteo G. A. Paris, (参考訳) 雑音のある量子ゲートの作用により、関心のパラメータが量子状態に符号化されるメロジカルシナリオについて検討し、量子フィッシャー情報(QFI)の挙動を解析して、正確性に縛られた究極の境界について検討する。 我々は、キュービットゲートに焦点をあて、ゲートの連続的な応用の可能性を検討する。 我々は、単体ゲートの自明な場合を超えて、異なるステップ(ゲート応用)におけるQFIにどのように影響するかを考察し、実行された量子演算にノイズを導入するメトロジー手順の頑健さを特徴づける。 我々は、Von Mises-Fisher分布に支配される古典的ゆらぎとして、キュービット回転に影響を与える劣化雑音と傾き雑音をモデル化する。 ノイズレスの場合と比較して、QFIはステップ数と2次的に成長し、非単調な振る舞いと、ゲートの動作を正確に特徴づけるために実行すべきステップの理想的な数を定義するQFIにおける最大値の出現を観察する。

We examine metrological scenarios where the parameter of interest is encoded onto a quantum state through the action of a noisy quantum gate and investigate the ultimate bound to precision by analyzing the behaviour of the Quantum Fisher Information (QFI). We focus on qubit gates and consider the possibility of employing successive applications of the gate. We go beyond the trivial case of unitary gates and characterize the robustness of the metrological procedure introducing noise in the performed quantum operation, looking at how this affects the QFI at different steps (gate applications). We model the dephasing and tilting noise affecting qubit rotations as classical fluctuations governed by a Von Mises-Fisher distribution. Compared to the noiseless case, in which the QFI grows quadratically with the number of steps, we observe a non monotonic behavior, and the appearance of a maximum in the QFI, which defines the ideal number of steps that should be performed in order to precisely characterize the action of the gate.
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# 人口動態のオンライン制御

Online Control in Population Dynamics ( http://arxiv.org/abs/2406.01799v2 )

ライセンス: Link先を確認
Noah Golowich, Elad Hazan, Zhou Lu, Dhruv Rohatgi, Y. Jennifer Sun, (参考訳) 人口動態の研究は初期の社会学的な研究から始まったが、その後生物学、疫学、進化ゲーム理論、経済学など多くの分野に及んだ。 人口動態に関するほとんどの研究は、制御よりも予測の問題に焦点を当てている。 人口動態を制御するための既存の数学的モデルは、しばしば特定のノイズのない力学に制限されるが、実世界の人口変動は複雑で敵対的である。 このギャップに対処するために,オンライン制御のパラダイムに基づく新しいフレームワークを提案する。 まず、進化する個体群を自然にモデル化できる線形力学系の集合を特徴づける。 次に、これらのシステムに対して、線形ポリシーの幅広いクラスに関して、ほぼ最適な後悔境界を持つ効率的な勾配ベースの制御を与える。 実験により,SIRやレプリケータダイナミクスのような非線形モデルであっても,人口動態を制御するアルゴリズムの有効性が示された。

The study of population dynamics originated with early sociological works but has since extended into many fields, including biology, epidemiology, evolutionary game theory, and economics. Most studies on population dynamics focus on the problem of prediction rather than control. Existing mathematical models for control in population dynamics are often restricted to specific, noise-free dynamics, while real-world population changes can be complex and adversarial. To address this gap, we propose a new framework based on the paradigm of online control. We first characterize a set of linear dynamical systems that can naturally model evolving populations. We then give an efficient gradient-based controller for these systems, with near-optimal regret bounds with respect to a broad class of linear policies. Our empirical evaluations demonstrate the effectiveness of the proposed algorithm for control in population dynamics even for non-linear models such as SIR and replicator dynamics.
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# Follow-Your-Emoji:Fun-Controllable and Expressive Freestyle Portrait Animation

Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation ( http://arxiv.org/abs/2406.01900v2 )

ライセンス: Link先を確認
Yue Ma, Hongyu Liu, Hongfa Wang, Heng Pan, Yingqing He, Junkun Yuan, Ailing Zeng, Chengfei Cai, Heung-Yeung Shum, Wei Liu, Qifeng Chen, (参考訳) ポートレートアニメーションの拡散に基づくフレームワークであるFollow-Your-Emojiについて述べる。 ポートレートアニメーションの主な課題は、参照ポートレートのアイデンティティを保存し、時間的一貫性と忠実さを維持しながら、ターゲット表現をこのポートレートに転送することである。 これらの課題に対処するため、Follow-Your-Emojiは2つのよく設計された技術を備えた強力な安定拡散モデルを採用した。 具体的には、まず、アニメーションプロセスのガイドとして、表現認識のランドマークという、新しい明示的な動作信号を採用する。 このランドマークは、参照ポートレートと推論中のターゲットモーションの正確な動きアライメントを確保するだけでなく、誇張された表現(すなわち大きな瞳運動)を表現し、アイデンティティの漏洩を避けることができる。 そこで我々は,表情と顔のマスクの両方を用いて,微妙な表情認識能力と参照肖像画の外観復元能力を向上させるために,顔のきめ細かな損失を提案する。 そこで本手法は,人間,漫画,彫刻,動物など,フリースタイルの肖像画の表現を制御できることを実証する。 単純かつ効果的なプログレッシブ・ジェネレーション・ストラテジーを活用することで、我々はモデルを安定した長期アニメーションに拡張し、潜在的なアプリケーション価値を増大させる。 この分野でのベンチマークの欠如に対処するために、さまざまな肖像画、動画の駆動、ランドマークからなる総合的なベンチマークであるEmojiBenchを紹介します。 また,EmojiBenchについて,Follow-Your-Emojiの優位性を検証するため,広範囲な評価を行った。

We present Follow-Your-Emoji, a diffusion-based framework for portrait animation, which animates a reference portrait with target landmark sequences. The main challenge of portrait animation is to preserve the identity of the reference portrait and transfer the target expression to this portrait while maintaining temporal consistency and fidelity. To address these challenges, Follow-Your-Emoji equipped the powerful Stable Diffusion model with two well-designed technologies. Specifically, we first adopt a new explicit motion signal, namely expression-aware landmark, to guide the animation process. We discover this landmark can not only ensure the accurate motion alignment between the reference portrait and target motion during inference but also increase the ability to portray exaggerated expressions (i.e., large pupil movements) and avoid identity leakage. Then, we propose a facial fine-grained loss to improve the model's ability of subtle expression perception and reference portrait appearance reconstruction by using both expression and facial masks. Accordingly, our method demonstrates significant performance in controlling the expression of freestyle portraits, including real humans, cartoons, sculptures, and even animals. By leveraging a simple and effective progressive generation strategy, we extend our model to stable long-term animation, thus increasing its potential application value. To address the lack of a benchmark for this field, we introduce EmojiBench, a comprehensive benchmark comprising diverse portrait images, driving videos, and landmarks. We show extensive evaluations on EmojiBench to verify the superiority of Follow-Your-Emoji.
翻訳日:2024-06-07 19:54:03 公開日:2024-06-06
# 大規模線形計画法におけるPDHG-arrolled Learning-to-Optimize法

PDHG-Unrolled Learning-to-Optimize Method for Large-Scale Linear Programming ( http://arxiv.org/abs/2406.01908v2 )

ライセンス: Link先を確認
Bingheng Li, Linxin Yang, Yupeng Chen, Senmiao Wang, Qian Chen, Haitao Mao, Yao Ma, Akang Wang, Tian Ding, Jiliang Tang, Ruoyu Sun, (参考訳) 大規模線形プログラミング(LP)問題の解決は、通信ネットワーク、電力システム、金融、物流など、様々な分野において重要な課題である。 近年、LP解決を高速化する2つの異なるアプローチが出現している。 (i)一階法(FOMs) (ii)最適化学習(L2O)。 本研究では、PDHG-Netと呼ばれるFOMアンロールニューラルネットワーク(NN)を提案し、大規模LP問題を解決するための2段階L2O法を提案する。 新しいアーキテクチャであるPDHG-Netは、最近登場したPDHGメソッドをニューラルネットワークにアンロールすることで設計されている。 提案したPDHG-NetはPDHGアルゴリズムを復元できることを示す。 本稿では,まず PDHG-Net を用いて近似解を生成し,次に PDHG アルゴリズムを用いて解をさらに改良する2段階推論手法を提案する。 実験の結果,提案手法は大規模LP問題に対してFOMよりも3$\times$の高速化を実現することができることがわかった。

Solving large-scale linear programming (LP) problems is an important task in various areas such as communication networks, power systems, finance and logistics. Recently, two distinct approaches have emerged to expedite LP solving: (i) First-order methods (FOMs); (ii) Learning to optimize (L2O). In this work, we propose an FOM-unrolled neural network (NN) called PDHG-Net, and propose a two-stage L2O method to solve large-scale LP problems. The new architecture PDHG-Net is designed by unrolling the recently emerged PDHG method into a neural network, combined with channel-expansion techniques borrowed from graph neural networks. We prove that the proposed PDHG-Net can recover PDHG algorithm, thus can approximate optimal solutions of LP instances with a polynomial number of neurons. We propose a two-stage inference approach: first use PDHG-Net to generate an approximate solution, and then apply PDHG algorithm to further improve the solution. Experiments show that our approach can significantly accelerate LP solving, achieving up to a 3$\times$ speedup compared to FOMs for large-scale LP problems.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# CityLight: 現実の都市規模の交通信号制御コーディネーションに向けたユニバーサルモデル

CityLight: A Universal Model Towards Real-world City-scale Traffic Signal Control Coordination ( http://arxiv.org/abs/2406.02126v2 )

ライセンス: Link先を確認
Jinwei Zeng, Chao Yu, Xinyi Yang, Wenxuan Ao, Jian Yuan, Yong Li, Yu Wang, Huazhong Yang, (参考訳) 交通信号制御(TSC)は、既存の道路インフラに影響を与えることなく、交通効率を高めるための安価な手段である。 様々な強化学習に基づくTSC法が提案され、従来のルールベース法よりも実験的に優れているが、いずれも実世界では展開されていない。 重要なギャップは、交差点の不均一性と道路網の複雑度の観点からシナリオの単純化にある。 TSCを都市交通管理に適用するために,都市レベルの拡張性,現実世界の交差点の不均一性,複雑な近隣の接続間の効果的な協調性という,3つの特異かつ重要な課題を解決することを目的として,都市規模高速道路網におけるTSC協調を目標とする。 パラメータ共有パラダイムにおける複数のエージェントの最適化は,トレーニング効率の向上とスケーラビリティ向上に寄与するので,パラメータ共有MAPPOをよく認識した最適化フレームワークであるCityLightを提案する。 統合政策ネットワークが大規模な異種交差点に適合し、隣同士の複雑な調整に取り組むことを確実にするために、CityLightは2つの重要な設計である異種交差点アライメントと、調整のための近傍衝撃アライメントからなる普遍的表現モジュールを提案する。 コーディネーションをさらに強化するため、CityLightは近隣統合報酬を採用して、局所最適からグローバル最適への移行を目指している。 数百から数万の現実世界の交差点と真のトラフィック要求を持つデータセットに対する大規模な実験は、CityLightの驚くべき有効性と一般化性を実証し、全体的なパフォーマンスは11.66%、スループットの観点からは転送シナリオが22.59%向上した。

Traffic signal control (TSC) is a promising low-cost measure to enhance transportation efficiency without affecting existing road infrastructure. While various reinforcement learning-based TSC methods have been proposed and experimentally outperform conventional rule-based methods, none of them has been deployed in the real world. An essential gap lies in the oversimplification of the scenarios in terms of intersection heterogeneity and road network intricacy. To make TSC applicable in urban traffic management, we target TSC coordination in city-scale high-authenticity road networks, aiming to solve the three unique and important challenges: city-level scalability, heterogeneity of real-world intersections, and effective coordination among intricate neighbor connections. Since optimizing multiple agents in a parameter-sharing paradigm can boost the training efficiency and help achieve scalability, we propose our method, CityLight, based on the well-acknowledged optimization framework, parameter-sharing MAPPO. To ensure the unified policy network can learn to fit large-scale heterogeneous intersections and tackle the intricate between-neighbor coordination, CityLight proposes a universal representation module that consists of two key designs: heterogeneous intersection alignment and neighborhood impact alignment for coordination. To further boost coordination, CityLight adopts neighborhood-integrated rewards to transition from achieving local optimal to global optimal. Extensive experiments on datasets with hundreds to tens of thousands of real-world intersections and authentic traffic demands validate the surprising effectiveness and generalizability of CityLight, with an overall performance gain of 11.66% and a 22.59% improvement in transfer scenarios in terms of throughput.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# 検索機能強化画像キャプションにおける検索ロバストさの理解

Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning ( http://arxiv.org/abs/2406.02265v2 )

ライセンス: Link先を確認
Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott, (参考訳) 画像キャプションのための検索強化モデルの最近の進歩は、強力なドメイン転送能力を持つ効率的で軽量なモデルに対して、関連キャプションを検索する利点を浮き彫りにしている。 これらのモデルが検索拡張の成功を示す一方で、検索モデルは実際には完璧には程遠い。 本稿では,検索強化キャプションモデルであるSmallCapのロバスト性を解析する。 分析の結果,検索したキャプションの大多数に現れるトークンに対して,モデルが敏感であること,および入力属性は,これらのトークンが生成された出力にコピーされる可能性が示唆された。 これらの結果を踏まえ、より多様な集合から抽出したキャプションを抽出してモデルを訓練することを提案する。 これにより、モデルがマジョリティトークンをコピーする機会が減り、ドメイン内とクロスドメインのパフォーマンスが向上する。

Recent advances in retrieval-augmented models for image captioning highlight the benefit of retrieving related captions for efficient, lightweight models with strong domain-transfer capabilities. While these models demonstrate the success of retrieval augmentation, retrieval models are still far from perfect in practice: the retrieved information can sometimes mislead the model, resulting in incorrect generation and worse performance. In this paper, we analyze the robustness of a retrieval-augmented captioning model SmallCap. Our analysis shows that the model is sensitive to tokens that appear in the majority of the retrieved captions, and the input attribution shows that those tokens are likely copied into the generated output. Given these findings, we propose to train the model by sampling retrieved captions from more diverse sets. This decreases the chance that the model learns to copy majority tokens, and improves both in-domain and cross-domain performance.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# 微調整型大言語モデルの最適化に関する研究

A Study of Optimizations for Fine-tuning Large Language Models ( http://arxiv.org/abs/2406.02290v2 )

ライセンス: Link先を確認
Arjun Singh, Nikhil Pandey, Anup Shirgaonkar, Pavan Manoj, Vijay Aski, (参考訳) 微調整された大きな言語モデルは、特定のアプリケーションに適応しようとするユーザの間では一般的な選択である。 しかし、これらのモデルの微調整は、ユーザがリソース予算、ランタイム、モデルサイズ、コンテキストの長さなど、いくつかの要因を調べる必要があるため、必要なタスクである。 特定の課題は、微調整がメモリ集約であり、処理可能なハードウェアメモリとトレーニングデータのコンテキスト長に制約を課すことである。 本研究では,様々な微調整シナリオにおける様々な微調整最適化について,詳細な研究を行った。 特に、勾配チェックポイント、低ランク適応、DeepSpeedのゼロ冗長最適化、FlashAttentionを評価する。 メモリとランタイムに焦点をあてて、微調整フェーズにおけるGPUメモリ使用率と実行ランタイムに対する最適化の組み合わせの影響について検討する。 さまざまなモデルサイズでメモリとランタイムのバランスをとるために、最高のデフォルト最適化を推奨します。 我々は、数十億から数百億のパラメータを持つ非常に大きなモデルを微調整し、微調整中に大きなコンテキスト長を可能にする効果的な戦略を共有している。 さらに,GPUリソース制限下での微調整に適した最適化混合を提案する。

Fine-tuning large language models is a popular choice among users trying to adapt them for specific applications. However, fine-tuning these models is a demanding task because the user has to examine several factors, such as resource budget, runtime, model size and context length among others. A specific challenge is that fine-tuning is memory intensive, imposing constraints on the required hardware memory and context length of training data that can be handled. In this work, we share a detailed study on a variety of fine-tuning optimizations across different fine-tuning scenarios. In particular, we assess Gradient Checkpointing, Low-Rank Adaptation, DeepSpeed's Zero Redundancy Optimizer and FlashAttention. With a focus on memory and runtime, we examine the impact of different optimization combinations on GPU memory usage and execution runtime during fine-tuning phase. We provide our recommendation on the best default optimization for balancing memory and runtime across diverse model sizes. We share effective strategies for fine-tuning very large models with tens or hundreds of billions of parameters and enabling large context lengths during fine-tuning. Furthermore, we propose the appropriate optimization mixtures for fine-tuning under GPU resource limitations.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# インスタンス検索のためのクラスタ対応類似性拡散

Cluster-Aware Similarity Diffusion for Instance Retrieval ( http://arxiv.org/abs/2406.02343v2 )

ライセンス: Link先を確認
Jifei Luo, Hantao Yao, Changsheng Xu, (参考訳) 拡散に基づく再ランク付け(diffusion-based re-level)は、隣り合うグラフで類似性の伝播を実行することで、インスタンスを検索する一般的な方法である。 しかし、ペアのインスタンスをベースとした親和性グラフを構成する既存の手法は、外れ値や他の多様体からの誤情報を伝播させ、不正確な結果をもたらす可能性がある。 そこで本研究では,新しいクラスタ・アウェア類似性(CAS)拡散モデルを提案する。 CAS の第一の概念は局所クラスタ内で類似性拡散を行うことであり、これは他の多様体からの影響を明示的に減少させることである。 対称的かつ滑らかな類似性行列を得るために、我々の双方向類似性拡散戦略は、局所クラスタ拡散の最適化目的に逆制約項を導入する。 さらに、各インスタンスの局所的隣人間の類似性整合性を確保するために、Neighbor-guided similarity Smoothingアプローチを最適化した。 サンプル検索とオブジェクト再同定の結果,提案したCASの有効性が検証され,コードが公開されている。

Diffusion-based re-ranking is a common method used for retrieving instances by performing similarity propagation in a nearest neighbor graph. However, existing techniques that construct the affinity graph based on pairwise instances can lead to the propagation of misinformation from outliers and other manifolds, resulting in inaccurate results. To overcome this issue, we propose a novel Cluster-Aware Similarity (CAS) diffusion for instance retrieval. The primary concept of CAS is to conduct similarity diffusion within local clusters, which can reduce the influence from other manifolds explicitly. To obtain a symmetrical and smooth similarity matrix, our Bidirectional Similarity Diffusion strategy introduces an inverse constraint term to the optimization objective of local cluster diffusion. Additionally, we have optimized a Neighbor-guided Similarity Smoothing approach to ensure similarity consistency among the local neighbors of each instance. Evaluations in instance retrieval and object re-identification validate the effectiveness of the proposed CAS, our code is publicly available.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# キリガミ:大きな畳み込み核は深層学習に基づくRNA二次構造予測を改善する

Kirigami: large convolutional kernels improve deep learning-based RNA secondary structure prediction ( http://arxiv.org/abs/2406.02381v2 )

ライセンス: Link先を確認
Marc Harary, Chengxin Zhang, (参考訳) 我々は,リボ核酸(RNA)分子の二次構造を予測するために,新しい完全畳み込みニューラルネットワーク(FCN)アーキテクチャを導入する。 RNA構造を重み付きグラフとして解釈し、ヌクレオチド残基間の塩基対の確率を推定するためにディープラーニングを用いる。 我々のモデルに共通するのは11ピクセルの巨大なカーネルであり、RNA二次構造の特殊領域におけるFCNの明確な優位性である。 広く採用されている1,305分子からなる標準化されたテストセットにおいて,本手法の精度は現在の最先端(SOTA)二次構造予測ソフトウェアよりも高く,マシューズ相関係数(MCC)が他の先行手法よりも11~40%高く,特に擬似結び目では58~400%高い値を示した。

We introduce a novel fully convolutional neural network (FCN) architecture for predicting the secondary structure of ribonucleic acid (RNA) molecules. Interpreting RNA structures as weighted graphs, we employ deep learning to estimate the probability of base pairing between nucleotide residues. Unique to our model are its massive 11-pixel kernels, which we argue provide a distinct advantage for FCNs on the specialized domain of RNA secondary structures. On a widely adopted, standardized test set comprised of 1,305 molecules, the accuracy of our method exceeds that of current state-of-the-art (SOTA) secondary structure prediction software, achieving a Matthews Correlation Coefficient (MCC) over 11-40% higher than that of other leading methods on overall structures and 58-400% higher on pseudoknots specifically.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# 3次元ガウススプラッティングによる映像再構成による映像編集における時間的一貫性の強化

Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting ( http://arxiv.org/abs/2406.02541v3 )

ライセンス: Link先を確認
Inkyu Shin, Qihang Yu, Xiaohui Shen, In So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen, (参考訳) ゼロショットビデオ拡散モデルの最近の進歩は、テキスト駆動ビデオ編集の可能性を示唆している。 これを解決するために,ゼロショットビデオエディタの時間的一貫性を高めるために,3Dガウス・スプレイティング(3DGS)ベースのビデオ精細機であるVideo-3DGSを紹介する。 本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。 第1段階では、ビデオ3DGSはMC-COLMAPと呼ばれる改良版のCOLMAPを採用し、Masked and Clippedアプローチを用いてオリジナルビデオを処理する。 各ビデオクリップに対して、MC-COLMAPは、動的前景オブジェクトと複雑な背景のための点雲を生成する。 これらの点雲は、前景と背景像を表すために、2組の3Dガウス(Frg-3DGSとBkg-3DGS)を初期化する。 前景と背景の両方のビューは、完全なビューを再構築する2D学習可能なパラメータマップにマージされる。 第2段階では,ビデオ拡散モデルに時間的制約を課すために,第1段階で開発された再構成能力を活用する。 両段階におけるビデオ3DGSの有効性を示すために,ビデオ再構成とビデオ編集という2つの関連課題にまたがる広範な実験を行った。 3kイテレーションでトレーニングされたビデオ3DGSは、ビデオ再構成の品質(+3 PSNR、+7 PSNRの増加)とトレーニング効率(x1.9、x4.5倍の高速化)を、それぞれNRFベースとDAVISデータセット上の3DGSベースの最先端手法で改善する。 さらに、58個の動的モノクロビデオ間の時間的一貫性を確保することにより、ビデオ編集を強化する。

Recent advancements in zero-shot video diffusion models have shown promise for text-driven video editing, but challenges remain in achieving high temporal consistency. To address this, we introduce Video-3DGS, a 3D Gaussian Splatting (3DGS)-based video refiner designed to enhance temporal consistency in zero-shot video editors. Our approach utilizes a two-stage 3D Gaussian optimizing process tailored for editing dynamic monocular videos. In the first stage, Video-3DGS employs an improved version of COLMAP, referred to as MC-COLMAP, which processes original videos using a Masked and Clipped approach. For each video clip, MC-COLMAP generates the point clouds for dynamic foreground objects and complex backgrounds. These point clouds are utilized to initialize two sets of 3D Gaussians (Frg-3DGS and Bkg-3DGS) aiming to represent foreground and background views. Both foreground and background views are then merged with a 2D learnable parameter map to reconstruct full views. In the second stage, we leverage the reconstruction ability developed in the first stage to impose the temporal constraints on the video diffusion model. To demonstrate the efficacy of Video-3DGS on both stages, we conduct extensive experiments across two related tasks: Video Reconstruction and Video Editing. Video-3DGS trained with 3k iterations significantly improves video reconstruction quality (+3 PSNR, +7 PSNR increase) and training efficiency (x1.9, x4.5 times faster) over NeRF-based and 3DGS-based state-of-art methods on DAVIS dataset, respectively. Moreover, it enhances video editing by ensuring temporal consistency across 58 dynamic monocular videos.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# 都市間ファウショット交通予報のための周波数強化事前学習

Frequency Enhanced Pre-training for Cross-city Few-shot Traffic Forecasting ( http://arxiv.org/abs/2406.02614v2 )

ライセンス: Link先を確認
Zhanyu Liu, Jianrong Ding, Guanjie Zheng, (参考訳) インテリジェントトランスポーテーションシステム(ITS)の分野は、様々な下流アプリケーションを実現するために正確なトラフィック予測に依存している。 しかし、開発途上国は、限られた資源と時代遅れのインフラのために、十分なトレーニングトラフィックデータを収集する上で、しばしば課題に直面している。 この障害を認識して、都市間数発の予測という概念が実現可能なアプローチとして浮上した。 従来の都市間数ショット予測手法では、都市間の周波数類似性は無視されていたが、都市間の周波数領域では、交通データがより類似していることが観察された。 この事実に基づき、我々は \textbf{F}requency \textbf{E}nhanced \textbf{P}re-training Framework for \textbf{Cross}-city Few-shot Forecasting (\textbf{FEPCross})を提案する。 FEPCrossは事前訓練段階と微調整段階を有する。 事前学習段階において,時間・周波数領域の情報を含むクロスドメイン空間・テンポラルエンコーダを提案する。 微調整の段階では、トレーニングサンプルを豊かにし、モーメント更新されたグラフ構造を維持するモジュールを設計し、これにより、数ショットのトレーニングデータに過度に適合するリスクを軽減する。 実世界の交通データセット上で実施された実証的な評価は、FEPCrossの異常な有効性を検証し、多様なカテゴリの既存アプローチを上回り、都市間数ショット予測の進行を促進する特性を示す。

The field of Intelligent Transportation Systems (ITS) relies on accurate traffic forecasting to enable various downstream applications. However, developing cities often face challenges in collecting sufficient training traffic data due to limited resources and outdated infrastructure. Recognizing this obstacle, the concept of cross-city few-shot forecasting has emerged as a viable approach. While previous cross-city few-shot forecasting methods ignore the frequency similarity between cities, we have made an observation that the traffic data is more similar in the frequency domain between cities. Based on this fact, we propose a \textbf{F}requency \textbf{E}nhanced \textbf{P}re-training Framework for \textbf{Cross}-city Few-shot Forecasting (\textbf{FEPCross}). FEPCross has a pre-training stage and a fine-tuning stage. In the pre-training stage, we propose a novel Cross-Domain Spatial-Temporal Encoder that incorporates the information of the time and frequency domain and trains it with self-supervised tasks encompassing reconstruction and contrastive objectives. In the fine-tuning stage, we design modules to enrich training samples and maintain a momentum-updated graph structure, thereby mitigating the risk of overfitting to the few-shot training data. Empirical evaluations performed on real-world traffic datasets validate the exceptional efficacy of FEPCross, outperforming existing approaches of diverse categories and demonstrating characteristics that foster the progress of cross-city few-shot forecasting.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# エッジコンピューティングにおける無線LLM推論のための適応層分割:モデルに基づく強化学習アプローチ

Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach ( http://arxiv.org/abs/2406.02616v2 )

ライセンス: Link先を確認
Yuxuan Chen, Rongpeng Li, Xiaoxue Yu, Zhifeng Zhao, Honggang Zhang, (参考訳) エッジコンピューティング環境における大規模言語モデル(LLM)のデプロイの最適化は、プライバシと計算効率の向上に不可欠である。 本研究は,エッジコンピューティングにおける効率的な無線LLM推論に向けて,主要なオープンソースLLMにおける分割点の影響を包括的に分析する。 そこで本研究では,モデルベース強化学習(MBRL)からインスピレーションを得て,エッジとユーザ機器(UE)間の最適分割点を決定するフレームワークを提案する。 報酬代理モデルを導入することで、頻繁な性能評価の計算コストを大幅に削減できる。 大規模シミュレーションにより, この手法は, 異なるネットワーク条件下での推論性能と計算負荷のバランスを効果的に保ち, 分散環境におけるLLM配置の堅牢なソリューションを提供することを示した。

Optimizing the deployment of large language models (LLMs) in edge computing environments is critical for enhancing privacy and computational efficiency. Toward efficient wireless LLM inference in edge computing, this study comprehensively analyzes the impact of different splitting points in mainstream open-source LLMs. On this basis, this study introduces a framework taking inspiration from model-based reinforcement learning (MBRL) to determine the optimal splitting point across the edge and user equipment (UE). By incorporating a reward surrogate model, our approach significantly reduces the computational cost of frequent performance evaluations. Extensive simulations demonstrate that this method effectively balances inference performance and computational load under varying network conditions, providing a robust solution for LLM deployment in decentralized settings.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# Linuxカーネルの爆発におけるページスプレーの理解

Take a Step Further: Understanding Page Spray in Linux Kernel Exploitation ( http://arxiv.org/abs/2406.02624v2 )

ライセンス: Link先を確認
Ziyi Guo, Dang K Le, Zhenpeng Lin, Kyle Zeng, Ruoyu Wang, Tiffany Bao, Yan Shoshitaishvili, Adam Doupé, Xinyu Xing, (参考訳) 近年,カーネル脆弱性に対するページレベルのエクスプロイトに着目したPage Sprayと呼ばれる新しい手法が登場している。 エクスプロイラビリティ、安定性、互換性の面では利点があるが、Page Sprayに関する包括的な研究は依然として乏しい。 その根本原因、搾取モデル、他の搾取技術に対する比較利益、および潜在的緩和戦略に関する質問は、ほとんど答えられていない。 本稿では,本手法の詳細な理解を提供するため,Page Sprayの系統的な検討を行う。 我々は、その基本原理を解明し、Shasysモデルと呼ばれる包括的なエクスプロイトモデルを導入する。 さらに、Linuxカーネル内でのPage Spray発生の原因となる根本原因を徹底的に分析する。 我々は,Page Spray解析モデルに基づく解析器を設計し,Page Sprayの呼び出し元を同定する。 次に, 微妙に設計した実験により, ページスプレーの安定性, 利用性, 適合性を評価する。 最後に,Page Sprayに対処するための緩和原則を提案し,軽量化アプローチを提案する。 この研究は、セキュリティ研究者や開発者がPage Sprayに関する洞察を得るのを支援することを目的としており、最終的に、この新たなエクスプロイト技術に対する我々の集団的理解を高め、コミュニティの改善を図っている。

Recently, a novel method known as Page Spray emerges, focusing on page-level exploitation for kernel vulnerabilities. Despite the advantages it offers in terms of exploitability, stability, and compatibility, comprehensive research on Page Spray remains scarce. Questions regarding its root causes, exploitation model, comparative benefits over other exploitation techniques, and possible mitigation strategies have largely remained unanswered. In this paper, we conduct a systematic investigation into Page Spray, providing an in-depth understanding of this exploitation technique. We introduce a comprehensive exploit model termed the \sys model, elucidating its fundamental principles. Additionally, we conduct a thorough analysis of the root causes underlying Page Spray occurrences within the Linux Kernel. We design an analyzer based on the Page Spray analysis model to identify Page Spray callsites. Subsequently, we evaluate the stability, exploitability, and compatibility of Page Spray through meticulously designed experiments. Finally, we propose mitigation principles for addressing Page Spray and introduce our own lightweight mitigation approach. This research aims to assist security researchers and developers in gaining insights into Page Spray, ultimately enhancing our collective understanding of this emerging exploitation technique and making improvements to the community.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# MS-IMAP - 解釈可能なマニフォールド学習のためのマルチスケールグラフ埋め込みアプローチ

MS-IMAP -- A Multi-Scale Graph Embedding Approach for Interpretable Manifold Learning ( http://arxiv.org/abs/2406.02778v2 )

ライセンス: Link先を確認
Shay Deutsch, Lionel Yelibi, Alex Tong Lin, Arjun Ravi Kannan, (参考訳) 教師なし設定における複雑な高次元データから有意義な表現を導出することは、多様な機械学習アプリケーションにおいて不可欠である。 本稿では,コントラスト学習手法を用いたスペクトルグラフウェーブレットに基づくマルチスケールグラフネットワークの組込みフレームワークを提案する。 提案した埋め込みの重要な特徴は,埋め込み空間と入力特徴空間との対応性を確立する能力である。 理論的に我々のアプローチを正当化し、組合せグラフ上のパリー・ウィーナー空間において、スペクトルグラフウェーブレット作用素はラプラシア作用素と比較してより柔軟性があり、滑らか性特性の制御がより優れていることを証明した。 クラスタリングや教師なし機能の重要性など,さまざまな下流タスクを通じて,さまざまな公開データセットへのグラフ埋め込みの有効性を検証する。

Deriving meaningful representations from complex, high-dimensional data in unsupervised settings is crucial across diverse machine learning applications. This paper introduces a framework for multi-scale graph network embedding based on spectral graph wavelets that employs a contrastive learning approach. A significant feature of the proposed embedding is its capacity to establish a correspondence between the embedding space and the input feature space which aids in deriving feature importance of the original features. We theoretically justify our approach and demonstrate that, in Paley-Wiener spaces on combinatorial graphs, the spectral graph wavelets operator offers greater flexibility and better control over smoothness properties compared to the Laplacian operator. We validate the effectiveness of our proposed graph embedding on a variety of public datasets through a range of downstream tasks, including clustering and unsupervised feature importance.
翻訳日:2024-06-07 19:44:18 公開日:2024-06-06
# 線形アテンション変換器のモデル重みへのインテクスト学習の厳密な変換

Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers ( http://arxiv.org/abs/2406.02847v2 )

ライセンス: Link先を確認
Brian K Chen, Tianyang Hu, Hui Jin, Hwee Kuan Lee, Kenji Kawaguchi, (参考訳) In-Context Learning (ICL)は、近年注目を集めている大規模言語モデルの強力な創発的特性である。 正規勾配に基づく学習とは対照的に、ICLは高度に解釈可能であり、パラメータ更新を必要としない。 本稿では,線形化変圧器ネットワークにおいて,バイアス項を含めることで,ICLを明示的かつ永続的にすることができることを示す。 我々は、ICLデモプロンプトを持つモデルと、追加のバイアス項を持つモデルとの等価性を数学的に示す。 我々のアルゴリズム(ICLCA)は、正確な変換を安価に行うことができる。 既存のメソッドは正確ではなく、高価なパラメータ更新を必要とする。 ICLトークンを線形変換器に正確に組み込む実験により,本手法の有効性を実証する。 さらに,線形化されていない正規変圧器ネットワークにおいても,ICLトークンの高精度な近似変換を実現する方法を提案する。 GPT-2の実験では、変換が近似的であるにもかかわらず、モデルが包含されたバイアス項から価値ある文脈を得ることを示した。

In-Context Learning (ICL) has been a powerful emergent property of large language models that has attracted increasing attention in recent years. In contrast to regular gradient-based learning, ICL is highly interpretable and does not require parameter updates. In this paper, we show that, for linearized transformer networks, ICL can be made explicit and permanent through the inclusion of bias terms. We mathematically demonstrate the equivalence between a model with ICL demonstration prompts and the same model with the additional bias terms. Our algorithm (ICLCA) allows for exact conversion in an inexpensive manner. Existing methods are not exact and require expensive parameter updates. We demonstrate the efficacy of our approach through experiments that show the exact incorporation of ICL tokens into a linear transformer. We further suggest how our method can be adapted to achieve cheap approximate conversion of ICL tokens, even in regular transformer networks that are not linearized. Our experiments on GPT-2 show that, even though the conversion is only approximate, the model still gains valuable context from the included bias terms.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-06
# ディープ・クープマン・オペレーター発見のためのカンの活用

Leveraging KANs For Enhanced Deep Koopman Operator Discovery ( http://arxiv.org/abs/2406.02875v2 )

ライセンス: Link先を確認
George Nehma, Madhur Tiwari, (参考訳) 多層パーセプトロン(MLP)は、非線形力学を線形化するディープ・クープマン作用素の発見に広く利用されている。 MLPニューラルネットのより効率的かつ正確な代替手段としてKAN(Kolmogorov-Arnold Networks)が出現すると、制御付きクープマン演算子を学習する文脈において、各ネットワークタイプの性能の比較が提案される。 本研究では,2BP (2-Body Problem) と線形系力学のデータ駆動発見のための振り子を応用した Kans ベースのディープ・クープマン・フレームワークを提案する。 カンはトレーニングのほぼ全ての面で優れており、学習速度は31倍、パラメータ効率は15倍、予測精度は2BPの場合のMLP Deep Neural Networks(DNN)の1.25倍である。 このように、カンスはディープ・クープマン理論の発展において効率的なツールとなる可能性を示している。

Multi-layer perceptrons (MLP's) have been extensively utilized in discovering Deep Koopman operators for linearizing nonlinear dynamics. With the emergence of Kolmogorov-Arnold Networks (KANs) as a more efficient and accurate alternative to the MLP Neural Network, we propose a comparison of the performance of each network type in the context of learning Koopman operators with control. In this work, we propose a KANs-based deep Koopman framework with applications to an orbital Two-Body Problem (2BP) and the pendulum for data-driven discovery of linear system dynamics. KANs were found to be superior in nearly all aspects of training; learning 31 times faster, being 15 times more parameter efficiency, and predicting 1.25 times more accurately as compared to the MLP Deep Neural Networks (DNNs) in the case of the 2BP. Thus, KANs shows potential for being an efficient tool in the development of Deep Koopman Theory.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-06
# LCS:ゼロショットニューラルネットワーク翻訳のための言語コンバータ戦略

LCS: A Language Converter Strategy for Zero-Shot Neural Machine Translation ( http://arxiv.org/abs/2406.02876v2 )

ライセンス: Link先を確認
Zengkui Sun, Yijin Liu, Fandong Meng, Jinan Xu, Yufeng Chen, Jie Zhou, (参考訳) 多言語ニューラルマシン翻訳モデルは、典型的には、ソースまたはターゲット文の前にある言語タグ(LT)によって翻訳方向を区別する。 しかし、現在のLT戦略は、ゼロショット翻訳で期待されているように、望まれるターゲット言語、すなわちオフターゲット問題を示すことはできない。 例えば、対象言語をデコーダ側に置くと、デコーダ側に置くと、デコーダ側に置くと、ターゲット言語をエンコーダ側に置くと、ソース入力のコピーやパラフレーズ化につながる。 上記の課題に対処するため,Language Converter Strategy (LCS) という,シンプルながら効果的な戦略を提案する。 ターゲット言語をトップエンコーダ層に埋め込むことで、LCSはエンコーダの混乱を緩和し、デコーダの安定した言語表示を保証する。 MultiUN、TED、OPUS-100データセットの実験結果は、LCSが目標外の問題を著しく軽減し、言語精度は95.28%、96.21%、85.35%、バニラLTの戦略は3.07、3.3、733 BLEUでそれぞれ上回っていることを示している。

Multilingual neural machine translation models generally distinguish translation directions by the language tag (LT) in front of the source or target sentences. However, current LT strategies cannot indicate the desired target language as expected on zero-shot translation, i.e., the off-target issue. Our analysis reveals that the indication of the target language is sensitive to the placement of the target LT. For example, when placing the target LT on the decoder side, the indication would rapidly degrade along with decoding steps, while placing the target LT on the encoder side would lead to copying or paraphrasing the source input. To address the above issues, we propose a simple yet effective strategy named Language Converter Strategy (LCS). By introducing the target language embedding into the top encoder layers, LCS mitigates confusion in the encoder and ensures stable language indication for the decoder. Experimental results on MultiUN, TED, and OPUS-100 datasets demonstrate that LCS could significantly mitigate the off-target issue, with language accuracy up to 95.28%, 96.21%, and 85.35% meanwhile outperforming the vanilla LT strategy by 3.07, 3,3, and 7.93 BLEU scores on zero-shot translation, respectively.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-06
# Inv-Adapter:画像インバージョンと軽量アダプタによるIDカスタマイズ生成

Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter ( http://arxiv.org/abs/2406.02881v2 )

ライセンス: Link先を確認
Peng Xing, Ning Wang, Jianbo Ouyang, Zechao Li, (参考訳) テキスト・画像生成モデルの顕著な進歩は、IDカスタマイズ生成の研究を著しく加速させる。 しかし、既存のパーソナライズ手法は、高い忠実度と高効率要件を同時に満たすことはできない。 その主なボトルネックはプロンプト画像エンコーダであり、テキスト・ツー・イメージモデルと弱いアライメント信号を生成し、モデルサイズを大幅に増大させる。 そこで本研究では,ID画像の拡散領域表現をDDIM画像の逆変換により抽出する軽量なInv-Adapterを提案する。 抽出したIDの高アライメントとテキスト・ツー・イメージ・モデルの中間的特徴から恩恵を受け、軽量アテンション・アダプタを慎重に設計し、それらをベース・テキスト・ツー・イメージ・モデルに効率的に組み込む。 提案したInv-Adapterは,IDのカスタマイズ生成とモデルスケールにおいて高い競争力を持つことを示す。

The remarkable advancement in text-to-image generation models significantly boosts the research in ID customization generation. However, existing personalization methods cannot simultaneously satisfy high fidelity and high-efficiency requirements. Their main bottleneck lies in the prompt image encoder, which produces weak alignment signals with the text-to-image model and significantly increased model size. Towards this end, we propose a lightweight Inv-Adapter, which first extracts diffusion-domain representations of ID images utilizing a pre-trained text-to-image model via DDIM image inversion, without additional image encoder. Benefiting from the high alignment of the extracted ID prompt features and the intermediate features of the text-to-image model, we then embed them efficiently into the base text-to-image model by carefully designing a lightweight attention adapter. We conduct extensive experiments to assess ID fidelity, generation loyalty, speed, and training parameters, all of which show that the proposed Inv-Adapter is highly competitive in ID customization generation and model scale.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-06
# ファクチュアル知識編集のための復号化を意識した古い問題

Outdated Issue Aware Decoding for Factual Knowledge Editing ( http://arxiv.org/abs/2406.02882v2 )

ライセンス: Link先を確認
Zengkui Sun, Yijin Liu, Jiaan Wang, Fandong Meng, Jinan Xu, Yufeng Chen, Jie Zhou, (参考訳) 近年、知識編集は、事前訓練されたモデルにおける時代遅れのものからの特定の知識を、再訓練せずに更新できるため、注目を集めている。 しかし、近年の研究で指摘されているように、既存の関連手法は、真の学習や吸収ではなく、単に編集された知識の表層的な単語構成を記憶するだけである。 その結果,既存の手法では,新たな解答を推論するために編集された知識を利用するのに苦労しており,本来の知識を生かしたオリジナルのモデルによって生成される時代遅れの応答を保ちがちであることがわかった。 それでも、古い回答は、我々が古い問題と名づけた推論問題に対する正しい答えとして予期せぬものである。 この問題を軽減するため,本論文では,編集モデルの性能向上を目的とした,簡易かつ効果的な復号化戦略であるDISCO(Outdated ISsue aware decodeding)を提案する。 具体的には、オリジナルのモデルと編集されたモデルとの確率分布の差を捉える。 さらに、編集されたモデルにおけるトークン予測の違いを増幅し、古い問題を緩和し、編集された知識でモデル性能を向上させる。 実験結果から,disCOを適用することで,従来のSOTA法を12.99F1スコアで上回り,古い問題の割合をzsREデータセットの5.78%に下げることが可能であることが示唆された。

Recently, Knowledge Editing has received increasing attention, since it could update the specific knowledge from outdated ones in pretrained models without re-training. However, as pointed out by recent studies, existing related methods tend to merely memorize the superficial word composition of the edited knowledge, rather than truly learning and absorbing it. Consequently, on the reasoning questions, we discover that existing methods struggle to utilize the edited knowledge to reason the new answer, and tend to retain outdated responses, which are generated by the original models utilizing original knowledge. Nevertheless, the outdated responses are unexpected for the correct answers to reasoning questions, which we named as the outdated issue. To alleviate this issue, in this paper, we propose a simple yet effective decoding strategy, i.e., outDated ISsue aware deCOding (DISCO), to enhance the performance of edited models on reasoning questions. Specifically, we capture the difference in the probability distribution between the original and edited models. Further, we amplify the difference of the token prediction in the edited model to alleviate the outdated issue, and thus enhance the model performance w.r.t the edited knowledge. Experimental results suggest that applying DISCO could enhance edited models to reason, e.g., on reasoning questions, DISCO outperforms the prior SOTA method by 12.99 F1 scores, and reduces the ratio of the outdated issue to 5.78% on the zsRE dataset.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-06
# PLaD:擬似参照ペアを用いた優先型大規模言語モデル蒸留

PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs ( http://arxiv.org/abs/2406.02886v2 )

ライセンス: Link先を確認
Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。 知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。 しかしながら、従来のKD技術は、LLM出力の制限、教師と学生の容量格差、継承された誤校正問題など、LLMに適用する際の特定の課題に直面している。 本研究は,新規な選好型LLM蒸留フレームワークであるPLaDについて述べる。 PLaDは教師と学生の能力の相違を利用して、学生の出力よりも教師の出力が優先される擬似参照ペアを生成する。 そして、PLaDはランキングの損失を利用して、生徒が教師を模倣するのではなく、出力の相対的品質を理解することに焦点を当てたシーケンス可能性の推定を再検討する。 PLaDは、教師のLLMの内部状態へのアクセスの必要性を回避し、生徒の表現力制限に対処し、生徒の誤校正問題を緩和する。 2つのシーケンス生成タスクと各種LLMの広範な実験を通じて,提案手法の有効性を実証した。

Large Language Models (LLMs) have exhibited impressive capabilities in various tasks, yet their vast parameter sizes restrict their applicability in resource-constrained settings. Knowledge distillation (KD) offers a viable solution by transferring expertise from large teacher models to compact student models. However, traditional KD techniques face specific challenges when applied to LLMs, including restricted access to LLM outputs, significant teacher-student capacity gaps, and the inherited mis-calibration issue. In this work, we present PLaD, a novel preference-based LLM distillation framework. PLaD exploits the teacher-student capacity discrepancy to generate pseudo-preference pairs where teacher outputs are preferred over student outputs. Then, PLaD leverages a ranking loss to re-calibrate student's estimation of sequence likelihood, which steers the student's focus towards understanding the relative quality of outputs instead of simply imitating the teacher. PLaD bypasses the need for access to teacher LLM's internal states, tackles the student's expressivity limitations, and mitigates the student mis-calibration issue. Through extensive experiments on two sequence generation tasks and with various LLMs, we demonstrate the effectiveness of our proposed PLaD framework.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-06
# 医用画像の分離・生成に強力なバックボーンを作るU-KAN

U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation ( http://arxiv.org/abs/2406.02918v2 )

ライセンス: Link先を確認
Chenxin Li, Xinyu Liu, Wuyang Li, Cheng Wang, Hengyu Liu, Yixuan Yuan, (参考訳) U-Netは画像分割や拡散確率モデルといった様々な視覚的応用の基盤となっている。 変圧器やMLPを導入して多くの革新的な設計や改良がなされてきたが、ネットワークは依然として線形モデリングパターンと不十分な解釈可能性に制限されている。 これらの課題に対処するため、我々の直感は、コルモゴロフ・アルノルドネットワーク(KAN)の精度と解釈可能性の観点から印象的な結果に触発され、コルモゴロフ・アンノルド表現定理から導かれる非線形可学習活性化関数のスタックを介してニューラルネットワーク学習を再構築した。 具体的には,視覚タスクのバックボーン改善におけるkansの未解決の可能性について検討する。 トークン化中間表現であるU-KAN上に専用kan層を統合することにより,確立したU-Netパイプラインを検証,修正,再設計する。 厳密な医用画像セグメンテーションのベンチマークでは、計算コストが低い場合でも高い精度でU-KANの優位性を検証している。 さらに、拡散モデルにおける代替U-Netノイズ予測器としてのU-KANの可能性を探り、タスク指向モデルアーキテクチャの生成にその適用性を実証した。 これらの取り組みは貴重な洞察を示し、U-KANでは医用画像のセグメンテーションと生成のための強力なバックボーンを作ることができるという可能性に光を当てている。 プロジェクトページ: https://yes-ukan.github.io/

U-Net has become a cornerstone in various visual applications such as image segmentation and diffusion probability models. While numerous innovative designs and improvements have been introduced by incorporating transformers or MLPs, the networks are still limited to linearly modeling patterns as well as the deficient interpretability. To address these challenges, our intuition is inspired by the impressive results of the Kolmogorov-Arnold Networks (KANs) in terms of accuracy and interpretability, which reshape the neural network learning via the stack of non-linear learnable activation functions derived from the Kolmogorov-Anold representation theorem. Specifically, in this paper, we explore the untapped potential of KANs in improving backbones for vision tasks. We investigate, modify and re-design the established U-Net pipeline by integrating the dedicated KAN layers on the tokenized intermediate representation, termed U-KAN. Rigorous medical image segmentation benchmarks verify the superiority of U-KAN by higher accuracy even with less computation cost. We further delved into the potential of U-KAN as an alternative U-Net noise predictor in diffusion models, demonstrating its applicability in generating task-oriented model architectures. These endeavours unveil valuable insights and sheds light on the prospect that with U-KAN, you can make strong backbone for medical image segmentation and generation. Project page: https://yes-ukan.github.io/
翻訳日:2024-06-07 19:34:24 公開日:2024-06-06
# Pythonic Idiomsへのリファクタリング - 大規模言語モデルを活用したハイブリッドな知識駆動アプローチ

Refactoring to Pythonic Idioms: A Hybrid Knowledge-Driven Approach Leveraging Large Language Models ( http://arxiv.org/abs/2406.03660v1 )

ライセンス: Link先を確認
Zejun Zhang, Zhenchang Xing, Xiaoxue Ren, Qinghua Lu, Xiwei Xu, (参考訳) Pythonのイディオムは高く評価されており、Pythonプログラミングコミュニティで広く使われている。 しかし、多くのPythonユーザはPythonのイディオムを使うのが難しいと感じている。 ルールベースのアプローチやLLMのみのアプローチを採用するだけでは、コードミス、間違った検出、誤ったリファクタリングを含む、コードの慣用化に関する3つの難題を克服するには不十分だ。 3つのモジュールからなるハイブリッドアプローチを提案する。 LLMにタスクを完了するように指示するプロンプトを書くだけでなく、タスクを達成するためにARI(Analytic Rule Interfaces)を呼び出す。 ARIはLLMにコードを生成するよう促したPythonコードである。 まず,ASTscenario,ASTcomponent,Conditionの3要素からなるナレッジモジュールを構築し,LLMにARIライブラリに組み込むPythonコードを生成するように促した。 その後、構文エラーのないPythonコードに対して、ARIライブラリからARIを呼び出し、ASTscenarioからASTcomponentを抽出し、条件を満たしないASTcomponentをフィルタリングします。 最後に、ALIライブラリからALIを呼び出し、非慣用的なコードをイディオマティックコードに書き直すようにLCMに指示するプロンプトを設計する。 次に, RIdiom と Prompt-LLM のアプローチを, RIdiom で確立された Python のイディオム9つに対して総合的に評価する。 提案手法は精度,F1スコア,リコールに優れ,精度はリディオムに匹敵する。 最後に、評価を4つの新しいPythonイディオムに拡張する。 提案手法はPrompt-LLMを常に上回り,精度,F1スコア,精度,リコールの90%を超えている。

Pythonic idioms are highly valued and widely used in the Python programming community. However, many Python users find it challenging to use Pythonic idioms. Adopting a rule-based approach or LLM-only approach is not sufficient to overcome three persistent challenges of code idiomatization including code miss, wrong detection and wrong refactoring. Motivated by the determinism of rules and adaptability of LLMs, we propose a hybrid approach consisting of three modules. We not only write prompts to instruct LLMs to complete tasks, but we also invoke Analytic Rule Interfaces (ARIs) to accomplish tasks. The ARIs are Python code generated by prompting LLMs to generate code. We first construct a knowledge module with three elements including ASTscenario, ASTcomponent and Condition, and prompt LLMs to generate Python code for incorporation into an ARI library for subsequent use. After that, for any syntax-error-free Python code, we invoke ARIs from the ARI library to extract ASTcomponent from the ASTscenario, and then filter out ASTcomponent that does not meet the condition. Finally, we design prompts to instruct LLMs to abstract and idiomatize code, and then invoke ARIs from the ARI library to rewrite non-idiomatic code into the idiomatic code. Next, we conduct a comprehensive evaluation of our approach, RIdiom, and Prompt-LLM on nine established Pythonic idioms in RIdiom. Our approach exhibits superior accuracy, F1-score, and recall, while maintaining precision levels comparable to RIdiom, all of which consistently exceed or come close to 90% for each metric of each idiom. Lastly, we extend our evaluation to encompass four new Pythonic idioms. Our approach consistently outperforms Prompt-LLM, achieving metrics with values consistently exceeding 90% for accuracy, F1-score, precision, and recall.
翻訳日:2024-06-07 18:55:13 公開日:2024-06-06
# インセプションV1の欠損曲線検出器:インセプションV1早期ビジョンへのスパースオートエンコーダの適用

The Missing Curve Detectors of InceptionV1: Applying Sparse Autoencoders to InceptionV1 Early Vision ( http://arxiv.org/abs/2406.03662v1 )

ライセンス: Link先を確認
Liv Gorton, (参考訳) スパースオートエンコーダ(SAE)に関する最近の研究は、ニューラルネットワークから解釈可能な特徴を抽出し、重ね合わせによって引き起こされる多節性ニューロンの課題に対処することを約束している。 本稿では、よく研究された畳み込みニューラルネットワークであるInceptionV1の初期の視覚層にSAEを適用し、曲線検出器に焦点をあてる。 以上の結果から、SAEは個々のニューロンから明らかでない新しい解釈可能な特徴を発見できることが示された。 また、SAEはいくつかの多節性ニューロンをより単節性成分に分解することができる。 これらの結果は、SAEはインセプションV1や畳み込みニューラルネットワークをより一般的に理解するための貴重なツールであることを示している。

Recent work on sparse autoencoders (SAEs) has shown promise in extracting interpretable features from neural networks and addressing challenges with polysemantic neurons caused by superposition. In this paper, we apply SAEs to the early vision layers of InceptionV1, a well-studied convolutional neural network, with a focus on curve detectors. Our results demonstrate that SAEs can uncover new interpretable features not apparent from examining individual neurons, including additional curve detectors that fill in previous gaps. We also find that SAEs can decompose some polysemantic neurons into more monosemantic constituent features. These findings suggest SAEs are a valuable tool for understanding InceptionV1, and convolutional neural networks more generally.
翻訳日:2024-06-07 18:55:13 公開日:2024-06-06
# 腹腔鏡下緑内障の3つの解剖学的領域における末梢神経線維層反射とその他のCTパラメータを用いたハイブリッドディープラーニング分類

A Hybrid Deep Learning Classification of Perimetric Glaucoma Using Peripapillary Nerve Fiber Layer Reflectance and Other OCT Parameters from Three Anatomy Regions ( http://arxiv.org/abs/2406.03663v1 )

ライセンス: Link先を確認
Ou Tan, David S. Greenfield, Brian A. Francis, Rohit Varma, Joel S. Schuman, David Huang, Dongseok Choi, (参考訳) Precis: NFL反射率とその他のOCTパラメータを組み合わせて,緑内障の診断を改善するハイブリッドディープラーニングモデル。 目的: 深層学習モデルを用いて神経線維層(NFL)反射率と他のCTパラメータを組み合わせて緑内障の診断を行うことができるかを検討する。 患者と方法: 健常者106名, 周辺緑内障164名を対象に検討した。 乳頭周囲のNFL反射率マップ, NFL厚みマップ, 円板の光学ヘッド解析, および眼神経節細胞複合体厚をスペクトル領域OCTを用いて測定した。 ハイブリッドディープラーニングモデルは、完全に接続されたネットワーク(FCN)と畳み込みニューラルネットワーク(CNN)を組み合わせて、これらのOCTマップとパラメータを開発、組み合わせ、正常眼とPG眼を区別する。 入力の一部としてNFL反射率マップが使用されたかどうかに基づいて,2つのディープラーニングモデルを比較した。 結果: 反射率を持つハイブリッドディープラーニングモデルは99%の特異度で0.909感度,95%で0.926感度を得た。 全体的な精度は0.948で0.893の感度と1.000の特異性があり、AROCは0.979であり、ロジスティック回帰モデル(p < 0.001)よりもかなり優れている。 第2の最良のモデルはハイブリッドディープラーニングモデルw/oリフレクタンスであり、これはまたロジスティック回帰モデル(p < 0.001)よりもAROCがかなり高かった。 反射率モデルを用いたロジスティック回帰は、反射率のない他のロジスティック回帰モデルよりもわずかにAROCや感度が高かった(p = 0.024)。 結論:ハイブリッドディープラーニングモデルでは,NFL反射率の有無にかかわらず,診断精度が有意に向上した。 反射率/NFL厚/GCC厚/ONHパラメータを組み合わせたハイブリッドディープラーニングモデルは、緑内障のスクリーン目的の実用的なモデルである。

Precis: A hybrid deep-learning model combines NFL reflectance and other OCT parameters to improve glaucoma diagnosis. Objective: To investigate if a deep learning model could be used to combine nerve fiber layer (NFL) reflectance and other OCT parameters for glaucoma diagnosis. Patients and Methods: This is a prospective observational study where of 106 normal subjects and 164 perimetric glaucoma (PG) patients. Peripapillary NFL reflectance map, NFL thickness map, optic head analysis of disc, and macular ganglion cell complex thickness were obtained using spectral domain OCT. A hybrid deep learning model combined a fully connected network (FCN) and a convolution neural network (CNN) to develop and combine those OCT maps and parameters to distinguish normal and PG eyes. Two deep learning models were compared based on whether the NFL reflectance map was used as part of the input or not. Results: The hybrid deep learning model with reflectance achieved 0.909 sensitivity at 99% specificity and 0.926 at 95%. The overall accuracy was 0.948 with 0.893 sensitivity and 1.000 specificity, and the AROC was 0.979, which is significantly better than the logistic regression models (p < 0.001). The second best model is the hybrid deep learning model w/o reflectance, which also had significantly higher AROC than logistic regression models (p < 0.001). Logistic regression with reflectance model had slightly higher AROC or sensitivity than the other logistic regression model without reflectance (p = 0.024). Conclusions: Hybrid deep learning model significantly improved the diagnostic accuracy, without or without NFL reflectance. Hybrid deep learning model, combining reflectance/NFL thickness/GCC thickness/ONH parameter, may be a practical model for glaucoma screen purposes.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# 強化学習によるトレンドポイント検出による動的トレンドフィルタリングに向けて

Towards Dynamic Trend Filtering through Trend Point Detection with Reinforcement Learning ( http://arxiv.org/abs/2406.03665v1 )

ライセンス: Link先を確認
Jihyeon Seong, Sekwang Oh, Jaesik Choi, (参考訳) トレンドフィルタリングは、ノイズの除去にスムーズさを適用しながら、元のデータに近づいたことを強調することにより、複雑な時系列データを単純化する。 しかし, 従来のトレンドフィルタリング手法では, 「近似性」 による傾向の急激な変化を反映できないため, 一定の滑らかさが生じる。 この近似性は、急激な変化とノイズの両方を含む極端な値によって特徴づけられる時系列データのテール分布を均一にフィルタリングする。 本稿では,マルコフ決定過程 (MDP) として定式化されたトレンド点検出法を提案する。 我々はこれらの重要な点を動的トレンドポイント(DTP)と呼び、それらを補間することでトレンドを抽出する。 DTPを識別するために、離散的な行動空間内の強化学習(RL)と2乗損失関数の予測を、動的トレンドフィルタリングネットワーク(DTF-net)と呼ばれる報酬として利用する。 DTF-netはフレキシブルノイズフィルタリングを統合し、重要なオリジナルサブシーケンスを保存し、他のサブシーケンスに必要なノイズを除去する。 DTF-netは、他のトレンドフィルタリングアルゴリズムと比較して急激な変化を捉え、急激な変化をスムースにするのではなく予測するので、予測性能を向上させることを実証する。

Trend filtering simplifies complex time series data by applying smoothness to filter out noise while emphasizing proximity to the original data. However, existing trend filtering methods fail to reflect abrupt changes in the trend due to `approximateness,' resulting in constant smoothness. This approximateness uniformly filters out the tail distribution of time series data, characterized by extreme values, including both abrupt changes and noise. In this paper, we propose Trend Point Detection formulated as a Markov Decision Process (MDP), a novel approach to identifying essential points that should be reflected in the trend, departing from approximations. We term these essential points as Dynamic Trend Points (DTPs) and extract trends by interpolating them. To identify DTPs, we utilize Reinforcement Learning (RL) within a discrete action space and a forecasting sum-of-squares loss function as a reward, referred to as the Dynamic Trend Filtering network (DTF-net). DTF-net integrates flexible noise filtering, preserving critical original subsequences while removing noise as required for other subsequences. We demonstrate that DTF-net excels at capturing abrupt changes compared to other trend filtering algorithms and enhances forecasting performance, as abrupt changes are predicted rather than smoothed out.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# 言語モデルに十分なものは何か?

What Makes Language Models Good-enough? ( http://arxiv.org/abs/2406.03666v1 )

ライセンス: Link先を確認
Daiki Asami, Saku Sugawara, (参考訳) 心理学的な研究は、人間が手元にあるタスクに「十分な」言語入力を表現できる可能性を示唆している。 本研究では,言語モデルにどのようなアーキテクチャ的特徴が与える影響について検討する。 トランスフォーマーのレイヤ数と自己注意型ヘッドに注目します。 我々は,言語処理における2つの可視性型,8つの構成型,3度のメモリコストの影響をテストするために,優れた言語処理(GELP)評価データセット(7,680例)を作成している。 GELPに注釈を付けるために、我々はまず、事前の心理言語学的研究に従って設計したクラウドソーシング実験を行う。 注釈付きGELPに対するモデル評価では,本モデルと,より少ない層および/または自己注意頭部を持つモデルが良好な性能を示すことが明らかとなった。 この結果から, 深度が浅く, 頭が小さいモデルでは, 十分な言語処理が学べることが示唆された。

Psycholinguistic research suggests that humans may build a representation of linguistic input that is 'good-enough' for the task at hand. This study examines what architectural features make language models learn human-like good-enough language processing. We focus on the number of layers and self-attention heads in Transformers. We create a good-enough language processing (GELP) evaluation dataset (7,680 examples), which is designed to test the effects of two plausibility types, eight construction types, and three degrees of memory cost on language processing. To annotate GELP, we first conduct a crowdsourcing experiment whose design follows prior psycholinguistic studies. Our model evaluation against the annotated GELP then reveals that the full model as well as models with fewer layers and/or self-attention heads exhibit a good-enough performance. This result suggests that models with shallower depth and fewer heads can learn good-enough language processing.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# 3rd Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation

3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation ( http://arxiv.org/abs/2406.03668v1 )

ライセンス: Link先を確認
Xinyu Liu, Jing Zhang, Kexin Zhang, Yuting Yang, Licheng Jiao, Shuyuan Yang, (参考訳) ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。 我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。 本稿では,複雑なオクルージョンを特徴とするコモプレックスビデオオブジェクトセグメンテーション(MOSE)データセットにおける推論手法の有効性を検証する。 実験の結果,テストセット上でのJ&Fスコアは0.8139であり,最終ランキングでは3位となった。 これらの結果は,挑戦的なVOSシナリオの処理において,本手法の堅牢性と正確性を強調した。

Video Object Segmentation (VOS) is a vital task in computer vision, focusing on distinguishing foreground objects from the background across video frames. Our work draws inspiration from the Cutie model, and we investigate the effects of object memory, the total number of memory frames, and input resolution on segmentation performance. This report validates the effectiveness of our inference method on the coMplex video Object SEgmentation (MOSE) dataset, which features complex occlusions. Our experimental results demonstrate that our approach achieves a J\&F score of 0.8139 on the test set, securing the third position in the final ranking. These findings highlight the robustness and accuracy of our method in handling challenging VOS scenarios.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# PANDA:Width-Aware メッセージの転送がリワイドを超えて拡大

PANDA: Expanded Width-Aware Message Passing Beyond Rewiring ( http://arxiv.org/abs/2406.03671v1 )

ライセンス: Link先を確認
Jeongwhan Choi, Sumin Park, Hyowon Wi, Sung-Bae Cho, Noseong Park, (参考訳) グラフニューラルネットワーク(GNN)の分野における最近の研究は、長距離情報の伝播を妨げるグラフ構造のボトルネック現象に起因する「オーバー・スクアッシング(over-squashing)」と呼ばれる重要な問題を特定している。 先行研究では、信号伝達を促進するためにグラフの空間的特性やスペクトル特性を最適化することを目的とした様々なグラフ書き換えの概念が提案されている。 しかし、そのようなアプローチは必然的に元のグラフトポロジーを悪化させ、情報フローの歪みを引き起こす可能性がある。 これを解決するために,拡張ワイド・アウェア(PANDA)メッセージパッシング(panDA)メッセージパッシング(panDA)メッセージパッシング(panDA)メッセージパッシング)を導入し,高い中央性を持つノードを選択的に拡張し,遠隔ノードからの信号の流入をカプセル化する。 実験の結果,提案手法は既存のリワイアリング法よりも優れており,ノードの隠れ状態を選択的に拡張することが,オーバーカッシングに対処するためのグラフリワイアリングの代替となる可能性が示唆された。

Recent research in the field of graph neural network (GNN) has identified a critical issue known as "over-squashing," resulting from the bottleneck phenomenon in graph structures, which impedes the propagation of long-range information. Prior works have proposed a variety of graph rewiring concepts that aim at optimizing the spatial or spectral properties of graphs to promote the signal propagation. However, such approaches inevitably deteriorate the original graph topology, which may lead to a distortion of information flow. To address this, we introduce an expanded width-aware (PANDA) message passing, a new message passing paradigm where nodes with high centrality, a potential source of over-squashing, are selectively expanded in width to encapsulate the growing influx of signals from distant nodes. Experimental results show that our method outperforms existing rewiring methods, suggesting that selectively expanding the hidden state of nodes can be a compelling alternative to graph rewiring for addressing the over-squashing.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# 言語学的条件付き意味的テクスチャ類似性

Linguistically Conditioned Semantic Textual Similarity ( http://arxiv.org/abs/2406.03673v1 )

ライセンス: Link先を確認
Jingxuan Tu, Keer Xu, Liulu Yue, Bingyang Ye, Kyeongmin Rim, James Pustejovsky, (参考訳) 意味的テキスト類似性(Semantic textual similarity, STS)は、一対の文間の意味的類似性を測定する基本的なNLPタスクである。 文から生じる本質的なあいまいさを軽減するため,ある側面で条件付けられた文の類似度を測定するために,条件STS (Conditional STS) と呼ばれる最近の研究が提案されている。 C-STSの人気にもかかわらず、現在のC-STSデータセットは、このタスクの適切な評価を妨げる可能性のある様々な問題に悩まされている。 本稿では、C-STS検証セットを再注釈し、元のラベルのアノテーションエラー、未定義条件、タスク定義の明確さの欠如から生じる55%のインスタンスに対してアノテータの不一致を観察する。 詳細なデータセット分析の後、モデルの性能を活用してQAタスク設定条件を理解することにより、C-STSタスクを改善する。 生成した回答から、80%以上のF1スコアでC-STSデータからアノテーションエラーを識別できる自動エラー識別パイプラインを提案する。 また,C-STSデータのベースライン上の性能を大幅に改善する新しい手法を提案する。 最後に、エンティティ型の型付き機能構造(TFS)に基づく条件付きアノテーションについて論じる。 TFS は C-STS データを新しい条件で構築するための言語基盤を提供することができることを示す。

Semantic textual similarity (STS) is a fundamental NLP task that measures the semantic similarity between a pair of sentences. In order to reduce the inherent ambiguity posed from the sentences, a recent work called Conditional STS (C-STS) has been proposed to measure the sentences' similarity conditioned on a certain aspect. Despite the popularity of C-STS, we find that the current C-STS dataset suffers from various issues that could impede proper evaluation on this task. In this paper, we reannotate the C-STS validation set and observe an annotator discrepancy on 55% of the instances resulting from the annotation errors in the original label, ill-defined conditions, and the lack of clarity in the task definition. After a thorough dataset analysis, we improve the C-STS task by leveraging the models' capability to understand the conditions under a QA task setting. With the generated answers, we present an automatic error identification pipeline that is able to identify annotation errors from the C-STS data with over 80% F1 score. We also propose a new method that largely improves the performance over baselines on the C-STS data by training the models with the answers. Finally we discuss the conditionality annotation based on the typed-feature structure (TFS) of entity types. We show in examples that the TFS is able to provide a linguistic foundation for constructing C-STS data with new conditions.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# 反射政策最適化

Reflective Policy Optimization ( http://arxiv.org/abs/2406.03678v1 )

ライセンス: Link先を確認
Yaozhong Gan, Renye Yan, Zhe Wu, Junliang Xing, (参考訳) Trust Region Policy Optimization (TRPO) や Proximal Policy Optimization (PPO) のようなオンライン強化学習手法は、しばしば更新毎に広範囲なデータを要求するため、サンプルの非効率性が要求される。 本稿では,過去と将来の政策最適化のための状態対応情報とを一致させる新しい政治拡張であるリフレクティブ・ポリシー・オプティマイゼーション(RPO)を紹介する。 このアプローチはエージェントにイントロスペクションの権限を与え、現在の状態内でのアクションの変更を可能にする。 理論的解析により、政策性能が単調に改善され、解空間が収縮し、結果として収束手続きが速くなることが確認される。 2つの強化学習ベンチマークにおいて, RPOの有効性と有効性を示し, 優れた試料効率が得られた。 この作業のソースコードはhttps://github.com/Edgargan/RPO.comで公開されている。

On-policy reinforcement learning methods, like Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization (PPO), often demand extensive data per update, leading to sample inefficiency. This paper introduces Reflective Policy Optimization (RPO), a novel on-policy extension that amalgamates past and future state-action information for policy optimization. This approach empowers the agent for introspection, allowing modifications to its actions within the current state. Theoretical analysis confirms that policy performance is monotonically improved and contracts the solution space, consequently expediting the convergence procedure. Empirical results demonstrate RPO's feasibility and efficacy in two reinforcement learning benchmarks, culminating in superior sample efficiency. The source code of this work is available at https://github.com/Edgargan/RPO.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# データスケールがコンピュータ制御エージェントに及ぼす影響について

On the Effects of Data Scale on Computer Control Agents ( http://arxiv.org/abs/2406.03679v1 )

ライセンス: Link先を確認
Wei Li, William Bishop, Alice Li, Chris Rawles, Folawiyo Campbell-Ajala, Divya Tyamagundlu, Oriana Riva, (参考訳) 人間のタスクを達成するためにコンピュータインターフェースを制御する自律エージェントが登場している。 LLMをこのようなエージェントに利用することは特に興味深いが、人間によるタスクのデモを微調整しない限り、性能は比較的低い。 本研究では,ファインチューニング単独が現実のコンピュータ制御エージェント構築に有効なアプローチであるかどうかを考察する。 特に、ドメイン内の高レベルタスクと低レベルのタスクで測定されたパフォーマンスが、より多くのトレーニングデータが収集されるにつれて、ドメインのスケール外に与える影響について検討する。 この目的のために、Androidアプリで毎日のタスクを15,283回デモする新しいデータセット、AndroidControlを収集、リリースしました。 既存のデータセットと比較して、各AndroidControlタスクインスタンスには、ハイレベルとローレベルの両方のヒューマン生成命令が含まれています。 さらに、AndroidControlは833のAndroidアプリに対して15,283のユニークなタスクを含む、これまでで最も多様なコンピュータ制御データセットです。 データセットを用いて、ドメインを微調整したモデルでテストすると、ゼロと数ショットのベースラインを上回り、ロバストなパフォーマンスを単純により多くのデータを収集して得られるようにスケールする。 ドメイン外では、パフォーマンスは大幅に遅くなり、特にハイレベルなタスクでは、より多くのデータのみを微調整することは、ドメイン外での堅牢なパフォーマンスを達成するには不十分である、と示唆する。

Autonomous agents that control computer interfaces to accomplish human tasks are emerging. Leveraging LLMs to power such agents has been of special interest, but unless fine-tuned on human-collected task demonstrations, performance is still relatively low. In this work we study whether fine-tuning alone is a viable approach for building real-world computer control agents. %In particularly, we investigate how performance measured on both high and low-level tasks in domain and out of domain scales as more training data is collected. To this end we collect and release a new dataset, AndroidControl, consisting of 15,283 demonstrations of everyday tasks with Android apps. Compared to existing datasets, each AndroidControl task instance includes both high and low-level human-generated instructions, allowing us to explore the level of task complexity an agent can handle. Moreover, AndroidControl is the most diverse computer control dataset to date, including 15,283 unique tasks over 833 Android apps, thus allowing us to conduct in-depth analysis of the model performance in and out of the domain of the training data. Using the dataset, we find that when tested in domain fine-tuned models outperform zero and few-shot baselines and scale in such a way that robust performance might feasibly be obtained simply by collecting more data. Out of domain, performance scales significantly more slowly and suggests that in particular for high-level tasks, fine-tuning on more data alone may be insufficient for achieving robust out-of-domain performance.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# 肯定的未ラベル分類のためのメタラーニング

Meta-learning for Positive-unlabeled Classification ( http://arxiv.org/abs/2406.03680v1 )

ライセンス: Link先を確認
Atsutoshi Kumagai, Tomoharu Iwata, Yasuhiro Fujiwara, (参考訳) 本稿では, PUデータのみから得られる2値分類器の性能を向上させることを目的とした, 正・ラベルなし(PU)分類のためのメタラーニング手法を提案する。 PU学習は,外乱検出や情報検索といった現実世界のアプリケーションにおいて,PUデータが自然に発生するため,重要な問題である。 既存のPU学習方法は多数のPUデータを必要とするが、実際には十分なデータは利用できないことが多い。 提案手法は,正,負,未ラベルのデータからなる関連するタスクを用いて,モデルがPUデータに適用された後のテスト分類リスクを最小化する。 分類リスクを最小化する最適分類器であるベイズ最適分類器の推定問題として適応を定式化する。 提案手法は,ニューラルネットワークを用いて各インスタンスをタスク固有の空間に埋め込む。 埋込PUデータを用いて、解を閉形式解として得られるPU密度の密度比推定によりベイズ最適分類器を推定する。 クローズドフォームのソリューションにより、テスト分類のリスクを効果的かつ効果的に最小化できる。 提案手法は1つの実世界のデータセットと3つの実世界のデータセットで既存の手法よりも優れていることを示す。

We propose a meta-learning method for positive and unlabeled (PU) classification, which improves the performance of binary classifiers obtained from only PU data in unseen target tasks. PU learning is an important problem since PU data naturally arise in real-world applications such as outlier detection and information retrieval. Existing PU learning methods require many PU data, but sufficient data are often unavailable in practice. The proposed method minimizes the test classification risk after the model is adapted to PU data by using related tasks that consist of positive, negative, and unlabeled data. We formulate the adaptation as an estimation problem of the Bayes optimal classifier, which is an optimal classifier to minimize the classification risk. The proposed method embeds each instance into a task-specific space using neural networks. With the embedded PU data, the Bayes optimal classifier is estimated through density-ratio estimation of PU densities, whose solution is obtained as a closed-form solution. The closed-form solution enables us to efficiently and effectively minimize the test classification risk. We empirically show that the proposed method outperforms existing methods with one synthetic and three real-world datasets.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# シャープネスを考慮した最小化アルゴリズムの普遍クラス

A Universal Class of Sharpness-Aware Minimization Algorithms ( http://arxiv.org/abs/2406.03682v1 )

ライセンス: Link先を確認
Behrooz Tahmasebi, Ashkan Soleymani, Dara Bahri, Stefanie Jegelka, Patrick Jaillet, (参考訳) 近年、一般化を達成するには適切なバイアスを持つアルゴリズムが必要であると信じられているため、過パラメータ化モデルの最適化アルゴリズム開発への関心が高まっている。 この関心は、元の損失関数のシャープさを最小化することに集中しており、シャープネス・アウェア・最小化(SAM)アルゴリズムが有効であることが証明されている。 しかし、ほとんどの文献では、ニューラルネットワークのような非凸最適化シナリオにおいて意味のある洞察を得られない、最大固有値やトレーニング損失のトレースなど、いくつかのシャープネス測度しか考慮していない。 さらに、多くのシャープネス測定は、ニューラルネットワークのパラメータ不変性に敏感であり、再スケーリングパラメータの下で大幅に増大する。 これらの課題に感化されて,本論文では,新たなシャープネス尺度を導入し,新たなシャープネスを考慮した客観的機能を実現する。 これらの測度がtextit{universally expressive} であることが証明され、訓練損失 Hessian 行列の任意の関数を適切なハイパーパラメータで表すことができる。 さらに,提案した目的関数は,対応するシャープネス尺度の最小化に向けて明らかに偏りを示し,パラメータ不変性を持つモデル(スケール不変性など)に有意義な適用を可能にする方法を示す。 最後に,提案した一般フレームワークの例として,FrobeniusノルムとHessianのトレーニング損失の行列式を最小化するために特別に設計された \textit{Frob-SAM} と \textit{Det-SAM} を提示する。 また、広範な実験を通じて、一般的なフレームワークの利点を実証する。

Recently, there has been a surge in interest in developing optimization algorithms for overparameterized models as achieving generalization is believed to require algorithms with suitable biases. This interest centers on minimizing sharpness of the original loss function; the Sharpness-Aware Minimization (SAM) algorithm has proven effective. However, most literature only considers a few sharpness measures, such as the maximum eigenvalue or trace of the training loss Hessian, which may not yield meaningful insights for non-convex optimization scenarios like neural networks. Additionally, many sharpness measures are sensitive to parameter invariances in neural networks, magnifying significantly under rescaling parameters. Motivated by these challenges, we introduce a new class of sharpness measures in this paper, leading to new sharpness-aware objective functions. We prove that these measures are \textit{universally expressive}, allowing any function of the training loss Hessian matrix to be represented by appropriate hyperparameters. Furthermore, we show that the proposed objective functions explicitly bias towards minimizing their corresponding sharpness measures, and how they allow meaningful applications to models with parameter invariances (such as scale-invariances). Finally, as instances of our proposed general framework, we present \textit{Frob-SAM} and \textit{Det-SAM}, which are specifically designed to minimize the Frobenius norm and the determinant of the Hessian of the training loss, respectively. We also demonstrate the advantages of our general framework through extensive experiments.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# ベイズパワーステアリング:拡散モデルの領域適応に対する効果的なアプローチ

Bayesian Power Steering: An Effective Approach for Domain Adaptation of Diffusion Models ( http://arxiv.org/abs/2406.03683v1 )

ライセンス: Link先を確認
Ding Huang, Ting Li, Jian Huang, (参考訳) ベイジアンパワーステアリング(BPS)と呼ばれる新しいネットワーク構造を持つ大規模拡散モデルの微調整のためのベイジアンフレームワークを提案する。 本稿では, 学習可能な加群を用いた事前学習モデルの微調整の課題をベイズ的観点から検討する。 BPSは、事前学習された事前分布からタスク固有の知識を抽出する。 大規模な拡散モデルを効率よく利用し、異なる隠れた特徴をヘッドヘビーでフットライトな構成で区別する。 実験は、限られた量のデータであっても、様々なタスクにわたる現代的な手法よりもBPSの方が優れていることを強調している。 特に、BPSはCOCO17データセットのスケッチ条件下で10.49のFIDスコアを取得する。

We propose a Bayesian framework for fine-tuning large diffusion models with a novel network structure called Bayesian Power Steering (BPS). We clarify the meaning behind adaptation from a \textit{large probability space} to a \textit{small probability space} and explore the task of fine-tuning pre-trained models using learnable modules from a Bayesian perspective. BPS extracts task-specific knowledge from a pre-trained model's learned prior distribution. It efficiently leverages large diffusion models, differentially intervening different hidden features with a head-heavy and foot-light configuration. Experiments highlight the superiority of BPS over contemporary methods across a range of tasks even with limited amount of data. Notably, BPS attains an FID score of 10.49 under the sketch condition on the COCO17 dataset.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# ロバストな対面防汚システムの設計原理

Principles of Designing Robust Remote Face Anti-Spoofing Systems ( http://arxiv.org/abs/2406.03684v1 )

ライセンス: Link先を確認
Xiang Xu, Tianchen Zhao, Zheng Zhang, Zhihua Li, Jon Wu, Alessandro Achille, Mani Srivastava, (参考訳) 様々な攻撃ベクトルから人間の顔のデジタルアイデンティティを保護することが最重要であり、この取り組みにおいて顔の偽造が重要な役割を担っている。 現在のアプローチは主に、プレゼンテーションアタックを検出するために、個々のフレーム内の偽造の試みを検出することに焦点を当てている。 しかし,リアルタイム操作が可能な超現実的生成モデルの出現は,デジタル攻撃のリスクを高めている。 この進化する脅威を踏まえ、本論文は2つの重要な側面に対処することを目的としている。 まず、デジタル攻撃に対する最先端の反偽造の手法の脆弱性に光を当てる。 第二に、反偽造システムに遭遇する一般的な脅威の包括的分類を示す。 一連の実験を通じて、現状の対偽検出技術の限界と、新たなデジタル攻撃シナリオへの一般化の失敗を実証した。 既存のモデルは、敵のノイズ、リアルなディープフェイク攻撃、デジタルリプレイ攻撃など、デジタルインジェクション攻撃に苦戦している。 これらの脆弱性に耐性のある堅牢な対面型防汚システムの設計と実装を支援するため,本論文では,モデルの精度と堅牢性からパイプラインの堅牢性,さらにはプラットフォームの堅牢性に至るまで,重要な設計原則を提案する。 特に,能動センサを用いたプロアクティブフェース・アンチ・スプーフィングシステムを導入し,未確認攻撃ベクトルのリスクを大幅に低減し,ユーザエクスペリエンスを向上させることを提案する。

Protecting digital identities of human face from various attack vectors is paramount, and face anti-spoofing plays a crucial role in this endeavor. Current approaches primarily focus on detecting spoofing attempts within individual frames to detect presentation attacks. However, the emergence of hyper-realistic generative models capable of real-time operation has heightened the risk of digitally generated attacks. In light of these evolving threats, this paper aims to address two key aspects. First, it sheds light on the vulnerabilities of state-of-the-art face anti-spoofing methods against digital attacks. Second, it presents a comprehensive taxonomy of common threats encountered in face anti-spoofing systems. Through a series of experiments, we demonstrate the limitations of current face anti-spoofing detection techniques and their failure to generalize to novel digital attack scenarios. Notably, the existing models struggle with digital injection attacks including adversarial noise, realistic deepfake attacks, and digital replay attacks. To aid in the design and implementation of robust face anti-spoofing systems resilient to these emerging vulnerabilities, the paper proposes key design principles from model accuracy and robustness to pipeline robustness and even platform robustness. Especially, we suggest to implement the proactive face anti-spoofing system using active sensors to significant reduce the risks for unseen attack vectors and improve the user experience.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# BindGPT:言語モデリングと強化学習による3次元分子設計のためのスケーラブルなフレームワーク

BindGPT: A Scalable Framework for 3D Molecular Design via Language Modeling and Reinforcement Learning ( http://arxiv.org/abs/2406.03686v1 )

ライセンス: Link先を確認
Artem Zholus, Maksim Kuznetsov, Roman Schutski, Rim Shayakhmetov, Daniil Polykovskiy, Sarath Chandar, Alex Zhavoronkov, (参考訳) 与えられたタンパク質に対して新規な活性分子を生成することは、分子と環境の間の複雑な物理的相互作用を理解する必要がある生成モデルにとって非常に難しい課題である。 本稿では,タンパク質結合部位内に3次元分子を創出するための概念的単純かつ強力なアプローチを用いた新規な生成モデルBidGPTを提案する。 我々のモデルは分子グラフとコンフォメーションを共同で生成し、余分なグラフ再構成ステップを不要にする。 我々は、BindGPTを大規模データセットで事前訓練し、外部シミュレーションソフトウェアからのスコアを用いて強化学習で微調整する。 本研究では,1つの事前学習言語モデルが3次元分子生成モデル,分子グラフ上に条件付きコンフォメータジェネレータ,ポケットコンディショニングされた3次元分子ジェネレータとして同時に機能することを示す。 特に、モデルは生成領域に関する表現的同値な仮定を一切行わない。 このような単純な概念的アプローチと事前学習とスケーリングの組み合わせが、現在の最高の特殊拡散モデル、言語モデル、グラフニューラルネットワークよりも2桁も安くサンプリングできることを示す。

Generating novel active molecules for a given protein is an extremely challenging task for generative models that requires an understanding of the complex physical interactions between the molecule and its environment. In this paper, we present a novel generative model, BindGPT which uses a conceptually simple but powerful approach to create 3D molecules within the protein's binding site. Our model produces molecular graphs and conformations jointly, eliminating the need for an extra graph reconstruction step. We pretrain BindGPT on a large-scale dataset and fine-tune it with reinforcement learning using scores from external simulation software. We demonstrate how a single pretrained language model can serve at the same time as a 3D molecular generative model, conformer generator conditioned on the molecular graph, and a pocket-conditioned 3D molecule generator. Notably, the model does not make any representational equivariance assumptions about the domain of generation. We show how such simple conceptual approach combined with pretraining and scaling can perform on par or better than the current best specialized diffusion models, language models, and graph neural networks while being two orders of magnitude cheaper to sample.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# 影と光:病原体分類のためのデジタル再構成ラジオグラフィー

Shadow and Light: Digitally Reconstructed Radiographs for Disease Classification ( http://arxiv.org/abs/2406.03688v1 )

ライセンス: Link先を確認
Benjamin Hou, Qingqing Zhu, Tejas Sudarshan Mathai, Qiao Jin, Zhiyong Lu, Ronald M. Summers, (参考訳) 本稿では,最近リリースされたCT-RATEデータセットから得られた大規模人工胸部X線データセットであるDRR-RATEを紹介する。 DRR-RATEは、21,304人のユニークな患者から50,188個の前方デジタル再構成ラジオグラフィー(DRR)から構成される。 各画像は、対応する放射線学テキストレポートと18の病理学クラスのためのバイナリラベルとがペアリングされる。 DRR生成の制御可能な性質を考えると、任意の所望の視位置から横方向の視像や画像を含めることを容易にする。 これは、ペア化されたCT、様々なビュー、テキスト、バイナリラベルからのX線画像を含む新しい新しいマルチモーダルアプリケーションの研究の道を開く。 我々は,既存の大規模胸部X線リソース,特にCheXpertデータセットとCheXnetモデルと併用して,DRR-RATEの適用性を示す。 実験により、CheXnetは、DRR-RATEデータセットでトレーニングされ、テストされると、一般的な文献で引用される6つの一般的な病態(Aelectasis, Cardiomegaly, Consolidation, Lung Lesion, Lung Opacity, Pleural Effusion)に対して、高いAUCスコアを得ることができた。 さらに、CheXpertデータセットでトレーニングされたCheXnetは、分散の運用中であっても、いくつかの病理を正確に識別することができる。 この結果,CT画像からDRR画像が重要な病態の特徴を効果的に捉えていることが確認された。 データセットとラベルはhttps://huggingface.co/datasets/farrell236/DRR-RATEで公開されている。

In this paper, we introduce DRR-RATE, a large-scale synthetic chest X-ray dataset derived from the recently released CT-RATE dataset. DRR-RATE comprises of 50,188 frontal Digitally Reconstructed Radiographs (DRRs) from 21,304 unique patients. Each image is paired with a corresponding radiology text report and binary labels for 18 pathology classes. Given the controllable nature of DRR generation, it facilitates the inclusion of lateral view images and images from any desired viewing position. This opens up avenues for research into new and novel multimodal applications involving paired CT, X-ray images from various views, text, and binary labels. We demonstrate the applicability of DRR-RATE alongside existing large-scale chest X-ray resources, notably the CheXpert dataset and CheXnet model. Experiments demonstrate that CheXnet, when trained and tested on the DRR-RATE dataset, achieves sufficient to high AUC scores for the six common pathologies cited in common literature: Atelectasis, Cardiomegaly, Consolidation, Lung Lesion, Lung Opacity, and Pleural Effusion. Additionally, CheXnet trained on the CheXpert dataset can accurately identify several pathologies, even when operating out of distribution. This confirms that the generated DRR images effectively capture the essential pathology features from CT images. The dataset and labels are publicly accessible at https://huggingface.co/datasets/farrell236/DRR-RATE.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# 生成モデルにおける世界モデル含意の評価

Evaluating the World Model Implicit in a Generative Model ( http://arxiv.org/abs/2406.03689v1 )

ライセンス: Link先を確認
Keyon Vafa, Justin Y. Chen, Jon Kleinberg, Sendhil Mullainathan, Ashesh Rambachan, (参考訳) 最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。 この可能性をどのように評価するか。 この問題は、基礎となる現実が決定論的有限オートマトンによって支配されている場合に公式化する。 これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。 我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。 ゲームプレイ,ロジックパズル,ナビゲーションの3つの領域でそれらの実用性を解説する。 すべての領域において、我々が検討する生成モデルは、世界モデルを評価するための既存の診断に優れているが、我々の評価指標は、世界モデルが現れるよりもはるかに一貫性が低いことを示している。 生成モデルを使って、関連するが微妙に異なるタスクを解くと、それがひどく失敗する。 モデルの基礎となるロジックを有意義に捉えた生成モデルを構築することは、非常に価値があるでしょう。

Recent work suggests that large language models may implicitly learn world models. How should we assess this possibility? We formalize this question for the case where the underlying reality is governed by a deterministic finite automaton. This includes problems as diverse as simple logical reasoning, geographic navigation, game-playing, and chemistry. We propose new evaluation metrics for world model recovery inspired by the classic Myhill-Nerode theorem from language theory. We illustrate their utility in three domains: game playing, logic puzzles, and navigation. In all domains, the generative models we consider do well on existing diagnostics for assessing world models, but our evaluation metrics reveal their world models to be far less coherent than they appear. Such incoherence creates fragility: using a generative model to solve related but subtly different tasks can lead it to fail badly. Building generative models that meaningfully capture the underlying logic of the domains they model would be immensely valuable; our results suggest new ways to assess how close a given model is to that goal.
翻訳日:2024-06-07 18:45:29 公開日:2024-06-06
# AMPIC:大規模都市交通信号に対する適応モデル予測等化制御器

AMPIC: Adaptive Model Predictive Ising Controller for large-scale urban traffic signals ( http://arxiv.org/abs/2406.03690v1 )

ライセンス: Link先を確認
Daisuke Inoue, Hiroshi Yamashita, Kazuyuki Aihara, Hiroaki Yoshida, (参考訳) カーボン中立性を達成するためには,スムーズな交通流の実現が重要である。 交通条件を考慮した適応的な交通信号制御が注目されている。 しかし, 計算負荷が大きいため, 既存の制御手法を用いることで, 大都市全体での車両の最適走行を確保することは困難である。 本稿では,AMPIC(Adaptive Model Predictive Ising Controller)と呼ばれる,スケーラビリティと最適性の両方を保証する制御手法を提案する。 提案手法では,車両流の予測モデルを明確に考慮し,各制御区間における最適制御問題の解法としてモデル予測制御を用いる。 この最適制御問題は、いわゆるイジング問題と同等のバイナリ変数を持つ組合せ最適化問題に変換される。 この変換により、広く研究され、高速かつ効率的な最適化性能が期待されているIsingソルバが利用可能となる。 現実的な都市道路網のための微視的交通シミュレータを用いて数値実験を行った。 その結果、AMPICは従来の制御方式よりも待ち時間が少なく、より高速な走行が可能であり、結果としてCO2排出量は減少することがわかった。 長い予測地平線を持つモデル予測手法は、制御性能を効果的に向上させる。 モデル都市におけるシステムパラメトリック研究は,提案手法が大都市道路網のスムーズな交通流を実現することを示唆している。 イジング解法のうち、D-Waveの量子アニールは、妥当な計算コストで最適に近い解を見つけることが示されている。

Realizing smooth traffic flow is important for achieving carbon neutrality. Adaptive traffic signal control, which considers traffic conditions, has thus attracted attention. However, it is difficult to ensure optimal vehicle flow throughout a large city using existing control methods because of their heavy computational load. Here, we propose a control method called AMPIC (Adaptive Model Predictive Ising Controller) that guarantees both scalability and optimality. The proposed method employs model predictive control to solve an optimal control problem at each control interval with explicit consideration of a predictive model of vehicle flow. This optimal control problem is transformed into a combinatorial optimization problem with binary variables that is equivalent to the so-called Ising problem. This transformation allows us to use an Ising solver, which has been widely studied and is expected to have fast and efficient optimization performance. We performed numerical experiments using a microscopic traffic simulator for a realistic city road network. The results show that AMPIC enables faster vehicle cruising speed with less waiting time than that achieved by classical control methods, resulting in lower CO2 emissions. The model predictive approach with a long prediction horizon thus effectively improves control performance. Systematic parametric studies on model cities indicate that the proposed method realizes smoother traffic flows for large city road networks. Among Ising solvers, D-Wave's quantum annealing is shown to find near-optimal solutions at a reasonable computational cost.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# スナップショット圧縮イメージングのための未学習ニューラルネット:理論とアルゴリズム

Untrained Neural Nets for Snapshot Compressive Imaging: Theory and Algorithms ( http://arxiv.org/abs/2406.03694v1 )

ライセンス: Link先を確認
Mengyu Zhao, Xi Chen, Xin Yuan, Shirin Jalali, (参考訳) スナップショット圧縮イメージング(SCI)は、単一の2次元計測から高次元(3D)データキューブを復元する。 本稿では、DIP(Deep Image prior)などの未学習ニューラルネットワーク(UNN)を用いたSCI回復アルゴリズムに着目し、ソース構造をモデル化する。 このようなUNNベースの手法は、異なるソースモデルと異なる測定シナリオに必要とされる計算集約的な再トレーニングを避ける可能性を秘めている。 まず,これらの UNN に基づく手法の性能を特徴付ける理論的枠組みを開発する。 一方、理論的な枠組みでは、データ変調マスクのパラメータを最適化することができ、一方、トレーニングされていないNNのパラメータに対して単一の測定から復元できるデータフレームの数と基本的な接続を提供する。 我々はまた、最近提案されたbagged-deep-image-prior(bagged-DIP)のアイデアを用いて、標準NNソリューションが直面する共通の課題に対処するSCI Bagged Deep Video Prior(SCI-BDVP)アルゴリズムを開発した。 実験の結果,ビデオSCIでは提案手法がUNN手法の最先端化を実現しており,ノイズ測定では教師付き手法よりも優れていた。

Snapshot compressive imaging (SCI) recovers high-dimensional (3D) data cubes from a single 2D measurement, enabling diverse applications like video and hyperspectral imaging to go beyond standard techniques in terms of acquisition speed and efficiency. In this paper, we focus on SCI recovery algorithms that employ untrained neural networks (UNNs), such as deep image prior (DIP), to model source structure. Such UNN-based methods are appealing as they have the potential of avoiding the computationally intensive retraining required for different source models and different measurement scenarios. We first develop a theoretical framework for characterizing the performance of such UNN-based methods. The theoretical framework, on the one hand, enables us to optimize the parameters of data-modulating masks, and on the other hand, provides a fundamental connection between the number of data frames that can be recovered from a single measurement to the parameters of the untrained NN. We also employ the recently proposed bagged-deep-image-prior (bagged-DIP) idea to develop SCI Bagged Deep Video Prior (SCI-BDVP) algorithms that address the common challenges faced by standard UNN solutions. Our experimental results show that in video SCI our proposed solution achieves state-of-the-art among UNN methods, and in the case of noisy measurements, it even outperforms supervised solutions.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# FACOS: オンチェーンとオフチェーンシステムによる細粒度アクセス制御によるプライバシ保護の実現

FACOS: Enabling Privacy Protection Through Fine-Grained Access Control with On-chain and Off-chain System ( http://arxiv.org/abs/2406.03695v1 )

ライセンス: Link先を確認
Chao Liu, Cankun Hou, Tianyu Jiang, Jianting Ning, Hui Qiao, Yusen Wu, (参考訳) 金融、政府、医療全体にわたるデータ駆動の展望、継続的な情報生成は、セキュアなストレージ、効率的な普及、きめ細かいアクセス制御のための堅牢なソリューションを必要とします。 ブロックチェーン技術は重要なツールとして登場し、データセキュリティとアクセシビリティの欠如を保ちながら、分散ストレージを提供する。 しかし、オンチェーンとオフチェーンの戦略は、信頼できないオフチェーンデータストレージ、データ所有権の欠如、クライアントに対するアクセス制御ポリシーの制限、データのプライバシと監査性の欠如といった問題に直面している。 これらの課題を解決するために、ブロックチェーンベースのプライバシ保護による、チェーン上のきめ細かいアクセス制御、すなわちFACOSを提案する。 システム設計者やクライアントがシステムに対して適切なアクセス制御方法を選択するための直感的な視点を提供するため、3つのきめ細かいアクセス制御ソリューションを適用し、様々な側面でそれらを包括的に分析した。 暗号化されたデータを集中あるいは非フォールトトレラントIPFSシステムにのみ格納する同様の作業と比較して、オフチェーン環境における高効率でセキュアな非同期ビザンチンフォールトトレランス(BFT)プロトコルを利用することで、オフチェーンデータストレージのセキュリティとロバスト性を向上した。 データにアクセスする前に各クライアントを認証し、認証する必要があるため、クライアントの認証を検証するためのTrusted Execution Environment(TEE)ベースのソリューションが関与しました。 さらに,本システムでは,他の最先端設計よりもスケーラビリティと実用性に優れることを示した。

Data-driven landscape across finance, government, and healthcare, the continuous generation of information demands robust solutions for secure storage, efficient dissemination, and fine-grained access control. Blockchain technology emerges as a significant tool, offering decentralized storage while upholding the tenets of data security and accessibility. However, on-chain and off-chain strategies are still confronted with issues such as untrusted off-chain data storage, absence of data ownership, limited access control policy for clients, and a deficiency in data privacy and auditability. To solve these challenges, we propose a permissioned blockchain-based privacy-preserving fine-grained access control on-chain and off-chain system, namely FACOS. We applied three fine-grained access control solutions and comprehensively analyzed them in different aspects, which provides an intuitive perspective for system designers and clients to choose the appropriate access control method for their systems. Compared to similar work that only stores encrypted data in centralized or non-fault-tolerant IPFS systems, we enhanced off-chain data storage security and robustness by utilizing a highly efficient and secure asynchronous Byzantine fault tolerance (BFT) protocol in the off-chain environment. As each of the clients needs to be verified and authorized before accessing the data, we involved the Trusted Execution Environment (TEE)-based solution to verify the credentials of clients. Additionally, our evaluation results demonstrated that our system offers better scalability and practicality than other state-of-the-art designs.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# 最小二乗回帰のためのミニバッチ勾配勾配の離散誤差ダイナミクス

Discrete error dynamics of mini-batch gradient descent for least squares regression ( http://arxiv.org/abs/2406.03696v1 )

ライセンス: Link先を確認
Jackie Lok, Rishi Sonthalia, Elizaveta Rebrova, (参考訳) 本研究では, 最小二乗回帰に対するミニバッチ勾配勾配の離散的ダイナミクスについて検討した。 ミニバッチ勾配勾配の動的および一般化誤差は、元の特徴である$X$と一連の新機能の集合である$\widetilde{X}$のサンプル共分散行列$Z$に依存しており、各特徴は学習過程中に出現するミニバッチによって平均的に修正される。 この表現を用いて,ミニバッチとフルバッチ勾配勾配のダイナミクスが線形スケーリング則を用いて,ステップサイズに関して先行順序に一致することを厳密に証明する。 また, 連続時間勾配流解析では検出できない離散化効果について検討し, フルバッチ勾配降下とは対照的に, 最小バッチ勾配降下がステップサイズ依存解に収束することを示す。 最後に,確率論のツールを用いて,ランダム行列モデルを仮定したバッチ処理の効果を解析し,Z$のスペクトルを数値計算する。

We study the discrete dynamics of mini-batch gradient descent for least squares regression when sampling without replacement. We show that the dynamics and generalization error of mini-batch gradient descent depends on a sample cross-covariance matrix $Z$ between the original features $X$ and a set of new features $\widetilde{X}$, in which each feature is modified by the mini-batches that appear before it during the learning process in an averaged way. Using this representation, we rigorously establish that the dynamics of mini-batch and full-batch gradient descent agree up to leading order with respect to the step size using the linear scaling rule. We also study discretization effects that a continuous-time gradient flow analysis cannot detect, and show that mini-batch gradient descent converges to a step-size dependent solution, in contrast with full-batch gradient descent. Finally, we investigate the effects of batching, assuming a random matrix model, by using tools from free probability theory to numerically compute the spectrum of $Z$.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# リアルタイム高忠実度ダイナミックシーン再構成のための超点ガウス平滑化

Superpoint Gaussian Splatting for Real-Time High-Fidelity Dynamic Scene Reconstruction ( http://arxiv.org/abs/2406.03697v1 )

ライセンス: Link先を確認
Diwen Wan, Ruijie Lu, Gang Zeng, (参考訳) ダイナミックなシーンで新しいビューイメージをレンダリングするのは非常に難しい作業です。 現在の手法は主に、静的なシーンを表現するためにNeRFベースの手法と、シーンの変形をモデル化する追加の時間変化MLPを使用しており、レンダリング品質は比較的低く、推論速度も遅い。 これらの課題に対処するため,我々はSuperpoint Gaussian Splatting (SP-GS) という新しいフレームワークを提案する。 具体的には、まず明快な3Dガウスアンを用いてシーンを再構築し、同様の性質(例えば、回転、翻訳、位置)を持つガウスアンをスーパーポイントにクラスタ化する。 これらのスーパーポイントを利用して、3次元ガウススプラッティングを動的シーンに拡張し、計算コストをわずかに増加させる。 最先端のビジュアル品質と高解像度でのリアルタイムレンダリングの達成とは別に、スーパーポイント表現はより強力な操作機能を提供する。 大規模な実験は、我々のアプローチが合成データセットと実世界のデータセットの両方において実用性および有効性を示すものである。 プロジェクトページはhttps://dnvtmf.github.io/SP_GS.github.ioでご覧ください。

Rendering novel view images in dynamic scenes is a crucial yet challenging task. Current methods mainly utilize NeRF-based methods to represent the static scene and an additional time-variant MLP to model scene deformations, resulting in relatively low rendering quality as well as slow inference speed. To tackle these challenges, we propose a novel framework named Superpoint Gaussian Splatting (SP-GS). Specifically, our framework first employs explicit 3D Gaussians to reconstruct the scene and then clusters Gaussians with similar properties (e.g., rotation, translation, and location) into superpoints. Empowered by these superpoints, our method manages to extend 3D Gaussian splatting to dynamic scenes with only a slight increase in computational expense. Apart from achieving state-of-the-art visual quality and real-time rendering under high resolutions, the superpoint representation provides a stronger manipulation capability. Extensive experiments demonstrate the practicality and effectiveness of our approach on both synthetic and real-world datasets. Please see our project page at https://dnvtmf.github.io/SP_GS.github.io.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# M-QALM:質問応答による大規模言語モデルにおける臨床読解と知識リコールの評価ベンチマーク

M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering ( http://arxiv.org/abs/2406.03699v1 )

ライセンス: Link先を確認
Anand Subramanian, Viktor Schlegel, Abhinav Ramesh Kashyap, Thanh-Tung Nguyen, Vijay Prakash Dwivedi, Stefan Winkler, (参考訳) 大規模言語モデル(LLM)を適用して、医療などの高度な領域で様々なタスクを実行するための、鮮明な研究がある。 それらの人気にもかかわらず、LLMが関連する知識を思い出し、臨床および生物医学領域における提示された情報と組み合わせることができる範囲の理解と貢献要因が欠如している。 このギャップに対処するために、我々は、22のデータセットを3つのジェネラリストと3つの専門的なバイオメディカルサブドメインで大規模に研究するために、Multiple Choice and Abstractive Question Answeringを使用します。 15個のLLMの性能を多面的に分析し、さらに知識とモデルアーキテクチャの源泉であるサブドメインによって分解し、リコールと理解の改善につながる命令チューニングなどの成功要因を明らかにする。 さらに、最近提案されたドメイン適応モデルでは十分な知識が不足している可能性があるが、収集した医療知識データセットを直接微調整することで、未確認のサブドメインへの一般化が促進されることを示す。 我々は、必要な知識を単に思い出し、提示されたコンテキストと統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー分析で定量的結果を補完する。 この分野での研究・協力を促進するため、我々は、言語モデルにおける臨床知識表現学習のさらなる進歩を促進するために、M-QALM、我々の資源、標準化された方法論、評価結果を研究コミュニティと共有する。

There is vivid research on adapting Large Language Models (LLMs) to perform a variety of tasks in high-stakes domains such as healthcare. Despite their popularity, there is a lack of understanding of the extent and contributing factors that allow LLMs to recall relevant knowledge and combine it with presented information in the clinical and biomedical domain: a fundamental pre-requisite for success on down-stream tasks. Addressing this gap, we use Multiple Choice and Abstractive Question Answering to conduct a large-scale empirical study on 22 datasets in three generalist and three specialist biomedical sub-domains. Our multifaceted analysis of the performance of 15 LLMs, further broken down by sub-domain, source of knowledge and model architecture, uncovers success factors such as instruction tuning that lead to improved recall and comprehension. We further show that while recently proposed domain-adapted models may lack adequate knowledge, directly fine-tuning on our collected medical knowledge datasets shows encouraging results, even generalising to unseen specialist sub-domains. We complement the quantitative results with a skill-oriented manual error analysis, which reveals a significant gap between the models' capabilities to simply recall necessary knowledge and to integrate it with the presented context. To foster research and collaboration in this field we share M-QALM, our resources, standardised methodology, and evaluation results, with the research community to facilitate further advancements in clinical knowledge representation learning within language models.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# DSNet: セマンティックセグメンテーションでアトラスな畳み込みを利用する新しい方法

DSNet: A Novel Way to Use Atrous Convolutions in Semantic Segmentation ( http://arxiv.org/abs/2406.03702v1 )

ライセンス: Link先を確認
Zilu Guo, Liuyang Bian, Xuan Huang, Hu Wei, Jingyu Li, Huasheng Ni, (参考訳) アラス的畳み込みは、意味的セグメンテーションタスクにおける受容的場を増大させる方法として用いられる。 しかし、従来のセマンティックセグメンテーションでは、モデルの浅い層にはほとんど使われなかった。 我々は、現代の畳み込みニューラルネットワーク(CNN)におけるアトラス畳み込みの設計を再考し、アトラス畳み込みを適用するために大きなカーネルを使用するという概念がより強力なパラダイムであることを示す。 より効率的にアトラス畳み込みを適用するための3つのガイドラインを提案する。 これらのガイドラインに従って,モデルアーキテクチャの浅い層にアトラスな畳み込みを組み込んだDual-Branch CNNアーキテクチャであるDSNetを提案する。 このアプローチの有効性を示すため,私たちのモデルはADE20K,Cityscapes,BDDデータセット上での精度と速度の新たな最先端のトレードオフを実現する。 具体的には、DSNetはADE20Kで推論速度179.2 FPSで40.0% mIOU、Cityscapesで81.9 FPSで80.4% mIOUを達成した。 ソースコードとモデルはGithubで入手できる。

Atrous convolutions are employed as a method to increase the receptive field in semantic segmentation tasks. However, in previous works of semantic segmentation, it was rarely employed in the shallow layers of the model. We revisit the design of atrous convolutions in modern convolutional neural networks (CNNs), and demonstrate that the concept of using large kernels to apply atrous convolutions could be a more powerful paradigm. We propose three guidelines to apply atrous convolutions more efficiently. Following these guidelines, we propose DSNet, a Dual-Branch CNN architecture, which incorporates atrous convolutions in the shallow layers of the model architecture, as well as pretraining the nearly entire encoder on ImageNet to achieve better performance. To demonstrate the effectiveness of our approach, our models achieve a new state-of-the-art trade-off between accuracy and speed on ADE20K, Cityscapes and BDD datasets. Specifically, DSNet achieves 40.0% mIOU with inference speed of 179.2 FPS on ADE20K, and 80.4% mIOU with speed of 81.9 FPS on Cityscapes. Source code and models are available at Github: https://github.com/takaniwa/DSNet.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# 自動応答セグメンテーションを用いたラベルなし文書からの会話の合成

Synthesizing Conversations from Unlabeled Documents using Automatic Response Segmentation ( http://arxiv.org/abs/2406.03703v1 )

ライセンス: Link先を確認
Fanyou Wu, Weijie Xu, Chandan K. Reddy, Srinivasan H. Sengamedu, (参考訳) 本研究では,会話型質問応答(ConvQA)システムの開発を阻害する不適切な,コストのかかるトレーニングデータに挑戦する。 企業には、さまざまな内部文書の大規模なコーパスがある。 検索エンジンに頼るのではなく、これらの文書を理解するためのより魅力的なアプローチは、対話システムを作ることだ。 本稿では,ロバストなダイアログ合成手法を提案する。 文境界におけるセグメンテーションを使わずに,ダイアログタスクのためのデータのセグメンテーションを学習する。 提案手法により生成された合成データセットは, WikiDialogと比較して, 機械と人による評価により, 優れた品質を実現する。 ConvQA検索システムの事前学習に塗布したデータを用いることで,OR-QuACベンチマークの性能が顕著に向上することを確認した。

In this study, we tackle the challenge of inadequate and costly training data that has hindered the development of conversational question answering (ConvQA) systems. Enterprises have a large corpus of diverse internal documents. Instead of relying on a searching engine, a more compelling approach for people to comprehend these documents is to create a dialogue system. In this paper, we propose a robust dialog synthesising method. We learn the segmentation of data for the dialog task instead of using segmenting at sentence boundaries. The synthetic dataset generated by our proposed method achieves superior quality when compared to WikiDialog, as assessed through machine and human evaluations. By employing our inpainted data for ConvQA retrieval system pre-training, we observed a notable improvement in performance across OR-QuAC benchmarks.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# 重要でないものを除く:継続的アクション・マスキングによる強化学習に着目して

Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking ( http://arxiv.org/abs/2406.03704v1 )

ライセンス: Link先を確認
Roland Stolz, Hanna Krasowski, Jakob Thumm, Michael Eichelbeck, Philipp Gassert, Matthias Althoff, (参考訳) 強化学習(RL)における連続的な行動空間は、一般に間隔集合として定義される。 インターバルは通常、タスクのアクション境界をよく反映するが、一般的には大きなグローバルなアクション空間は、無関係なアクションを頻繁に探索するので、学習には困難である。 しかし、関連するアクションのより小さな状態固有の集合を特定するのに十分なタスク知識はほとんどない。 これらの関連する行動について学ぶことは、トレーニングの効率と効果を著しく改善する。 本稿では,関連するアクションの集合に焦点をあて,関連するアクションの集合にアクション空間を正確にマッピングする3つの連続的なアクションマスキング手法を提案する。 そこで本手法は,RLエージェントの予測可能性を高め,安全クリティカルなアプリケーションでの使用を可能にする。 さらに,提案手法が政策勾配に与える影響について考察する。 PPO(Proximal Policy Optimization)を用いて,システムダイナミクスと関連する状態セットに基づいて,関連するアクションセットが計算される3つの制御タスクの手法を評価する。 実験の結果,3つの行動マスキング法は,行動マスキングを伴わないベースラインよりも高い最終報酬を達成し,より高速に収束することがわかった。

Continuous action spaces in reinforcement learning (RL) are commonly defined as interval sets. While intervals usually reflect the action boundaries for tasks well, they can be challenging for learning because the typically large global action space leads to frequent exploration of irrelevant actions. Yet, little task knowledge can be sufficient to identify significantly smaller state-specific sets of relevant actions. Focusing learning on these relevant actions can significantly improve training efficiency and effectiveness. In this paper, we propose to focus learning on the set of relevant actions and introduce three continuous action masking methods for exactly mapping the action space to the state-dependent set of relevant actions. Thus, our methods ensure that only relevant actions are executed, enhancing the predictability of the RL agent and enabling its use in safety-critical applications. We further derive the implications of the proposed methods on the policy gradient. Using Proximal Policy Optimization (PPO), we evaluate our methods on three control tasks, where the relevant action set is computed based on the system dynamics and a relevant state set. Our experiments show that the three action masking methods achieve higher final rewards and converge faster than the baseline without action masking.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# 三角交換専用スピン量子ビットのコヒーレント制御

Coherent control of a triangular exchange-only spin qubit ( http://arxiv.org/abs/2406.03705v1 )

ライセンス: Link先を確認
Edwin Acuna, Joseph D. Broz, Kaushal Shyamsundar, Antonio B. Mei, Colin P. Feeney, Valerie Smetanka, Tiffany Davis, Kangmu Lee, Maxwell D. Choi, Brydon Boyd, June Suh, Wonill D. Ha, Cameron Jennings, Andrew S. Pan, Daniel S. Sanchez, Matthew D. Reed, Jason R. Petta, (参考訳) 我々は、3電子交換のみのスピン量子ビットのコヒーレント制御と、近接した三角形形状に配置された量子ドットとの整合制御を実証する。 この装置は、一対の電荷安定性図で示されるように、各量子ドットに1つの電子を閉じ込めるように調整されている。 交換結合の時間領域制御を実証し、平均的な単一量子ゲート忠実度F=99.84%のブラインドランダム化ベンチマークを用いて量子ビット性能を特徴付ける。 コンパクトな三角形デバイス形状は、接続性の高い2次元量子ドットアレイに容易に拡張できる。

We demonstrate coherent control of a three-electron exchange-only spin qubit with the quantum dots arranged in a close-packed triangular geometry. The device is tuned to confine one electron in each quantum dot, as evidenced by pairwise charge stability diagrams. Time-domain control of the exchange coupling is demonstrated and qubit performance is characterized using blind randomized benchmarking, with an average single-qubit gate fidelity F = 99.84%. The compact triangular device geometry can be readily scaled to larger two-dimensional quantum dot arrays with high connectivity.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# マルチモーダルコンテキストと大規模言語モデルによる音声コーデックに基づくゼロショット音声合成の改良

Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model ( http://arxiv.org/abs/2406.03706v1 )

ライセンス: Link先を確認
Jinlong Xue, Yayue Deng, Yicheng Han, Yingming Gao, Ya Li, (参考訳) 大規模言語モデル(LLM)の最近の進歩と音声コーデックの開発は、ゼロショットTSを大いに推進している。 パーソナライズされた音声を、目に見えない話者の3秒の音声のみを音響的プロンプトとして合成することができる。 しかし、これらは短い音声プロンプトしかサポートせず、オーディオブックや会話型TSシナリオで必要とされるような、より長い文脈情報を利用することはできない。 本稿では,音声コーデックをベースとした新しいTSモデルを提案する。 Qformerの成功に触発されて,付加的なマルチモーダルコンテキスト情報を利用するマルチモーダルコンテキスト強化Qformer(MMCE-Qformer)を提案する。 さらに,事前学習したLLMを用いて意味的トークンを予測し,SoundStormを用いて音響トークンを生成することにより,音質や話者の類似性を向上する。 対象および主観的評価は,提案手法が様々な状況におけるTSシナリオにおいて,ベースラインよりも優れていることを示す。

Recent advances in large language models (LLMs) and development of audio codecs greatly propel the zero-shot TTS. They can synthesize personalized speech with only a 3-second speech of an unseen speaker as acoustic prompt. However, they only support short speech prompts and cannot leverage longer context information, as required in audiobook and conversational TTS scenarios. In this paper, we introduce a novel audio codec-based TTS model to adapt context features with multiple enhancements. Inspired by the success of Qformer, we propose a multi-modal context-enhanced Qformer (MMCE-Qformer) to utilize additional multi-modal context information. Besides, we adapt a pretrained LLM to leverage its understanding ability to predict semantic tokens, and use a SoundStorm to generate acoustic tokens thereby enhancing audio quality and speaker similarity. The extensive objective and subjective evaluations show that our proposed method outperforms baselines across various context TTS scenarios.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# 埋め込みは何を組み込むべきか? 潜伏分布を表わす自己回帰モデル

What Should Embeddings Embed? Autoregressive Models Represent Latent Generating Distributions ( http://arxiv.org/abs/2406.03707v1 )

ライセンス: Link先を確認
Liyi Zhang, Michael Y. Li, Thomas L. Griffiths, (参考訳) 自己回帰言語モデルはテキストから潜在構造を抽出する顕著な能力を示した。 大規模な言語モデルからの埋め込みは、言語の構文と意味論の側面を捉えるために示されている。 しかし、埋め込みは何を表現すべきなのか? 本研究では, 自己回帰予測の対象を, 観測データ列に含まれる情報を要約するために, 予測可能な統計情報を構築するアイデアに結びつけるとともに, この接続を用いて, 埋め込みの最適な内容を特定することができる3つの設定を同定する。 次に, 変圧器がこれら3種類の潜伏生成分布を符号化し, 分布外の場合, トークンを記憶しない場合において, 良好な性能を示すことを示す実験的検討を行った。

Autoregressive language models have demonstrated a remarkable ability to extract latent structure from text. The embeddings from large language models have been shown to capture aspects of the syntax and semantics of language. But what {\em should} embeddings represent? We connect the autoregressive prediction objective to the idea of constructing predictive sufficient statistics to summarize the information contained in a sequence of observations, and use this connection to identify three settings where the optimal content of embeddings can be identified: independent identically distributed data, where the embedding should capture the sufficient statistics of the data; latent state models, where the embedding should encode the posterior distribution over states given the data; and discrete hypothesis spaces, where the embedding should reflect the posterior distribution over hypotheses given the data. We then conduct empirical probing studies to show that transformers encode these three kinds of latent generating distributions, and that they perform well in out-of-distribution cases and without token memorization in these settings.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# TwinS:多変量時系列予測における非定常性の再検討

TwinS: Revisiting Non-Stationarity in Multivariate Time Series Forecasting ( http://arxiv.org/abs/2406.03710v1 )

ライセンス: Link先を確認
Jiaxi Hu, Qingsong Wen, Sijie Ruan, Li Liu, Yuxuan Liang, (参考訳) 近年,多変量時系列予測タスクの実用化が進み,様々な深層予測モデルが出現している。 しかし、実世界の時系列は非定常的な分布特性を示す。 これらの特徴は、非定常トランスフォーマーによって強調される時間変化統計特性に限らず、ネスト周期性、周期分布の欠如、時間変数間のヒステリシスの3つの重要な側面を含んでいる。 本稿では,この理論をウェーブレット解析により検証し,非定常周期分布であるウェーブレット畳み込み,周期認識,チャネル-テンポラル混合MLPの3つのモジュールからなるトランスフォーマーベースTwinSモデルを提案する。 具体的には、ウェーブレット畳み込みモデルは、ウェーブレット変換のような畳み込みカーネルサイズをスケールすることで、ネストした期間をモデル化する。 周期認識注意は、畳み込みサブネットワークを通して周期関連スコアを生成して注意計算を導く。 Channel-Temporal Mixed MLPは、チャネル時混合学習を通じて時系列間の全体的な関係をキャプチャする。 TwinSはメインストリームのTSモデルと比較してSOTAのパフォーマンスを達成し、MSEはPatchTSTよりも25.8\%向上した。

Recently, multivariate time series forecasting tasks have garnered increasing attention due to their significant practical applications, leading to the emergence of various deep forecasting models. However, real-world time series exhibit pronounced non-stationary distribution characteristics. These characteristics are not solely limited to time-varying statistical properties highlighted by non-stationary Transformer but also encompass three key aspects: nested periodicity, absence of periodic distributions, and hysteresis among time variables. In this paper, we begin by validating this theory through wavelet analysis and propose the Transformer-based TwinS model, which consists of three modules to address the non-stationary periodic distributions: Wavelet Convolution, Period-Aware Attention, and Channel-Temporal Mixed MLP. Specifically, The Wavelet Convolution models nested periods by scaling the convolution kernel size like wavelet transform. The Period-Aware Attention guides attention computation by generating period relevance scores through a convolutional sub-network. The Channel-Temporal Mixed MLP captures the overall relationships between time series through channel-time mixing learning. TwinS achieves SOTA performance compared to mainstream TS models, with a maximum improvement in MSE of 25.8\% over PatchTST.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# Pi-fusion:流体力学学習のための物理インフォームド拡散モデル

Pi-fusion: Physics-informed diffusion model for learning fluid dynamics ( http://arxiv.org/abs/2406.03711v1 )

ライセンス: Link先を確認
Jing Qiu, Jiancheng Huang, Xiangdong Zhang, Zeng Lin, Minglei Pan, Zengding Liu, Fen Miao, (参考訳) 近年,物理インフォームド・ディープ・ラーニングは物理力学を学ぶための新しいパラダイムとして開発されている。 一般的な物理インフォームド・ディープラーニング法は流体力学の学習において早期に有望であることを示しているが、流体運動が大規模粒子を含む時変軌道と見なされる現実のシナリオにおいて、任意の時間瞬時に一般化することは困難である。 データ分散学習における拡散モデルの利点に着想を得て,流体力学における速度と圧力場の時間的発展を予測する物理インフォームド拡散モデルPi-fusionを提案する。 物理インフォームド・ガイダンス・サンプリングは, 学習流体力学の精度と解釈性を向上させるために, パイフュージョンの推論手順で提案される。 さらに、相互学習に基づくトレーニング戦略を導入し、流体運動の準周期パターンを学習し、モデルの一般化性を向上させる。 提案手法は,最新の物理インフォームド深層学習法と比較することにより,合成データセットと実世界のデータセットの両方で評価される。 実験結果から, 提案手法は, 速度場と圧力場の時間的変化を予測する既存の手法よりも優れており, 前進過程の確率的推定と物理インフォームドガイダンスの抽出により, その強い一般化が確認できることがわかった。 提案されたパイ融合は、偏微分方程式によって支配される他の物理力学を学ぶ際にも一般化できる。

Physics-informed deep learning has been developed as a novel paradigm for learning physical dynamics recently. While general physics-informed deep learning methods have shown early promise in learning fluid dynamics, they are difficult to generalize in arbitrary time instants in real-world scenario, where the fluid motion can be considered as a time-variant trajectory involved large-scale particles. Inspired by the advantage of diffusion model in learning the distribution of data, we first propose Pi-fusion, a physics-informed diffusion model for predicting the temporal evolution of velocity and pressure field in fluid dynamics. Physics-informed guidance sampling is proposed in the inference procedure of Pi-fusion to improve the accuracy and interpretability of learning fluid dynamics. Furthermore, we introduce a training strategy based on reciprocal learning to learn the quasiperiodical pattern of fluid motion and thus improve the generalizability of the model. The proposed approach are then evaluated on both synthetic and real-world dataset, by comparing it with state-of-the-art physics-informed deep learning methods. Experimental results show that the proposed approach significantly outperforms existing methods for predicting temporal evolution of velocity and pressure field, confirming its strong generalization by drawing probabilistic inference of forward process and physics-informed guidance sampling. The proposed Pi-fusion can also be generalized in learning other physical dynamics governed by partial differential equations.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# 医療用大規模言語モデルに関する調査研究:技術,応用,信頼性,今後の方向性

A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions ( http://arxiv.org/abs/2406.03712v1 )

ライセンス: Link先を確認
Lei Liu, Xiaoyan Yang, Junchi Lei, Xiaoyang Liu, Yue Shen, Zhiqiang Zhang, Peng Wei, Jinjie Gu, Zhixuan Chu, Zhan Qin, Kui Ren, (参考訳) GPTシリーズモデルのような大規模言語モデル(LLM)は、人間レベルの言語の生成と理解に優れた能力を持つため、大きな注目を集めている。 最近では、LSMは医療分野における革新的で強力なアドジャンクトとして現れ、伝統的なプラクティスを変革し、医療サービス強化の新しい時代を告げている。 本調査は、医学大言語モデル(Med-LLMs)の概要を概観し、一般から医学特化領域(技術と応用)への進化の概要と、医療への転換的影響(信頼性と安全性など)について概説する。 具体的には, LLMの基本的歴史と技術から, まず医学領域における一般LLMモデルの進歩的適応と改良, 特に臨床推論, 知識グラフ, 検索強化生成, ヒューマンアライメント, マルチモーダルラーニングといった複雑な医療環境を扱う上で, LLMの性能を高める高度なアルゴリズムを考察する。 第2に、臨床意思決定支援、レポート生成、医療教育などの領域にまたがるMed-LLMの広範な応用について検討し、医療サービスの合理化と患者の成果の増大を図った。 最後に、命令的かつ責任あるイノベーションを認識し、Med-LLMsアプリケーションにおける公平性、説明責任、プライバシ、堅牢性を保証するための課題について議論する。 最後に、Med-LLMsの将来軌道を予測するための簡潔な議論を行い、Med-LLMsの鋭い拡張の道筋を特定する。 以上の知見を集約することにより、専門家や研究者にとってのMDD-LLMの潜在的な強みと限界を包括的に調査し、医療現場における責任ある環境を確保することを目指す。

Large language models (LLMs), such as GPT series models, have received substantial attention due to their impressive capabilities for generating and understanding human-level language. More recently, LLMs have emerged as an innovative and powerful adjunct in the medical field, transforming traditional practices and heralding a new era of enhanced healthcare services. This survey provides a comprehensive overview of Medical Large Language Models (Med-LLMs), outlining their evolution from general to the medical-specific domain (i.e, Technology and Application), as well as their transformative impact on healthcare (e.g., Trustworthiness and Safety). Concretely, starting from the fundamental history and technology of LLMs, we first delve into the progressive adaptation and refinements of general LLM models in the medical domain, especially emphasizing the advanced algorithms that boost the LLMs' performance in handling complicated medical environments, including clinical reasoning, knowledge graph, retrieval-augmented generation, human alignment, and multi-modal learning. Secondly, we explore the extensive applications of Med-LLMs across domains such as clinical decision support, report generation, and medical education, illustrating their potential to streamline healthcare services and augment patient outcomes. Finally, recognizing the imperative and responsible innovation, we discuss the challenges of ensuring fairness, accountability, privacy, and robustness in Med-LLMs applications. Finally, we conduct a concise discussion for anticipating possible future trajectories of Med-LLMs, identifying avenues for the prudent expansion of Med-LLMs. By consolidating above-mentioned insights, this review seeks to provide a comprehensive investigation of the potential strengths and limitations of Med-LLMs for professionals and researchers, ensuring a responsible landscape in the healthcare setting.
翻訳日:2024-06-07 18:35:44 公開日:2024-06-06
# マルチタスクインストラクションファインタニングによる一般化強化符号脆弱性検出

Generalization-Enhanced Code Vulnerability Detection via Multi-Task Instruction Fine-Tuning ( http://arxiv.org/abs/2406.03718v1 )

ライセンス: Link先を確認
Xiaohu Du, Ming Wen, Jiahao Zhu, Zifan Xie, Bin Ji, Huijun Liu, Xuanhua Shi, Hai Jin, (参考訳) Code PTM(Code Pre-trained Models)ベースの脆弱性検出は、ここ数年で有望な成果を上げている。 しかしながら、これらのモデルは、コードの脆弱性の根本原因を理解するのではなく、一般的にソースコードからラベルへの表面マッピングを学ぶため、一般化に苦慮している。 この課題に対処するため,我々は,マルチタスク学習をLLM(Large Language Models)と統合した新たなフレームワークであるVulLLMを紹介した。 具体的には、脆弱性検出タスク以外の2つの補助タスクを構築する。 まず、脆弱性の局所化タスクを構築するために脆弱性パッチを利用する。 第2に、パッチから抽出した脆弱性機能に基づいて、GPT-4を利用して脆弱性解釈タスクを構築する。 VulLLMは、複雑な脆弱性パターンを理解するために生成LDMを活用することで、脆弱性分類を革新的に強化する。 6つの大きなデータセットで実施された実験は、VulLLMが有効性、一般化、堅牢性という観点から7つの最先端モデルを上回ることを示した。

Code Pre-trained Models (CodePTMs) based vulnerability detection have achieved promising results over recent years. However, these models struggle to generalize as they typically learn superficial mapping from source code to labels instead of understanding the root causes of code vulnerabilities, resulting in poor performance in real-world scenarios beyond the training instances. To tackle this challenge, we introduce VulLLM, a novel framework that integrates multi-task learning with Large Language Models (LLMs) to effectively mine deep-seated vulnerability features. Specifically, we construct two auxiliary tasks beyond the vulnerability detection task. First, we utilize the vulnerability patches to construct a vulnerability localization task. Second, based on the vulnerability features extracted from patches, we leverage GPT-4 to construct a vulnerability interpretation task. VulLLM innovatively augments vulnerability classification by leveraging generative LLMs to understand complex vulnerability patterns, thus compelling the model to capture the root causes of vulnerabilities rather than overfitting to spurious features of a single task. The experiments conducted on six large datasets demonstrate that VulLLM surpasses seven state-of-the-art models in terms of effectiveness, generalization, and robustness.
翻訳日:2024-06-07 18:25:50 公開日:2024-06-06
# JIGMARK:拡散モデル編集に対する画像透かしの強化のためのブラックボックスアプローチ

JIGMARK: A Black-Box Approach for Enhancing Image Watermarks against Diffusion Model Edits ( http://arxiv.org/abs/2406.03720v1 )

ライセンス: Link先を確認
Minzhou Pan, Yi Zeng, Xue Lin, Ning Yu, Cho-Jui Hsieh, Peter Henderson, Ruoxi Jia, (参考訳) 本研究では,拡散モデルに基づく画像編集における画像透かしの脆弱性について検討する。 この問題に対処するため、JIGMARKを紹介する。 この第一種透かし技術は、拡散過程の直接のバックプロパゲーションを必要とせず、拡散モデルによって処理され、未処理の、一対のイメージによる対照的な学習を通じて堅牢性を高める。 以上の結果から,JIGMARKは画像品質を保ちながら,従来の透かし法に比べて拡散モデル編集のレジリエンスを著しく上回り,ベースラインを1%の偽陽性率で3倍以上の正の値を示した。 同時に、JPEG、ぼやけなどの他の従来の摂動や、しばしば大きなマージンで最先端のウォーターマーク攻撃に対するロバスト性を一貫して改善する。 さらに,画像編集から画像の導出回数を定量化するために,従来の類似度を超越した新しい指標であるHuman Aligned Variation (HAV) スコアを提案する。

In this study, we investigate the vulnerability of image watermarks to diffusion-model-based image editing, a challenge exacerbated by the computational cost of accessing gradient information and the closed-source nature of many diffusion models. To address this issue, we introduce JIGMARK. This first-of-its-kind watermarking technique enhances robustness through contrastive learning with pairs of images, processed and unprocessed by diffusion models, without needing a direct backpropagation of the diffusion process. Our evaluation reveals that JIGMARK significantly surpasses existing watermarking solutions in resilience to diffusion-model edits, demonstrating a True Positive Rate more than triple that of leading baselines at a 1% False Positive Rate while preserving image quality. At the same time, it consistently improves the robustness against other conventional perturbations (like JPEG, blurring, etc.) and malicious watermark attacks over the state-of-the-art, often by a large margin. Furthermore, we propose the Human Aligned Variation (HAV) score, a new metric that surpasses traditional similarity measures in quantifying the number of image derivatives from image editing.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# テキスト属性人物探索のための属性認識型暗黙的モダリティアライメント

Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search ( http://arxiv.org/abs/2406.03721v1 )

ライセンス: Link先を確認
Xin Wang, Fangfang Liu, Zheng Li, Caili Guo, (参考訳) テキスト属性人物検索は、指定された歩行者を目撃者記述で検索する場面において非常に有意義な、与えられたテキスト属性を通して特定の歩行者を見つけることを目的としている。 重要な課題は、テキスト属性と画像の間の大きなモダリティギャップである。 従来は、単調な事前学習モデルによる明示的な表現とアライメントの実現に重点が置かれていた。 それでも、これらのモデルにモダリティ間の対応がないことは、モダリティ内情報の局所的な情報に歪みをもたらす可能性がある。 さらに、これらの手法は、モダリティ間のアライメントのみを考慮し、異なる属性カテゴリの違いを無視した。 上記の問題を緩和するため,テキスト属性と画像間の局所的な表現の対応を学習し,グローバルな表現マッチングを組み合わせ,モダリティギャップを狭めるためのAIMA(Attribute-Aware Implicit Modality Alignment)フレームワークを提案する。 まず,CLIPモデルをバックボーンとして導入し,属性の組み合わせを構造化文に変換するテンプレートを設計する。 これにより、モデルが画像の詳細をよりよく理解し、一致させることができるようになります。 次に,マルチモーダルインタラクションによる画像とテキスト属性の相互作用後のマスキング属性を予測し,暗黙的な局所関係アライメントを実現するMasked Attribute Prediction (MAP) モジュールを設計する。 最後に,Attribute-IoU Guided intra-Modal Contrastive (A-IoU IMC)ロスを提案する。 Market-1501 Attribute, PETA, PA100Kデータセットの大規模な実験により, 提案手法の性能が現在の最先端手法を大きく上回っていることが示された。

Text attribute person search aims to find specific pedestrians through given textual attributes, which is very meaningful in the scene of searching for designated pedestrians through witness descriptions. The key challenge is the significant modality gap between textual attributes and images. Previous methods focused on achieving explicit representation and alignment through unimodal pre-trained models. Nevertheless, the absence of inter-modality correspondence in these models may lead to distortions in the local information of intra-modality. Moreover, these methods only considered the alignment of inter-modality and ignored the differences between different attribute categories. To mitigate the above problems, we propose an Attribute-Aware Implicit Modality Alignment (AIMA) framework to learn the correspondence of local representations between textual attributes and images and combine global representation matching to narrow the modality gap. Firstly, we introduce the CLIP model as the backbone and design prompt templates to transform attribute combinations into structured sentences. This facilitates the model's ability to better understand and match image details. Next, we design a Masked Attribute Prediction (MAP) module that predicts the masked attributes after the interaction of image and masked textual attribute features through multi-modal interaction, thereby achieving implicit local relationship alignment. Finally, we propose an Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) loss, aligning the distribution of different textual attributes in the embedding space with their IoU distribution, achieving better semantic arrangement. Extensive experiments on the Market-1501 Attribute, PETA, and PA100K datasets show that the performance of our proposed method significantly surpasses the current state-of-the-art methods.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# オフライン多目的最適化

Offline Multi-Objective Optimization ( http://arxiv.org/abs/2406.03722v1 )

ライセンス: Link先を確認
Ke Xue, Rong-Xi Tan, Xiaobin Huang, Chao Qian, (参考訳) オフライン最適化は、静的データセットでブラックボックスの目的関数を最大化し、幅広いアプリケーションを持つことを目的としている。 目的関数はブラックボックスで評価に費用がかかるが、多くの複雑な現実世界の問題は複数の矛盾する目的、すなわち多目的最適化(MOO)を最適化する。 それでもオフラインMOOは、主にDesign-Bench for SOOのようなベンチマークがないため、オフライン単目的最適化(SOO)ほど進歩していない。 このギャップを埋めるために、我々はオフラインMOOのための最初のベンチマークを提案し、合成タスクから実世界のタスクまで幅広い問題をカバーしている。 このベンチマークでは、タスク、データセット、オープンソースの例が提供され、オフラインMOOにおけるメソッド比較と進歩の基礎として機能する。 さらに、データ、モデルアーキテクチャ、学習アルゴリズム、探索アルゴリズムを含む4つの基本的視点から、現在の関連手法をオフラインMOOに適合させる方法について分析する。 実験の結果、トレーニングセットの最高の値よりも改善され、オフラインMOO手法の有効性が示された。 特に顕著な方法が存在しないため、オフラインMOOの有効性をさらに向上させるには、依然としてオープンな課題がある。 オフラインMOOの今後の課題について、この新興分野に光を当てることを願って論じる。 私たちのコードは \url{https://github.com/lamda-bbo/offline-moo} で利用可能です。

Offline optimization aims to maximize a black-box objective function with a static dataset and has wide applications. In addition to the objective function being black-box and expensive to evaluate, numerous complex real-world problems entail optimizing multiple conflicting objectives, i.e., multi-objective optimization (MOO). Nevertheless, offline MOO has not progressed as much as offline single-objective optimization (SOO), mainly due to the lack of benchmarks like Design-Bench for SOO. To bridge this gap, we propose a first benchmark for offline MOO, covering a range of problems from synthetic to real-world tasks. This benchmark provides tasks, datasets, and open-source examples, which can serve as a foundation for method comparisons and advancements in offline MOO. Furthermore, we analyze how the current related methods can be adapted to offline MOO from four fundamental perspectives, including data, model architecture, learning algorithm, and search algorithm. Empirical results show improvements over the best value of the training set, demonstrating the effectiveness of offline MOO methods. As no particular method stands out significantly, there is still an open challenge in further enhancing the effectiveness of offline MOO. We finally discuss future challenges for offline MOO, with the hope of shedding some light on this emerging field. Our code is available at \url{https://github.com/lamda-bbo/offline-moo}.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# Gear-NeRF:モーション対応時空間サンプリングによる自由視点レンダリングとトラッキング

Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling ( http://arxiv.org/abs/2406.03723v1 )

ライセンス: Link先を確認
Xinhang Liu, Yu-Wing Tai, Chi-Keung Tang, Pedro Miraldo, Suhas Lohit, Moitreya Chatterjee, (参考訳) ダイナミックシーンをモデル化するためのNeRF(Neural Radiance Fields)の拡張により、近距離フォトリアリスティックで自由視点レンダリングが可能になった。 これらの手法は没入感を創出する可能性を示しているが、2つの欠点は用途を制限している。 一 計算予算が限られているときの復元品質の大幅な低下 (二)下層の意味的理解の欠如。 これらの問題に対処するために、強力な画像分割モデルからの意味情報を活用するGear-NeRFを導入する。 提案手法は,4次元の時間的セマンティック埋め込み(spatio-temporal, 4D)を学習するための基本的手法であり,その動きの程度に基づいて,シーンの動的領域の階層化モデリングを可能にするギアの概念を導入する。 このような微分により、各領域の時空間サンプリングの解像度を運動スケールに比例して調整することができ、よりフォトリアリスティックなダイナミックノベルビュー合成を実現することができる。 同時に、我々のアプローチは、ほぼ無償で、関心のあるオブジェクトのフリービューポイントトラッキングを可能にします。 本手法の有効性を実証研究により検証し,複数の課題のあるデータセットに対して,最先端のレンダリングと追跡性能を実現する。

Extensions of Neural Radiance Fields (NeRFs) to model dynamic scenes have enabled their near photo-realistic, free-viewpoint rendering. Although these methods have shown some potential in creating immersive experiences, two drawbacks limit their ubiquity: (i) a significant reduction in reconstruction quality when the computing budget is limited, and (ii) a lack of semantic understanding of the underlying scenes. To address these issues, we introduce Gear-NeRF, which leverages semantic information from powerful image segmentation models. Our approach presents a principled way for learning a spatio-temporal (4D) semantic embedding, based on which we introduce the concept of gears to allow for stratified modeling of dynamic regions of the scene based on the extent of their motion. Such differentiation allows us to adjust the spatio-temporal sampling resolution for each region in proportion to its motion scale, achieving more photo-realistic dynamic novel view synthesis. At the same time, almost for free, our approach enables free-viewpoint tracking of objects of interest - a functionality not yet achieved by existing NeRF-based methods. Empirical studies validate the effectiveness of our method, where we achieve state-of-the-art rendering and tracking performance on multiple challenging datasets.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# LLMEmbed:テキスト分類における軽量LDMの遺伝子機能の再考

LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification ( http://arxiv.org/abs/2406.03725v1 )

ライセンス: Link先を確認
Chun Liu, Hongguang Zhang, Kainan Zhao, Xinghai Ju, Lin Yang, (参考訳) LLM(Large Language Models)の興隆に伴い,様々な研究分野を中心に研究が進められている。 近年,テキスト分類の性能向上のために,プロンプトラーニングに基づく試みが数多く行われている。 しかし、これらの手法のほとんどはヒューリスティック・チェーン・オブ・ソート(CoT)に基づいており、より複雑だが効率は低い傾向にある。 本稿では, LLMに基づくテキスト分類手法を再考し, この古典的かつ困難な課題に対処するために, LLMEmbedという, 単純かつ効果的な転写学習戦略を提案する。 そこで本研究では,まず,異なるネットワーク深度で様々な軽量LCMを用いてテキスト埋め込みを適切に抽出・融合し,その堅牢性と識別性を向上し,その埋め込みを適応させて分類器を訓練する方法について検討する。 その結果,LLMEmbed は軽量 LLM バックボーンを用いて,より大規模な LLM,すなわち GPT-3 と高度なプロンプトベースの戦略に基づく最近の手法と比較して,訓練のオーバーヘッドを低く保ちながら,高い性能を達成することが示された。 LLMEmbedは,4%のモデルパラメータ,1.8%の電力消費,および1.5%のランタイムを使用するだけで,微調整をせずに,公開されているベンチマークに対して適切な精度を実現する。 コードは、https://github.com/ChunLiu-cs/LLMEmbed-ACL2024で入手できる。

With the booming of Large Language Models (LLMs), prompt-learning has become a promising method mainly researched in various research areas. Recently, many attempts based on prompt-learning have been made to improve the performance of text classification. However, most of these methods are based on heuristic Chain-of-Thought (CoT), and tend to be more complex but less efficient. In this paper, we rethink the LLM-based text classification methodology, propose a simple and effective transfer learning strategy, namely LLMEmbed, to address this classical but challenging task. To illustrate, we first study how to properly extract and fuse the text embeddings via various lightweight LLMs at different network depths to improve their robustness and discrimination, then adapt such embeddings to train the classifier. We perform extensive experiments on publicly available datasets, and the results show that LLMEmbed achieves strong performance while enjoys low training overhead using lightweight LLM backbones compared to recent methods based on larger LLMs, i.e. GPT-3, and sophisticated prompt-based strategies. Our LLMEmbed achieves adequate accuracy on publicly available benchmarks without any fine-tuning while merely use 4% model parameters, 1.8% electricity consumption and 1.5% runtime compared to its counterparts. Code is available at: https://github.com/ChunLiu-cs/LLMEmbed-ACL2024.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# Pythonにおける大きなスパースグラフのための効率的なグラフエンコーダ

Efficient Graph Encoder Embedding for Large Sparse Graphs in Python ( http://arxiv.org/abs/2406.03726v1 )

ライセンス: Link先を確認
Xihan Qin, Cencheng Shen, (参考訳) グラフは様々な研究分野におけるデータのユビキタス表現であり、グラフ埋め込みは主要な特徴をキャプチャし、固定サイズの属性を生成するための一般的な機械学習技術である。 しかし、ほとんどの最先端グラフ埋め込み手法は計算的かつ空間的に高価である。 近年,Graph Encoder Embedding (GEE) が最も高速なグラフ埋め込み技術として紹介され,様々なネットワークデータアプリケーションに適している。 実世界のデータは多くの場合、大きくスパースなグラフを伴っているため、巨大な空間は、通常冗長な計算とストレージをもたらす。 この問題に対処するため、スパース行列におけるゼロエントリの計算と保存を最適化し、ランニング時間をさらに向上する、スパースGEEの改良版(スパースGEE)を提案する。 実験により, スパース版は, 大規模なスパースグラフをPythonで実装したオリジナルのGEEと比較して, 大幅な高速化を実現しており, スパースGEEは標準ラップトップで数分で数百万のエッジを処理することができることがわかった。

Graph is a ubiquitous representation of data in various research fields, and graph embedding is a prevalent machine learning technique for capturing key features and generating fixed-sized attributes. However, most state-of-the-art graph embedding methods are computationally and spatially expensive. Recently, the Graph Encoder Embedding (GEE) has been shown as the fastest graph embedding technique and is suitable for a variety of network data applications. As real-world data often involves large and sparse graphs, the huge sparsity usually results in redundant computations and storage. To address this issue, we propose an improved version of GEE, sparse GEE, which optimizes the calculation and storage of zero entries in sparse matrices to enhance the running time further. Our experiments demonstrate that the sparse version achieves significant speedup compared to the original GEE with Python implementation for large sparse graphs, and sparse GEE is capable of processing millions of edges within minutes on a standard laptop.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# 耐久性の評価:マルチモーダルな透かしのベンチマーク

Evaluating Durability: Benchmark Insights into Multimodal Watermarking ( http://arxiv.org/abs/2406.03728v1 )

ライセンス: Link先を確認
Jielin Qiu, William Han, Xuandong Zhao, Shangbang Long, Christos Faloutsos, Lei Li, (参考訳) 大規模なモデルの開発に伴い、透かしは、著作権の主張、信頼性の検証、コンテンツ配信の監視にますます利用されている。 アプリケーションがよりマルチモーダルになるにつれて、透かし技術の有用性はさらに重要になる。 これらの透かしの有効性と信頼性は、様々な乱れへの頑丈さに大きく依存している。 しかし、現実のシナリオにおけるこれらの透かしの頑健さ、特に摂動や腐敗の下ではよく理解されていない。 本研究は,透かし技術におけるロバスト性の重要性を明らかにするために,画像およびテキスト生成モデルにより生成された透かしコンテンツの,一般的な実世界の画像破損やテキスト摂動に対するロバスト性を評価した。 今後,より堅牢な透かし技術の開発が進む可能性がある。 プロジェクトのウェブサイトは \url{https://mmwatermark-robustness.github.io/} にある。

With the development of large models, watermarks are increasingly employed to assert copyright, verify authenticity, or monitor content distribution. As applications become more multimodal, the utility of watermarking techniques becomes even more critical. The effectiveness and reliability of these watermarks largely depend on their robustness to various disturbances. However, the robustness of these watermarks in real-world scenarios, particularly under perturbations and corruption, is not well understood. To highlight the significance of robustness in watermarking techniques, our study evaluated the robustness of watermarked content generated by image and text generation models against common real-world image corruptions and text perturbations. Our results could pave the way for the development of more robust watermarking techniques in the future. Our project website can be found at \url{https://mmwatermark-robustness.github.io/}.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# メディアパイプと畳み込みニューラルネットワーク(CNN)による手話検出の強化

Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) ( http://arxiv.org/abs/2406.03729v1 )

ライセンス: Link先を確認
Aditya Raj Verma, Gagandeep Singh, Karnim Meghwal, Banawath Ramji, Praveen Kumar Dadheech, (参考訳) 本研究ではMediaPipeとCNNを組み合わせて,手話のリアルタイム検出のためのASLデータセットの効率的かつ正確な解釈を行う。 ここで提示されたシステムは、リアルタイムで手の動きをキャプチャして処理する。 目的は、何かに触れる必要なく、非常に簡単で正確で高速なコマンド入力方法を作ることであった。MediaPipeは、リアルタイムハンドトラッキング機能において強力なフレームワークの1つをサポートし、手の動きをキャプチャし、前処理することが可能で、ジェスチャー認識システムの精度が向上する。 実際、CNNとMediaPipeの統合により、リアルタイム処理モデルの使用効率が向上し、ASLデータセット上でのモデルによる精度は99.12\%となる。 このモデルはAmerican Sign Language (ASL)データセットを用いてテストされた。 その結果,確立した評価手法を用いて,既存の評価手法と比較した。 このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。 この論文で述べられているようなシステムの構築は、聴力障害のある人々を支援し、それらにアクセスできるようにする。 ASLデータセットの認識と翻訳性能を検証し,メディアパイプとCNNを用いて,アメリカの標識がWebカメラから撮影した手画像を用いて認識する文字を特定することを目的とした。

This research combines MediaPipe and CNNs for the efficient and accurate interpretation of ASL dataset for the real-time detection of sign language. The system presented here captures and processes hands' gestures in real time. the intended purpose was to create a very easy, accurate, and fast way of entering commands without the necessity of touching something.MediaPipe supports one of the powerful frameworks in real-time hand tracking capabilities for the ability to capture and preprocess hand movements, which increases the accuracy of the gesture recognition system. Actually, the integration of CNN with the MediaPipe results in higher efficiency in using the model of real-time processing.The accuracy achieved by the model on ASL datasets is 99.12\%.The model was tested using American Sign Language (ASL) datasets. The results were then compared to those of existing methods to evaluate how well it performed, using established evaluation techniques. The system will have applications in the communication, education, and accessibility domains. Making systems such as described in this paper even better will assist people with hearing impairment and make things accessible to them. We tested the recognition and translation performance on an ASL dataset and achieved better accuracy over previous models.It is meant to the research is to identify the characters that American signs recognize using hand images taken from a web camera by based on mediapipe and CNNs
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# FastGAS:インコンテキスト学習のための高速グラフベースのアノテーション選択

FastGAS: Fast Graph-based Annotation Selection for In-Context Learning ( http://arxiv.org/abs/2406.03730v1 )

ライセンス: Link先を確認
Zihan Chen, Song Wang, Cong Shen, Jundong Li, (参考訳) インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。 プロンプトの生成には大量のインスタンスからサンプルを生成してアノテートする(例えば分類タスクにラベルを追加する)必要があるため、既存の手法では、アノテーションのラベルなし例のサブセットを選択して、プロンプトの品質を高め、アノテーションのコストを同時に軽減する方法が提案されている。 しかしながら、これらの手法は、その複雑さのためにインスタンスを選択するのに長い時間を要することが多く、現実的な可能性を妨げる。 この制限に対処するため,計算オーバーヘッドを最小限に抑えつつ,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。 当初、インスタンスの類似性に基づいたデータ類似性グラフを構築した。 その後、グラフ分割アルゴリズムを用いてグラフを分割する。 各部分(つまり部分グラフ)の中で、最も代表的なノードを選択するために欲求的なアプローチを採用する。 ノードを多様な部分から集約し、対応するインスタンスに注釈を付けることで、ICLの多様な代表インスタンスの集合を識別する。 従来の手法と比較すると,提案手法はタスクに優れた性能を示すだけでなく,選択時間を大幅に短縮する。 さらに,大型LLMにおいて本手法の有効性を実証した。

In-context learning (ICL) empowers large language models (LLMs) to tackle new tasks by using a series of training instances as prompts. Since generating the prompts needs to sample from a vast pool of instances and annotate them (e.g., add labels in classification task), existing methods have proposed to select a subset of unlabeled examples for annotation, thus enhancing the quality of prompts and concurrently mitigating annotation costs. However, these methods often require a long time to select instances due to their complexity, hindering their practical viability. To address this limitation, we propose a graph-based selection method, FastGAS, designed to efficiently identify high-quality instances while minimizing computational overhead. Initially, we construct a data similarity graph based on instance similarities. Subsequently, employing a graph partitioning algorithm, we partition the graph into pieces. Within each piece (i.e., subgraph), we adopt a greedy approach to pick the most representative nodes. By aggregating nodes from diverse pieces and annotating the corresponding instances, we identify a set of diverse and representative instances for ICL. Compared to prior approaches, our method not only exhibits superior performance on different tasks but also significantly reduces selection time. In addition, we demonstrate the efficacy of our approach in LLMs of larger sizes.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# 限られた資源による品質多様性

Quality-Diversity with Limited Resources ( http://arxiv.org/abs/2406.03731v1 )

ライセンス: Link先を確認
Ren-Jian Wang, Ke Xue, Cong Guan, Chao Qian, (参考訳) 品質多様性(QD)アルゴリズムは、高品質で多様なソリューションのセットを生成するために、強力な最適化パラダイムとして登場した。 このような挑戦的な目標を達成するために、QDアルゴリズムは、大規模なアーカイブと、各イテレーションにおける大きな人口の維持を必要とし、サンプルとリソースの効率の2つの主要な問題をもたらす。 ほとんどの先進的なQDアルゴリズムはサンプル効率の改善に重点を置いているが、資源効率はある程度見過ごされている。 特に、トレーニングプロセス中のリソースオーバーヘッドにはまだ触れておらず、QDアルゴリズムの適用を妨げている。 本稿では、この重要な研究課題、すなわち、限られたリソースでQDアルゴリズムを効率的に訓練する方法を強調し、それに対応するためにRefQDと呼ばれる新しい効果的な方法を提案する。 RefQDは、ニューラルネットワークを表現部と決定部に分解し、表現部をアーカイブ内のすべての決定部と共有し、リソースオーバーヘッドを低減する。 また、古い決定部分と新しく更新された表現部分との間のミスマッチ問題に対処するための一連の戦略も採用している。 例えば、QDaxで16\%のGPUメモリ、Atariで3.7\%のGPUメモリを使用するだけでなく、サンプル効率のQDアルゴリズムと比較して、同等またはより良いパフォーマンスを達成する。 私たちのコードは \url{https://github.com/lamda-bbo/RefQD} で利用可能です。

Quality-Diversity (QD) algorithms have emerged as a powerful optimization paradigm with the aim of generating a set of high-quality and diverse solutions. To achieve such a challenging goal, QD algorithms require maintaining a large archive and a large population in each iteration, which brings two main issues, sample and resource efficiency. Most advanced QD algorithms focus on improving the sample efficiency, while the resource efficiency is overlooked to some extent. Particularly, the resource overhead during the training process has not been touched yet, hindering the wider application of QD algorithms. In this paper, we highlight this important research question, i.e., how to efficiently train QD algorithms with limited resources, and propose a novel and effective method called RefQD to address it. RefQD decomposes a neural network into representation and decision parts, and shares the representation part with all decision parts in the archive to reduce the resource overhead. It also employs a series of strategies to address the mismatch issue between the old decision parts and the newly updated representation part. Experiments on different types of tasks from small to large resource consumption demonstrate the excellent performance of RefQD: it not only uses significantly fewer resources (e.g., 16\% GPU memories on QDax and 3.7\% on Atari) but also achieves comparable or better performance compared to sample-efficient QD algorithms. Our code is available at \url{https://github.com/lamda-bbo/RefQD}.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# アドバンストトランスモデルを用いたクレジットカード不正検出

Credit Card Fraud Detection Using Advanced Transformer Model ( http://arxiv.org/abs/2406.03733v1 )

ライセンス: Link先を確認
Chang Yu, Yongshun Xu, Jin Cao, Ye Zhang, Yinxin Jin, Mengran Zhu, (参考訳) オンラインやモバイルの支払いシステムの普及に伴い、クレジットカード詐欺は金融セキュリティにとって重大な脅威となっている。 本研究は、より堅牢で正確な不正検出のための最新のTransformerモデルの革新的な応用に焦点を当てる。 データの信頼性を確保するため、データソースを慎重に処理し、データセットのバランスをとり、データの分散性の問題に対処する。 また,新しいトランスフォーマーモデルの信頼性と実用性を保証するため,SVM(Support Vector Machine),ランダムフォレスト(Random Forest),ニューラルネットワーク(Neural Network),ロジスティック回帰(Logistic Regression)など,広く採用されているモデルの性能比較を行った。 これらのモデルを、Precision、Recall、F1 Scoreといったメトリクスを使って厳格に比較した。 これらの詳細な分析と比較を通じて、読者に期待できる将来性を備えた高効率で強力なアンチフルート機構を提示する。 その結果,Transformerモデルは従来のアプリケーションに優れるだけでなく,不正検出などのニッチな分野でも大きな可能性を秘めていることがわかった。

With the proliferation of various online and mobile payment systems, credit card fraud has emerged as a significant threat to financial security. This study focuses on innovative applications of the latest Transformer models for more robust and precise fraud detection. To ensure the reliability of the data, we meticulously processed the data sources, balancing the dataset to address the issue of data sparsity significantly. We also selected highly correlated vectors to strengthen the training process.To guarantee the reliability and practicality of the new Transformer model, we conducted performance comparisons with several widely adopted models, including Support Vector Machine (SVM), Random Forest, Neural Network, and Logistic Regression. We rigorously compared these models using metrics such as Precision, Recall, and F1 Score. Through these detailed analyses and comparisons, we present to the readers a highly efficient and powerful anti-fraud mechanism with promising prospects. The results demonstrate that the Transformer model not only excels in traditional applications but also shows great potential in niche areas like fraud detection, offering a substantial advancement in the field.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# 位相振幅還元に基づく模倣学習

Phase-Amplitude Reduction-Based Imitation Learning ( http://arxiv.org/abs/2406.03735v1 )

ライセンス: Link先を確認
Satoshi Yamamori, Jun Morimoto, (参考訳) 本研究では,位相振幅低減法を用いて模倣学習フレームワークを構築することを提案する。 人間の運動軌跡を模倣することは、人間のようなロボットの動きを生み出すための有望な戦略として認識されている。 従来の動的システムに基づく模倣学習手法とは異なり,提案手法では,リミットサイクルの軌道を模倣するだけでなく,初期あるいは乱れた状態からリミットサイクルへの過渡的な動きを再現する。 そこで本手法では,障害発生直後や特定初期状態から予測不能な動作を発生させないよう,より安全な模倣学習手法を提案する。 我々はまず,簡単なリミットサイクル・アトラクタを再構築し,提案手法の有効性を検証した。 次に,提案手法と従来の手法との比較を行った。 提案手法は,従来の標準手法と比較して,目標の周期的アトラクタに収束する過渡的な動きをより正確に生成できることを確認した。 その後,本手法を実ロボットアームに適用し,周期的な人間の動きを模倣した。

In this study, we propose the use of the phase-amplitude reduction method to construct an imitation learning framework. Imitating human movement trajectories is recognized as a promising strategy for generating a range of human-like robot movements. Unlike previous dynamical system-based imitation learning approaches, our proposed method allows the robot not only to imitate a limit cycle trajectory but also to replicate the transient movement from the initial or disturbed state to the limit cycle. Consequently, our method offers a safer imitation learning approach that avoids generating unpredictable motions immediately after disturbances or from a specified initial state. We first validated our proposed method by reconstructing a simple limit-cycle attractor. We then compared the proposed approach with a conventional method on a lemniscate trajectory tracking task with a simulated robot arm. Our findings confirm that our proposed method can more accurately generate transient movements to converge on a target periodic attractor compared to the previous standard approach. Subsequently, we applied our method to a real robot arm to imitate periodic human movements.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# 離散拡散の吸収はクリーンデータの条件分布をひそかにモデル化する

Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data ( http://arxiv.org/abs/2406.03736v1 )

ライセンス: Link先を確認
Jingyang Ou, Shen Nie, Kaiwen Xue, Fengqi Zhu, Jiacheng Sun, Zhenguo Li, Chongxuan Li, (参考訳) 吸収過程を持つ離散拡散モデルは言語モデリングにおいて有望であることを示す。 推定すべき重要な量は、コンクリートスコアと呼ばれる任意の時間ステップにおける2つの遷移状態の限界確率の比率である。 本稿では, 吸収拡散の具体的なスコアを, 時間依存スカラーを解析形式で乗じて, クリーンデータの条件確率として表現できることを明らかにする。 そこで本研究では,時間非依存の条件付き確率を特徴付ける専用拡散モデルRADDを提案する。 単純さに加えて、RADはサンプリング間隔でノイズサンプルが変化しない場合に、時間に依存しないネットワークの出力をキャッシュすることで、関数評価(NFE)の数を削減できる。 RADDは最大3.5倍高速で、最強のベースラインよりも一貫して優れたパフォーマンスを実現している。 コンクリートスコアの新たな因子化に基づいて、拡散を吸収する正確な確率を単純な形式(denoising cross-entropy)に書き換え、モンテカルロ法により効率的に推定できるという驚くべき結果をさらに証明する。 結果として得られるアプローチは、具体的なスコアの元のパラメータ化にも適用される。 GPT-2スケールで5つのゼロショット言語モデリングベンチマーク(パープレキシティによって測定される)上で、最先端の離散拡散を著しく向上させる。

Discrete diffusion models with absorbing processes have shown promise in language modeling. The key quantities to be estimated are the ratios between the marginal probabilities of two transitive states at all timesteps, called the concrete score. In this paper, we reveal that the concrete score in absorbing diffusion can be expressed as conditional probabilities of clean data, multiplied by a time-dependent scalar in an analytic form. Motivated by the finding, we propose reparameterized absorbing discrete diffusion (RADD), a dedicated diffusion model that characterizes the time-independent conditional probabilities. Besides its simplicity, RADD can reduce the number of function evaluations (NFEs) by caching the output of the time-independent network when the noisy sample remains unchanged in a sampling interval. Empirically, RADD is up to 3.5 times faster while consistently achieving a better performance than the strongest baseline. Built upon the new factorization of the concrete score, we further prove a surprising result that the exact likelihood of absorbing diffusion can be rewritten to a simple form (named denoising cross-entropy) and then estimated efficiently by the Monte Carlo method. The resulting approach also applies to the original parameterization of the concrete score. It significantly advances the state-of-the-art discrete diffusion on 5 zero-shot language modeling benchmarks (measured by perplexity) at the GPT-2 scale.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# ReDistill: ピークメモリ削減のための残留エンコード蒸留

ReDistill: Residual Encoded Distillation for Peak Memory Reduction ( http://arxiv.org/abs/2406.03744v1 )

ライセンス: Link先を確認
Fang Chen, Gourav Datta, Mujahid Al Rafi, Hyeran Jeon, Meng Tang, (参考訳) ニューラルネットワークサイズの拡大と、現代のカメラセンサーによる画像解像度の向上により、ニューラルネットワークのメモリと電力需要が増大する。 ニューラルネットワークの実行中に消費される最大メモリであるピークメモリの削減は、限られたメモリ予算でエッジデバイスにニューラルネットワークをデプロイすることが重要である。 ピークメモリの削減に対する単純なアプローチは、大きなストライドでプールする機能マップのアグレッシブなダウンサンプリングであり、しばしばネットワーク性能の低下を招く。 そこで,本研究では,教師の学習者ネットワークから学習者ネットワークをアグレッシブプール方式で抽出し,学習者間のピークメモリ削減のための残差符号化蒸留(ReDistill)を提案する。 我々は,画像分類や拡散に基づく画像生成を含むコンピュータビジョンにおける複数の問題に対して蒸留法を適用した。 画像分類では、ほとんどのCNNアーキテクチャにおいて、エッジGPU上で2x-3.2xのピークメモリを出力し、精度の劣化を無視できる。 さらに,本手法は,大規模なCNNベースの教師アーキテクチャから抽出した小型視覚変換器(ViT)を用いたモデルの精度向上を実現する。 拡散型画像生成では, 提案手法により, 画像生成の多様性と忠実性を維持しつつ, 4倍低い理論的ピークメモリを有するデノナイジングネットワークが得られる。 提案手法は,他の特徴量および応答量に基づく蒸留法と比較して優れた性能を示す。

The expansion of neural network sizes and the enhancement of image resolution through modern camera sensors result in heightened memory and power demands for neural networks. Reducing peak memory, which is the maximum memory consumed during the execution of a neural network, is critical to deploy neural networks on edge devices with limited memory budget. A naive approach to reducing peak memory is aggressive down-sampling of feature maps via pooling with large stride, which often results in unacceptable degradation in network performance. To mitigate this problem, we propose residual encoded distillation (ReDistill) for peak memory reduction in a teacher-student framework, in which a student network with less memory is derived from the teacher network using aggressive pooling. We apply our distillation method to multiple problems in computer vision including image classification and diffusion based image generation. For image classification, our method yields 2x-3.2x measured peak memory on an edge GPU with negligible degradation in accuracy for most CNN based architectures. Additionally, our method yields improved test accuracy for tiny vision transformer (ViT) based models distilled from large CNN based teacher architectures. For diffusion-based image generation, our proposed distillation method yields a denoising network with 4x lower theoretical peak memory while maintaining decent diversity and fidelity for image generation. Experiments demonstrate our method's superior performance compared to other feature-based and response-based distillation methods.
翻訳日:2024-06-07 18:25:49 公開日:2024-06-06
# KG-LLMアライメントによる効率的な知識注入

Efficient Knowledge Infusion via KG-LLM Alignment ( http://arxiv.org/abs/2406.03746v1 )

ライセンス: Link先を確認
Zhouyu Jiang, Ling Zhong, Mengshu Sun, Jun Xu, Rui Sun, Hui Cai, Shuhan Luo, Zhiqiang Zhang, (参考訳) 大規模言語モデル(LLM)におけるドメイン固有知識不足の問題に対処するために,知識グラフ検索法は,知識注入の効率的かつ効率的な手法であることが証明されている。 しかし、既存のアプローチでは、公開知識グラフとタスクの特定の領域との間の知識ミスマッチと、知識グラフを用いたLLMの情報コンプライアンスの貧弱な2つの主な課題に直面している。 本稿では,ラベル付きサンプルの小さなセットと大規模コーパスを利用して,LLMによるドメイン固有の知識グラフを効率的に構築し,知識ミスマッチの問題に対処する。 さらに,3段階のKG-LLMアライメント戦略を提案する。 バイオメディカルな質問応答データセットを2つに限定して実験を行い,提案手法が既存のベースラインより優れていることを示す。

To tackle the problem of domain-specific knowledge scarcity within large language models (LLMs), knowledge graph-retrievalaugmented method has been proven to be an effective and efficient technique for knowledge infusion. However, existing approaches face two primary challenges: knowledge mismatch between public available knowledge graphs and the specific domain of the task at hand, and poor information compliance of LLMs with knowledge graphs. In this paper, we leverage a small set of labeled samples and a large-scale corpus to efficiently construct domain-specific knowledge graphs by an LLM, addressing the issue of knowledge mismatch. Additionally, we propose a three-stage KG-LLM alignment strategyto enhance the LLM's capability to utilize information from knowledge graphs. We conduct experiments with a limited-sample setting on two biomedical question-answering datasets, and the results demonstrate that our approach outperforms existing baselines.
翻訳日:2024-06-07 18:16:00 公開日:2024-06-06
# パノラマX線における症例分離と歯の分類

Instance Segmentation and Teeth Classification in Panoramic X-rays ( http://arxiv.org/abs/2406.03747v1 )

ライセンス: Link先を確認
Devichand Budagam, Ayush Kumar, Sayan Ghosh, Anuj Shrivastav, Azamat Zhanatuly Imanbayev, Iskander Rafailovich Akhmetov, Dmitrii Kaplun, Sergey Antonov, Artem Rychenkov, Gleb Cyganov, Aleksandr Sinitca, (参考訳) 歯のセグメンテーションと認識は様々な歯科応用や歯科診断において重要である。 ディープラーニングモデルを統合することで、自動的かつ正確なセグメンテーションアプローチが可能になる。 歯の分別は過去にも研究されてきたが、歯の分別と分別を同時に行う技術はいくつかしかなかった。 本稿では,パノラマX線上の歯の分類とセグメンテーションのための新しいアーキテクチャであるBB-UNetとYOLOv8の2つのディープラーニングモデルのパイプラインを提供する。 我々は YOLOv8 と U-Net の機能を利用して, 歯のセグメンテーションの質と信頼性を改善した。 提案したネットワークは平均平均精度 (mAP) と YOLOv8 と BB-UNet のダイス係数を用いて評価されている。 従来の方法と比較して, 歯の分類におけるmAPスコアは3倍に増加し, 歯のセグメンテーションにおけるダイス係数は, U-Netと比較すると10~15倍に増加した。 新しい歯科用データセットがUFBA-UESCデータセットに基づいて作成され、425個の歯科用パノラマX線のバウンディングボックスとポリゴンアノテーションが得られた。 本研究の成果は, 歯科診断分野における対象検出モデルの普及の道を開くものである。

Teeth segmentation and recognition are critical in various dental applications and dental diagnosis. Automatic and accurate segmentation approaches have been made possible by integrating deep learning models. Although teeth segmentation has been studied in the past, only some techniques were able to effectively classify and segment teeth simultaneously. This article offers a pipeline of two deep learning models, U-Net and YOLOv8, which results in BB-UNet, a new architecture for the classification and segmentation of teeth on panoramic X-rays that is efficient and reliable. We have improved the quality and reliability of teeth segmentation by utilising the YOLOv8 and U-Net capabilities. The proposed networks have been evaluated using the mean average precision (mAP) and dice coefficient for YOLOv8 and BB-UNet, respectively. We have achieved a 3\% increase in mAP score for teeth classification compared to existing methods, and a 10-15\% increase in dice coefficient for teeth segmentation compared to U-Net across different categories of teeth. A new Dental dataset was created based on UFBA-UESC dataset with Bounding-Box and Polygon annotations of 425 dental panoramic X-rays. The findings of this research pave the way for a wider adoption of object detection models in the field of dental diagnosis.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# 絡み付きバレン高原の回避

Avoiding Barren Plateaus with Entanglement ( http://arxiv.org/abs/2406.03748v1 )

ライセンス: Link先を確認
Yuhan Yao, Yoshihiko Hasegawa, (参考訳) 短期量子デバイスによる量子優位性の探索において、最適化ランドスケープをナビゲートすることは、バレンプラトー現象によって著しく妨げられる。 本研究では、量子回路アーキテクチャを変更することなく、この障害を克服する戦略を示す。 本稿では,回路を一元的2ドル設計から一元的1ドル設計に移行するための補助制御量子ビットの導入を提案し,バレンプラトーの出現率を緩和する。 次に、これらの補助量子ビットを除去して元の回路構造に戻し、ユニタリな1ドルの設計特性を保存する。 実験により,提案構造はバレンプラトー現象を効果的に緩和することが示唆された。 量子回路の最初のパラメータである$\theta_{1,1}$の勾配は、量子ビットと層の数が増えるにつれてより広い分布を示す。 これは、効果的な勾配を得る確率が高いことを示唆している。 この安定性は量子回路の効率的な訓練、特に大規模で複雑なシステムにとって重要である。 本研究は,量子回路の最適化の大幅な進歩を示し,量子コンピューティング技術のスケーラブルで実用的な実装に期待できる道筋を提供する。 このアプローチは、堅牢な量子コンピューティングパワーを必要とする量子学習やその他のアプリケーションにおいて、新たな機会を開く。

In the search for quantum advantage with near-term quantum devices, navigating the optimization landscape is significantly hampered by the barren plateaus phenomenon. This study presents a strategy to overcome this obstacle without changing the quantum circuit architecture. We propose incorporating auxiliary control qubits to shift the circuit from a unitary $2$-design to a unitary $1$-design, mitigating the prevalence of barren plateaus. We then remove these auxiliary qubits to return to the original circuit structure while preserving the unitary $1$-design properties. Our experiment suggests that the proposed structure effectively mitigates the barren plateaus phenomenon. A significant experimental finding is that the gradient of $\theta_{1,1}$, the first parameter in the quantum circuit, displays a broader distribution as the number of qubits and layers increases. This suggests a higher probability of obtaining effective gradients. This stability is critical for the efficient training of quantum circuits, especially for larger and more complex systems. The results of this study represent a significant advance in the optimization of quantum circuits and offer a promising avenue for the scalable and practical implementation of quantum computing technologies. This approach opens up new opportunities in quantum learning and other applications that require robust quantum computing power.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# NAP^2:人間の学習による自然性・プライバシー保護テキストの書き直しベンチマーク

NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human ( http://arxiv.org/abs/2406.03749v1 )

ライセンス: Link先を確認
Shuo Huang, William MacLean, Xiaoxi Kang, Anqi Wu, Lizhen Qu, Qiongkai Xu, Zhuang Li, Xingliang Yuan, Gholamreza Haffari, (参考訳) 学術や業界におけるプライバシー漏洩問題への懸念が高まっているのは、サードパーティプロバイダのNLPモデルを使用して機密テキストを処理する場合である。 これらのモデルに機密データを送信する前にプライバシを保護するために、人間による2つの一般的な戦略を用いて機密テキストを衛生化することを提案する。 一 繊細な表現を削除すること、及び 二 機密事項を抽象化して隠蔽すること。 そこで本研究では,クラウドソーシングと大規模言語モデル(LLM)の利用を通じて,最初のコーパスであるNAP^2をキュレートする。 情報ユーティリティと不自然なテキストの急激な減少につながる、差分プライバシーに基づく以前の研究と比較すると、人間にインスパイアされたアプローチは、より自然な書き直しをもたらし、プライバシー保護とデータユーティリティのバランスを改善する。

Increasing concerns about privacy leakage issues in academia and industry arise when employing NLP models from third-party providers to process sensitive texts. To protect privacy before sending sensitive data to those models, we suggest sanitizing sensitive text using two common strategies used by humans: i) deleting sensitive expressions, and ii) obscuring sensitive details by abstracting them. To explore the issues and develop a tool for text rewriting, we curate the first corpus, coined NAP^2, through both crowdsourcing and the use of large language models (LLMs). Compared to the prior works based on differential privacy, which lead to a sharp drop in information utility and unnatural texts, the human-inspired approaches result in more natural rewrites and offer an improved balance between privacy protection and data utility, as demonstrated by our extensive experiments.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# 時系列予測のための適応型マルチスケール分解フレームワーク

Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting ( http://arxiv.org/abs/2406.03751v1 )

ライセンス: Link先を確認
Yifan Hu, Peiyuan Liu, Peng Zhu, Dawei Cheng, Tao Dai, (参考訳) 時系列予測(TSF)において,トランスフォーマーベースの手法とMLPベースの手法が主要なアプローチとして登場している。 Transformerベースの手法は、長距離依存を捉えるのに優れているが、高い計算複雑性に悩まされ、過度に適合する傾向がある。 逆に、MLPに基づく手法は、時間的ダイナミクスをモデル化する際の計算効率と適応性を提供するが、複雑な時間的パターンを効果的に捉えるのに苦労する。 これらの課題に対処するため、我々は、TSFのための新しいMLPベースの適応型マルチスケール分解(AMD)フレームワークを提案する。 我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを利用してこれらのパターンを残留的に分解・集約する。 本稿では,DDIブロックと適応型マルチ予測器合成(AMS)ブロックを補完し,時間依存とチャネル依存の両方を効果的にモデル化し,自動相関を用いてマルチスケールデータ統合を改良する。 総合的な実験により、我々のAMDフレームワークは既存の手法の限界を克服するだけでなく、様々なデータセットにわたる長期的および短期的な予測タスクにおける最先端のパフォーマンスを一貫して達成し、優れた効率を示す。 コードは \url{https://github.com/TROUBADOUR000/AMD} で入手できる。

Transformer-based and MLP-based methods have emerged as leading approaches in time series forecasting (TSF). While Transformer-based methods excel in capturing long-range dependencies, they suffer from high computational complexities and tend to overfit. Conversely, MLP-based methods offer computational efficiency and adeptness in modeling temporal dynamics, but they struggle with capturing complex temporal patterns effectively. To address these challenges, we propose a novel MLP-based Adaptive Multi-Scale Decomposition (AMD) framework for TSF. Our framework decomposes time series into distinct temporal patterns at multiple scales, leveraging the Multi-Scale Decomposable Mixing (MDM) block to dissect and aggregate these patterns in a residual manner. Complemented by the Dual Dependency Interaction (DDI) block and the Adaptive Multi-predictor Synthesis (AMS) block, our approach effectively models both temporal and channel dependencies and utilizes autocorrelation to refine multi-scale data integration. Comprehensive experiments demonstrate that our AMD framework not only overcomes the limitations of existing methods but also consistently achieves state-of-the-art performance in both long-term and short-term forecasting tasks across various datasets, showcasing superior efficiency. Code is available at \url{https://github.com/TROUBADOUR000/AMD}
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# RoboCoder: 基本スキルから大規模言語モデルによる一般的なタスクへのロボット学習

RoboCoder: Robotic Learning from Basic Skills to General Tasks with Large Language Models ( http://arxiv.org/abs/2406.03757v1 )

ライセンス: Link先を確認
Jingyao Li, Pengguang Chen, Sitong Wu, Chuanyang Zheng, Hong Xu, Jiaya Jia, (参考訳) LLM(Large Language Models)の出現により、ロボットタスクの見通しが向上した。 しかし、既存のベンチマークは依然として単一のタスクに限られており、一般化能力は限られている。 本研究では,ロボットの複雑な環境における一般化能力の向上を目的とした,総合的なベンチマークと自律学習フレームワークRoboCoderを紹介する。 シングルタスク学習に重点を置く従来の方法とは異なり、我々の研究は、ロボットがますます複雑なタスクに取り組むための基本的なスキルを活用できる汎用ロボットコーディングアルゴリズムの開発を強調している。 新しく提案されたベンチマークは、7つの異なるエンティティにまたがる80のマニュアルで設計されたタスクで構成されており、最小限の初期熟達から学習するモデルの能力をテストする。 初期のテストでは、GPT-4のような高度なモデルでさえ、ヒューマノイドエンティティを持つ3ショットシナリオで47%のパスレートしか達成できないことがわかった。 これらの制限に対処するため、RoboCoderフレームワークはLarge Language Models(LLM)と動的学習システムを統合する。 この適応法は顕著な改善を示し,36%の相対的な改善が得られた。 私たちのコードは解放されます。

The emergence of Large Language Models (LLMs) has improved the prospects for robotic tasks. However, existing benchmarks are still limited to single tasks with limited generalization capabilities. In this work, we introduce a comprehensive benchmark and an autonomous learning framework, RoboCoder aimed at enhancing the generalization capabilities of robots in complex environments. Unlike traditional methods that focus on single-task learning, our research emphasizes the development of a general-purpose robotic coding algorithm that enables robots to leverage basic skills to tackle increasingly complex tasks. The newly proposed benchmark consists of 80 manually designed tasks across 7 distinct entities, testing the models' ability to learn from minimal initial mastery. Initial testing revealed that even advanced models like GPT-4 could only achieve a 47% pass rate in three-shot scenarios with humanoid entities. To address these limitations, the RoboCoder framework integrates Large Language Models (LLMs) with a dynamic learning system that uses real-time environmental feedback to continuously update and refine action codes. This adaptive method showed a remarkable improvement, achieving a 36% relative improvement. Our codes will be released.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# 間欠接続ネットワークを用いた半分散平均推定のためのプライバシ保護

Privacy Preserving Semi-Decentralized Mean Estimation over Intermittently-Connected Networks ( http://arxiv.org/abs/2406.03766v1 )

ライセンス: Link先を確認
Rajarshi Saha, Mohamed Seif, Michal Yemini, Andrea J. Goldsmith, H. Vincent Poor, (参考訳) ノード間の通信が断続的に失敗しうる信頼できない無線ネットワークの異なるノードにまたがるベクトルの平均をプライベートに推定する問題を考える。 我々は半分散的な設定を採用し、断続的に接続されたリンクの影響を軽減するために、ノードは隣人と協力してローカルコンセンサスを計算し、中央サーバに中継する。 このような設定では、任意のノード間の通信は、不正な情報漏洩を防ぐために、ノードのプライバシが厳格に維持されていることを保証しなければなりません。 ノード間のデータ共有によるコラボレーニングとプライバシリークのトレードオフを調査し、続いてPriCERを提案する。 PriCERのプライバシー保証が発生する (i)暗黙的に、フレキネットワーク接続の固有の確率性を利用して、 (ii) 明確に、ノードが交換した推定値にガウス摂動を加えることにより。 ローカルおよび中央プライバシー保証は、ローカルコンセンサス中のノード間の通信や、リレーから中央サーバーへの(おそらく複数の)送信など、異なる信号を観測できる盗聴者に対して提供される。 数値シミュレーションにより理論的知見を裏付ける。 実装はhttps://github.com/rajarshisaha95/private-collaborative-relaying.comで公開しています。

We consider the problem of privately estimating the mean of vectors distributed across different nodes of an unreliable wireless network, where communications between nodes can fail intermittently. We adopt a semi-decentralized setup, wherein to mitigate the impact of intermittently connected links, nodes can collaborate with their neighbors to compute a local consensus, which they relay to a central server. In such a setting, the communications between any pair of nodes must ensure that the privacy of the nodes is rigorously maintained to prevent unauthorized information leakage. We study the tradeoff between collaborative relaying and privacy leakage due to the data sharing among nodes and, subsequently, propose PriCER: Private Collaborative Estimation via Relaying -- a differentially private collaborative algorithm for mean estimation to optimize this tradeoff. The privacy guarantees of PriCER arise (i) implicitly, by exploiting the inherent stochasticity of the flaky network connections, and (ii) explicitly, by adding Gaussian perturbations to the estimates exchanged by the nodes. Local and central privacy guarantees are provided against eavesdroppers who can observe different signals, such as the communications amongst nodes during local consensus and (possibly multiple) transmissions from the relays to the central server. We substantiate our theoretical findings with numerical simulations. Our implementation is available at https://github.com/rajarshisaha95/private-collaborative-relaying.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# SVDに基づく軽量刈り込みによる文脈内学習性能の向上:理論的視点

Enhancing In-Context Learning Performance with just SVD-Based Weight Pruning: A Theoretical Perspective ( http://arxiv.org/abs/2406.03768v1 )

ライセンス: Link先を確認
Xinhao Yao, Xiaolin Hu, Shenzhi Yang, Yong Liu, (参考訳) Transformerをベースとした事前学習型大規模言語モデル (LLM) は,ICL(In-context Learning) の有能性を実証している。 数組のインプットラベルペアで、パラメータを更新することなく、見当たらないインプットのラベルを予測することができる。 本稿では,SVDによる重み付けによりICL性能が向上するエキサイティングな現象を示し,さらに驚くべきことに,深層での重み付けは浅層でのより安定した性能向上をもたらすことがしばしばある。 しかし、これらの発見の根底にあるメカニズムはまだ未解決のままである。 これらの知見を明らかにするために、我々は、ICCの暗黙の勾配降下(GD)軌道を提示し、完全な暗黙のGD軌道を介して相互情報に基づくICCの一般化境界を与えることによって、詳細な理論的解析を行う。 このことは、驚くべき実験的発見を合理的に説明するのに役立ちます。 さらに, 実験的および理論的知見のすべてに基づいて, ICL推論の強化における下流タスクのための, 単純かつモデル圧縮, 微分自由なアルゴリズムを直感的に提案する。 ベンチマークデータセットとオープンソースのLLMの実験では、メソッドの有効性が示されている。

Pre-trained large language models (LLMs) based on Transformer have demonstrated striking in-context learning (ICL) abilities. With a few demonstration input-label pairs, they can predict the label for an unseen input without any parameter updates. In this paper, we show an exciting phenomenon that SVD-based weight pruning can enhance ICL performance, and more surprising, pruning weights in deep layers often results in more stable performance improvements in shallow layers. However, the underlying mechanism of those findings still remains an open question. To reveal those findings, we conduct an in-depth theoretical analysis by presenting the implicit gradient descent (GD) trajectories of ICL and giving the mutual information based generalization bounds of ICL via full implicit GD trajectories. This helps us reasonably explain the surprising experimental findings. Besides, based on all our experimental and theoretical insights, we intuitively propose a simple, model-compression and derivative-free algorithm for downstream tasks in enhancing ICL inference. Experiments on benchmark datasets and open source LLMs display the method effectiveness\footnote{The code is available at \url{https://github.com/chen123CtrlS/EnhancingICL_SVDPruning}}.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# DeepRacer on Physical Track:パラメータ探索と性能評価

DeepRacer on Physical Track: Parameters Exploration and Performance Evaluation ( http://arxiv.org/abs/2406.03769v1 )

ライセンス: Link先を確認
Sinan Koparan, Bahman Javadi, (参考訳) 本稿では、AWS DeepRacerの物理的なレーストラック機能に焦点を当てる。 2つの実験が行われた。 最初の実験(実験I)は、ハイパーパラメータが物理的環境に与える影響を評価することに焦点を当てた。 勾配降下バッチサイズや損失タイプなどのハイパーパラメータは、トレーニング時間設定と同様に体系的に変更された。 第2の実験(Experiment II)では、物理的環境におけるAWS DeepRacerオブジェクトの回避について調査した。 シミュレーション環境では,勾配降下バッチサイズが高いモデルの方が勾配降下バッチサイズが低いモデルよりも優れた性能を示した。 また、物理的環境においては、勾配降下バッチサイズが128であることが好ましい。 その結果、ハマーの損失型を用いたモデルは、シミュレーションと物理環境の両方でMSEの損失型を用いたモデルよりも優れていた。 最後に、シミュレーション環境でのオブジェクトの回避は効果的であるように見えるが、これらのモデルを物理的環境に持ち込む際には、オブジェクトを避けることが顕著な課題であった。 したがって、物理的環境における物体の回避は依然としてオープンな課題である。

This paper focuses on the physical racetrack capabilities of AWS DeepRacer. Two separate experiments were conducted. The first experiment (Experiment I) focused on evaluating the impact of hyperparameters on the physical environment. Hyperparameters such as gradient descent batch size and loss type were changed systematically as well as training time settings. The second experiment (Experiment II) focused on exploring AWS DeepRacer object avoidance in the physical environment. It was uncovered that in the simulated environment, models with a higher gradient descent batch size had better performance than models with a lower gradient descent batch size. Alternatively, in the physical environment, a gradient descent batch size of 128 appears to be preferable. It was found that models using the loss type of Huber outperformed models that used the loss type of MSE in both the simulated and physical environments. Finally, object avoidance in the simulated environment appeared to be effective; however, when bringing these models to the physical environment, there was a pronounced challenge to avoid objects. Therefore, object avoidance in the physical environment remains an open challenge.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# 絡み合ったq変形状態のウェーブパケットダイナミクス

Wave packet dynamics of entangled q-deformed states ( http://arxiv.org/abs/2406.03770v1 )

ライセンス: Link先を確認
M. Rohith, S. Anupama, C. Sudheesh, (参考訳) 本稿では,Kerr型非線形媒質中の原子と相互作用する数学型q変形場の波動パケットダイナミクスについて検討する。 第一の焦点は、フォン・ノイマンのエントロピーによる絡み合いの定量化を含む、q-変形体を用いた絡み合いの生成と力学である。 2つの異なる初期q-変形状態、q-変形フォック状態およびq-変形コヒーレント状態について検討した。 絡み合いのダイナミクスは周期的、準周期的、カオス的な振る舞いの特徴を明らかにする。 非変形初期状態は、絡み合い力学におけるリバイバル近傍の波状パケットと分数的リバイバルを示すとともに、q-デフォーメーションを導入することで、これらの特徴を排除している。 q-変形はウェーブパケットのリバイバルや分数的なリバイバルに大きく影響し、わずかに導入してもその消失を引き起こした。 q の大きい値に対して、絡み合いのダイナミクスはカオス的な性質を示す。 初期変形フォック状態に適用されたビームスプリッタ型相互作用の場合、最適変形パラメータqが同定され、非変形シナリオを超える最大の絡み合いとなる。

This paper explores the wave packet dynamics of a math-type q- deformed field interacting with atoms in a Kerr-type nonlinear medium. The primary focus is on the generation and dynamics of entanglement using the q- deformed field, with the quantification of entanglement accomplished through the von Neumann entropy. Two distinct initial q-deformed states, the q-deformed Fock state, and the q-deformed coherent state, are investigated. The entanglement dynamics reveal characteristics of periodic, quasi-periodic, and chaotic behavior. Non-deformed initial states display wave packet near revivals and fractional revivals in entanglement dynamics while introducing q-deformation eliminates these features. The q-deformation significantly influences wave packet revivals and fractional revivals, with even a slight introduction causing their disappearance. For large values of q, the entanglement dynamics exhibit a chaotic nature. In the case of a beam splitter-type interaction applied to the initial deformed Fock state, an optimal deformation parameter q is identified, leading to maximum entanglement exceeding the non-deformed scenario.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# 単語内構造をモデル化した漢字レベル中国語の係り受け解析

Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure ( http://arxiv.org/abs/2406.03772v1 )

ライセンス: Link先を確認
Yang Hou, Zhenghua Li, (参考訳) 中国語で文の構文構造を明らかにすることは、単語境界が明確でないため、単語レベルのパーサーにとって大きな課題となる。 単語のレベルから文字レベルの中国語の依存性解析への移行を容易にするために,単語の内部構造をモデル化する手法を提案する。 このように、各単語レベルの依存木は、文字レベルの木の森として解釈される。 制約付きアイズナーアルゴリズムは、文字レベルの木との互換性を確保するために実装され、単語内構造のための単一のルートを保証し、これらのルート間の単語間の依存関係を確立する。 中国のツリーバンクの実験では、パイプラインフレームワークと以前のジョイントモデルの両方よりも、我々の手法が優れていることが示されている。 詳細な分析により、粗大なパース戦略により、より言語学的に妥当な単語内構造を予測することができることが明らかになった。

Revealing the syntactic structure of sentences in Chinese poses significant challenges for word-level parsers due to the absence of clear word boundaries. To facilitate a transition from word-level to character-level Chinese dependency parsing, this paper proposes modeling latent internal structures within words. In this way, each word-level dependency tree is interpreted as a forest of character-level trees. A constrained Eisner algorithm is implemented to ensure the compatibility of character-level trees, guaranteeing a single root for intra-word structures and establishing inter-word dependencies between these roots. Experiments on Chinese treebanks demonstrate the superiority of our method over both the pipeline framework and previous joint models. A detailed analysis reveals that a coarse-to-fine parsing strategy empowers the model to predict more linguistically plausible intra-word structures.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# クラウス表現からの量子力学半群のゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式の非標準導出

Nonstandard derivation of the Gorini-Kossakowski-Sudarshan-Lindblad master equation of a quantum dynamical semigroup from the Kraus representation ( http://arxiv.org/abs/2406.03775v1 )

ライセンス: Link先を確認
Yui Kuramochi, (参考訳) 有限次元量子系上の量子力学半群 $\exp(tL)$ の生成元 $L$ が、Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) 生成元(リンドブラディアンとも呼ばれる)と呼ばれる特定の形式を持つという、よく知られた定理の新たな非標準証明を与える。 この証明は、無限小超現実数 $\delta t>0$ に対する量子チャネル $\exp (\delta t L)$ のクラウス表現から始まり、その後、クラウス作用素のトレースレス成分の順序を推定する。 ジャンプ作用素は自然に、トレースレス部分の標準部分は$\sqrt{\delta t}$で割られる。 また、閉完全正の写像が閉クラウス作用素を持つという関連する事実の非標準的証明を与える。

We give a new nonstandard proof of a well-known theorem that the generator $L$ of a quantum dynamical semigroup $\exp(tL)$ on a finite-dimensional quantum system has a specific form called a Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) generator (also known as a Lindbladian) and vice versa. The proof starts from the Kraus representation of the quantum channel $\exp (\delta t L)$ for an infinitesimal hyperreal number $\delta t>0$ and then estimates the orders of the traceless components of the Kraus operators. The jump operators then naturally arise as the standard parts of the traceless parts divided by $\sqrt{\delta t}$. We also give a nonstandard proof of a related fact that close completely positive maps have close Kraus operators.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# XL-HeadTags:ニュース見出しとタグの多言語生成のためのマルチモーダル検索拡張の活用

XL-HeadTags: Leveraging Multimodal Retrieval Augmentation for the Multilingual Generation of News Headlines and Tags ( http://arxiv.org/abs/2406.03776v1 )

ライセンス: Link先を確認
Faisal Tareque Shohan, Mir Tafseer Nayeem, Samsul Islam, Abu Ubaida Akash, Shafiq Joty, (参考訳) 毎日発行される何百万ものニュース記事が読者を圧倒する可能性がある。 見出しとエンティティ(トピック)タグは、読者にコンテンツが彼らの時間に値するかどうかを判断するために不可欠である。 見出し生成は広く研究されているが、タグ生成はほとんど探索されていない。 読者の注意を捉えるための簡潔さの必要性は、長い記事の中の健全な部分と関連する部分を特定するためのコンテンツ選択戦略の改善を必要としており、それによって言語モデルを効果的に導くことができる。 そこで本稿では,記事に埋め込まれた画像やキャプションなどの補助情報を活用して関連文を検索し,多言語でニュース記事の見出しとタグを生成するために,変化を伴う指導チューニングを活用することを提案する。 補助情報を利用するために、XL-HeadTagsというデータセットをコンパイルした。 広範に評価することで,両タスクに対するプラグ・アンド・プレイマルチモーダル・マルチモーダル・レトリバーの有効性を実証する。 さらに,多言語テキストの処理と評価のためのツールセットを開発し,言語間のより正確かつ効率的な分析を可能にすることにより,研究コミュニティに多大な貢献をしている。

Millions of news articles published online daily can overwhelm readers. Headlines and entity (topic) tags are essential for guiding readers to decide if the content is worth their time. While headline generation has been extensively studied, tag generation remains largely unexplored, yet it offers readers better access to topics of interest. The need for conciseness in capturing readers' attention necessitates improved content selection strategies for identifying salient and relevant segments within lengthy articles, thereby guiding language models effectively. To address this, we propose to leverage auxiliary information such as images and captions embedded in the articles to retrieve relevant sentences and utilize instruction tuning with variations to generate both headlines and tags for news articles in a multilingual context. To make use of the auxiliary information, we have compiled a dataset named XL-HeadTags, which includes 20 languages across 6 diverse language families. Through extensive evaluation, we demonstrate the effectiveness of our plug-and-play multimodal-multilingual retrievers for both tasks. Additionally, we have developed a suite of tools for processing and evaluating multilingual texts, significantly contributing to the research community by enabling more accurate and efficient analysis across languages.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# LLMの資源制約エッジデバイスへの展開に関する実証的ガイドライン

Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices ( http://arxiv.org/abs/2406.03777v1 )

ライセンス: Link先を確認
Ruiyang Qin, Dancheng Liu, Zheyu Yan, Zhaoxuan Tan, Zixuan Pan, Zhenge Jia, Meng Jiang, Ahmed Abbasi, Jinjun Xiong, Yiyu Shi, (参考訳) スケーリング法則は、大規模言語モデル(LLM)を設計するデファクトガイドラインとなっているが、トレーニングと推論の両方に無制限の計算資源を仮定して研究されている。 LLMがパーソナライズされたインテリジェントアシスタントとして使われるようになるにつれて、カスタマイズ(微調整による学習)とリソース制約のあるエッジデバイスへのデプロイがますます一般的になる。 リソースに制約のあるコンピューティング環境がパーソナライズされたLLMの設計選択にどのように影響するか、という希望的だがオープンな疑問がある。 我々はこの問題を実証的に研究する。 特に,多くの重要な設計要因間のトレードオフと,学習効率と精度に対する相互干渉の影響を考察する。 この要因は、LLMカスタマイズのための学習方法、LLMの学習に使用するパーソナライズされたデータの量、LCMのタイプとサイズ、LLMの圧縮方法、学習に要する時間、ターゲットのユースケースの難易度などである。 広範な実験とベンチマークを通じて、リソース制約のあるデバイスにLLMをデプロイするための驚くほど洞察に富んだガイドラインをいくつも描いています。 例えば、パラメータ学習とRAGの最適選択は、ダウンストリームタスクの難易度によって異なり、より長い微調整時間がモデルに役立つとは限らない。

The scaling laws have become the de facto guidelines for designing large language models (LLMs), but they were studied under the assumption of unlimited computing resources for both training and inference. As LLMs are increasingly used as personalized intelligent assistants, their customization (i.e., learning through fine-tuning) and deployment onto resource-constrained edge devices will become more and more prevalent. An urging but open question is how a resource-constrained computing environment would affect the design choices for a personalized LLM. We study this problem empirically in this work. In particular, we consider the tradeoffs among a number of key design factors and their intertwined impacts on learning efficiency and accuracy. The factors include the learning methods for LLM customization, the amount of personalized data used for learning customization, the types and sizes of LLMs, the compression methods of LLMs, the amount of time afforded to learn, and the difficulty levels of the target use cases. Through extensive experimentation and benchmarking, we draw a number of surprisingly insightful guidelines for deploying LLMs onto resource-constrained devices. For example, an optimal choice between parameter learning and RAG may vary depending on the difficulty of the downstream task, the longer fine-tuning time does not necessarily help the model, and a compressed LLM may be a better choice than an uncompressed LLM to learn from limited personalized data.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# 時空双対アダマール格子の作用素ダイナミクスと絡み合い

Operator dynamics and entanglement in space-time dual Hadamard lattices ( http://arxiv.org/abs/2406.03781v1 )

ライセンス: Link先を確認
Pieter W. Claeys, Austen Lamacraft, (参考訳) 空間格子上および離散時間で定義された多体量子力学(ストロボスコープフロケ系または量子回路)は、ここ数年研究の活発な領域であった。 空間と時間において離散的であると、自然な疑問が生じる: いつそのようなモデルは時とともに空間において一元的に進化すると見なすことができるのか? この性質を持つモデルは時空双対性(英語版)と呼ばれることもあるが、絡み合い成長や相関関係に関連する多くの興味深い特徴を持っていることが示されている。 この性質が(ブリックワーク)量子回路の文脈で生じる自然な方法の1つは、双対ユニタリゲート(英語版)を選択することである。 複素分割関数によって平方格子上に定義され、時空双対性の性質を持つ$q\times q$ Hadamard行列の項で解析される、サイト毎の$q$状態を持つモデルのクラスを導入する。 これらは特定の双対ユニタリ回路や分光学的に進化するシステムと解釈し、よく研究された自己双対蹴りイジングモデルを一般化する。 我々はクリフォード回路の場合の作用素力学を探求し、クリフォードセルオートマトン(J. Math. Phys. 49, 112104 (2008))と多くの身体カオスの古典的時空間猫モデルに対する$q\to\infty$制限(非線形性34, 2800 (2021))に接続する。 我々は, 大規模サブファミリーの可積分性とそれに対応する保存電荷を確立し, 最近の論文 (Phys. B 105, 144306 (2022)) で議論された長距離絡み合いプロトコルを, 純粋にグラフィカルな用語で再解釈し, 直接適用可能であることを示す。

Many-body quantum dynamics defined on a spatial lattice and in discrete time -- either as stroboscopic Floquet systems or quantum circuits -- has been an active area of research for several years. Being discrete in space and time, a natural question arises: when can such a model be viewed as evolving unitarily in space as well as in time? Models with this property, which sometimes goes by the name space-time duality, have been shown to have a number of interesting features related to entanglement growth and correlations. One natural way in which the property arises in the context of (brickwork) quantum circuits is by choosing dual unitary gates: two site operators that are unitary in both the space and time directions. We introduce a class of models with $q$ states per site, defined on the square lattice by a complex partition function and paremeterized in terms of $q\times q$ Hadamard matrices, that have the property of space-time duality. These may interpreted as particular dual unitary circuits or stroboscopically evolving systems, and generalize the well studied self-dual kicked Ising model. We explore the operator dynamics in the case of Clifford circuits, making connections to Clifford cellular automata [J. Math. Phys. 49, 112104 (2008)] and in the $q\to\infty$ limit to the classical spatiotemporal cat model of many body chaos [Nonlinearity 34, 2800 (2021)]. We establish integrability and the corresponding conserved charges for a large subfamily and show how the long-range entanglement protocol discussed in the recent paper [Phys. Rev. B 105, 144306 (2022)] can be reinterpreted in purely graphical terms and directly applied here.
翻訳日:2024-06-07 18:15:59 公開日:2024-06-06
# 局所微分プライバシーを用いた周波数推定の最適化フレームワークとしてのカウンタ平均スケッチ

Count-mean Sketch as an Optimized Framework for Frequency Estimation with Local Differential Privacy ( http://arxiv.org/abs/2406.03785v1 )

ライセンス: Link先を確認
Mingen Pan, (参考訳) 本稿では、周波数推定のための最先端の局所微分プライベート(LDP)アルゴリズム群が、パラメータの異なるプライベート・カウンタ・ミーン・スケッチ(CMS)アルゴリズムと等価であることを示す。 そこで我々は、民間CMSを再検討し、予測と分散に関する元のCMS論文の誤りを正し、既存のバイアスを取り除くためにCMSの実装を変更し、最悪の平均二乗誤差(MSE)、$l_1$損失、$l_2$損失を減らす最適化されたCMSパラメータを探索する。 さらに、対非依存ハッシュはCMSにとって十分であり、その通信コストをすべての可能な値(辞書)の濃度の対数に還元する。 その結果、上記の最適化されたCMSは、非常に大きな辞書を扱う際に、最悪のMSE、$l_1$損失、$l_2$損失を減らすために最適化された唯一のアルゴリズムであると理論的、実証的に証明されている。 さらに、CMSの正当性を確保するためにはランダム性が必要であること、CMSの通信コストは低いが、公開や非公開のランダム性にもかかわらず避けられないことを実証する。

This paper identifies that a group of state-of-the-art locally-differentially-private (LDP) algorithms for frequency estimation are equivalent to the private Count-Mean Sketch (CMS) algorithm with different parameters. Therefore, we revisit the private CMS, correct errors in the original CMS paper regarding expectation and variance, modify the CMS implementation to eliminate existing bias, and explore optimized parameters for CMS to achieve optimality in reducing the worst-case mean squared error (MSE), $l_1$ loss, and $l_2$ loss. Additionally, we prove that pairwise-independent hashing is sufficient for CMS, reducing its communication cost to the logarithm of the cardinality of all possible values (i.e., a dictionary). As a result, the aforementioned optimized CMS is proven theoretically and empirically to be the only algorithm optimized for reducing the worst-case MSE, $l_1$ loss, and $l_2$ loss when dealing with a very large dictionary. Furthermore, we demonstrate that randomness is necessary to ensure the correctness of CMS, and the communication cost of CMS, though low, is unavoidable despite the randomness being public or private.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# 医療モニタリングにおける適応型軽量セキュリティ

Adaptive Lightweight Security for Performance Efficiency in Critical Healthcare Monitoring ( http://arxiv.org/abs/2406.03786v1 )

ライセンス: Link先を確認
Ijaz Ahmad, Faheem Shahid, Ijaz Ahmad, Johirul Islam, Kazi Nymul Haque, Erkki Harjula, (参考訳) 医療インフラは、その重要な性質のために、堅牢なセキュリティ手順、技術、およびポリシーを必要とします。 IoT(Internet of Things, モノのインターネット)とその多様な技術が、将来の医療システムにとって不可欠なコンポーネントになっているため、そのセキュリティは、リソースの制約から生じる固有のセキュリティ制限のために、徹底的な分析を必要とする。 5GのようなIoT接続に使用されている既存の通信技術は、基盤となる通信インフラストラクチャとの通信セキュリティを一定のレベルで提供する。 しかし、進化する医療パラダイムは、IoTデバイスのさまざまなリソース制約に適応可能な、適応的なセキュリティ手順と技術を必要とする。 このアダプティブセキュリティの必要性は、IoTノードやM2M接続などの5Gのセキュリティサンドボックス外のコンポーネントを考えると、特に顕著である。 この記事では、ユニークな医療監視要件を提起し、必要なセキュリティを提供するために、既存の暗号化ベースのセキュリティアプローチを研究します。 さらに、医療におけるIoTのセキュリティとパフォーマンスを最適化するための新しいアプローチ、特に遠隔患者の監視のような重要なユースケースを導入している。 最後に、実際の実装の結果は、システム性能が著しく改善されたことを示している。

The healthcare infrastructure requires robust security procedures, technologies, and policies due to its critical nature. Since the Internet of Things (IoT) with its diverse technologies has become an integral component of future healthcare systems, its security requires a thorough analysis due to its inherent security limitations that arise from resource constraints. Existing communication technologies used for IoT connectivity, such as 5G, provide communications security with the underlying communication infrastructure to a certain level. However, the evolving healthcare paradigm requires adaptive security procedures and technologies that can adapt to the varying resource constraints of IoT devices. This need for adaptive security is particularly pronounced when considering components outside the security sandbox of 5G, such as IoT nodes and M2M connections, which introduce additional security challenges. This article brings forth the unique healthcare monitoring requirements and studies the existing encryption-based security approaches to provide the necessary security. Furthermore, this research introduces a novel approach to optimizing security and performance in IoT in healthcare, particularly in critical use cases such as remote patient monitoring. Finally, the results from the practical implementation demonstrate a marked improvement in the system performance.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# 確率制約付き多層構成最適化のための射影自由変数削減法

Projection-Free Variance Reduction Methods for Stochastic Constrained Multi-Level Compositional Optimization ( http://arxiv.org/abs/2406.03787v1 )

ライセンス: Link先を確認
Wei Jiang, Sifan Yang, Wenhao Yang, Yibo Wang, Yuanyu Wan, Lijun Zhang, (参考訳) 本稿では,確率的制約付きマルチレベル最適化のためのプロジェクションフリーアルゴリズムについて検討する。 この文脈では、目的関数はいくつかの滑らかな関数の入れ子合成であり、決定集合は閉じて凸である。 この問題を解決するための既存のプロジェクションフリーアルゴリズムには2つの制限がある。 1) 勾配マッピング基準のみに焦点をあて、制約のない設定において最適なサンプル複雑度に一致しない。 2) その解析は凸と強凸の目的を考慮せずに、非凸函数にのみ適用可能である。 これらの問題に対処するために、新しいプロジェクションフリー分散低減アルゴリズムを導入し、それらの複雑さを異なる基準で分析する。 勾配写像の場合、我々の複雑性は既存の結果を改善し、制約のない問題に対する最適なレートに適合する。 広く使われているフランク=ウルフギャップ基準に対して、単層問題と整合する理論的な保証を提供する。 さらに、ステージワイズ適応を用いることで、凸関数と強凸関数の複雑さをさらに得ることができる。 最後に,提案手法の有効性を示す数値実験を行った。

This paper investigates projection-free algorithms for stochastic constrained multi-level optimization. In this context, the objective function is a nested composition of several smooth functions, and the decision set is closed and convex. Existing projection-free algorithms for solving this problem suffer from two limitations: 1) they solely focus on the gradient mapping criterion and fail to match the optimal sample complexities in unconstrained settings; 2) their analysis is exclusively applicable to non-convex functions, without considering convex and strongly convex objectives. To address these issues, we introduce novel projection-free variance reduction algorithms and analyze their complexities under different criteria. For gradient mapping, our complexities improve existing results and match the optimal rates for unconstrained problems. For the widely-used Frank-Wolfe gap criterion, we provide theoretical guarantees that align with those for single-level problems. Additionally, by using a stage-wise adaptation, we further obtain complexities for convex and strongly convex functions. Finally, numerical experiments on different tasks demonstrate the effectiveness of our methods.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# メッシュに依存しない時空間流予測のためのグラフU-ネットの強化

Enhancing Graph U-Nets for Mesh-Agnostic Spatio-Temporal Flow Prediction ( http://arxiv.org/abs/2406.03789v1 )

ライセンス: Link先を確認
Sunwoong Yang, Ricardo Vinuesa, Namwoo Kang, (参考訳) 本研究の目的は、複雑なジオメトリや非構造化メッシュの適用性に制限がある畳み込みニューラルネットワークに基づく従来のディープラーニングアプローチを克服することである。 グラフU-Netを用いてメッシュ非依存の時空間流場の時空間予測を改善する新しい手法を提案し,メッシュ構成の高精度な予測を可能にする。 ガウス混合モデル畳み込み演算子とノイズインジェクションアプローチを含むグラフU-Netアーキテクチャの重要な拡張は、ノードダイナミクスのモデリングにおける柔軟性の向上である: 前者は従来の畳み込み演算子と比較して予測誤差を95%削減し、後者は長期予測の堅牢性を改善し、86\%の誤差削減をもたらす。 また,提案手法を改良したグラフU-Netの帰納的および帰納的学習の視点についても検討する。 トランスダクティブ・セッティングでは、トレーニングされたグラフ内の未確認ノードの量を効果的に予測する。 インダクティブ・セッティングでは、異なる渦破断期間でメッシュ・シナリオをうまく実行し、インダクティブ・セッティングなしでトレーニングされたモデルと比較して、将来のフロー・フィールドを予測するのが98%改善された。 グラフデータのノード次元を小さくしたり復元したりせずに、プール操作をしないグラフU-Netは、各グラフの詳細な構造から学習できるため、インダクティブな設定がより優れていることが判明した。 また,正規化手法の選択がグラフU-Netの性能に大きく影響を与えることも確認した。

This study aims to overcome the conventional deep-learning approaches based on convolutional neural networks, whose applicability to complex geometries and unstructured meshes is limited due to their inherent mesh dependency. We propose novel approaches to improve mesh-agnostic spatio-temporal prediction of transient flow fields using graph U-Nets, enabling accurate prediction on diverse mesh configurations. Key enhancements to the graph U-Net architecture, including the Gaussian mixture model convolutional operator and noise injection approaches, provide increased flexibility in modeling node dynamics: the former reduces prediction error by 95\% compared to conventional convolutional operators, while the latter improves long-term prediction robustness, resulting in an error reduction of 86\%. We also investigate transductive and inductive-learning perspectives of graph U-Nets with proposed improvements. In the transductive setting, they effectively predict quantities for unseen nodes within the trained graph. In the inductive setting, they successfully perform in mesh scenarios with different vortex-shedding periods, showing 98\% improvement in predicting the future flow fields compared to a model trained without the inductive settings. It is found that graph U-Nets without pooling operations, i.e. without reducing and restoring the node dimensionality of the graph data, perform better in inductive settings due to their ability to learn from the detailed structure of each graph. Meanwhile, we also discover that the choice of normalization technique significantly impacts graph U-Net performance.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# 低リソース関係抽出のためのエンド・ツー・エンド訓練ソフトレトリバー

End-to-End Trainable Soft Retriever for Low-resource Relation Extraction ( http://arxiv.org/abs/2406.03790v1 )

ライセンス: Link先を確認
Kohei Makino, Makoto Miwa, Yutaka Sasaki, (参考訳) 本研究は、テキスト生成モデルを用いたインスタンスベースの関係抽出において重要な課題である: 対象関係抽出タスクにおけるエンドツーエンドのトレーニングは、インスタンス選択の非微分性のため、検索者に適用できない。 本稿では,$k$ 近いインスタンスのソフトで差別化可能な選択を利用したニューラルプロンプト法により,新しいエンド・ツー・エンドトラインブル・ソフト K-アレスト近傍検索器 (ETRASK) を提案する。 このアプローチにより、ターゲットタスクにおける検索者のエンドツーエンドのトレーニングが可能になる。 トレーニングデータを10\%に削減した低リソース環境でのTACREDベンチマークデータセットでは,最先端のF1スコアが71.5\%に達した。 さらに、ETRASKはすべての設定にインスタンスを追加することで、ベースラインモデルを一貫して改善した。 これらの結果は,特に資源制約環境において,関係抽出性能を高めるためのアプローチの有効性を浮き彫りにしている。 本研究は,自然言語処理におけるテキスト生成の幅広い応用と抽出による今後の研究に期待できる方向を提供する。

This study addresses a crucial challenge in instance-based relation extraction using text generation models: end-to-end training in target relation extraction task is not applicable to retrievers due to the non-differentiable nature of instance selection. We propose a novel End-to-end TRAinable Soft K-nearest neighbor retriever (ETRASK) by the neural prompting method that utilizes a soft, differentiable selection of the $k$ nearest instances. This approach enables the end-to-end training of retrievers in target tasks. On the TACRED benchmark dataset with a low-resource setting where the training data was reduced to 10\%, our method achieved a state-of-the-art F1 score of 71.5\%. Moreover, ETRASK consistently improved the baseline model by adding instances for all settings. These results highlight the efficacy of our approach in enhancing relation extraction performance, especially in resource-constrained environments. Our findings offer a promising direction for future research with extraction and the broader application of text generation in natural language processing.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# GPU上のRNN-T音声認識モデルにおける光励起グレディ復号の高速化

Speed of Light Exact Greedy Decoding for RNN-T Speech Recognition Models on GPU ( http://arxiv.org/abs/2406.03791v1 )

ライセンス: Link先を確認
Daniel Galvez, Vladimir Bataev, Hainan Xu, Tim Kaldewey, (参考訳) 現在のRNNトランスデューサ(RNN-T)モデルの推論時間の大部分はデコードに費やされている。 現在の最先端のRNN-Tデコード実装はGPUアイドルを80%程度残している。 CUDA 12.4 の新たな機能である CUDA グラフ条件ノードを活用することで,このアイドル時間を排除した RNN-T モデルのgreedy decoding をGPU ベースで実装する。 パラメータRNN-Tモデルのエンド・ツー・エンドを2.5倍高速化する。 この手法は、それぞれ11億のパラメータ RNN-T と Token と Duration Transducer モデルに適用した場合に、1.7x と 1.4x のエンドツーエンドのスピードアップを達成する「ラベルループ」代替グリーディ復号アルゴリズムにも適用できる。 この作業により、11億のパラメータ RNN-T モデルは、同じ大きさの CTC モデルよりもわずか 16% 遅いだけしか実行でき、RNN-T モデルは高いスループットの推論には適さないという一般的な信念に矛盾する。 実装はNVIDIA NeMoで利用可能である。

The vast majority of inference time for RNN Transducer (RNN-T) models today is spent on decoding. Current state-of-the-art RNN-T decoding implementations leave the GPU idle ~80% of the time. Leveraging a new CUDA 12.4 feature, CUDA graph conditional nodes, we present an exact GPU-based implementation of greedy decoding for RNN-T models that eliminates this idle time. Our optimizations speed up a 1.1 billion parameter RNN-T model end-to-end by a factor of 2.5x. This technique can applied to the "label looping" alternative greedy decoding algorithm as well, achieving 1.7x and 1.4x end-to-end speedups when applied to 1.1 billion parameter RNN-T and Token and Duration Transducer models respectively. This work enables a 1.1 billion parameter RNN-T model to run only 16% slower than a similarly sized CTC model, contradicting the common belief that RNN-T models are not suitable for high throughput inference. The implementation is available in NVIDIA NeMo.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# Light-PEFT:早期刈り込みによる軽量化パラメータ効率の良いファインチューニング

Light-PEFT: Lightening Parameter-Efficient Fine-Tuning via Early Pruning ( http://arxiv.org/abs/2406.03792v1 )

ライセンス: Link先を確認
Naibin Gu, Peng Fu, Xiyu Liu, Bowen Shen, Zheng Lin, Weiping Wang, (参考訳) パラメータ効率のよいファインチューニング(PEFT)が,大規模言語モデルの時代において,ファインチューニングの主要な手法として登場した。 しかし、既存のPEFT法は依然として訓練効率が不十分である。 第一に、訓練過程における大規模な基礎モデルの利用は、特定の微調整タスクに対して過度に冗長である。 第二に、モデルのサイズが大きくなるにつれて、経験的に付加されたPEFTモジュールのトレーニング可能なパラメータの増大は無視不可能で冗長になり、非効率になる。 タスク固有の効率的な微調整を実現するために,基礎モデルの仮設初期計画とPEFTの多官能初期計画の2つの手法を含むLight-PEFTフレームワークを提案する。 Light-PEFTフレームワークは、トレーニングの初期段階において、基礎モデルとPEFTモジュールの両方の冗長パラメータを同時に推定することを可能にする。 これらのパラメータはより効率的な微調整のために刈り取ることができる。 我々は、GLUE、SuperGLUE、QAタスク、および様々なモデルに対するアプローチを検証する。 Light-PEFTでは、基礎モデルのパラメータを40%以上刈り取ることができるが、トレーニング可能なパラメータは元のPEFT法の25%に留まる。 PEFT法を直接利用するのに対し、Light-PEFTはトレーニングと推論の高速化を実現し、メモリ使用量を削減し、PEFTの同等の性能とプラグ・アンド・プレイ機能を維持する。

Parameter-efficient fine-tuning (PEFT) has emerged as the predominant technique for fine-tuning in the era of large language models. However, existing PEFT methods still have inadequate training efficiency. Firstly, the utilization of large-scale foundation models during the training process is excessively redundant for certain fine-tuning tasks. Secondly, as the model size increases, the growth in trainable parameters of empirically added PEFT modules becomes non-negligible and redundant, leading to inefficiency. To achieve task-specific efficient fine-tuning, we propose the Light-PEFT framework, which includes two methods: Masked Early Pruning of the Foundation Model and Multi-Granularity Early Pruning of PEFT. The Light-PEFT framework allows for the simultaneous estimation of redundant parameters in both the foundation model and PEFT modules during the early stage of training. These parameters can then be pruned for more efficient fine-tuning. We validate our approach on GLUE, SuperGLUE, QA tasks, and various models. With Light-PEFT, parameters of the foundation model can be pruned by up to over 40%, while still controlling trainable parameters to be only 25% of the original PEFT method. Compared to utilizing the PEFT method directly, Light-PEFT achieves training and inference speedup, reduces memory usage, and maintains comparable performance and the plug-and-play feature of PEFT.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# マルチモーダルデータセット蒸留における低ランク類似性マイニング

Low-Rank Similarity Mining for Multimodal Dataset Distillation ( http://arxiv.org/abs/2406.03793v1 )

ライセンス: Link先を確認
Yue Xu, Zhilin Lin, Yusong Qiu, Cewu Lu, Yong-Lu Li, (参考訳) データセットの蒸留は近年急速に発展してきたが、マルチモーダルデータ(例えば画像とテキストのペア)の蒸留は、ユニークで未探索の課題を招いている。 ユニモーダルデータとは異なり、画像テキストコントラッシブラーニング(ITC)データは固有の分類に欠けており、代わりにモダリティ対応に重点を置くべきである。 本研究では,マルチモーダルデータセット蒸留のためのローランド類似度マイニング(LoRS)を提案する。 提案手法は既存のアルゴリズムに大幅な改善をもたらし、視覚言語によるデータセット蒸留の分野に多大な貢献を果たした。 画像テキストデータセット蒸留のための基礎的な合成データ設定としてLoRSを採用することを提唱する。 私たちのコードはhttps://github.com/silicx/LoRS_Distill.comから入手可能です。

Though dataset distillation has witnessed rapid development in recent years, the distillation of multimodal data, e.g., image-text pairs, poses unique and under-explored challenges. Unlike unimodal data, image-text contrastive learning (ITC) data lack inherent categorization and should instead place greater emphasis on modality correspondence. In this work, we propose Low-Rank Similarity Mining (LoRS) for multimodal dataset distillation, that concurrently distills a ground truth similarity matrix with image-text pairs, and leverages low-rank factorization for efficiency and scalability. The proposed approach brings significant improvement to the existing algorithms, marking a significant contribution to the field of visual-language dataset distillation. We advocate adopting LoRS as a foundational synthetic data setup for image-text dataset distillation. Our code is available at https://github.com/silicx/LoRS_Distill.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# 密度汎関数理論への自己整合性注入 深い平衡モデルによるハミルトン予測

Infusing Self-Consistency into Density Functional Theory Hamiltonian Prediction via Deep Equilibrium Models ( http://arxiv.org/abs/2406.03794v1 )

ライセンス: Link先を確認
Zun Wang, Chang Liu, Nianlong Zou, He Zhang, Xinran Wei, Lin Huang, Lijun Wu, Bin Shao, (参考訳) 本研究では、密度汎関数理論(DFT)予測にDeep Equilibrium Models (DEQs)を組み込んだ統合ニューラルネットワークアーキテクチャ、Deep Equilibrium Density Functional Theory Hamiltonian (DEQH)モデルを導入する。 DEQHモデルは本質的にハミルトニアンの自己整合性の性質を捉えている。 モデルアーキテクチャにDECを適用することで、ハミルトンの自己整合性を導入するための訓練段階におけるDFT計算の必要性を回避し、大規模なシステムや複雑なシステムに関連する計算ボトルネックに対処する。 本稿では,DECと既製の機械学習モデルを組み合わせた多目的フレームワークを提案する。 MD17とQH9データセットでベンチマークすると、DQHフレームワークのインスタンス化であるDQHNetは、予測精度を大幅に改善した。 予測器の他に、DECHモデルはハミルトンの解法であり、深い平衡モデルの固定点解能を用いてハミルトンの解法を反復的に解くという意味で用いられる。 DEQHNetのアブレーション研究はネットワークの有効性をさらに解明し、ハミルトン学習のためのDEC統合ネットワークの可能性についての洞察を提供する。

In this study, we introduce a unified neural network architecture, the Deep Equilibrium Density Functional Theory Hamiltonian (DEQH) model, which incorporates Deep Equilibrium Models (DEQs) for predicting Density Functional Theory (DFT) Hamiltonians. The DEQH model inherently captures the self-consistency nature of Hamiltonian, a critical aspect often overlooked by traditional machine learning approaches for Hamiltonian prediction. By employing DEQ within our model architecture, we circumvent the need for DFT calculations during the training phase to introduce the Hamiltonian's self-consistency, thus addressing computational bottlenecks associated with large or complex systems. We propose a versatile framework that combines DEQ with off-the-shelf machine learning models for predicting Hamiltonians. When benchmarked on the MD17 and QH9 datasets, DEQHNet, an instantiation of the DEQH framework, has demonstrated a significant improvement in prediction accuracy. Beyond a predictor, the DEQH model is a Hamiltonian solver, in the sense that it uses the fixed-point solving capability of the deep equilibrium model to iteratively solve for the Hamiltonian. Ablation studies of DEQHNet further elucidate the network's effectiveness, offering insights into the potential of DEQ-integrated networks for Hamiltonian learning.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# 天気予報データセットチャレンジのためのセマンティックセマンティックセグメンテーションパイプラインの強化

Enhanced Semantic Segmentation Pipeline for WeatherProof Dataset Challenge ( http://arxiv.org/abs/2406.03799v1 )

ライセンス: Link先を確認
Nan Zhang, Xidan Zhang, Jianing Wei, Fangjun Wang, Zhiming Tan, (参考訳) 本報告では、CVPR 2024 UG2+ Track 3の勝利のソリューションについて述べる。 この課題の詳細はhttps://cvpr2024ug2challenge.github.io/track3.htmlで確認できる。 本稿では,この課題に対するセマンティックセグメンテーションパイプラインの強化を提案する。 まず、Depth Anythingで事前訓練されたバックボーンを用いてセマンティックセグメンテーションモデルを改善し、UperNetモデルとSETRMLAモデルを改善し、天気情報とカテゴリ情報の両方に基づいた言語ガイダンスをInternImageモデルに追加する。 第2に、より広い視角を持つ新しいデータセットであるWeatherProofExtraを導入し、悪天候や超解像を含むデータ拡張手法を適用した。 最後に, 効果的なトレーニング戦略とアンサンブル法を適用し, 最終的な性能を向上する。 私たちのソリューションは、最終リーダーボードで1位にランクされています。 コードはhttps://github.com/KaneiGi/WeatherProofChallenge.comで入手できる。

This report describes the winning solution to the WeatherProof Dataset Challenge (CVPR 2024 UG2+ Track 3). Details regarding the challenge are available at https://cvpr2024ug2challenge.github.io/track3.html. We propose an enhanced semantic segmentation pipeline for this challenge. Firstly, we improve semantic segmentation models, using backbone pretrained with Depth Anything to improve UperNet model and SETRMLA model, and adding language guidance based on both weather and category information to InternImage model. Secondly, we introduce a new dataset WeatherProofExtra with wider viewing angle and employ data augmentation methods, including adverse weather and super-resolution. Finally, effective training strategies and ensemble method are applied to improve final performance further. Our solution is ranked 1st on the final leaderboard. Code will be available at https://github.com/KaneiGi/WeatherProofChallenge.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# Gradual Privacy Expiration による連続カウント

Continual Counting with Gradual Privacy Expiration ( http://arxiv.org/abs/2406.03802v1 )

ライセンス: Link先を確認
Joel Daniel Andersson, Monika Henzinger, Rasmus Pagh, Teresa Anna Steiner, Jalaj Upadhyay, (参考訳) 段階的有効期限付き差分プライバシーは、データアイテムがストリームに到着し、所定の時間に$t$が保証されるデータアイテムのプライバシー損失を$(t-d)$ is $\epsilon g(d)$でモデル化する。 基本$\textit{continual (binary) counting}$ problem where each data item are a bit, and the algorithm need to output each time step the sum of all bits streamed。 長さ$T$とプライバシー$\textit{without}$ expiration continual counting is possible with maximum (over all time steps) additive error $O(\log^2(T)/\varepsilon)$ and the most known lower bound is $\Omega(\log(T)/\varepsilon)$; このギャップを閉じることは難しいオープンな問題である。 大規模な有効期限関数セットの上下境界を$g$で付与することで、段階的有効期限付きプライバシでは状況が極めて異なることを示す。 具体的には、大規模なプライバシー有効期限関数に対して、O(\log(T)/\epsilon)$の加算誤差を達成する。 また、もし$C$がこの問題に対する$\epsilon$-DPアルゴリズムの加算誤差であるなら、$C$の製品と$C$の後のプライバシー有効期限関数は$\Omega(\log(T)/\epsilon$でなければならない。 我々のアルゴリズムはこの下限と一致し、加法誤差は$O(\log(T)/\epsilon)$であり、g(2C) = O(1)$である。 我々の経験的評価は、自然ベースラインアルゴリズムよりも大きな値の$d$に対する経験的プライバシ損失が著しく小さく、徐々に増加するプライバシー損失を達成していることを示している。

Differential privacy with gradual expiration models the setting where data items arrive in a stream and at a given time $t$ the privacy loss guaranteed for a data item seen at time $(t-d)$ is $\epsilon g(d)$, where $g$ is a monotonically non-decreasing function. We study the fundamental $\textit{continual (binary) counting}$ problem where each data item consists of a bit, and the algorithm needs to output at each time step the sum of all the bits streamed so far. For a stream of length $T$ and privacy $\textit{without}$ expiration continual counting is possible with maximum (over all time steps) additive error $O(\log^2(T)/\varepsilon)$ and the best known lower bound is $\Omega(\log(T)/\varepsilon)$; closing this gap is a challenging open problem. We show that the situation is very different for privacy with gradual expiration by giving upper and lower bounds for a large set of expiration functions $g$. Specifically, our algorithm achieves an additive error of $ O(\log(T)/\epsilon)$ for a large set of privacy expiration functions. We also give a lower bound that shows that if $C$ is the additive error of any $\epsilon$-DP algorithm for this problem, then the product of $C$ and the privacy expiration function after $2C$ steps must be $\Omega(\log(T)/\epsilon)$. Our algorithm matches this lower bound as its additive error is $O(\log(T)/\epsilon)$, even when $g(2C) = O(1)$. Our empirical evaluation shows that we achieve a slowly growing privacy loss with significantly smaller empirical privacy loss for large values of $d$ than a natural baseline algorithm.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# 光格子時計における質量-エネルギー等価性・相互作用・絡み合いの相互作用の探索

Exploring the interplay between mass-energy equivalence, interactions and entanglement in an optical lattice clock ( http://arxiv.org/abs/2406.03804v1 )

ライセンス: Link先を確認
Anjun Chu, Victor J. Martínez-Lahuerta, Maya Miklos, Kyungtae Kim, Peter Zoller, Klemens Hammerer, Jun Ye, Ana Maria Rey, (参考訳) 我々は、スピンコヒーレントおよび絡み合った量子状態に疑問を呈する光学格子クロック(OLC)における質量エネルギー同値の出現を探索するプロトコルを提案する。 このような環境での質量エネルギー同値効果(重力赤方偏移と2次ドップラーシフト)を調整・一意に区別するために、追加の核スピン状態を用いたドレッシングプロトコルを考案する。 次に、光子を介する相互作用と重力赤方偏移の相互作用を分析し、そのような相互作用が絡み合いの発生と周波数同期につながることを示す。 すべての原子スピンが同期する体制では、同期時間は状態の初期絡み合いに依存しており、古典状態と比較してその平均利得のプロキシとして利用することができる。 我々の研究は、OLC実験における一般相対性理論が量子コヒーレンスと絡み合いに与える影響を探求する新たな可能性を開く。

We propose protocols that probe manifestations of the mass-energy equivalence in an optical lattice clock (OLC) interrogated with spin coherent and entangled quantum states. To tune and uniquely distinguish the mass-energy equivalence effects (gravitational redshift and second order Doppler shift) in such setting, we devise a dressing protocol using an additional nuclear spin state. We then analyze the interplay between photon-mediated interactions and gravitational redshift and show that such interplay can lead to entanglement generation and frequency synchronization. In the regime where all atomic spins synchronize, we show the synchronization time depends on the initial entanglement of the state and can be used as a proxy of its metrological gain compared to a classical state. Our work opens new possibilities for exploring the effects of general relativity on quantum coherence and entanglement in OLC experiments.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# AutoJailbreak: 依存レンズで脱獄と防御を調査

AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens ( http://arxiv.org/abs/2406.03805v1 )

ライセンス: Link先を確認
Lin Lu, Hai Yan, Zenghui Yuan, Jiawen Shi, Wenqi Wei, Pin-Yu Chen, Pan Zhou, (参考訳) 大規模言語モデル(LLM)におけるジェイルブレイク攻撃は、悪意のあるプロンプトの使用によって倫理的および法的な規範に違反したコンテンツを生成するためにモデルを誘導し、LLMセキュリティに重大な脅威をもたらす。 現在のジェイルブレイク攻撃と防御のための戦略は、しばしば特定のアルゴリズムフレームワーク内でローカルに最適化することに重点を置いており、非効率な最適化と限られたスケーラビリティをもたらす。 本稿では,ジェイルブレイク攻撃と防御技術における依存関係の体系的解析を行い,それらを可能な全ての攻撃面に一般化する。 我々は、誘導非循環グラフ(DAG)を用いて、既存のジェイルブレイク攻撃、防御、評価手法の位置と分析を行い、3つの総合的、自動化され、論理的なフレームワークを提案する。 \texttt{AutoAttack} は、それぞれ遺伝的アルゴリズム(GA)ベースの攻撃と、敵世代ベースの攻撃という、2つのジェイルブレイク最適化戦略の依存関係を調査する。 次に、これらの依存関係を活用するために、アンサンブルジェイルブレイク攻撃を導入します。 \texttt{AutoDefense} は、前世代および後世代防衛戦略における依存関係を活用することで、防御の混合アプローチを提供する。 \texttt{AutoEvaluation}は、しばしば見落とされがちな幻覚と、ジェイルブレイク攻撃と防御応答を区別する新しい評価手法を導入する。 広範にわたる実験を通じて,本提案のアンサンブル・ジェイルブレイク攻撃と防御の枠組みが既存研究より著しく優れていたことを実証した。

Jailbreak attacks in large language models (LLMs) entail inducing the models to generate content that breaches ethical and legal norm through the use of malicious prompts, posing a substantial threat to LLM security. Current strategies for jailbreak attack and defense often focus on optimizing locally within specific algorithmic frameworks, resulting in ineffective optimization and limited scalability. In this paper, we present a systematic analysis of the dependency relationships in jailbreak attack and defense techniques, generalizing them to all possible attack surfaces. We employ directed acyclic graphs (DAGs) to position and analyze existing jailbreak attacks, defenses, and evaluation methodologies, and propose three comprehensive, automated, and logical frameworks. \texttt{AutoAttack} investigates dependencies in two lines of jailbreak optimization strategies: genetic algorithm (GA)-based attacks and adversarial-generation-based attacks, respectively. We then introduce an ensemble jailbreak attack to exploit these dependencies. \texttt{AutoDefense} offers a mixture-of-defenders approach by leveraging the dependency relationships in pre-generative and post-generative defense strategies. \texttt{AutoEvaluation} introduces a novel evaluation method that distinguishes hallucinations, which are often overlooked, from jailbreak attack and defense responses. Through extensive experiments, we demonstrate that the proposed ensemble jailbreak attack and defense framework significantly outperforms existing research.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# Tool-Planner: ツールクラスタリングによる大規模言語モデルの動的ソリューションツリー計画

Tool-Planner: Dynamic Solution Tree Planning for Large Language Model with Tool Clustering ( http://arxiv.org/abs/2406.03807v1 )

ライセンス: Link先を確認
Yanming Liu, Xinyue Peng, Yuwei Zhang, Jiannan Cao, Xuhong Zhang, Sheng Cheng, Xun Wang, Jianwei Yin, Tianyu Du, (参考訳) 大規模言語モデル(LLM)は例外的な推論能力を示し、様々な複雑な問題を解くことができる。 近年,ツール学習のパラダイムに応用されている。 ツール学習には、ツールの使用例とその機能の提供が含まれており、LCMはプランを定式化し、各ツールの呼び出しと実行のプロセスを実証することができる。 LLMは独立して完了できないタスクに対処でき、それによって様々なタスクにまたがってその可能性を高めることができる。 しかし、このアプローチは2つの大きな課題に直面します。 まず、冗長なエラー訂正は不安定な計画と長い実行時間につながる。 さらに、複数のツール間で正しいプランを設計することは、ツール学習の課題でもある。 これらの問題に対処するため,ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。 Tool-Plannerは、同じ関数を持つAPI関数に基づいたツールをツールキットにグループ化し、LLMがさまざまなツールキットで計画を実装することを可能にする。 ツールエラーが発生した場合、言語モデルはツールキットに基づいてツールを再選択し、調整することができる。 実験により,GPT-4 や Claude 3 などのモデルを用いたツール学習の計画手法を最適化し,提案手法の有効性を示す。

Large language models (LLMs) have demonstrated exceptional reasoning capabilities, enabling them to solve various complex problems. Recently, this ability has been applied to the paradigm of tool learning. Tool learning involves providing examples of tool usage and their corresponding functions, allowing LLMs to formulate plans and demonstrate the process of invoking and executing each tool. LLMs can address tasks that they cannot complete independently, thereby enhancing their potential across different tasks. However, this approach faces two key challenges. First, redundant error correction leads to unstable planning and long execution time. Additionally, designing a correct plan among multiple tools is also a challenge in tool learning. To address these issues, we propose Tool-Planner, a task-processing framework based on toolkits. Tool-Planner groups tools based on the API functions with the same function into a toolkit and allows LLMs to implement planning across the various toolkits. When a tool error occurs, the language model can reselect and adjust tools based on the toolkit. Experiments show that our approach demonstrates a high pass and win rate across different datasets and optimizes the planning scheme for tool learning in models such as GPT-4 and Claude 3, showcasing the potential of our method.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# 太陽光発電電力予測用クロス可変線形積分型エンハンス変換器

Cross-variable Linear Integrated ENhanced Transformer for Photovoltaic power forecasting ( http://arxiv.org/abs/2406.03808v1 )

ライセンス: Link先を確認
Jiaxin Gao, Qinglong Cao, Yuntian Chen, Dongxiao Zhang, (参考訳) 太陽光発電(PV)電力予測は、太陽光発電システムの運用と計画の最適化において重要な役割を担い、効率的なエネルギー管理とグリッド統合を実現する。 しかし、変動する気象条件と異なる変数間の複雑な相互作用によって生じる不確実性は、正確なPV電力予測に重大な課題をもたらす。 本研究では、これらの課題に対処し、PV電力予測精度を向上させるためにPV-Client (Cross-variable Linear Integrated ENhanced Transformer for Photovoltaic Power Predictioning)を提案する。 PV-Client は ENhanced Transformer モジュールを使用して PV システムの様々な機能の複雑な相互作用をキャプチャし、線形モジュールを用いて PV 電力のトレンド情報を取得する。 異なる時間ステップ間の依存関係を学習するためにクロスタイムアテンションを使用する従来の時系列ベースのTransformerモデルとは異なり、Enhanced Transformerモジュールは、クロス変数アテンションを統合して、PVパワーと気象要因間の依存関係をキャプチャする。 さらに、PV-Clientはデコーダモジュールをプロジェクション層に置き換えることで、埋め込み層と位置符号化層を合理化する。 PVパワー予測におけるPV-ClientのSOTA(State-of-the-art)性能を実証する実世界のPVパワーデータセットの実験結果。 具体的には、PV-Clientは第2のベストモデルであるGRUを5.3%MSEのメトリクスと0.9%の精度で上回っている。 同様に、PV-ClientはMSEの10.1%の精度でSVRを上回り、PV-ClientはMSEの3.4%、香港の0.9%の精度でSVRよりも優れた性能を示している。

Photovoltaic (PV) power forecasting plays a crucial role in optimizing the operation and planning of PV systems, thereby enabling efficient energy management and grid integration. However, un certainties caused by fluctuating weather conditions and complex interactions between different variables pose significant challenges to accurate PV power forecasting. In this study, we propose PV-Client (Cross-variable Linear Integrated ENhanced Transformer for Photovoltaic power forecasting) to address these challenges and enhance PV power forecasting accuracy. PV-Client employs an ENhanced Transformer module to capture complex interactions of various features in PV systems, and utilizes a linear module to learn trend information in PV power. Diverging from conventional time series-based Transformer models that use cross-time Attention to learn dependencies between different time steps, the Enhanced Transformer module integrates cross-variable Attention to capture dependencies between PV power and weather factors. Furthermore, PV-Client streamlines the embedding and position encoding layers by replacing the Decoder module with a projection layer. Experimental results on three real-world PV power datasets affirm PV-Client's state-of-the-art (SOTA) performance in PV power forecasting. Specifically, PV-Client surpasses the second-best model GRU by 5.3% in MSE metrics and 0.9% in accuracy metrics at the Jingang Station. Similarly, PV-Client outperforms the second-best model SVR by 10.1% in MSE metrics and 0.2% in accuracy metrics at the Xinqingnian Station, and PV-Client exhibits superior performance compared to the second-best model SVR with enhancements of 3.4% in MSE metrics and 0.9% in accuracy metrics at the Hongxing Station.
翻訳日:2024-06-07 16:09:36 公開日:2024-06-06
# SpherinatorとHiPSter:シミュレーションによる未知の知識発見のための表現学習

Spherinator and HiPSter: Representation Learning for Unbiased Knowledge Discovery from Simulations ( http://arxiv.org/abs/2406.03810v1 )

ライセンス: Link先を確認
Kai L. Polsterer, Bernd Doser, Andreas Fehlner, Sebastian Trujillo-Gomez, (参考訳) シミュレーションは、天体物理学と宇宙学の実験室に最適な近似である。 しかし、その出力の複雑さ、豊かさ、そして大きなサイズは、予測の解釈可能性を大幅に制限する。 我々は、幅広いシミュレーションから有用な科学的洞察を得るための、新しい、偏見のない、機械学習ベースのアプローチについて説明する。 この方法は、今日の最大のシミュレーションで利用することができ、エクスカスケール時代の極端なデータ探索と分析の課題を解決するために不可欠である。 さらに、この概念は非常に柔軟であり、観測されたデータへの爆発的なアクセスを可能にする。 我々の概念は、低次元空間におけるデータのコンパクトな表現を学習するために非線形次元削減を適用することに基づいている。 シミュレーションデータは、インタラクティブな検査、視覚的解釈、サンプル選択、局所分析のために、この空間に投影される。 本稿では、回転不変な超球面変動畳み込み自己エンコーダを用いて、潜時空間の電力分布を利用して、IllustrisTNGシミュレーションから銀河を訓練したプロトタイプを提案する。 そこで,Aladin LiteにおけるHiPSタイリングのパワーを利用して,球面上で対話的に可視化できる自然なハッブルチューニングフォークを得る。

Simulations are the best approximation to experimental laboratories in astrophysics and cosmology. However, the complexity, richness, and large size of their outputs severely limit the interpretability of their predictions. We describe a new, unbiased, and machine learning based approach to obtaining useful scientific insights from a broad range of simulations. The method can be used on today's largest simulations and will be essential to solve the extreme data exploration and analysis challenges posed by the Exascale era. Furthermore, this concept is so flexible, that it will also enable explorative access to observed data. Our concept is based on applying nonlinear dimensionality reduction to learn compact representations of the data in a low-dimensional space. The simulation data is projected onto this space for interactive inspection, visual interpretation, sample selection, and local analysis. We present a prototype using a rotational invariant hyperspherical variational convolutional autoencoder, utilizing a power distribution in the latent space, and trained on galaxies from IllustrisTNG simulation. Thereby, we obtain a natural Hubble tuning fork like similarity space that can be visualized interactively on the surface of a sphere by exploiting the power of HiPS tilings in Aladin Lite.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# 逆RLを大規模状態空間にスケールする方法 : 潜在的に効率的なアプローチ

How to Scale Inverse RL to Large State Spaces? A Provably Efficient Approach ( http://arxiv.org/abs/2406.03812v1 )

ライセンス: Link先を確認
Filippo Lazzati, Mirco Mutti, Alberto Maria Metelli, (参考訳) オンライン逆強化学習(IRL)では、学習者は環境のダイナミクスに関するサンプルを収集し、報酬関数の推定を改善することができる。 IRLは識別可能性の問題に悩まされているため、オンラインIRLに関する多くの理論的研究は、実演を説明する報酬セット全体を見積もることに集中しており、実現可能な報酬セットと名付けられている。 しかし、文献で利用可能なアルゴリズムはいずれも大きな状態空間の問題にスケールできない。 本稿では,線形マルコフ決定過程(MDP)におけるオンラインIRL問題に焦点をあてる。 線形 MDP によって提供される構造は,状態空間が大きければ実現可能な集合を効率的に推定するのに十分でないことを示す。 その結果、我々は、実現可能な集合の概念を一般化する報酬相反の新たな枠組みを導入し、線形MDPにおける状態空間の濃度に依存しない複雑さを持つサンプル効率アルゴリズムであるCATY-IRLを開発した。 表の設定に制限された場合、CATY-IRLは対数係数まで極小であることを示す。 副産物として、Reward-Free Exploration(RFE)は同じ最悪のケースレートを享受し、最先端の低いバウンドよりも改善していることを示す。 最後に,IRL と RFE の統一フレームワークを考案する。

In online Inverse Reinforcement Learning (IRL), the learner can collect samples about the dynamics of the environment to improve its estimate of the reward function. Since IRL suffers from identifiability issues, many theoretical works on online IRL focus on estimating the entire set of rewards that explain the demonstrations, named the feasible reward set. However, none of the algorithms available in the literature can scale to problems with large state spaces. In this paper, we focus on the online IRL problem in Linear Markov Decision Processes (MDPs). We show that the structure offered by Linear MDPs is not sufficient for efficiently estimating the feasible set when the state space is large. As a consequence, we introduce the novel framework of rewards compatibility, which generalizes the notion of feasible set, and we develop CATY-IRL, a sample efficient algorithm whose complexity is independent of the cardinality of the state space in Linear MDPs. When restricted to the tabular setting, we demonstrate that CATY-IRL is minimax optimal up to logarithmic factors. As a by-product, we show that Reward-Free Exploration (RFE) enjoys the same worst-case rate, improving over the state-of-the-art lower bound. Finally, we devise a unifying framework for IRL and RFE that may be of independent interest.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# kNN-CTCとGated Monolingual Datastoreによるゼロショット中国語コードスイッチングASRの改良

Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores ( http://arxiv.org/abs/2406.03814v1 )

ライセンス: Link先を確認
Jiaming Zhou, Shiwan Zhao, Hui Wang, Tian-Hao Zhang, Haoqin Sun, Xuechen Wang, Yong Qin, (参考訳) kNN-CTCモデルは単言語自動音声認識(ASR)に有効であることが証明されている。 しかし、コードスイッチングのような多言語シナリオへの直接的な適用は、課題を提示している。 性能改善の可能性はあるが、単一のバイリンガルデータストアを利用するkNN-CTCモデルは、必然的に代替言語から望ましくないノイズを生じさせる可能性がある。 そこで本研究では,2つのモノリンガルデータストアとゲート型データストア選択機構を用いて,ノイズ干渉を低減する新しいkNN-CTCベースのコードスイッチングASR(CS-ASR)フレームワークを提案する。 提案手法では,各フレームの復号化に適したデータストアを選択し,言語固有の情報をASRプロセスに確実に注入する。 このフレームワークを最先端のCTCベースモデルに適用し,高度なCS-ASRシステムの開発を行う。 広汎な実験により,ゼロショット中国語CS-ASRの性能向上におけるゲートデータストア機構の顕著な効果が示された。

The kNN-CTC model has proven to be effective for monolingual automatic speech recognition (ASR). However, its direct application to multilingual scenarios like code-switching, presents challenges. Although there is potential for performance improvement, a kNN-CTC model utilizing a single bilingual datastore can inadvertently introduce undesirable noise from the alternative language. To address this, we propose a novel kNN-CTC-based code-switching ASR (CS-ASR) framework that employs dual monolingual datastores and a gated datastore selection mechanism to reduce noise interference. Our method selects the appropriate datastore for decoding each frame, ensuring the injection of language-specific information into the ASR process. We apply this framework to cutting-edge CTC-based models, developing an advanced CS-ASR system. Extensive experiments demonstrate the remarkable effectiveness of our gated datastore mechanism in enhancing the performance of zero-shot Chinese-English CS-ASR.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# ReST-MCTS*:プロセスリワードガイドツリーサーチによるLCM自己学習

ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search ( http://arxiv.org/abs/2406.03816v1 )

ライセンス: Link先を確認
Dan Zhang, Sining Zhoubian, Yisong Yue, Yuxiao Dong, Jie Tang, (参考訳) LLM自己学習における最近の方法論は、主にLLM生成応答と正しい出力回答を持つ者をトレーニングデータとしてフィルタリングすることに依存している。 このアプローチは、しばしば低品質の微調整トレーニングセット(例えば、間違った計画や中間的推論)をもたらす。 本稿では,プロセス報酬ガイダンスと木探索MCTS*を統合することで,高品質な推論トレースの収集と,トレーニング方針や報酬モデルに対するステップ単位の価値を向上する,ReST-MCTS*と呼ばれる強化自己学習手法を開発する。 ReST-MCTS*は、ツリー検索ベースの強化学習によってプロセス報酬をトレーニングするために一般的に使用されるステップごとのマニュアルアノテーションを回避する: オラクルの最終正解が与えられた場合、ReST-MCTS*は、このステップが正しい答えにつながる確率を推定することで、正しいプロセス報酬を推測することができる。 これらの推論された報酬は、プロセス報酬モデルをさらに洗練するための価値目標として機能し、ポリシーモデルによる自己学習のための高品質なトレースの選択を促進する。 ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度が得られることを示す。 次に、この木探索ポリシーによって探索されたトレースをトレーニングデータとして使用することにより、複数の反復に対して連続的に3つの言語モデルを拡張し、ReST$^\text{EM}$やSelf-Rewarding LMなどの自己学習アルゴリズムより優れていることを示す。

Recent methodologies in LLM self-training mostly rely on LLM generating responses and filtering those with correct output answers as training data. This approach often yields a low-quality fine-tuning training set (e.g., incorrect plans or intermediate reasoning). In this paper, we develop a reinforced self-training approach, called ReST-MCTS*, based on integrating process reward guidance with tree search MCTS* for collecting higher-quality reasoning traces as well as per-step value to train policy and reward models. ReST-MCTS* circumvents the per-step manual annotation typically used to train process rewards by tree-search-based reinforcement learning: Given oracle final correct answers, ReST-MCTS* is able to infer the correct process rewards by estimating the probability this step can help lead to the correct answer. These inferred rewards serve dual purposes: they act as value targets for further refining the process reward model and also facilitate the selection of high-quality traces for policy model self-training. We first show that the tree-search policy in ReST-MCTS* achieves higher accuracy compared with prior LLM reasoning baselines such as Best-of-N and Tree-of-Thought, within the same search budget. We then show that by using traces searched by this tree-search policy as training data, we can continuously enhance the three language models for multiple iterations, and outperform other self-training algorithms such as ReST$^\text{EM}$ and Self-Rewarding LM.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# ハイブリッド力学系における補正方程式の発見

Amortized Equation Discovery in Hybrid Dynamical Systems ( http://arxiv.org/abs/2406.03818v1 )

ライセンス: Link先を確認
Yongtuo Liu, Sara Magliacane, Miltiadis Kofinas, Efstratios Gavves, (参考訳) ハイブリッド力学系は、連続的および離散的な状態を持つ複雑な系を表現するために科学や工学で広く用いられている。 システムの法則を学ぶために、ハイブリッドシステムにおける方程式発見のこれまでのすべての方法は、2段階のパラダイム、すなわち、最初の時系列を小さなクラスタのフラグメントにグループ化し、次に非ハイブリッドシステムにおける方法を通して各フラグメント内の方程式を別々に発見する。 有効ではあるが、これらの手法は、同じ方程式によって駆動される複数のフラグメントの共有力学における共通点を完全に活用するわけではない。 さらに、2段階のパラダイムは、ハイブリッドシステムと共同で形成するダイナミクスの分類と表現の相互依存を断ち切る。 本稿では、各モードの動的特性を各モードのすべてのセグメントで特徴付ける方程式を共同で分類し、発見するために、問題を再構築し、AMORE(Amortized Equation Discovery)というエンドツーエンド学習フレームワークを提案する。 4つのハイブリッド系と6つの非ハイブリッド系の実験により、我々の手法は方程式発見、セグメンテーション、予測における従来の手法よりも優れていることが示された。

Hybrid dynamical systems are prevalent in science and engineering to express complex systems with continuous and discrete states. To learn the laws of systems, all previous methods for equation discovery in hybrid systems follow a two-stage paradigm, i.e. they first group time series into small cluster fragments and then discover equations in each fragment separately through methods in non-hybrid systems. Although effective, these methods do not fully take advantage of the commonalities in the shared dynamics of multiple fragments that are driven by the same equations. Besides, the two-stage paradigm breaks the interdependence between categorizing and representing dynamics that jointly form hybrid systems. In this paper, we reformulate the problem and propose an end-to-end learning framework, i.e. Amortized Equation Discovery (AMORE), to jointly categorize modes and discover equations characterizing the dynamics of each mode by all segments of the mode. Experiments on four hybrid and six non-hybrid systems show that our method outperforms previous methods on equation discovery, segmentation, and forecasting.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# Wavelet Packets ドメインにおけるサブスペースクラスタリング

Subspace Clustering in Wavelet Packets Domain ( http://arxiv.org/abs/2406.03819v1 )

ライセンス: Link先を確認
Ivica Kopriva, Damir Sersic, (参考訳) サブスペースクラスタリング(SC)アルゴリズムは、サブスペースモデルを用いて、サブスペースが描画されるサブスペースに応じてデータポイントをクラスタリングする。 サブスペースの分離性とノイズに対する堅牢性を改善するために,ウェーブレットパケット(WP)ベースの変換領域サブスペースクラスタリングを提案する。 解像度レベルの数によって、WPはサブバンドの点でインスタンス化されたいくつかの表現を生成する。 最初のアプローチでは、オリジナルとサブバンドのデータを1つの補完的なマルチビュー表現に結合する。 その後、低ランクMERAテンソルネットワーク近似問題として共同表現学習を定式化する。 これはMERAネットワークの強い表現力によって動機付けられ、対応する自己表現テンソルにおける複雑なビュー内およびビュー内依存関係をキャプチャする。 第2のアプローチでは、検証セット上で最小のクラスタリング誤差を持つサブバンドを選択するために、自己ストッピング計算効率のよい手法を用いる。 選択したサブバンドに既存のSCアルゴリズムを適用すると、その性能が向上することが期待される。 その結果,これまでに開発されたSCアルゴリズムの再利用が可能となった。 クラスタリング性能の向上は、ノイズ抑制に不可欠な表現とフィルタとしてサブバンドの二重性に起因する。 我々は、顔、数字、オブジェクトを表す6つのよく知られた画像データセットを用いて、MERAテンソルネットワーク上のSCに対するWPドメインアプローチと、他の8つのよく知られた線形SCアルゴリズムを例示する。 WPドメインベースのSCは線形手法であるが、クラスタリング性能はいくつかの優れた深層SCアルゴリズムに匹敵するものであり、多くの深部SCアルゴリズムよりも大幅に優れていた。 WP MERA SCアルゴリズムでは特にそうである。 COIL100データセットでは、87.45%の精度を達成し、14.75%で最高の深層SC競合より優れている。

Subspace clustering (SC) algorithms utilize the union of subspaces model to cluster data points according to the subspaces from which they are drawn. To better address separability of subspaces and robustness to noise we propose a wavelet packet (WP) based transform domain subspace clustering. Depending on the number of resolution levels, WP yields several representations instantiated in terms of subbands. The first approach combines original and subband data into one complementary multi-view representation. Afterward, we formulate joint representation learning as a low-rank MERA tensor network approximation problem. That is motivated by the strong representation power of the MERA network to capture complex intra/inter-view dependencies in corresponding self-representation tensor. In the second approach, we use a self-stopping computationally efficient method to select the subband with the smallest clustering error on the validation set. When existing SC algorithms are applied to the chosen subband, their performance is expected to improve. Consequently, both approaches enable the re-use of SC algorithms developed so far. Improved clustering performance is due to the dual nature of subbands as representations and filters, which is essential for noise suppression. We exemplify the proposed WP domain approach to SC on the MERA tensor network and eight other well-known linear SC algorithms using six well-known image datasets representing faces, digits, and objects. Although WP domain-based SC is a linear method, it achieved clustering performance comparable with some best deep SC algorithms and outperformed many other deep SC algorithms by a significant margin. That is in particular case for the WP MERA SC algorithm. On the COIL100 dataset, it achieves an accuracy of 87.45% and outperforms the best deep SC competitor in the amount of 14.75%.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# インテリジェントモノのインターネットに関する調査:アプリケーション,セキュリティ,プライバシ,今後の方向性

A Survey on Intelligent Internet of Things: Applications, Security, Privacy, and Future Directions ( http://arxiv.org/abs/2406.03820v1 )

ライセンス: Link先を確認
Ons Aouedi, Thai-Hoc Vu, Alessio Sacco, Dinh C. Nguyen, Kandaraj Piamrat, Guido Marchetto, Quoc-Viet Pham, (参考訳) IoT(Internet of Things)の急速な進歩は、コミュニケーション技術の革命を促進し、さまざまなカスタマーサービスを提供している。 人工知能(AI)技術は、IoT操作の促進と、現代的なアプリケーションシナリオにおけるその可能性の最大化に活用されている。 特に、IoTとAIの収束により、Intelligent IoT(IIoT)と呼ばれる新しいネットワークパラダイムが生まれました。 本稿では、モバイルネットワークにおける重要な応用と、関連するセキュリティとプライバシの問題を調査し、IIoTに関する包括的調査を行う。 具体的には、スマートヘルスケアやスマートシティ、スマートトランスポートやスマート産業など、さまざまな主要なアプリケーション領域におけるIIoTの役割について検討し、議論する。 このような広範な議論を通じて、ネットワーク攻撃、機密性、完全性、侵入を分析するIIoTネットワークにおける重要なセキュリティ問題と、潜在的な対策の議論について検討する。 IIoTネットワークのプライバシ問題も調査され、データやロケーション、モデルのプライバシリークなど、議論された。 最後に、いくつかの重要な課題を概説し、この重要な領域における潜在的研究の方向性を明らかにする。

The rapid advances in the Internet of Things (IoT) have promoted a revolution in communication technology and offered various customer services. Artificial intelligence (AI) techniques have been exploited to facilitate IoT operations and maximize their potential in modern application scenarios. In particular, the convergence of IoT and AI has led to a new networking paradigm called Intelligent IoT (IIoT), which has the potential to significantly transform businesses and industrial domains. This paper presents a comprehensive survey of IIoT by investigating its significant applications in mobile networks, as well as its associated security and privacy issues. Specifically, we explore and discuss the roles of IIoT in a wide range of key application domains, from smart healthcare and smart cities to smart transportation and smart industries. Through such extensive discussions, we investigate important security issues in IIoT networks, where network attacks, confidentiality, integrity, and intrusion are analyzed, along with a discussion of potential countermeasures. Privacy issues in IIoT networks were also surveyed and discussed, including data, location, and model privacy leakage. Finally, we outline several key challenges and highlight potential research directions in this important area.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# SilentCipher:ディープオーディオによる透かし

SilentCipher: Deep Audio Watermarking ( http://arxiv.org/abs/2406.03822v1 )

ライセンス: Link先を確認
Mayank Kumar Singh, Naoya Takahashi, Weihsiang Liao, Yuki Mitsufuji, (参考訳) 音声透かしの分野では、メッセージのキャパシティとロバスト性を高めながら、受信不能なメッセージを同時にエンコードすることは困難である。 近年のディープラーニングベースの手法の進歩により、従来の手法よりもメッセージのキャパシティとロバスト性が向上しているが、符号化されたメッセージには、プロフェッショナルな設定での使用を制限する可聴アーチファクトが導入されている。 本研究では,3つの重要なイノベーションを紹介する。 第一に、私たちの研究は、心理音響モデルに基づくしきい値を統合して、知覚不能な透かしを達成するための、初めてのディープラーニングベースのモデルです。 次に,psuedo-differentiable compression layerを導入し,透かしアルゴリズムの堅牢性を向上させる。 最後に, 知覚的損失を排除し, 頑健さと知覚不能な透かしの両面においてSOTAを実現する方法を提案する。 SilentCipherは、44.1kHzでサンプリングされた音声信号にメッセージをエンコードできるモデルです。

In the realm of audio watermarking, it is challenging to simultaneously encode imperceptible messages while enhancing the message capacity and robustness. Although recent advancements in deep learning-based methods bolster the message capacity and robustness over traditional methods, the encoded messages introduce audible artefacts that restricts their usage in professional settings. In this study, we introduce three key innovations. Firstly, our work is the first deep learning-based model to integrate psychoacoustic model based thresholding to achieve imperceptible watermarks. Secondly, we introduce psuedo-differentiable compression layers, enhancing the robustness of our watermarking algorithm. Lastly, we introduce a method to eliminate the need for perceptual losses, enabling us to achieve SOTA in both robustness as well as imperceptible watermarking. Our contributions lead us to SilentCipher, a model enabling users to encode messages within audio signals sampled at 44.1kHz.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# 条件付きエントロピー推定による回帰問題の予測可能性解析

Predictability Analysis of Regression Problems via Conditional Entropy Estimations ( http://arxiv.org/abs/2406.03824v1 )

ライセンス: Link先を確認
Yu-Hsueh Fang, Chia-Yen Lee, (参考訳) 機械学習の分野では、回帰問題は連続的な結果を予測する能力のために重要な問題である。 平均二乗誤差、平均絶対誤差、決定測度モデル精度の係数のような伝統的な誤差メトリクス。 モデル精度は、選択されたモデルと特徴の結果であり、コントリビューションの分析を曖昧にする。 一方、予測可能性(Predictability)は、一連の機能を考慮して、ターゲット変数の予測可能なレベルに焦点を当てる。 本研究では、回帰問題における予測可能性を評価する条件付きエントロピー推定器を導入し、このギャップを埋める。 我々は信頼性の高い条件エントロピー推定器(特にKNIFE-P推定器とLCC-P推定器)を改良・開発し、予測可能性分析のための実用的な枠組みを提供する。 合成および実世界のデータセットに関する大規模な実験は、これらの推定器の堅牢性と有用性を示している。 さらに,解析結果を決定係数(R^2 \)まで拡張し,予測可能性の解釈可能性を高める。 その結果,KNIFE-P と LMC-P が達成可能な性能と特徴セットの限界を捉え,回帰モデルの開発に有用なツールを提供することができた。 これらの指標は回帰問題の予測可能性を評価するための堅牢なフレームワークを提供する。

In the field of machine learning, regression problems are pivotal due to their ability to predict continuous outcomes. Traditional error metrics like mean squared error, mean absolute error, and coefficient of determination measure model accuracy. The model accuracy is the consequence of the selected model and the features, which blurs the analysis of contribution. Predictability, in the other hand, focus on the predictable level of a target variable given a set of features. This study introduces conditional entropy estimators to assess predictability in regression problems, bridging this gap. We enhance and develop reliable conditional entropy estimators, particularly the KNIFE-P estimator and LMC-P estimator, which offer under- and over-estimation, providing a practical framework for predictability analysis. Extensive experiments on synthesized and real-world datasets demonstrate the robustness and utility of these estimators. Additionally, we extend the analysis to the coefficient of determination \(R^2 \), enhancing the interpretability of predictability. The results highlight the effectiveness of KNIFE-P and LMC-P in capturing the achievable performance and limitations of feature sets, providing valuable tools in the development of regression models. These indicators offer a robust framework for assessing the predictability for regression problems.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# キーワードを用いたカオス: キーワードの誤解と防御戦略の評価に適した大規模言語モデルの構築

Chaos with Keywords: Exposing Large Language Models Sycophancy to Misleading Keywords and Evaluating Defense Strategies ( http://arxiv.org/abs/2406.03827v1 )

ライセンス: Link先を確認
Aswin RRV, Nemika Tyagi, Md Nayem Uddin, Neeraj Varshney, Chitta Baral, (参考訳) 本研究は,Large Language Models (LLMs) の幻想的傾向を考察し,そのモデルが,たとえ完全に正しくなくても,ユーザが聞きたいものと一致した回答を提供する傾向にあることを示した。 この探索の背後にあるモチベーションは、部分的にまたは誤解を招く知識を持つ事実をインターネットで探している個人によって観察される共通の行動に起因している。 ウェブ検索エンジンを使うのと同じように、ユーザは誤解を招くキーワードの断片を思い出してLLMに送信し、包括的なレスポンスを期待することができる。 複数のLPMを実験的に分析した結果,誤報キーワードが提示された場合,誤報を増幅する危険性が示唆された。 さらに, LLMs sycophantic behavior を減少させるために, 既存の4つの幻覚緩和策を徹底的に評価した。 本実験は, 事実的正しい文を生成するための戦略の有効性を実証する。 さらに,本分析では,事実キーワードの知識提供実験や,症状軽減のカテゴリについても検討した。

This study explores the sycophantic tendencies of Large Language Models (LLMs), where these models tend to provide answers that match what users want to hear, even if they are not entirely correct. The motivation behind this exploration stems from the common behavior observed in individuals searching the internet for facts with partial or misleading knowledge. Similar to using web search engines, users may recall fragments of misleading keywords and submit them to an LLM, hoping for a comprehensive response. Our empirical analysis of several LLMs shows the potential danger of these models amplifying misinformation when presented with misleading keywords. Additionally, we thoroughly assess four existing hallucination mitigation strategies to reduce LLMs sycophantic behavior. Our experiments demonstrate the effectiveness of these strategies for generating factually correct statements. Furthermore, our analyses delve into knowledge-probing experiments on factual keywords and different categories of sycophancy mitigation.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# 画像分割に基づくマルウェア分類

Malware Classification Based on Image Segmentation ( http://arxiv.org/abs/2406.03831v1 )

ライセンス: Link先を確認
Wanhu Nie, (参考訳) 実行可能プログラムは高度に構造化されたファイルであり、オペレーティングシステムによって認識され、メモリにロードされ、依存関係を解析し、リソースを割り当て、最終的に実行される。 実行可能プログラムの各セクションは、異なるファイルとセマンティック境界を持ち、形状、テクスチャ、サイズが異なるパズルのピースに似ている。 これらの個別性セクションは、様々な方法で組み合わせられると、完全な実行可能プログラムを構成する。 本稿では,マルウェアの可視化と分類のための新しい手法を提案する。 具体的には,マルウェアのバイナリファイルから生成されたグレースケール画像を区分し,複数のサブイメージを分類する。 これらのサブイメージはマルチチャネルイメージとして扱われ、マルウェア分類のための深層畳み込みニューラルネットワークに入力される。 実験結果から,異なるマルウェア分類群の画像が好適な分類特性を示すことが示された。 さらに,マルウェアのグレースケール画像の幅アライメントがモデルの性能に与える影響についても論じる。

Executable programs are highly structured files that can be recognized by operating systems and loaded into memory, analyzed for their dependencies, allocated resources, and ultimately executed. Each section of an executable program possesses distinct file and semantic boundaries, resembling puzzle pieces with varying shapes, textures, and sizes. These individualistic sections, when combined in diverse manners, constitute a complete executable program. This paper proposes a novel approach for the visualization and classification of malware. Specifically, we segment the grayscale images generated from malware binary files based on the section categories, resulting in multiple sub-images of different classes. These sub-images are then treated as multi-channel images and input into a deep convolutional neural network for malware classification. Experimental results demonstrate that images of different malware section classes exhibit favorable classification characteristics. Additionally, we discuss how the width alignment of malware grayscale images can influence the performance of the model.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# グラフニューラルネットワークにおける汎用ディフェンスのためのグローバルグラフホモフィリーの爆発

Exploiting Global Graph Homophily for Generalized Defense in Graph Neural Networks ( http://arxiv.org/abs/2406.03833v1 )

ライセンス: Link先を確認
Duanyu Li, Huijun Wu, Min Xie, Xugang Wu, Zhenwei Wu, Wenzhe Zhang, (参考訳) グラフニューラルネットワーク(GNN)モデルは、グラフ関連データ分析を含む多くのタスクにおいて重要な役割を果たす。 他のディープラーニングモデルと同様、その効果にもかかわらず、GNNは敵の攻撃を受けやすい。 グラフデータの小さな摂動でさえ、モデルの予測にかなりの変化をもたらす可能性がある。 既存の研究では、GNNの様々な敵防衛技術について検討されているが、現実のグラフデータに対する敵の攻撃に対する防御の課題は未解決のままである。 一方、グラフの浄化と前処理に依存した手法は、局所的なグラフ情報を過度に強調し、準最適防御結果をもたらす傾向にある。 一方、グラフ構造学習に根ざしたアプローチは、大きな時間的オーバーヘッドを伴い、大規模グラフでは現実的ではない。 本稿では,グラフの局所的ホモフィリエを防御としてではなく,グローバル性を高める,Talosという新しい防衛手法を提案する。 実験の結果、提案手法は最先端の防御手法よりも優れており、計算オーバーヘッドは少ないことがわかった。

Graph neural network (GNN) models play a pivotal role in numerous tasks involving graph-related data analysis. Despite their efficacy, similar to other deep learning models, GNNs are susceptible to adversarial attacks. Even minor perturbations in graph data can induce substantial alterations in model predictions. While existing research has explored various adversarial defense techniques for GNNs, the challenge of defending against adversarial attacks on real-world scale graph data remains largely unresolved. On one hand, methods reliant on graph purification and preprocessing tend to excessively emphasize local graph information, leading to sub-optimal defensive outcomes. On the other hand, approaches rooted in graph structure learning entail significant time overheads, rendering them impractical for large-scale graphs. In this paper, we propose a new defense method named Talos, which enhances the global, rather than local, homophily of graphs as a defense. Experiments show that the proposed approach notably outperforms state-of-the-art defense approaches, while imposing little computational overhead.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# セマンティックマップを用いた自動車の単眼位置推定

Monocular Localization with Semantics Map for Autonomous Vehicles ( http://arxiv.org/abs/2406.03835v1 )

ライセンス: Link先を確認
Jixiang Wan, Xudong Zhang, Shuzhou Dong, Yuwei Zhang, Yuchen Yang, Ruoxi Wu, Ye Jiang, Jijunnan Li, Jinquan Lin, Ming Yang, (参考訳) 正確なローカライゼーションとロバストなローカライゼーションは、自動運転車にとって重要な課題だ。 センサーのコストと局所的な計算効率の限界により、大規模な商用アプリケーションへのスケールが困難になる。 従来の視覚ベースのアプローチは、照明、季節、視点、外観の変化に影響を受けやすいテクスチャ機能に焦点を当てている。 さらに、ディスクリプタと複雑な最適化プロセスを備えたマップの大規模なストレージサイズは、システムパフォーマンスを損なう。 低レベルのテクスチャ機能の代わりに,安定なセマンティック機能を利用する軽量な視覚的セマンティックローカライゼーションアルゴリズムを提案する。 まず、セマンティックマップは、カメラやLiDARセンサーを使用して、グラウンドマーカー、レーンライン、ポールなどのセマンティックオブジェクトを検出してオフラインで構築される。 次に、セマンティック特徴とマップオブジェクトのデータアソシエーションを通じて、オンラインの視覚的ローカライズを行う。 提案するローカライゼーションフレームワークを,KAIST Urbanデータセットと,それを用いたシナリオで評価した。 実験の結果,本手法は様々な自律運転位置決めタスクにおいて,信頼性が高く実用的な位置決めソリューションであることがわかった。

Accurate and robust localization remains a significant challenge for autonomous vehicles. The cost of sensors and limitations in local computational efficiency make it difficult to scale to large commercial applications. Traditional vision-based approaches focus on texture features that are susceptible to changes in lighting, season, perspective, and appearance. Additionally, the large storage size of maps with descriptors and complex optimization processes hinder system performance. To balance efficiency and accuracy, we propose a novel lightweight visual semantic localization algorithm that employs stable semantic features instead of low-level texture features. First, semantic maps are constructed offline by detecting semantic objects, such as ground markers, lane lines, and poles, using cameras or LiDAR sensors. Then, online visual localization is performed through data association of semantic features and map objects. We evaluated our proposed localization framework in the publicly available KAIST Urban dataset and in scenarios recorded by ourselves. The experimental results demonstrate that our method is a reliable and practical localization solution in various autonomous driving localization tasks.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# ディープラーニングを用いたIoTサービスにおける物理間脆弱性の能動的検出

Proactive Detection of Physical Inter-rule Vulnerabilities in IoT Services Using a Deep Learning Approach ( http://arxiv.org/abs/2406.03836v1 )

ライセンス: Link先を確認
Bing Huang, Chen Chen, Kwok-Yan Lam, Fuqun Huang, (参考訳) 新興IoT(Internet of Things)プラットフォームは、居住者がトリガーアクションルールを作成することによって、IoTサービスを自動化する高度な機能を提供する。 複数のトリガー・アクション・ルールは、温度、湿度、照明などの共有環境チャネルを介して物理的に相互に相互作用することができる。 我々は、共有環境チャネルを通してのルール間相互作用を、物理的にルール間脆弱性と呼ぶ。 このような脆弱性は、攻撃者がIoTシステムに対する攻撃を開始するために悪用することができる。 深層学習手法を用いて,ユーザ要求仕様(記述など)から物理的相互作用を積極的に発見する枠組みを提案する。 具体的には、Transformerモデルを用いて、関連する記述からトリガーアクションルールを生成する。 ルール間の脆弱性を2種類発見し、自然言語処理(NLP)ツールを用いて関連する環境チャネルを決定する。 抽出したトリガー・アクション・ルールと関連する環境チャネルを考慮し,それらの中の物理的脆弱性を同定する手法を提案する。 27983 IFTTTスタイルのルールについて実験したところ、Transformerは95.22%の精度でトリガアクションルールを抽出できることがわかった。 また、60 SmartThingsの公式IoTアプリに対するアプローチの有効性を検証するとともに、99の物理的インタールール脆弱性を発見します。

Emerging Internet of Things (IoT) platforms provide sophisticated capabilities to automate IoT services by enabling occupants to create trigger-action rules. Multiple trigger-action rules can physically interact with each other via shared environment channels, such as temperature, humidity, and illumination. We refer to inter-rule interactions via shared environment channels as a physical inter-rule vulnerability. Such vulnerability can be exploited by attackers to launch attacks against IoT systems. We propose a new framework to proactively discover possible physical inter-rule interactions from user requirement specifications (i.e., descriptions) using a deep learning approach. Specifically, we utilize the Transformer model to generate trigger-action rules from their associated descriptions. We discover two types of physical inter-rule vulnerabilities and determine associated environment channels using natural language processing (NLP) tools. Given the extracted trigger-action rules and associated environment channels, an approach is proposed to identify hidden physical inter-rule vulnerabilities among them. Our experiment on 27983 IFTTT style rules shows that the Transformer can successfully extract trigger-action rules from descriptions with 95.22% accuracy. We also validate the effectiveness of our approach on 60 SmartThings official IoT apps and discover 99 possible physical inter-rule vulnerabilities.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# PCART: Python APIパラメータ互換性問題の自動修正

PCART: Automated Repair of Python API Parameter Compatibility Issues ( http://arxiv.org/abs/2406.03839v1 )

ライセンス: Link先を確認
Shuai Zhang, Guanping Xiao, Jun Wang, Huashan Lei, Yepang Liu, Yulei Sui, Zheng Zheng, (参考訳) 現代のソフトウェア開発において、Pythonのサードパーティライブラリは特にディープラーニングや科学計算などの分野で広く使われているため、重要になっている。 しかし、サードパーティライブラリのAPIパラメータは進化の過程で頻繁に変更され、特定のバージョンに依存するクライアントアプリケーションの互換性の問題が発生する。 Pythonのフレキシブルなパラメータパス機構のため、異なるパラメータパスのメソッドは異なるAPI互換性をもたらす可能性がある。 現在、Python APIパラメータの互換性問題を自動的に検出し、修正するツールは存在しない。 このギャップを埋めるために、PCARTは、まず、API抽出、コードインスツルメンテーション、APIマッピング設定から互換性評価まで、そして最後に、様々な種類のPython APIパラメータ互換性問題、すなわちパラメータの追加、削除、リネーム、パラメータの再順序付け、およびパラメータへの位置パラメータの変換の修正と検証まで、完全に自動化されたプロセスを実装する。 47,478個のテストケースを含む大規模ベンチマークPCBENCHを構築し,PCARTを評価する。 評価の結果、PCARTは効率的かつ効率的であり、既存のツール(MLCatchUpとRelancer)と大規模言語モデルChatGPT-4を著しく上回り、APIパラメータの互換性問題の検出に96.49%、修復精度91.36%を達成していることがわかった。 GitHubによる14の現実世界のPythonプロジェクトの評価は、PCARTが優れた実用性を持っていることを示している。 PCARTは、Python APIアップデートのメンテナンスに費やした時間を短縮し、Python APIの自動互換性問題の修正を容易にすることができると信じています。

In modern software development, Python third-party libraries have become crucial, particularly due to their widespread use in fields such as deep learning and scientific computing. However, the parameters of APIs in third-party libraries often change during evolution, causing compatibility issues for client applications that depend on specific versions. Due to Python's flexible parameter-passing mechanism, different methods of parameter passing can result in different API compatibility. Currently, no tool is capable of automatically detecting and repairing Python API parameter compatibility issues. To fill this gap, we propose PCART, the first to implement a fully automated process from API extraction, code instrumentation, and API mapping establishment, to compatibility assessment, and finally to repair and validation, for solving various types of Python API parameter compatibility issues, i.e., parameter addition, removal, renaming, reordering of parameters, as well as the conversion of positional parameters to keyword parameters. We construct a large-scale benchmark PCBENCH, including 47,478 test cases mutated from 844 parameter-changed APIs of 33 popular Python libraries, to evaluate PCART. The evaluation results show that PCART is effective yet efficient, significantly outperforming existing tools (MLCatchUp and Relancer) and the large language model ChatGPT-4, achieving an F-measure of 96.49% in detecting API parameter compatibility issues and a repair accuracy of 91.36%. The evaluation on 14 real-world Python projects from GitHub further demonstrates that PCART has good practicality. We believe PCART can help programmers reduce the time spent on maintaining Python API updates and facilitate automated Python API compatibility issue repair.
翻訳日:2024-06-07 15:59:34 公開日:2024-06-06
# POEM:大規模言語モデルのマルチモーダル推論強化のための対話型プロンプト最適化

POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models ( http://arxiv.org/abs/2406.03843v1 )

ライセンス: Link先を確認
Jianben He, Xingbo Wang, Shiyi Liu, Guande Wu, Claudio Silva, Huamin Qu, (参考訳) 大規模言語モデル(LLM)は、ゼロまたは少数ショット設定で適切なプロンプトを伴うマルチモーダルコンテンツ理解と推論のための印象的な能力を示した。 様々なタスクにわたるLCMの迅速なエンジニアリングを支援するために開発された対話システムの普及にもかかわらず、そのほとんどはテキストや視覚的な入力に重点を置いており、マルチモーダル入力におけるモダリティ間の複雑な相互作用を無視している。 この監視は、複数のモダリティによって提供されるリッチなコンテキストを完全に活用することによって、マルチモーダル推論プロセスをモデル化する効果的なプロンプトの開発を妨げる。 本稿では,LLMのマルチモーダル推論性能を向上させるために,効率的なプロンプトエンジニアリングを容易にする視覚解析システムであるPOEMを提案する。 本システムは,様々なプロンプトによって引き起こされるマルチモーダル知識を包括的に理解するために,モジュール間の相互作用パターンを様々な詳細レベルで探索することを可能にする。 デモンストレーションの例や指導原則のさまざまな推奨を通じて、POEMは、モデルの知識と人間の洞察をより良く整合させ、強化するプロンプトを反復的に作り、改良するユーザを支援している。 本システムの有効性と有効性は,2つのケーススタディと専門家へのインタビューを通じて検証した。

Large language models (LLMs) have exhibited impressive abilities for multimodal content comprehension and reasoning with proper prompting in zero- or few-shot settings. Despite the proliferation of interactive systems developed to support prompt engineering for LLMs across various tasks, most have primarily focused on textual or visual inputs, thus neglecting the complex interplay between modalities within multimodal inputs. This oversight hinders the development of effective prompts that guide model multimodal reasoning processes by fully exploiting the rich context provided by multiple modalities. In this paper, we present POEM, a visual analytics system to facilitate efficient prompt engineering for enhancing the multimodal reasoning performance of LLMs. The system enables users to explore the interaction patterns across modalities at varying levels of detail for a comprehensive understanding of the multimodal knowledge elicited by various prompts. Through diverse recommendations of demonstration examples and instructional principles, POEM supports users in iteratively crafting and refining prompts to better align and enhance model knowledge with human insights. The effectiveness and efficiency of our system are validated through two case studies and interviews with experts.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# オープンな問題: アクティブな表現学習

Open Problem: Active Representation Learning ( http://arxiv.org/abs/2406.03845v1 )

ライセンス: Link先を確認
Nikola Milosevic, Gesine Müller, Jan Huisken, Nico Scherf, (参考訳) 本研究では,部分的に観察可能な環境下での探索学習と表現学習を両立させる新しい課題のクラスである,アクティブ表現学習の概念を紹介する。 我々は、能動的局所化とマッピング(能動SLAM)からアイデアを拡張し、それを適応顕微鏡で実証した科学的発見問題に変換する。 我々は,自然科学におけるデータ収集とモデル構築の効率性と有効性を高めることを目的とした,何らかの意味のある表現から探索スキルを導き出すフレームワークの必要性を探求する。

In this work, we introduce the concept of Active Representation Learning, a novel class of problems that intertwines exploration and representation learning within partially observable environments. We extend ideas from Active Simultaneous Localization and Mapping (active SLAM), and translate them to scientific discovery problems, exemplified by adaptive microscopy. We explore the need for a framework that derives exploration skills from representations that are in some sense actionable, aiming to enhance the efficiency and effectiveness of data collection and model building in the natural sciences.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# Lean Workbook: 自然言語の数学問題から形式化した大規模なリーン問題セット

Lean Workbook: A large-scale Lean problem set formalized from natural language math problems ( http://arxiv.org/abs/2406.03847v1 )

ライセンス: Link先を確認
Huaiyuan Ying, Zijian Wu, Yihan Geng, Jiayu Wang, Dahua Lin, Kai Chen, (参考訳) 大規模言語モデルは、特に数学的な問題を解く際に、様々な自然言語処理タスクにおいて印象的な能力を示してきた。 しかし、大きな言語モデルは、リーンのような形式的な言語を使って証明する数学の定理が得意ではありません。 この領域で重要な課題は、これらの形式言語で利用可能なトレーニングデータの不足である。 この問題に対処するために、我々は、自然言語の数学的問題をリーン4文に変換するために、合成データを反復的に生成し、フィルタする新しいパイプラインを提案します。 その結果, 合成データパイプラインは, 複雑な数学的問題や証明の翻訳・理解において, 有用な学習データを提供し, LLMの性能を向上させることが示唆された。 最終データセットには、約5万5千の形式的非形式的質問対と、数学コンテストフォーラムからの探索された証明と21の新しいIMO質問が含まれている。 当社のコードはhttps://github.com/InternLM/InternLM-Mathで、データはhttps://huggingface.co/datasets/InternLM/Lean-Workbookで公開しています。

Large language models have demonstrated impressive capabilities across various natural language processing tasks, especially in solving mathematical problems. However, large language models are not good at math theorem proving using formal languages like Lean. A significant challenge in this area is the scarcity of training data available in these formal languages. To address this issue, we propose a novel pipeline that iteratively generates and filters synthetic data to translate natural language mathematical problems into Lean 4 statements, and vice versa. Our results indicate that the synthetic data pipeline can provide useful training data and improve the performance of LLMs in translating and understanding complex mathematical problems and proofs. Our final dataset contains about 57K formal-informal question pairs along with searched proof from the math contest forum and 21 new IMO questions. We open-source our code at https://github.com/InternLM/InternLM-Math and our data at https://huggingface.co/datasets/InternLM/Lean-Workbook.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# 比抵抗予測のためのノイズロスト型マルチヘッドアテンション機構:周波数認識LSTM

A Noise-robust Multi-head Attention Mechanism for Formation Resistivity Prediction: Frequency Aware LSTM ( http://arxiv.org/abs/2406.03849v1 )

ライセンス: Link先を確認
Yongan Zhang, Junfeng Zhao, Jian Li, Xuanran Wang, Youzhuang Sun, Yuntian Chen, Dongxiao Zhang, (参考訳) 生成比抵抗の予測は, 石油・ガス貯留層の評価, 地熱資源の同定と評価, 地下水検出・モニタリング, 炭素捕獲・貯蔵において重要な役割を担っている。 しかし、従来の坑井検層法では正確な比抵抗を測定することができず、ケースド・ボアホール比抵抗検層法は高周波災害(高周波特性におけるニューラルネットワークによる不適切な学習の問題)やノイズ干渉といった課題に遭遇し、精度に悪影響を及ぼす。 これらの課題に対処するため、周波数認識LSTM(FAL)を構築するために、周波数認識フレームワークと時間的アンチノイズブロックを提案する。 周波数認識フレームワークはウェーブレット変換を通じてデュアルストリーム構造を実装しており、ニューラルネットワークは時系列データの高周波と低周波のフローを同時に処理できるため、高周波災害を回避することができる。 時間的アンチノイズブロックは、複数のアテンション機構とソフトスレッショルドアテンション機構を統合し、余分な特徴とノイズをよりよく区別することができる。 アブレーション実験により、周波数認識フレームワークと時間的アンチノイズブロックが性能改善に大きく寄与することが示された。 FALはLSTMよりもR2を24.3%改善し、全モデルの中で最高の0.91に達した。 強靭性実験では、FALに対するノイズの影響はベースラインの約1/8であり、FALの耐雑音性を確認する。 提案したFALは、入射過渡電磁坑井検層曲線から生成比抵抗を予測する際のノイズ干渉を効果的に低減し、高周波特性をよりよく学習し、ニューラルネットワークモデルの予測精度と耐雑音性を向上させる。

The prediction of formation resistivity plays a crucial role in the evaluation of oil and gas reservoirs, identification and assessment of geothermal energy resources, groundwater detection and monitoring, and carbon capture and storage. However, traditional well logging techniques fail to measure accurate resistivity in cased boreholes, and the transient electromagnetic method for cased borehole resistivity logging encounters challenges of high-frequency disaster (the problem of inadequate learning by neural networks in high-frequency features) and noise interference, badly affecting accuracy. To address these challenges, frequency-aware framework and temporal anti-noise block are proposed to build frequency aware LSTM (FAL). The frequency-aware framework implements a dual-stream structure through wavelet transformation, allowing the neural network to simultaneously handle high-frequency and low-frequency flows of time-series data, thus avoiding high-frequency disaster. The temporal anti-noise block integrates multiple attention mechanisms and soft-threshold attention mechanisms, enabling the model to better distinguish noise from redundant features. Ablation experiments demonstrate that the frequency-aware framework and temporal anti-noise block contribute significantly to performance improvement. FAL achieves a 24.3% improvement in R2 over LSTM, reaching the highest value of 0.91 among all models. In robustness experiments, the impact of noise on FAL is approximately 1/8 of the baseline, confirming the noise resistance of FAL. The proposed FAL effectively reduces noise interference in predicting formation resistivity from cased transient electromagnetic well logging curves, better learns high-frequency features, and thereby enhances the prediction accuracy and noise resistance of the neural network model.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# エンタングルメント-アシスト巡回弱値増幅メロロジー

Entanglement-assist cyclic weak-value-amplification metrology ( http://arxiv.org/abs/2406.03851v1 )

ライセンス: Link先を確認
Zi-Rui Zhong, Xia-lin Su, Xiang-Ming Hu, Qing-lin Wu, (参考訳) 弱測定は、検出確率の低いコストで小さな物理的効果を増幅する能力に対して、広く関心を集めている。 従来のエンタングルメントとリサイクリング技術は、異なる観点からの弱い測定のポストセレクション効率と信号対雑音比(SNR)を高める。 ここでは、電力リサイクルキャビティをエンタングルメント支援弱測定システムに組み込む。 我々は, 検出効率とフィッシャー情報の両方の改善を行い, エンタングルメントとリサイクルによる改善は, 異なる次元で起こることを見出した。 さらに、ウォークオフエラーとリードアウトエラーの2種類のエラーを分析する。 以上の結果から, 絡み合いはリサイクルによる歩行効果を悪化させるが, 適切なパラメータ選択によってバランスがとれることが示唆された。 さらに、電力リサイクルは、読み出しノイズを抑制する際の絡みを補うことができ、測定結果の精度を高め、失ったフィッシャー情報を復元することができる。 この研究は弱い測定の気象学的利点を深く掘り下げている。

Weak measurement has garnered widespread interest for its ability to amplify small physical effects at the cost of low detection probabilities. Previous entanglement and recycling techniques enhance postselection efficiency and signal-to-noise ratio (SNR) of weak measurement from distinct perspectives. Here, we incorporate a power recycling cavity into the entanglement-assisted weak measurement system. We obtain an improvement of both detection efficiency and Fisher information, and find that the improvement from entanglement and recycling occur in different dimensions. Furthermore, we analyze two types of errors, walk-off errors and readout errors. The conclusions suggest that entanglement exacerbates the walk-off effect caused by recycling, but this detriment can be balanced by proper parameter selection. In addition, power-recycling can complement entanglement in suppressing readout noise, thus enhancing the accuracy in the measurement results and recovering the lost Fisher information. This work delves deeper into the metrological advantages of weak measurement.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# メトリクスバックボーンがコミュニティ構造を保存する理由

Why the Metric Backbone Preserves Community Structure ( http://arxiv.org/abs/2406.03852v1 )

ライセンス: Link先を確認
Maximilien Dreveton, Charbel Chucri, Matthias Grossglauser, Patrick Thiran, (参考訳) 重み付きグラフの計量バックボーンは、全ペアの最短経路の和である。 これは、$u$と$v$の間の最短経路ではないすべてのエッジを除去することによって得られる。 広く分断されたコミュニティを持つネットワークでは、メートル法バックボーンは2つのコミュニティを結ぶ橋として機能するため、多くのコミュニティ間のエッジを保持する傾向にあるが、コミュニティが密集しているため、多くのコミュニティ内のエッジを削除する傾向にある。 これは、メトリックバックボーンがネットワークのコミュニティ構造を減らしたり破壊したりすることを示している。 しかし、これは、実際のネットワークのメートル法バックボーンが元のネットワークのコミュニティ構造をよく保存していることが示される以前の経験的な研究によってもたらされるものではない。 本研究は,地域社会と多種多様なランダムグラフの計量バックボーンを解析し,計量バックボーンにないすべてのエッジの削除に関して,コミュニティ構造のロバスト性を正式に証明する。 いくつかのグラフスペーシフィケーション手法の実証的な比較により、我々の理論的発見が確認され、計量バックボーンがコミュニティの存在下で効率的なスペーシであることが示される。

The metric backbone of a weighted graph is the union of all-pairs shortest paths. It is obtained by removing all edges $(u,v)$ that are not the shortest path between $u$ and $v$. In networks with well-separated communities, the metric backbone tends to preserve many inter-community edges, because these edges serve as bridges connecting two communities, but tends to delete many intra-community edges because the communities are dense. This suggests that the metric backbone would dilute or destroy the community structure of the network. However, this is not borne out by prior empirical work, which instead showed that the metric backbone of real networks preserves the community structure of the original network well. In this work, we analyze the metric backbone of a broad class of weighted random graphs with communities, and we formally prove the robustness of the community structure with respect to the deletion of all the edges that are not in the metric backbone. An empirical comparison of several graph sparsification techniques confirms our theoretical finding and shows that the metric backbone is an efficient sparsifier in the presence of communities.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# トンプソンサンプリング制御機構を用いた高速LPM推論のための初期出力による投機的復号化

Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism ( http://arxiv.org/abs/2406.03853v1 )

ライセンス: Link先を確認
Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, (参考訳) 大規模言語モデル(LLM)の最近の進歩は異例であるが、現実のアプリケーションにおいて、それらに関連する推論コストが増大している。 これらの課題に対処するため、我々は、損失の少ないアクセラレーションを持つEarly-Exiting Speculative Decoding (EESD)と呼ばれる新しいアプローチを提案する。 具体的には、EESD は LLM のセグメントを使用してドラフトトークンを生成し、最初の N 層の後、初期出力構造を取り入れている。 ドラフトトークンの品質を高めるために、自己蒸留法を統合する。 このアーリーエグジットデザインは、デプロイメントとトレーニングコストを削減するだけでなく、トークン生成速度を大幅に加速する。 さらに,トンプソンサンプリングを利用して生成過程を制御し,各ラウンドにおけるドラフトトークンの量を自動決定する新しいサンプリング機構を導入する。 元の LLM は、これらのドラフトトークンを単一のフォワードパスで検証するために使用され、最終的な出力テキストがバニラ自動回帰復号と整合した分布を維持することを保証している。 13Bモデルと70Bモデルの両方の実験結果から,従来の手法と比較して,トークンの復号化速度が著しく向上していることが示され,提案手法の有効性が示された。

The recent advancements in large language models (LLMs) have been extraordinary, yet the escalating inference costs associated with them present challenges in real-world applications. To address these challenges, we propose a novel approach called Early-exiting Speculative Decoding (EESD) with lossless acceleration. Specifically, EESD utilizes a segment of the LLM to generate draft tokens, incorporating Early-exiting structures after the first N layers. To enhance the quality of draft tokens, a self-distillation method is integrated. This early-exiting design not only reduces deployment and training costs but also significantly accelerates the token generation speed. Moreover, we introduce a novel sampling mechanism that leverages Thompson Sampling to regulate the generation processes, automatically determining the quantity of draft tokens in each round. The original LLM is then employed to validate these draft tokens through a single forward pass, and thus guarantees that the final output text maintains a distribution consistent with vanilla auto-regressive decoding. The experimental results on both 13B and 70B models demonstrate that our approach decodes tokens at a markedly accelerated rate compared to prior methods, showing the effectiveness of our approach.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# 数値的対意味医学的知識における大規模言語モデルの性能:証拠に基づくQ&Aのベンチマーク

Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As ( http://arxiv.org/abs/2406.03855v1 )

ライセンス: Link先を確認
Eden Avnat, Michal Levy, Daniel Herstain, Elia Yanko, Daniel Ben Joya, Michal Tzuchman Katz, Dafna Eshel, Sahar Laros, Yael Dagan, Shahar Barami, Joseph Mermelstein, Shahar Ovadia, Noam Shomron, Varda Shalev, Raja-Elie E. Abdulnour, (参考訳) 臨床的問題解決には、エビデンスに基づく意思決定のために、病気のスクリプトや診断テストの数値的な医療知識などの意味的な医療知識の処理が必要である。 大規模言語モデル(LLM)は言語ベースの臨床実践の多くの面で有望な結果を示すため、臨床問題に対する非言語エビデンスベースの回答を生成する能力は、本質的にトークン化によって制限される。 そこで我々は, LLMの性能を, 医学的側面におけるLSM間の差異を調べた上で, 数値(関連所見)と意味(差別化要因)の2つの質問タイプで評価し, その性能を人間と比較した。 本研究では,エビデンスベースの医療(EBM)に基づいて,簡単な多点質問・回答(QA)を生成するために,総合的な医療知識グラフ(50,00以上の査読項目からのデータ)を用いて「EBMQA」を作成した。 EBMQAには105,000のQAが含まれており、医学的、非医学的なトピックがラベル付けられ、数値的、意味的な質問に分類される。 私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusで24,500QA以上を用いてベンチマークした。 我々は,LLMの精度を意味的および数値的質問タイプ,およびサブラベル付きトピックに基づいて評価した。 検証のために、6人の医療専門家が100の数値EBMQA質問でテストされた。 いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っている。 しかし,両LSMは異なる医学的側面において間隙と内隙間を示し,ヒトに劣った。 したがって、彼らの医療アドバイスは慎重に扱うべきである。

Clinical problem-solving requires processing of semantic medical knowledge such as illness scripts and numerical medical knowledge of diagnostic tests for evidence-based decision-making. As large language models (LLMs) show promising results in many aspects of language-based clinical practice, their ability to generate non-language evidence-based answers to clinical questions is inherently limited by tokenization. Therefore, we evaluated LLMs' performance on two question types: numeric (correlating findings) and semantic (differentiating entities) while examining differences within and between LLMs in medical aspects and comparing their performance to humans. To generate straightforward multi-choice questions and answers (QAs) based on evidence-based medicine (EBM), we used a comprehensive medical knowledge graph (encompassed data from more than 50,00 peer-reviewed articles) and created the "EBMQA". EBMQA contains 105,000 QAs labeled with medical and non-medical topics and classified into numerical or semantic questions. We benchmarked this dataset using more than 24,500 QAs on two state-of-the-art LLMs: Chat-GPT4 and Claude3-Opus. We evaluated the LLMs accuracy on semantic and numerical question types and according to sub-labeled topics. For validation, six medical experts were tested on 100 numerical EBMQA questions. We found that both LLMs excelled more in semantic than numerical QAs, with Claude3 surpassing GPT4 in numerical QAs. However, both LLMs showed inter and intra gaps in different medical aspects and remained inferior to humans. Thus, their medical advice should be addressed carefully.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# 量子ハートレー変換による多次元量子生成モデリング

Multidimensional Quantum Generative Modeling by Quantum Hartley Transform ( http://arxiv.org/abs/2406.03856v1 )

ライセンス: Link先を確認
Hsin-Yu Wu, Vincent E. Elfving, Oleksandr Kyriienko, (参考訳) 我々はハートレー核関数の指数的に増加する正則基底に基づいて量子モデルを構築するためのアプローチを開発する。 まず、確率微分方程式と回帰問題を解くのに適した量子モデルを実現するために、実数値議論によってパラメータ化された微分可能なハートレー特徴写像を設計する。 自然な複雑なフーリエ符号化とは異なり、提案されたハートレー特徴写像回路は実数値振幅を持つ量子状態に導かれ、帰納バイアスと自然な正則化をもたらす。 次に、計算とハートレー基底の間の写像として量子ハートレー変換回路を提案する。 本稿では,確率微分方程式の解からの生成モデルに適用し,量子ハートレー変換を用いてパラメータ化分布の微細サンプリングを行う。 最後に、相関分布と非相関分布の両方に対して、多変量量子生成モデリングを実装するためのツールを提案する。 その結果、発達した量子ハートレーモデルは、規模が大きくなるにつれて生成AIに対して異なる量子アプローチを提供する。

We develop an approach for building quantum models based on the exponentially growing orthonormal basis of Hartley kernel functions. First, we design a differentiable Hartley feature map parametrized by real-valued argument that enables quantum models suitable for solving stochastic differential equations and regression problems. Unlike the naturally complex Fourier encoding, the proposed Hartley feature map circuit leads to quantum states with real-valued amplitudes, introducing an inductive bias and natural regularization. Next, we propose a quantum Hartley transform circuit as a map between computational and Hartley basis. We apply the developed paradigm to generative modeling from solutions of stochastic differential equations, and utilize the quantum Hartley transform for fine sampling from parameterized distributions through an extended register. Finally, we present tools for implementing multivariate quantum generative modeling for both correlated and uncorrelated distributions. As a result, the developed quantum Hartley models offer a distinct quantum approach to generative AI at increasing scale.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# MuJo: ヒューマンアクティビティ認識のためのマルチモーダル共同特徴空間学習

MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition ( http://arxiv.org/abs/2406.03857v1 )

ライセンス: Link先を確認
Stefan Gerd Fritsch, Cennet Oguz, Vitor Fortes Rey, Lala Ray, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz, (参考訳) 人間活動認識は、医療、スポーツ、フィットネス、セキュリティ、人間のコンピュータインタラクションからロボティクスまで、幅広い分野の応用において、AIの長年の課題である。 実世界の設定におけるHARの性能は、取得可能な入力信号の種類と品質に強く依存する。 特に基礎モデル(例えばCLIP)と組み合わせたコンピュータビジョンシステムは、現在、複雑なアクティビティをかなり確実に区別することができる。 一方、ウェアラブルセンサ(携帯電話やスマートウォッチなど、より広範に利用できることが多い)などのモダリティを用いた認識は、信号に情報が少なく、ラベル付きトレーニングデータを取得するのが難しくなるため、より難しい問題である。 本研究では,マルチモーダル・コントラッシブ・プレトレーニングを用いて,異なるモーダルをまたいだHAR性能を向上する方法を示す。 我々のアプローチである MuJo (Multimodal Joint Feature Space Learning) は、ビデオ、言語、ポーズ、IMUセンサーデータによるマルチモーダルな特徴空間を学習する。 提案手法は、コントラスト学習とマルチタスク学習を組み合わせて、コンパクトな共有表現を学習するための異なるマルチタスク戦略を解析する。 並列ビデオ、言語、ポーズ、センサーデータポイントを備えた大規模なデータセットも導入され、モーダル不完全および低リソースデータに対するマルチモーダルジョイント空間のロバスト性の解析が支援された。 MM-Fitデータセットでは,列車データの2%と0.999で最大0.992のマクロF1スコアを達成した。 さらに,MM-Fitデータセットが見えないシナリオでは,最大0.638の一般化性能を示す。

Human Activity Recognition is a longstanding problem in AI with applications in a broad range of areas: from healthcare, sports and fitness, security, and human computer interaction to robotics. The performance of HAR in real-world settings is strongly dependent on the type and quality of the input signal that can be acquired. Given an unobstructed, high-quality camera view of a scene, computer vision systems, in particular in conjunction with foundational models (e.g., CLIP), can today fairly reliably distinguish complex activities. On the other hand, recognition using modalities such as wearable sensors (which are often more broadly available, e.g, in mobile phones and smartwatches) is a more difficult problem, as the signals often contain less information and labeled training data is more difficult to acquire. In this work, we show how we can improve HAR performance across different modalities using multimodal contrastive pretraining. Our approach MuJo (Multimodal Joint Feature Space Learning), learns a multimodal joint feature space with video, language, pose, and IMU sensor data. The proposed approach combines contrastive and multitask learning methods and analyzes different multitasking strategies for learning a compact shared representation. A large dataset with parallel video, language, pose, and sensor data points is also introduced to support the research, along with an analysis of the robustness of the multimodal joint space for modal-incomplete and low-resource data. On the MM-Fit dataset, our model achieves an impressive Macro F1-Score of up to 0.992 with only 2% of the train data and 0.999 when using all available training data for classification tasks. Moreover, in the scenario where the MM-Fit dataset is unseen, we demonstrate a generalization performance of up to 0.638.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# 養殖ジャガイモとヨーロッパ海バスにおけるオペキュラム運動と体尾運動から身体活動と呼吸周波数の異なる結合まで : 養殖バイオセンシングを中心に

From operculum and body tail movements to different coupling of physical activity and respiratory frequency in farmed gilthead sea bream and European sea bass. Insights on aquaculture biosensing ( http://arxiv.org/abs/2406.03859v1 )

ライセンス: Link先を確認
Miguel A. Ferrer, Josep A. Calduch-Giner, Moises Díaz, Javier Sosa, Enrique Rosell-Moll, Judith Santana Abril, Graciela Santana Sosa, Tomás Bautista Delgado, Cristina Carmona, Juan Antonio Martos-Sitcha, Enric Cabruja, Juan Manuel Afonso, Aurelio Vega, Manuel Lozano, Juan Antonio Montiel-Nelson, Jaume Pérez-Sánchez, (参考訳) AEFishBIT三軸加速度計は,2種の海産養殖魚,金頭海藻(Sparus aurata)と欧州海藻(Dicentrarchus labrax)の発散活動と呼吸パターンを評価するために外付けに装着された。 養殖魚の生データを分析したところ,低ナトリウム運動強度で総合的に安定なヨーロッパ産シーバスのオペキュラム開口と体尾運動の振幅が大きいことが明らかとなった。 フリースワイミング魚 (オンボードデータ処理) のコシナー分析では, 金頭海藻と欧州海藻のいずれにおいても, 運動量と呼吸頻度の日次変動が顕著であった。 活動と呼吸のアクロフェーズを金頭海藻に結合し, メインシンクロナイジン化因子として給餌時間 (1日11:00 h) を作用させた。 一方, ヨーロッパ海バスでは, 早朝に活動性アクロフェーズ, 午後に呼吸性アクロフェーズが出現した。 毎日の活動範囲と呼吸の変化は、おそらくこの魚種が高速な水泳捕食者として機能するように適応するために、ヨーロッパのシーバスでも高くなっていた。 いずれにせよ, 両方の魚種において, 低い運動活性と呼吸量の増加は体重の増加と関連していた。 このことは、農業環境における急速な成長の選択には、より低い活動プロファイルが伴い、成長目的の効率的な飼料転換が望まれるという考えに一致する。 そのため、より効率的な養殖魚を選別するための信頼性の高い大規模ツールとなり、研究者や農家はより持続的で倫理的な魚生産のためのより厳格な福祉基準を確立することができるようになった。

The AEFishBIT tri-axial accelerometer was externally attached to the operculum to assess the divergent activity and respiratory patterns of two marine farmed fish, the gilthead sea bream (Sparus aurata) and European sea bass (Dicentrarchus labrax). Analysis of raw data from exercised fish highlighted the large amplitude of operculum aperture and body tail movements in European sea bass, which were overall more stable at low-medium exercise intensity levels. Cosinor analysis in free-swimming fish (on-board data processing) highlighted a pronounced daily rhythmicity of locomotor activity and respiratory frequency in both gilthead sea bream and European sea bass. Acrophases of activity and respiration were coupled in gilthead sea bream, acting feeding time (once daily at 11:00 h) as a main synchronizing factor. By contrast, locomotor activity and respiratory frequency were out of phase in European sea bass with activity acrophase on early morning and respiration acrophase on the afternoon. The daily range of activity and respiration variation was also higher in European sea bass, probably as part of the adaptation of this fish species to act as a fast swimming predator. In any case, lower locomotor activity and enhanced respiration were associated with larger body weight in both fish species. This agrees with the notion that selection for fast growth in farming conditions is accompanied by a lower activity profile, which may favor an efficient feed conversion for growth purposes. Therefore, the use of behavioral monitoring is becoming a reliable and large-scale promising tool for selecting more efficient farmed fish, allowing researchers and farmers to establish stricter criteria of welfare for more sustainable and ethical fish production.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# 被害者の政策に限定した強化学習における行動目標攻撃

Behavior-Targeted Attack on Reinforcement Learning with Limited Access to Victim's Policy ( http://arxiv.org/abs/2406.03862v1 )

ライセンス: Link先を確認
Shojiro Yamabe, Kazuto Fukuchi, Ryoma Senda, Jun Sakuma, (参考訳) 本研究は,被害者の状態観察に敵対的修正を加えることにより,被害者の行動を制御することを目的とした強化学習エージェントに対する攻撃について考察する。 いくつかの攻撃方法では、被害者の行動を操作することに成功したが、これらの手法は環境特有のヒューリスティックに頼っていることが多い。 さらに、既存の攻撃方法はすべて、被害者のポリシーへのホワイトボックスアクセスを必要とする。 本研究では,ブラックボックス内での被害者エージェントの操作方法(敵は被害者の状態と行動のみを観察すること)とノーボックス(敵は環境固有のヒューリスティックを必要とせずに被害者の状態のみを観察すること)を新たに提案する。 本手法は,分布マッチング問題に還元された二段階最適化問題として定式化され,ブラックボックスおよびノーボックス設定における既存の模倣学習アルゴリズムによって解くことができる。 いくつかの強化学習ベンチマークにおける実証評価の結果,提案手法はベースラインに対する攻撃性能に優れていた。

This study considers the attack on reinforcement learning agents where the adversary aims to control the victim's behavior as specified by the adversary by adding adversarial modifications to the victim's state observation. While some attack methods reported success in manipulating the victim agent's behavior, these methods often rely on environment-specific heuristics. In addition, all existing attack methods require white-box access to the victim's policy. In this study, we propose a novel method for manipulating the victim agent in the black-box (i.e., the adversary is allowed to observe the victim's state and action only) and no-box (i.e., the adversary is allowed to observe the victim's state only) setting without requiring environment-specific heuristics. Our attack method is formulated as a bi-level optimization problem that is reduced to a distribution matching problem and can be solved by an existing imitation learning algorithm in the black-box and no-box settings. Empirical evaluations on several reinforcement learning benchmarks show that our proposed method has superior attack performance to baselines.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# 近接場放射熱伝達のためのトポロジー材料

Topological Materials for Near-Field Radiative Heat Transfer ( http://arxiv.org/abs/2406.03863v1 )

ライセンス: Link先を確認
Azadeh Didari-Bader, Seonyeong Kim, Heejin Choi, Sunae Seo, Piyali Biswas, Heejeong Jeong, Chang-Won Lee, (参考訳) トポロジカル材料は、構造材料の幾何学的特性を利用して波の流れを制御し、欠陥や不純物に免疫する一方向で保護された伝達を可能にするプラットフォームを提供する。 トポロジカルに設計されたフォトニック材料は、量子状態と電磁エネルギーを持ち、ナノレーザーや量子フォトニックシステムの恩恵を受けることができる。 本稿では,特に近距離場における放射熱伝達におけるフォトニック材料のトポロジー応用の最近の進歩を概観する。 媒体間の分離距離が熱波長よりもかなり小さい場合、熱伝達はプランクの黒体予測を超える超プランク的な挙動を示す。 表面モードをサポートするサブ波長系における近接場熱放射は、ナノスケール熱管理やエネルギー変換など様々な応用がある。 トポロジカルな表面状態を支えるフォトニック材料や構造は、近接場熱放射を増強または抑制する大きな可能性を示している。 本研究では, 周期的および準周期的ナノ粒子アレイ, ディラック, ワイル半金属系材料, 大域対称性の破れた構造, およびその他のトポロジカル絶縁体などのトポロジカルな効果を近接場熱伝達に与える。 また、ナノスケールシステムにおける代替熱管理と熱流束誘導のためのトポロジカル材料における近接場熱放射の実現の可能性についても、既存の技術に基づいて論じる。

Topological materials provide a platform that utilizes the geometric characteristics of structured materials to control the flow of waves, enabling unidirectional and protected transmission that is immune to defects or impurities. The topologically designed photonic materials can carry quantum states and electromagnetic energy, benefiting nanolasers or quantum photonic systems. This article reviews recent advances in the topological applications of photonic materials for radiative heat transfer, especially in the near field. When the separation distance between media is considerably smaller than the thermal wavelength, the heat transfer exhibits super-Planckian behavior that surpasses Planck's blackbody predictions. Near-field thermal radiation in subwavelength systems supporting surface modes has various applications, including nanoscale thermal management and energy conversion. Photonic materials and structures that support topological surface states show immense potential for enhancing or suppressing near-field thermal radiation. We present various topological effects, such as periodic and quasi-periodic nanoparticle arrays, Dirac and Weyl semimetal-based materials, structures with broken global symmetries, and other topological insulators, on near-field heat transfer. Also, the possibility of realizing near-field thermal radiation in such topological materials for alternative thermal management and heat flux guiding in nano-scale systems is discussed based on the existing technology.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# PairNet:個々の治療効果を推定するための観察されたペアによるトレーニング

PairNet: Training with Observed Pairs to Estimate Individual Treatment Effect ( http://arxiv.org/abs/2406.03864v1 )

ライセンス: Link先を確認
Lokesh Nagalapatti, Pranava Singhal, Avishek Ghosh, Sunita Sarawagi, (参考訳) 共変量ベクトル、治療、観察結果によって記述された個人のデータセットが与えられた場合、個別治療効果(ITE)推定タスクの目標は、治療の変化による結果の変化を予測することである。 基本的な課題は、観察データでは、1つの治療下でのみ共変量の結果が観察されるのに対し、2つの異なる治療下での結果の違いを推測する必要があることである。 既存のいくつかのアプローチでは、推論された擬似アウトカムのトレーニングを通じてこの問題に対処しているが、その成功はこれらの擬似アウトカムの品質に依存している。 PairNetは,実測結果に基づいて,実例のペアに対する損失を最小限に抑える新しいITE推定トレーニング戦略である。 二項処理の理論解析により、PairNetはITTリスクの一貫した推定器であり、ベースラインモデルよりもより小さな一般化誤差を実現することが明らかになった。 離散処理と連続処理の両方をカバーする8つのベンチマークにまたがる13の既存手法との実証的な比較は、PairNetがベースラインよりもはるかに低いITEエラーを達成していることを示している。 また、モデルに依存しず、実装も簡単です。

Given a dataset of individuals each described by a covariate vector, a treatment, and an observed outcome on the treatment, the goal of the individual treatment effect (ITE) estimation task is to predict outcome changes resulting from a change in treatment. A fundamental challenge is that in the observational data, a covariate's outcome is observed only under one treatment, whereas we need to infer the difference in outcomes under two different treatments. Several existing approaches address this issue through training with inferred pseudo-outcomes, but their success relies on the quality of these pseudo-outcomes. We propose PairNet, a novel ITE estimation training strategy that minimizes losses over pairs of examples based on their factual observed outcomes. Theoretical analysis for binary treatments reveals that PairNet is a consistent estimator of ITE risk, and achieves smaller generalization error than baseline models. Empirical comparison with thirteen existing methods across eight benchmarks, covering both discrete and continuous treatments, shows that PairNet achieves significantly lower ITE error compared to the baselines. Also, it is model-agnostic and easy to implement.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# 意味レベルでの視覚的類似度測定のための意味的類似度スコア

Semantic Similarity Score for Measuring Visual Similarity at Semantic Level ( http://arxiv.org/abs/2406.03865v1 )

ライセンス: Link先を確認
Senran Fan, Zhicheng Bao, Chen Dong, Haotai Liang, Xiaodong Xu, Ping Zhang, (参考訳) セマンティックコミュニケーションは、革命的なコミュニケーションアーキテクチャとして、有望な新しいコミュニケーションパラダイムと考えられている。 従来のシンボルベースのエラーのない通信システムとは異なり、意味に基づく視覚コミュニケーションシステムは意味レベルで画像を抽出し、圧縮し、送信し、再構成する。 しかし、画素ベースのMSEやPSNR、構造ベースのMS-SSIMといった画像類似性評価指標は、システム送信時のソースの意味レベル情報の損失を正確に測定するのに苦労する。 これにより,視覚的意味コミュニケーションシステムの性能評価,特に従来のコミュニケーションシステムと比較する際の課題が提示される。 そこで本研究では,Scene Graph Generationとグラフマッチングに基づくセマンティックな評価指標-SeSS(Semantic similarity Score)を提案し,画像間の類似度スコアをセマンティックレベルのグラフマッチングスコアに変換する。 一方、数万の画像対のセマンティック類似度スコアは、グラフマッチングアルゴリズムにおいてハイパーパラメータを微調整するために手動で注釈付けされ、メトリックは人間のセマンティック認識とより密に一致している。 本研究では,(1)圧縮速度の異なる従来の意味コミュニケーションシステムで伝送される画像,(2)信号対雑音比の異なる意味コミュニケーションシステムで伝送される画像,(3)雑音レベルの異なる大規模モデルで生成される画像,(4)特定の特殊な変換を受ける画像のケースなどを用いて,SESSの性能を検証した。 本実験は,SeSSの有効性を実証し,画像の意味レベル情報のセマンティックレベルの差異を計測し,視覚的意味コミュニケーションシステムにおける評価に利用できることを示す。

Semantic communication, as a revolutionary communication architecture, is considered a promising novel communication paradigm. Unlike traditional symbol-based error-free communication systems, semantic-based visual communication systems extract, compress, transmit, and reconstruct images at the semantic level. However, widely used image similarity evaluation metrics, whether pixel-based MSE or PSNR or structure-based MS-SSIM, struggle to accurately measure the loss of semantic-level information of the source during system transmission. This presents challenges in evaluating the performance of visual semantic communication systems, especially when comparing them with traditional communication systems. To address this, we propose a semantic evaluation metric -- SeSS (Semantic Similarity Score), based on Scene Graph Generation and graph matching, which shifts the similarity scores between images into semantic-level graph matching scores. Meanwhile, semantic similarity scores for tens of thousands of image pairs are manually annotated to fine-tune the hyperparameters in the graph matching algorithm, aligning the metric more closely with human semantic perception. The performance of the SeSS is tested on different datasets, including (1)images transmitted by traditional and semantic communication systems at different compression rates, (2)images transmitted by traditional and semantic communication systems at different signal-to-noise ratios, (3)images generated by large-scale model with different noise levels introduced, and (4)cases of images subjected to certain special transformations. The experiments demonstrate the effectiveness of SeSS, indicating that the metric can measure the semantic-level differences in semantic-level information of images and can be used for evaluation in visual semantic communication systems.
翻訳日:2024-06-07 15:49:43 公開日:2024-06-06
# LLplace: 大規模言語モデルによる3D屋内シーンレイアウト生成と編集

LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model ( http://arxiv.org/abs/2406.03866v1 )

ライセンス: Link先を確認
Yixuan Yang, Junru Lu, Zixiang Zhao, Zhen Luo, James J. Q. Yu, Victor Sanchez, Feng Zheng, (参考訳) 3D屋内レイアウトの設計は、仮想現実、インテリアデザイン、自動空間計画において重要な応用において重要な課題である。 既存の3Dレイアウト設計の手法は、空間的関係の先行性を利用する拡散モデルに依存するか、あるいは、ブラックボックスの試行を通じて広範囲のプロプライエタリ言語モデル(LLM)の推論機能を利用するかのいずれかである。 これらの手法は、一般化と動的なシーン編集の限界に直面することが多い。 本稿では,軽量な微調整オープンソースのLLM Llama3をベースとした,新しい3次元屋内シーンレイアウトデザイナであるLLplaceを紹介する。 LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、部屋タイプと所望のオブジェクトを指定するユーザ入力のみに基づいて、効率的で信頼性の高い部屋レイアウト生成を可能にする。 我々は3D-Frontデータセットに基づいた対話データセットをキュレートし、元のデータ量を拡大し、オブジェクトの追加と削除のための対話データを組み込んだ。 このデータセットはLLMの空間的理解を高めることができる。 さらに、対話を通じてLLplaceはLLMの3Dレイアウトを理解し、動的なシーン編集を実行し、オブジェクトの追加と削除を可能にする。 提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。 コードとデータセットがリリースされる。

Designing 3D indoor layouts is a crucial task with significant applications in virtual reality, interior design, and automated space planning. Existing methods for 3D layout design either rely on diffusion models, which utilize spatial relationship priors, or heavily leverage the inferential capabilities of proprietary Large Language Models (LLMs), which require extensive prompt engineering and in-context exemplars via black-box trials. These methods often face limitations in generalization and dynamic scene editing. In this paper, we introduce LLplace, a novel 3D indoor scene layout designer based on lightweight fine-tuned open-source LLM Llama3. LLplace circumvents the need for spatial relationship priors and in-context exemplars, enabling efficient and credible room layout generation based solely on user inputs specifying the room type and desired objects. We curated a new dialogue dataset based on the 3D-Front dataset, expanding the original data volume and incorporating dialogue data for adding and removing objects. This dataset can enhance the LLM's spatial understanding. Furthermore, through dialogue, LLplace activates the LLM's capability to understand 3D layouts and perform dynamic scene editing, enabling the addition and removal of objects. Our approach demonstrates that LLplace can effectively generate and edit 3D indoor layouts interactively and outperform existing methods in delivering high-quality 3D design solutions. Code and dataset will be released.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# 量子算術回路の総合的研究

A Comprehensive Study of Quantum Arithmetic Circuits ( http://arxiv.org/abs/2406.03867v1 )

ライセンス: Link先を確認
Siyi Wang, Xiufan Li, Wei Jie Bryan Lee, Suman Deb, Eugene Lim, Anupam Chattopadhyay, (参考訳) 近年、量子コンピューティングの分野は目覚ましい進歩を遂げている。 この進歩は、多くの量子アルゴリズムの性能が古典的なアルゴリズムよりも優れており、ショアのアルゴリズムが顕著な例である。 多くの量子アルゴリズムの基本的な構成要素である量子演算回路は、多くの注目を集めている。 既存の文献で様々なデザインを幅広く探究しているにもかかわらず、研究者は新しいデザインを開発し、既存のデザインを改善することに熱心である。 本稿では,量子演算回路における現在の最先端技術の概要を体系的に整理し,理解し易いものにすることを目的とする。 具体的には,加算,減算,乗算,除算,モジュラ指数といった基本的な操作について述べる。 我々はこれらの顕著な設計の詳細な量子的実装を掘り下げ、様々な目的を考慮してそれらの効率性を評価する。 また,提案する演算回路の応用の可能性についても論じ,今後の研究方向性を提案する。

In recent decades, the field of quantum computing has experienced remarkable progress. This progress is marked by the superior performance of many quantum algorithms compared to their classical counterparts, with Shor's algorithm serving as a prominent illustration. Quantum arithmetic circuits, which are the fundamental building blocks in numerous quantum algorithms, have attracted much attention. Despite extensive exploration of various designs in the existing literature, researchers remain keen on developing novel designs and improving existing ones. In this review article, we aim to provide a systematically organized and easily comprehensible overview of the current state-of-the-art in quantum arithmetic circuits. Specifically, this study covers fundamental operations such as addition, subtraction, multiplication, division and modular exponentiation. We delve into the detailed quantum implementations of these prominent designs and evaluate their efficiency considering various objectives. We also discuss potential applications of presented arithmetic circuits and suggest future research directions.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# 文レベルのbitextのための文書アノテーションの復元

Recovering document annotations for sentence-level bitext ( http://arxiv.org/abs/2406.03869v1 )

ライセンス: Link先を確認
Rachel Wicks, Matt Post, Philipp Koehn, (参考訳) データ可用性は、任意のタスクの範囲を制限する。 機械翻訳では、過去のモデルはより長いコンテキストを扱うことができないため、文書レベルのデータセットの欠如は目立たなかった。 現在、長いシーケンス法が出現しているにもかかわらず、我々は文レベルのパラダイムに留まり、文脈対応機械翻訳に適切にアプローチするためのデータがない。 ほとんどの大規模データセットは、ドキュメントレベルのメタデータを捨てるパイプラインを通じて処理されている。 本研究では,ドイツ語,フランス語,スペイン語,イタリア語,ポーランド語,ポルトガル語の3つの大データセット(ParaCrawl,News Commentary,Europarl)について,文書レベルの情報を再構成する。 次に,従来のbitextフィルタに代わる文書レベルのフィルタリング手法を提案する。 本手法は,文レベルの機械翻訳よりも文脈整合翻訳の方が好ましいことを示す。 最後に、これらの長い文脈でモデルをトレーニングし、文章レベルの翻訳を劣化させることなく文書レベルの翻訳を改善することを示す。 データセット、ParaDocs、結果のモデルをコミュニティにリソースとしてリリースしています。

Data availability limits the scope of any given task. In machine translation, historical models were incapable of handling longer contexts, so the lack of document-level datasets was less noticeable. Now, despite the emergence of long-sequence methods, we remain within a sentence-level paradigm and without data to adequately approach context-aware machine translation. Most large-scale datasets have been processed through a pipeline that discards document-level metadata. In this work, we reconstruct document-level information for three (ParaCrawl, News Commentary, and Europarl) large datasets in German, French, Spanish, Italian, Polish, and Portuguese (paired with English). We then introduce a document-level filtering technique as an alternative to traditional bitext filtering. We present this filtering with analysis to show that this method prefers context-consistent translations rather than those that may have been sentence-level machine translated. Last we train models on these longer contexts and demonstrate improvement in document-level translation without degradation of sentence-level translation. We release our dataset, ParaDocs, and resulting models as a resource to the community.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# GOOSE:安全批判シナリオ生成のためのゴールコンディション強化学習

GOOSE: Goal-Conditioned Reinforcement Learning for Safety-Critical Scenario Generation ( http://arxiv.org/abs/2406.03870v1 )

ライセンス: Link先を確認
Joshua Ransiek, Johannes Plaum, Jacob Langner, Eric Sax, (参考訳) シナリオベースのテストは、Advanced Driver Assistance Systems(ADAS)とAutomated Driving Systems(ADS)の検証と検証のための最先端技術と考えられている。 しかし,シナリオベーステストの実践的な適用には,安全評価に必要なシナリオの生成や収集に効率的な方法が必要である。 本稿では,ADAS や ADS に挑戦する安全クリティカルシナリオを自動的に生成する目標条件強化学習 (RL) アプローチである Goal-conditioned Scenario Generation (GOOSE) を提案する。 シナリオを同時に設定し,最適化するために,シナリオレベルで車両軌道を制御することを提案する。 RLフレームワークの各ステップはシナリオシミュレーションに対応する。 軌跡モデリングには, NURBS (Non-Uniform Rational B-Splines) を用いる。 目標条件付きエージェントをガイドするために、OpenScenario Domain Specific Language(DSL)に触発されたテスト固有の制約ベースの目標を定式化します。 アクティブレーン維持システム(ALKS)のための国連規制第157号から派生した複数の事前クラッシュシナリオで実施した実験を通じて、安全クリティカルな事象につながるシナリオを生成する上でのGOOSEの有効性を実証する。

Scenario-based testing is considered state-of-the-art for verifying and validating Advanced Driver Assistance Systems (ADASs) and Automated Driving Systems (ADSs). However, the practical application of scenario-based testing requires an efficient method to generate or collect the scenarios that are needed for the safety assessment. In this paper, we propose Goal-conditioned Scenario Generation (GOOSE), a goal-conditioned reinforcement learning (RL) approach that automatically generates safety-critical scenarios to challenge ADASs or ADSs. In order to simultaneously set up and optimize scenarios, we propose to control vehicle trajectories at the scenario level. Each step in the RL framework corresponds to a scenario simulation. We use Non-Uniform Rational B-Splines (NURBS) for trajectory modeling. To guide the goal-conditioned agent, we formulate test-specific, constraint-based goals inspired by the OpenScenario Domain Specific Language(DSL). Through experiments conducted on multiple pre-crash scenarios derived from UN Regulation No. 157 for Active Lane Keeping Systems (ALKS), we demonstrate the effectiveness of GOOSE in generating scenarios that lead to safety-critical events.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# BLSP-Emo:共感的大言語モデルを目指して

BLSP-Emo: Towards Empathetic Large Speech-Language Models ( http://arxiv.org/abs/2406.03872v1 )

ライセンス: Link先を確認
Chen Wang, Minpeng Liao, Zhongqiang Huang, Junhong Wu, Chengqing Zong, Jiajun Zhang, (参考訳) GPT-4oの最近のリリースは、低レイテンシだけでなく、豊かな感情で表現力のある音声を理解・生成する能力においても、エンドツーエンドのマルチモーダルモデルの可能性を示した。 詳細はオープンな研究コミュニティには知られていないが、大量のキュレートされたデータと計算が関係している可能性が高い。 本稿では,音声の意味と感情の両方を理解し,共感的応答を生成するエンドツーエンドの言語モデルを開発するための,BLSP-Emo(Bootstrapped Language-Speech Pretraining with Emotion Support)を提案する。 BLSP-Emoは、既存の音声認識(ASR)と音声感情認識(SER)データセットを2段階のプロセスで利用する。 第1段階は意味的アライメントに焦点を合わせ、ASRデータを用いた音声モデルの事前学習に追随する。 第2段階は、SERデータから構築された感情認識継続タスクにおいて、事前訓練された音声言語モデルと感情アライメントを行う。 実験の結果,BLSP-Emoモデルでは,音声の理解や共感的応答の達成に優れており,会話や指示追従にも優れていることがわかった。

The recent release of GPT-4o showcased the potential of end-to-end multimodal models, not just in terms of low latency but also in their ability to understand and generate expressive speech with rich emotions. While the details are unknown to the open research community, it likely involves significant amounts of curated data and compute, neither of which is readily accessible. In this paper, we present BLSP-Emo (Bootstrapped Language-Speech Pretraining with Emotion support), a novel approach to developing an end-to-end speech-language model capable of understanding both semantics and emotions in speech and generate empathetic responses. BLSP-Emo utilizes existing speech recognition (ASR) and speech emotion recognition (SER) datasets through a two-stage process. The first stage focuses on semantic alignment, following recent work on pretraining speech-language models using ASR data. The second stage performs emotion alignment with the pretrained speech-language model on an emotion-aware continuation task constructed from SER data. Our experiments demonstrate that the BLSP-Emo model excels in comprehending speech and delivering empathetic responses, both in instruction-following tasks and conversations.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# 量子暗黙的ニューラル表現

Quantum Implicit Neural Representations ( http://arxiv.org/abs/2406.03873v1 )

ライセンス: Link先を確認
Jiaming Zhao, Wenbo Qiao, Peng Zhang, Hui Gao, (参考訳) 暗黙の神経表現は、画像や音などの信号を表現するための強力なパラダイムとして登場した。 このアプローチは、ニューラルネットワークを用いて信号の暗黙的な機能をパラメータ化することを目的としている。 しかし、暗黙の関数を表す場合、ReLUベースの多層パーセプトロンのような従来のニューラルネットワークは、信号の高周波成分を正確にモデル化する上で困難に直面している。 最近の研究は、この制限を克服するためにフーリエニューラルネットワーク(FNN)の利用を探求し始めている。 本稿では,新しいFNNの量子一般化である量子暗黙表現ネットワーク(QIREN)を提案する。 さらに、理論解析により、QIRENは古典的なFNNに対して量子的優位性を持つことを示した。 最後に,信号表現,画像スーパーレゾリューション,画像生成タスクにおいて,最先端のSOTAモデルと比較してQIRENの優れた性能を示す実験を行った。 我々の研究は量子アドバンテージを暗黙のニューラルネットワーク表現に組み込むだけでなく、量子ニューラルネットワークの有望な応用方向を明らかにする。

Implicit neural representations have emerged as a powerful paradigm to represent signals such as images and sounds. This approach aims to utilize neural networks to parameterize the implicit function of the signal. However, when representing implicit functions, traditional neural networks such as ReLU-based multilayer perceptrons face challenges in accurately modeling high-frequency components of signals. Recent research has begun to explore the use of Fourier Neural Networks (FNNs) to overcome this limitation. In this paper, we propose Quantum Implicit Representation Network (QIREN), a novel quantum generalization of FNNs. Furthermore, through theoretical analysis, we demonstrate that QIREN possesses a quantum advantage over classical FNNs. Lastly, we conducted experiments in signal representation, image superresolution, and image generation tasks to show the superior performance of QIREN compared to state-of-the-art (SOTA) models. Our work not only incorporates quantum advantages into implicit neural representations but also uncovers a promising application direction for Quantum Neural Networks.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# Bench2Drive: 閉ループエンドツーエンド自動運転の多機能ベンチマークを目指して

Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving ( http://arxiv.org/abs/2406.03877v1 )

ライセンス: Link先を確認
Xiaosong Jia, Zhenjie Yang, Qifeng Li, Zhiyuan Zhang, Junchi Yan, (参考訳) ファンデーションモデルの急速なスケーリングに特徴付けられる時代において、自律運転技術は、データ駆動方式のスケールアップの可能性から、エンドツーエンドの自動運転(E2E-AD)が出現する変革的なしきい値に近づいている。 しかし、既存のE2E-AD手法は、L2エラーと衝突率を指標として、オープンループのログ再生方式で評価され(例えば、nuScenesでは)、最近コミュニティで認められたように、アルゴリズムの駆動性能を完全に反映することができなかった。 閉ループ法で評価されたE2E-AD法は, 運転スコアを指標とした固定経路(例えば, CARLAのTown05Long, Longest6)で試験される。 さらに、これらの手法は通常、トレーニングのために独自のデータを収集するので、アルゴリズムレベルの公正比較は不可能である。 完全自動運転(FSD)のための包括的で現実的で公正なテスト環境の必要性を満たすため、E2E-ADシステムのマルチ能力をクローズドループで評価するための最初のベンチマークであるBench2Driveを提示する。 Bench2Driveの公式トレーニングデータは200万の完全な注釈付きフレームで構成され、CARLA v2の44のインタラクティブシナリオ(カットイン、オーバーテイク、デトゥールなど)、23の天気(雨、霧、雨など)、12の町(都市、村、大学など)で均一に配布された10000のショートクリップから収集されている。 評価プロトコルでは、E2E-ADモデルでは、異なる場所と天候下で44の対話的なシナリオをパスし、220のルートを合計し、異なる状況下での運転能力に関する包括的かつ不整合な評価を提供する必要がある。 我々は最先端のE2E-ADモデルを実装し、Bench2Driveで評価し、現状と今後の方向性について洞察を提供する。

In an era marked by the rapid scaling of foundation models, autonomous driving technologies are approaching a transformative threshold where end-to-end autonomous driving (E2E-AD) emerges due to its potential of scaling up in the data-driven manner. However, existing E2E-AD methods are mostly evaluated under the open-loop log-replay manner with L2 errors and collision rate as metrics (e.g., in nuScenes), which could not fully reflect the driving performance of algorithms as recently acknowledged in the community. For those E2E-AD methods evaluated under the closed-loop protocol, they are tested in fixed routes (e.g., Town05Long and Longest6 in CARLA) with the driving score as metrics, which is known for high variance due to the unsmoothed metric function and large randomness in the long route. Besides, these methods usually collect their own data for training, which makes algorithm-level fair comparison infeasible. To fulfill the paramount need of comprehensive, realistic, and fair testing environments for Full Self-Driving (FSD), we present Bench2Drive, the first benchmark for evaluating E2E-AD systems' multiple abilities in a closed-loop manner. Bench2Drive's official training data consists of 2 million fully annotated frames, collected from 10000 short clips uniformly distributed under 44 interactive scenarios (cut-in, overtaking, detour, etc), 23 weathers (sunny, foggy, rainy, etc), and 12 towns (urban, village, university, etc) in CARLA v2. Its evaluation protocol requires E2E-AD models to pass 44 interactive scenarios under different locations and weathers which sums up to 220 routes and thus provides a comprehensive and disentangled assessment about their driving capability under different situations. We implement state-of-the-art E2E-AD models and evaluate them in Bench2Drive, providing insights regarding current status and future directions.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# 同時翻訳のためのデコーダのみのストリーミング変換器

Decoder-only Streaming Transformer for Simultaneous Translation ( http://arxiv.org/abs/2406.03878v1 )

ライセンス: Link先を確認
Shoutao Guo, Shaolei Zhang, Yang Feng, (参考訳) 同時機械翻訳(SiMT)は、ソーストークンを読みながら翻訳を生成し、基本的にはソースプレフィックスに基づいてターゲットプレフィックスを生成する。 優れた性能を達成するために、ソースプレフィックスとターゲットプレフィックスの関係を活用して、翻訳生成をガイドするポリシーを正確に作成する。 既存の SiMT メソッドは主に Encoder-Decoder アーキテクチャに重点を置いているが、様々なタスクにおける優れた性能と SiMT との固有の互換性のため、Decoder のみのアーキテクチャの可能性を探る。 しかし、DecoderのみのアーキテクチャをSiMTに直接適用することで、トレーニングや推論の面での課題が生じる。 上記の問題を緩和するため,Decoder のみの SiMT モデルとして,Decoder のみの Streaming Transformer (DST) を提案する。 具体的には、DSTはソースとターゲットプレフィックスの位置を別々にエンコードし、ターゲットプレフィックスの位置がソースプレフィックスの拡張の影響を受けないようにする。 さらに,Decoderのみのアーキテクチャに適したSSA機構を提案する。 入力ソース情報の十分性を評価し、ソフトアテンション機構と統合して翻訳を生成することにより、翻訳ポリシーを得ることができる。 実験により,本手法が3つの翻訳タスクにおける最先端性能を実現することを示す。

Simultaneous Machine Translation (SiMT) generates translation while reading source tokens, essentially producing the target prefix based on the source prefix. To achieve good performance, it leverages the relationship between source and target prefixes to exact a policy to guide the generation of translations. Although existing SiMT methods primarily focus on the Encoder-Decoder architecture, we explore the potential of Decoder-only architecture, owing to its superior performance in various tasks and its inherent compatibility with SiMT. However, directly applying the Decoder-only architecture to SiMT poses challenges in terms of training and inference. To alleviate the above problems, we propose the first Decoder-only SiMT model, named Decoder-only Streaming Transformer (DST). Specifically, DST separately encodes the positions of the source and target prefixes, ensuring that the position of the target prefix remains unaffected by the expansion of the source prefix. Furthermore, we propose a Streaming Self-Attention (SSA) mechanism tailored for the Decoder-only architecture. It is capable of obtaining translation policy by assessing the sufficiency of input source information and integrating with the soft-attention mechanism to generate translations. Experiments demonstrate that our approach achieves state-of-the-art performance on three translation tasks.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# ディケープルーニング法:自己修正法による平滑プルーニング

Decay Pruning Method: Smooth Pruning With a Self-Rectifying Procedure ( http://arxiv.org/abs/2406.03879v1 )

ライセンス: Link先を確認
Minghao Yang, Linlin Gao, Pengyuan Li, Wenbo Li, Yihong Dong, Zhiying Cui, (参考訳) 現在の構造化プルーニング法は、急激なネットワーク変更や、プルーニングされた構造からの情報の損失により、かなりの精度低下をもたらすことが多い。 これらの問題に対処するために,自己修正機構を備えた新しいスムーズプルーニング手法であるDecay Pruning Method (DPM)を導入する。 DPMは2つの重要なコンポーネントから構成される。 (i)スムース・プルーニング(Smooth Pruning): 従来のシングルステップ・プルーニングを多段階スムーズ・プルーニングに変換し、最適化が進行中であるため、冗長構造を徐々にゼロに減らした。 自己修正: この手順は、勾配情報に基づく準最適プルーニングの修正により、上記のプロセスをさらに強化する。 提案手法は, 高い一般化性を示し, 既存プルーニング手法と容易に統合可能である。 我々はDPMの有効性を,OTOv2,Depgraph,Gate Decoratorの3つの人気プルーニング手法と組み合わせて検証した。 実験の結果,従来の刈り込み法に比べて性能が一貫した改善が見られ,多くのシナリオでFLOPがさらに削減された。

Current structured pruning methods often result in considerable accuracy drops due to abrupt network changes and loss of information from pruned structures. To address these issues, we introduce the Decay Pruning Method (DPM), a novel smooth pruning approach with a self-rectifying mechanism. DPM consists of two key components: (i) Smooth Pruning: It converts conventional single-step pruning into multi-step smooth pruning, gradually reducing redundant structures to zero over N steps with ongoing optimization. (ii) Self-Rectifying: This procedure further enhances the aforementioned process by rectifying sub-optimal pruning based on gradient information. Our approach demonstrates strong generalizability and can be easily integrated with various existing pruning methods. We validate the effectiveness of DPM by integrating it with three popular pruning methods: OTOv2, Depgraph, and Gate Decorator. Experimental results show consistent improvements in performance compared to the original pruning methods, along with further reductions of FLOPs in most scenarios.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# 深層学習における覚書化 : サーベイ

Memorization in deep learning: A survey ( http://arxiv.org/abs/2406.03880v1 )

ライセンス: Link先を確認
Jiaheng Wei, Yanjun Zhang, Leo Yu Zhang, Ming Ding, Chao Chen, Kok-Leong Ong, Jun Zhang, Yang Xiang, (参考訳) Deep Neural Networks(DNN)を利用したディープラーニング(DL)は、さまざまなドメインに革命をもたらしたが、DNNの意思決定と学習プロセスの複雑さを理解することは、依然として大きな課題である。 近年の研究では、DNNが一般的なパターンを学ぶよりも、例から特定の詳細を記憶する傾向にある興味深い記憶現象が発見されており、モデルの一般化、セキュリティ、プライバシに影響を及ぼしている。 これにより、DNNにおける一般化の性質と、セキュリティ侵害に対する感受性に関する批判的な疑問が提起される。 本稿では,一般化とセキュリティ/プライバシドメインに基づく記憶定義を整理するための体系的枠組みを提案し,その例とモデルレベルで記憶評価手法を要約する。 総合的な文献レビューを通じて、DNNの暗記行動とそのセキュリティとプライバシへの影響について考察する。 また,暗記によるプライバシーの脆弱性や,暗記との関係を忘れ,探究する現象も導入する。 さらに,ノイズラベル学習,プライバシ保護,モデル強化など,記憶と忘れのメカニズムを活用するさまざまなアプリケーションに注目する。 この調査は、DNNにおける暗記の第一線となる理解を提供し、批判的な倫理的懸念に対処しながら、AI開発を強化するための課題と機会についての洞察を提供する。

Deep Learning (DL) powered by Deep Neural Networks (DNNs) has revolutionized various domains, yet understanding the intricacies of DNN decision-making and learning processes remains a significant challenge. Recent investigations have uncovered an interesting memorization phenomenon in which DNNs tend to memorize specific details from examples rather than learning general patterns, affecting model generalization, security, and privacy. This raises critical questions about the nature of generalization in DNNs and their susceptibility to security breaches. In this survey, we present a systematic framework to organize memorization definitions based on the generalization and security/privacy domains and summarize memorization evaluation methods at both the example and model levels. Through a comprehensive literature review, we explore DNN memorization behaviors and their impacts on security and privacy. We also introduce privacy vulnerabilities caused by memorization and the phenomenon of forgetting and explore its connection with memorization. Furthermore, we spotlight various applications leveraging memorization and forgetting mechanisms, including noisy label learning, privacy preservation, and model enhancement. This survey offers the first-in-kind understanding of memorization in DNNs, providing insights into its challenges and opportunities for enhancing AI development while addressing critical ethical concerns.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# IWSLT2023音声翻訳タスクの評価:人間のアノテーション、自動メトリクス、セグメンテーション

Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation ( http://arxiv.org/abs/2406.03881v1 )

ライセンス: Link先を確認
Matthias Sperber, Ondřej Bojar, Barry Haddow, Dávid Javorský, Xutai Ma, Matteo Negri, Jan Niehues, Peter Polák, Elizabeth Salesky, Katsuhito Sudoh, Marco Turchi, (参考訳) ヒトの評価は機械翻訳システム開発において重要な要素であり、テキスト翻訳研究において多くの注目を集めている。 しかし、音声翻訳における人間の評価に関する先行研究はほとんど存在せず、ノイズデータやセグメンテーションミスマッチといった新たな課題が加えられている。 我々は,このギャップを埋めるための第一歩として,前回国際音声言語翻訳ワークショップ(IWSLT 2023)において,共有タスクの結果の包括的な人間による評価を行う。 本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。 我々の分析は、こう明らかにした。 1) 提案した評価戦略は頑健であり, 他種の人的判断とよく相関している。 2 自動指標は、通常、必ずしも、直接評価スコアとよく関連しているわけではない。 3) セグメンテーションステップシステムによって生じるセグメンテーションノイズにもかかわらず, COMET は chrF よりもわずかに強力な自動測定基準となる。 我々は、さらなる調査を促進するため、収集した人手によるデータをリリースする。

Human evaluation is a critical component in machine translation system development and has received much attention in text translation research. However, little prior work exists on the topic of human evaluation for speech translation, which adds additional challenges such as noisy data and segmentation mismatches. We take first steps to fill this gap by conducting a comprehensive human evaluation of the results of several shared tasks from the last International Workshop on Spoken Language Translation (IWSLT 2023). We propose an effective evaluation strategy based on automatic resegmentation and direct assessment with segment context. Our analysis revealed that: 1) the proposed evaluation strategy is robust and scores well-correlated with other types of human judgements; 2) automatic metrics are usually, but not always, well-correlated with direct assessment scores; and 3) COMET as a slightly stronger automatic metric than chrF, despite the segmentation noise introduced by the resegmentation step systems. We release the collected human-annotated data in order to encourage further investigation.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# ウィスパーと大規模言語モデルを用いた自発音声による自殺リスク検出

Spontaneous Speech-Based Suicide Risk Detection Using Whisper and Large Language Models ( http://arxiv.org/abs/2406.03882v1 )

ライセンス: Link先を確認
Ziyun Cui, Chang Lei, Wen Wu, Yinan Duan, Diyang Qu, Ji Wu, Runsen Chen, Chao Zhang, (参考訳) 自殺リスクの早期発見は、自殺未遂を予防するための介入を可能にするため重要である。 本研究は,10歳から18歳までの10歳以上の若年者を対象に,自発音声に基づく自殺リスクの自動検出を行い,15時間以上の自発音声を用いたマンダリンデータセットを収集する。 自発音声に埋め込まれた多様な音響的・言語的特徴を活用するために、Whisper音声モデルとテキスト大言語モデル(LLM)の両方が自殺リスク検出に使用される。 自殺リスク検出のための事前訓練モデルに適用するために全パラメータ微調整法とパラメータ効率細調整法の両方を用い、WhisperとLLMの表現を組み合わせるために複数のオーディオテキスト融合法を評価した。 提案システムでは,被験者119名を対象に,検出精度0.807,F1スコア0.846を実現し,実際の自殺リスク検出への応用の可能性を示した。

The early detection of suicide risk is important since it enables the intervention to prevent potential suicide attempts. This paper studies the automatic detection of suicide risk based on spontaneous speech from adolescents, and collects a Mandarin dataset with 15 hours of suicide speech from more than a thousand adolescents aged from ten to eighteen for our experiments. To leverage the diverse acoustic and linguistic features embedded in spontaneous speech, both the Whisper speech model and textual large language models (LLMs) are used for suicide risk detection. Both all-parameter finetuning and parameter-efficient finetuning approaches are used to adapt the pre-trained models for suicide risk detection, and multiple audio-text fusion approaches are evaluated to combine the representations of Whisper and the LLM. The proposed system achieves a detection accuracy of 0.807 and an F1-score of 0.846 on the test set with 119 subjects, indicating promising potential for real suicide risk detection applications.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# BiomedBench:低消費電力ウェアラブル向けTinyMLバイオメディカルアプリケーションのベンチマークスイート

BiomedBench: A benchmark suite of TinyML biomedical applications for low-power wearables ( http://arxiv.org/abs/2406.03886v1 )

ライセンス: Link先を確認
Dimitrios Samakovlis, Stefano Albini, Rubén Rodríguez Álvarez, Denisa-Andreea Constantinescu, Pasquale Davide Schiavone, Miguel Peón Quirós, David Atienza, (参考訳) バイオメディカル領域における低消費電力ウェアラブルの設計は、チップ製造技術の進歩により、mW範囲内での低複雑さMLを用いた患者のリアルタイムモニタリングが可能となり、近年注目されている。 アプリケーションとハードウェアの設計研究の進歩にもかかわらず、このドメインはハードウェア評価に対する体系的なアプローチを欠いている。 本研究では,ウェアラブルデバイスを用いた患者のリアルタイムモニタリングのための,完全なエンドツーエンドTinyMLバイオメディカルアプリケーションからなるベンチマークスイートであるBiomedBenchを提案する。 各アプリケーションは、様々な計算処理やアクティブ時間とアイドル時間の関係を含む、典型的な信号取得と処理フェーズで異なる要件を提示する。 さらに、エネルギー効率の観点から、5つの最先端低消費電力プラットフォームを評価した結果、現代のプラットフォームは、あらゆる種類のバイオメディカル応用を効果的にターゲットできないことがわかった。 BiomedBenchはオープンソーススイートとしてリリースされ、バイオエンジニアリングシステムとTinyMLアプリケーション設計の領域全体の将来の改善を可能にする。

The design of low-power wearables for the biomedical domain has received a lot of attention in recent decades, as technological advances in chip manufacturing have allowed real-time monitoring of patients using low-complexity ML within the mW range. Despite advances in application and hardware design research, the domain lacks a systematic approach to hardware evaluation. In this work, we propose BiomedBench, a new benchmark suite composed of complete end-to-end TinyML biomedical applications for real-time monitoring of patients using wearable devices. Each application presents different requirements during typical signal acquisition and processing phases, including varying computational workloads and relations between active and idle times. Furthermore, our evaluation of five state-of-the-art low-power platforms in terms of energy efficiency shows that modern platforms cannot effectively target all types of biomedical applications. BiomedBench will be released as an open-source suite to enable future improvements in the entire domain of bioengineering systems and TinyML application design.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# 深層強化学習におけるペシミズムと最適化ダイナミクスの探索

Exploring Pessimism and Optimism Dynamics in Deep Reinforcement Learning ( http://arxiv.org/abs/2406.03890v1 )

ライセンス: Link先を確認
Bahareh Tasdighi, Nicklas Werge, Yi-Shan Wu, Melih Kandemir, (参考訳) 政治的でないアクター批判的アルゴリズムは、継続的な制御タスクに対する深い強化学習の可能性を示している。 その成功は主に悲観的な状態-作用値関数の更新によるものであり、関数近似誤差を効果的に処理し、パフォーマンスを改善する。 しかし、そのような悲観主義は、エージェントの政策を探索・再定義する能力を制限し、探索の過小評価につながる可能性がある。 逆に、楽観主義は過度の探索に反する可能性があるが、適切なバランスがとれなければ過剰なリスクテイクと低い収束のリスクも伴う。 これらの知見に基づいて,アクターと批評家の悲観的・楽観的な程度を独立的に制御できる,アクター-批評家パラダイムの新たな枠組みであるUtility Soft Actor-Critic(USAC)を紹介した。 USACは、悲観主義と楽観主義を個別にバランスさせるユーティリティ機能を通じて、批判者の不確実性に基づいて、その探索戦略を適用します。 楽観主義と悲観主義の二進的選択を超えて、USACは、非政治的なアクター批判的アルゴリズム内でバランスをとるための重要なステップである。 様々な連続制御問題に対する実験は、悲観論や楽観論の度合いがタスクの性質に依存することを示している。 さらに、USACは悲観的/楽観的パラメータを適切に設定するための最先端アルゴリズムより優れていることを示す。

Off-policy actor-critic algorithms have shown promise in deep reinforcement learning for continuous control tasks. Their success largely stems from leveraging pessimistic state-action value function updates, which effectively address function approximation errors and improve performance. However, such pessimism can lead to under-exploration, constraining the agent's ability to explore/refine its policies. Conversely, optimism can counteract under-exploration, but it also carries the risk of excessive risk-taking and poor convergence if not properly balanced. Based on these insights, we introduce Utility Soft Actor-Critic (USAC), a novel framework within the actor-critic paradigm that enables independent control over the degree of pessimism/optimism for both the actor and the critic via interpretable parameters. USAC adapts its exploration strategy based on the uncertainty of critics through a utility function that allows us to balance between pessimism and optimism separately. By going beyond binary choices of optimism and pessimism, USAC represents a significant step towards achieving balance within off-policy actor-critic algorithms. Our experiments across various continuous control problems show that the degree of pessimism or optimism depends on the nature of the task. Furthermore, we demonstrate that USAC can outperform state-of-the-art algorithms for appropriately configured pessimism/optimism parameters.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# CTR予測のための多面コニック分類器

Polyhedral Conic Classifier for CTR Prediction ( http://arxiv.org/abs/2406.03892v1 )

ライセンス: Link先を確認
Beyza Turkmen, Ramazan Tarik Turksoy, Hasan Saribas, Hakan Cevikalp, (参考訳) 本稿では,産業レコメンデーションシステムにおけるクリックスルー率(CTR)予測の新たなアプローチを提案し,数値的不均衡と幾何学的非対称性の固有の課題に対処する。 これらの課題は、正(クリック)のインスタンスが負(非クリック)よりも頻度が低い不均衡なデータセットと、正のサンプルが視覚的に一貫性のあるパターンを示し、負のサンプルがより多様性を示す幾何学的に非対称な分布に起因している。 これらの課題に対処するために,多面体円錐関数を用いたディープニューラルネットワーク分類器を用いた。 この分類器は精神における一級分類器と似ており、様々な分布を持つ負のサンプルから正のクラス標本を分離するためにコンパクトな多面的受容領域を返す。 提案手法を、Criteo、Avazu、MovieLens、Frappeの4つの公開データセット上で、最先端(SOTA) CTR予測モデルを用いて検証する大規模な実験が実施されている。 実験により,CTR予測タスクに広く用いられているBCE損失に対して,提案手法の優位性を強調した。

This paper introduces a novel approach for click-through rate (CTR) prediction within industrial recommender systems, addressing the inherent challenges of numerical imbalance and geometric asymmetry. These challenges stem from imbalanced datasets, where positive (click) instances occur less frequently than negatives (non-clicks), and geometrically asymmetric distributions, where positive samples exhibit visually coherent patterns while negatives demonstrate greater diversity. To address these challenges, we have used a deep neural network classifier that uses the polyhedral conic functions. This classifier is similar to the one-class classifiers in spirit and it returns compact polyhedral acceptance regions to separate the positive class samples from the negative samples that have diverse distributions. Extensive experiments have been conducted to test the proposed approach using state-of-the-art (SOTA) CTR prediction models on four public datasets, namely Criteo, Avazu, MovieLens and Frappe. The experimental evaluations highlight the superiority of our proposed approach over Binary Cross Entropy (BCE) Loss, which is widely used in CTR prediction tasks.
翻訳日:2024-06-07 15:39:42 公開日:2024-06-06
# 低資源インド語におけるゼロショットMTの評価はどの程度優れているか?

How Good is Zero-Shot MT Evaluation for Low Resource Indian Languages? ( http://arxiv.org/abs/2406.03893v1 )

ライセンス: Link先を確認
Anushka Singh, Ananya B. Sai, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan, Mitesh M Khapra, (参考訳) 機械翻訳評価は、主に高リソース言語を対象として研究されているが、データやモデルの普及により、近年、低リソース言語に対する評価への関心が高まっている。 本稿では,Assamese,Kannada,Maithili,Punjabiといった低リソースのインドの言語に焦点を当てたゼロショット評価に焦点をあてる。 我々は、テストセットを作成し、多数の自動評価指標をメタ評価するために、十分な多次元品質メトリクス(MQM)と直接評価(DA)アノテーションを収集します。 ゼロショット性能を示すことが知られている学習指標であっても、人間のアノテーションとKendall TauとPearsonの相関は0.32と0.45である。 合成データアプローチは複雑な結果を示し、全体としてこれらの言語ではギャップを埋めるには役に立たない。 これは、低リソース評価にはまだまだ長い道のりがあることを示している。

While machine translation evaluation has been studied primarily for high-resource languages, there has been a recent interest in evaluation for low-resource languages due to the increasing availability of data and models. In this paper, we focus on a zero-shot evaluation setting focusing on low-resource Indian languages, namely Assamese, Kannada, Maithili, and Punjabi. We collect sufficient Multi-Dimensional Quality Metrics (MQM) and Direct Assessment (DA) annotations to create test sets and meta-evaluate a plethora of automatic evaluation metrics. We observe that even for learned metrics, which are known to exhibit zero-shot performance, the Kendall Tau and Pearson correlations with human annotations are only as high as 0.32 and 0.45. Synthetic data approaches show mixed results and overall do not help close the gap by much for these languages. This indicates that there is still a long way to go for low-resource evaluation.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# トランスダクティブなオフ政治政策最適化

Transductive Off-policy Proximal Policy Optimization ( http://arxiv.org/abs/2406.03894v1 )

ライセンス: Link先を確認
Yaozhong Gan, Renye Yan, Xiaoyang Tan, Zhe Wu, Junliang Xing, (参考訳) Proximal Policy Optimization (PPO) は、モデルのない強化学習アルゴリズムであり、その単純さと有効性から評価されている。 しかし、本来は政治上の性格のため、異なる政策からのデータを活用する能力は制限されている。 本稿では,従来のPPO法であるTransductive Off-policy PPO (ToPPO) を新たに導入した。 ここでは、PPOトレーニングにオフ政治データを取り入れた理論的正当化と、その安全な適用のための慎重なガイドラインを提供する。 我々の貢献には、独占的改善の保証によって支えられた、この境界を最適化する計算効率の良いメカニズムが伴い、非政治データから導かれる予測ポリシーに対する政策改善の下限の新たな定式化が含まれている。 ToPPOの有望な性能を裏付ける6つの代表的なタスクの総合的な実験結果。

Proximal Policy Optimization (PPO) is a popular model-free reinforcement learning algorithm, esteemed for its simplicity and efficacy. However, due to its inherent on-policy nature, its proficiency in harnessing data from disparate policies is constrained. This paper introduces a novel off-policy extension to the original PPO method, christened Transductive Off-policy PPO (ToPPO). Herein, we provide theoretical justification for incorporating off-policy data in PPO training and prudent guidelines for its safe application. Our contribution includes a novel formulation of the policy improvement lower bound for prospective policies derived from off-policy data, accompanied by a computationally efficient mechanism to optimize this bound, underpinned by assurances of monotonic improvement. Comprehensive experimental results across six representative tasks underscore ToPPO's promising performance.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# データ駆動型ニューラルネットワークによる自己相似性の発見

Data-driven discovery of self-similarity using neural networks ( http://arxiv.org/abs/2406.03896v1 )

ライセンス: Link先を確認
Ryota Watanabe, Takanori Ishii, Yuji Hirono, Hirokazu Maruoka, (参考訳) 自己相似性を見つけることは、複雑な物理現象の背後にある統治法を理解するための重要なステップである。 従来の自己相似性を特定する方法は、しばしば特定のモデルに依存し、重大なバイアスをもたらす。 本稿では,観測データから直接自己相似性を発見するニューラルネットワークに基づく新しい手法を提案する。 物理問題における自己相似解の存在は、支配法則が、物理パラメータの正則単項項によって引数が与えられる関数を含むことを示す。 基本的な考え方は、そのような特定の形式を、パラメータ化された方法でニューラルネットワークに構造的に強制することである。 観測データを用いてニューラルネットワークモデルをトレーニングし、トレーニングが成功すれば、物理問題のスケール・トランスフォーメーション対称性を特徴付けるパワー指数を抽出できる。 複雑なシステムにおける自己相似性を探索するための頑健でモデルに依存しないツールとしての可能性を検証するため, 合成データと実験データの両方を用いて本手法の有効性を実証した。

Finding self-similarity is a key step for understanding the governing law behind complex physical phenomena. Traditional methods for identifying self-similarity often rely on specific models, which can introduce significant bias. In this paper, we present a novel neural network-based approach that discovers self-similarity directly from observed data, without presupposing any models. The presence of self-similar solutions in a physical problem signals that the governing law contains a function whose arguments are given by power-law monomials of physical parameters, which are characterized by power-law exponents. The basic idea is to enforce such particular forms structurally in a neural network in a parametrized way. We train the neural network model using the observed data, and when the training is successful, we can extract the power exponents that characterize scale-transformation symmetries of the physical problem. We demonstrate the effectiveness of our method with both synthetic and experimental data, validating its potential as a robust, model-independent tool for exploring self-similarity in complex systems.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# HeSum: ヘブライ語における抽象テキスト要約のための新しいデータセット

HeSum: a Novel Dataset for Abstractive Text Summarization in Hebrew ( http://arxiv.org/abs/2406.03897v1 )

ライセンス: Link先を確認
Tzuf Paz-Argaman, Itai Mondshine, Asaf Achi Mordechai, Reut Tsarfaty, (参考訳) 大きな言語モデル(LLM)は英語の様々な自然言語タスクに優れるが、ヘブライ語のような低リソース言語、特に抽象的な要約のような生成的なタスクにおいて、その性能は未だ不明である。 ヘブライ語における高い形態的豊かさは、文理解の曖昧さと建設の意味の複雑さにより、さらなる課題をもたらす。 本稿では,現代ヘブライ語における抽象テキスト要約に特化して設計された新しいベンチマークHeSumを導入することで,このリソースと評価ギャップに対処する。 HeSumは、プロが書いたヘブライ語ニュースサイトから入手した1万記事と1万記事のペアで構成されている。 言語学的分析は、ヘサムの高い抽象性とユニークな形態的課題を裏付ける。 ヘブライ語における生成言語技術のための貴重なテストベッドとして,HeSumは現代LLMに対して,またMRLの一般的な生成課題として,明確な困難を呈していることを示す。

While large language models (LLMs) excel in various natural language tasks in English, their performance in lower-resourced languages like Hebrew, especially for generative tasks such as abstractive summarization, remains unclear. The high morphological richness in Hebrew adds further challenges due to the ambiguity in sentence comprehension and the complexities in meaning construction. In this paper, we address this resource and evaluation gap by introducing HeSum, a novel benchmark specifically designed for abstractive text summarization in Modern Hebrew. HeSum consists of 10,000 article-summary pairs sourced from Hebrew news websites written by professionals. Linguistic analysis confirms HeSum's high abstractness and unique morphological challenges. We show that HeSum presents distinct difficulties for contemporary state-of-the-art LLMs, establishing it as a valuable testbed for generative language technology in Hebrew, and MRLs generative challenges in general.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# 二重エンコーダデコーダネットワークを用いたポリープと手術器具のセグメンテーション

Polyp and Surgical Instrument Segmentation with Double Encoder-Decoder Networks ( http://arxiv.org/abs/2406.03901v1 )

ライセンス: Link先を確認
Adrian Galdran, (参考訳) 本稿では,内視鏡画像からポリープと手術器具を分離するMedAIコンペティションの解決法について述べる。 提案手法は,これまでポリプセグメンテーションに応用してきた二重エンコーダデコーダニューラルネットワークに頼っているが,より強力なエンコーダアーキテクチャ,改良された最適化手順,テンポモデルアンサンブルに基づくセグメンテーションの後処理など,一連の拡張が加えられている。 実験結果から,本手法は医療専門家による手動記述と良好な一致を示すセグメンテーションを創出することが示された。

This paper describes a solution for the MedAI competition, in which participants were required to segment both polyps and surgical instruments from endoscopic images. Our approach relies on a double encoder-decoder neural network which we have previously applied for polyp segmentation, but with a series of enhancements: a more powerful encoder architecture, an improved optimization procedure, and the post-processing of segmentations based on tempered model ensembling. Experimental results show that our method produces segmentations that show a good agreement with manual delineations provided by medical experts.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# C^2RV:スパースビューCBCT再構成のためのクロスレギュレーションとクロスビュー学習

C^2RV: Cross-Regional and Cross-View Learning for Sparse-View CBCT Reconstruction ( http://arxiv.org/abs/2406.03902v1 )

ライセンス: Link先を確認
Yiqun Lin, Jiewen Yang, Hualiang Wang, Xinpeng Ding, Wei Zhao, Xiaomeng Li, (参考訳) コーンビームCT(CBCT)は診断や術前計画などの医療シナリオで広く用いられている画像技術である。 スパース・ビュー・リコンストラクション(sparse-view Restruction)とも呼ばれるCTのプロジェクション・ビューを小さくすることで、電離放射線を減らし、さらに干渉放射線学の恩恵を受けることができる。 従来のパラレル/ファンビームCTのスパースビュー再構成と比較すると,円錐形X線による計測プロセスによる寸法変化のため,CBCT再構成は困難である。 2D-to-3D再構成問題として、効率的なトレーニングを実現するために暗黙の神経表現が導入されたが、局所的な特徴のみを考慮し、異なる視点を以前の研究で等しく処理し、複雑な解剖学における空間的不整合と性能の低下をもたらす。 そこで我々は,C^2RVを提案する。C^2RVは3次元空間におけるクロスリージョン学習を実現するために,明示的なマルチスケールボリューム表現を活用する。 さらに、マルチスケールとマルチビューの機能を適応的に集約するために、スケールビューのクロスアテンションモジュールが導入された。 我々のC^2RVは、多様な解剖を持つデータセット上で、過去の最先端の手法よりも一貫性があり、重要な改善を達成している。

Cone beam computed tomography (CBCT) is an important imaging technology widely used in medical scenarios, such as diagnosis and preoperative planning. Using fewer projection views to reconstruct CT, also known as sparse-view reconstruction, can reduce ionizing radiation and further benefit interventional radiology. Compared with sparse-view reconstruction for traditional parallel/fan-beam CT, CBCT reconstruction is more challenging due to the increased dimensionality caused by the measurement process based on cone-shaped X-ray beams. As a 2D-to-3D reconstruction problem, although implicit neural representations have been introduced to enable efficient training, only local features are considered and different views are processed equally in previous works, resulting in spatial inconsistency and poor performance on complicated anatomies. To this end, we propose C^2RV by leveraging explicit multi-scale volumetric representations to enable cross-regional learning in the 3D space. Additionally, the scale-view cross-attention module is introduced to adaptively aggregate multi-scale and multi-view features. Extensive experiments demonstrate that our C^2RV achieves consistent and significant improvement over previous state-of-the-art methods on datasets with diverse anatomy.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# 眼底画像からの緑内障スクリーニングのためのデータ中心ラベル平滑化

Data-Centric Label Smoothing for Explainable Glaucoma Screening from Eye Fundus Images ( http://arxiv.org/abs/2406.03903v1 )

ライセンス: Link先を確認
Adrian Galdran, Miguel A. González Ballester, (参考訳) 現在のコンピューティング能力が向上するにつれて、現代の機械学習とコンピュータビジョンシステムは複雑さを増す傾向にある。 しばしば無視されるが、多くの問題において、アノテーションを含む既に利用可能なトレーニングデータのより良い活用に関する潜在的な改善を検討することでも得られる。 このようなデータ中心のアプローチは、時には大規模なモデルによって達成されるものを超えて、大幅なパフォーマンス向上につながる可能性がある。 本稿では網膜画像からの緑内障検診にこのようなアプローチを採用する。 特に、異なるスキルを持つ複数のアノテータからの情報を、異なるスキルを持つ複数のアノテータからどのように組み合わせるかに重点を置いている。 内的検証の結果,本手法は標準resnet50モデルと従来のラベル平滑化技術で訓練されたモデル,特に高度に不均衡なスクリーニング環境で緑内障の臨床的原因を予測するマルチラベルシナリオに勝ることがわかった。 私たちのコードはgithub.com/agaldran/justraigsで利用可能です。

As current computing capabilities increase, modern machine learning and computer vision system tend to increase in complexity, mostly by means of larger models and advanced optimization strategies. Although often neglected, in many problems there is also much to be gained by considering potential improvements in understanding and better leveraging already-available training data, including annotations. This so-called data-centric approach can lead to substantial performance increases, sometimes beyond what can be achieved by larger models. In this paper we adopt such an approach for the task of justifiable glaucoma screening from retinal images. In particular, we focus on how to combine information from multiple annotators of different skills into a tailored label smoothing scheme that allows us to better employ a large collection of fundus images, instead of discarding samples suffering from inter-rater variability. Internal validation results indicate that our bespoke label smoothing approach surpasses the performance of a standard resnet50 model and also the same model trained with conventional label smoothing techniques, in particular for the multi-label scenario of predicting clinical reasons of glaucoma likelihood in a highly imbalanced screening context. Our code is made available at github.com/agaldran/justraigs .
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# QuAS:量子コンピュータの実用性ベンチマークのための量子アプリケーションスコア

QuAS: Quantum Application Score for benchmarking the utility of quantum computers ( http://arxiv.org/abs/2406.03905v1 )

ライセンス: Link先を確認
Koen J. Mesman, Ward van der Schoot, Matthias Möller, Niels M. P. Neumann, (参考訳) 量子コンピュータのベンチマークは、それらを定量化し、その技術を市場に出すのに役立つ。 アプリケーションレベルで量子デバイスをベンチマークするためには、さまざまなアプリケーションレベルのメトリクスが存在する。 本稿では,QPack や Q-score といった従来の指標の強い点を取り入れた量子アプリケーションスコア (Quantum Application Score, QAS) を改訂した総合評価手法を提案する。 本稿では,量子コンピュータの実用性をよりよく評価するアプリケーションレベルの計量値を得る方法について論じる。 D-WaveやIBM、量子インスパイアやリゲッティの量子シミュレータなど、さまざまなハードウェアプラットフォーム上で新しいメトリクスを評価する。

Benchmarking quantum computers helps to quantify them and bringing the technology to the market. Various application-level metrics exist to benchmark a quantum device at an application level. This paper presents a revised holistic scoring method called the Quantum Application Score (QuAS) incorporating strong points of previous metrics, such as QPack and the Q-score. We discuss how to integrate both and thereby obtain an application-level metric that better quantifies the practical utility of quantum computers. We evaluate the new metric on different hardware platforms such as D-Wave and IBM as well as quantum simulators of Quantum Inspire and Rigetti.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# 自励系におけるメガスタブル量子化

Megastable quantization in self-excited systems ( http://arxiv.org/abs/2406.03906v1 )

ライセンス: Link先を確認
Álvaro G. López, Rahil N. Valani, (参考訳) 凝縮ポテンシャルの古典的粒子は、数え切れないほど無限の連続エネルギースペクトルを持つハミルトンの保守的力学系を生じさせるが、対応する量子粒子は数え切れないほど無限の離散エネルギーレベルを示す。 古典的活性粒子を調和ポテンシャルで記述した非線形自己持続型発振器のクラスを考える。 これらの非線形発振器は、状態依存の時間遅延系の低メモリ状態と、歩行液滴の非マルコフ分光モデルの両方に現れる。 平均化手法を用いて、このタイプの自励系に対して、漸近的に安定な量子化軌道の無数の無限の存在を証明した。 周期軌道の集合は、クアシリナールが振幅を増大させ、安定性を交互に変化させ、スムーズなアトラクションの盆地を産み出すネスト付きリミテッドサイクルの誘引器からなる。 リャプノフエネルギー関数を用いて、この巨視的な軌道のエネルギースペクトルを推定し、数値シミュレーションを行い、数学的解析を確かめる。 我々の定式化は、一般の閉包ポテンシャルにおいて自励粒子に拡張することができ、量子化のこれらの動的アナログに対して異なるエネルギー-周波数関係をもたらす。

A classical particle in a confining potential gives rise to a Hamiltonian conservative dynamical system with an uncountably infinite continuous energy spectra, whereas the corresponding quantum particle exhibits countably infinite discrete energy levels. We consider a class of nonlinear self-sustained oscillators describing a classical active particle in a harmonic potential. These nonlinear oscillators emerge in the low-memory regime of both state-dependent time-delay systems as well as in non-Markovian stroboscopic models of walking droplets. Using averaging techniques, we prove the existence of a countably infinite number of asymptotically stable quantized orbits, i.e. megastability, for this class of self-excited systems. The set of periodic orbits consists of a sequence of nested limit-cycle attractors with quasilinear increasing amplitude and alternating stability, yielding smooth basins of attraction. By using the Lyapunov energy function, we estimate the energy spectra of this megastable set of orbits, and perform numerical simulations to confirm the mathematical analysis. Our formalism can be extended to self-excited particles in general confining potentials, resulting in different energy-frequency relations for these dynamical analogs of quantization.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# 迷路追従改善のための視覚言語モデルのゼロショット能力の探索

Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following ( http://arxiv.org/abs/2406.03907v1 )

ライセンス: Link先を確認
Anshul Gupta, Pierre Vuillecard, Arya Farkhondeh, Jean-Marc Odobez, (参考訳) 人物のポーズに関連する文脈的手がかりや、現場の物体や他者との相互作用は、後見する上で貴重な情報を提供することができる。 既存の手法は専用のキュー抽出法に重点を置いているが,本研究では視覚言語モデル(VLM)のゼロショット機能について検討する。 我々はまず,ゼロショットキュー認識性能のための様々なVLM,プロンプト戦略,コンテキスト内学習(ICL)技術を評価した。 次に、これらの洞察を用いて、視線追跡のための文脈的手がかりを抽出し、タスクの最先端モデルに組み込まれた際の影響を調査する。 解析の結果,BLIP-2はVLMの総合的な性能向上であり,ICLは性能向上に寄与することが示唆された。 また、VLMはテキストプロンプトの選択に敏感であるが、複数のテキストプロンプトをアンサンブルすることで、より堅牢なパフォーマンスを実現することができる。 さらに,対象人物の周囲に描かれた楕円とともに画像全体を使用することが,視覚的プロンプトの最も効果的な戦略であることが判明した。 視線追跡では,抽出したキューを組み込むことにより,特に大きなキューセットを考える場合の一般化性能が向上し,このアプローチの可能性が強調される。

Contextual cues related to a person's pose and interactions with objects and other people in the scene can provide valuable information for gaze following. While existing methods have focused on dedicated cue extraction methods, in this work we investigate the zero-shot capabilities of Vision-Language Models (VLMs) for extracting a wide array of contextual cues to improve gaze following performance. We first evaluate various VLMs, prompting strategies, and in-context learning (ICL) techniques for zero-shot cue recognition performance. We then use these insights to extract contextual cues for gaze following, and investigate their impact when incorporated into a state of the art model for the task. Our analysis indicates that BLIP-2 is the overall top performing VLM and that ICL can improve performance. We also observe that VLMs are sensitive to the choice of the text prompt although ensembling over multiple text prompts can provide more robust performance. Additionally, we discover that using the entire image along with an ellipse drawn around the target person is the most effective strategy for visual prompting. For gaze following, incorporating the extracted cues results in better generalization performance, especially when considering a larger set of cues, highlighting the potential of this approach.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# 連続変数グラフ状態のノイズ認証

Noisy certification of continuous variables graph states ( http://arxiv.org/abs/2406.03908v1 )

ライセンス: Link先を確認
Éloi Descamps, Damian Markham, (参考訳) 連続変数(CV)は、量子通信、コンピューティング、センシングなどの様々なアプリケーションの開発のための有望なプラットフォームを提供する。 これらのプロトコルの多くにおいて、重要な側面は、後に使用される量子状態の認証である。 多くのプロトコルが存在するが、ほとんどの場合、二次的な測定における無限の精度や無限のスクイーズを必要とする状態の使用など、物理的連続的な状態に対して非現実的な仮定に依存している。 本研究では、これらの避けられない考慮事項に対処するために既存のプロトコルを適用し、それらを使用して異なる量子情報タスクに対してそれらのアプリケーションを認証する。 具体的には,ノイズや不完全な設定であっても,CVグラフ状態を効率的に検証し,検証する方法について述べる。 次に、量子テレポーテーション、コンピューティング、センシングなど、異なる用途のプロトコルで得られた状態のユーザビリティへの影響について論じる。

Continuous variables (CV) offer a promising platform for the development of various applications, such as quantum communication, computing, and sensing, and CV graph states represent a family of powerful entangled resource states for all these areas. In many of these protocols, a crucial aspect is the certification of the quantum state subsequently used. While numerous protocols exist, most rely on assumptions unrealistic for physical continuous variable states, such as infinite precision in quadrature measurement or the use of states requiring infinite squeezing. In this work, we adapt existing protocols to deal with these unavoidable considerations, and use them to certify their application for different quantum information tasks. More specifically, we show how CV graph states can be efficiently verified and certified even in a noisy and imperfect setting. We then discuss how our findings impact the usability of states obtained after the protocol for different applications, including quantum teleportation, computing, and sensing.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# 位相変調読み出し方式による原子干渉計の感度解析

Analyzing the sensitivity of an atom interferometer with a phase modulation readout scheme ( http://arxiv.org/abs/2406.03911v1 )

ライセンス: Link先を確認
Takuya Kawasaki, Sotatsu Otabe, Tomoya Sato, Martin Miranda, Nobuyuki Takei, Mikio Kozuma, (参考訳) 干渉計の感度は、その読み出し方式に依存する。 しかし、原子干渉計の読み出し方式には感度の観点からはほとんど注意が払われていない。 読み出し方式の感度や最適化の差は文献では検討されていない。 本稿では、2光子フォーマリズムを適用して原子干渉計の感度を解析的に計算し、量子ノイズに対処する光学干渉計を開発した。 本計算により, 正弦波位相変調を用いることで, 従来の位相浄化法よりも感度が高いことがわかった。 冷熱原子線と熱原子線の両方に対するこの位相変調方式の優位性を実証した。 また, 位相変調方式は原子-流束変動に有利であり, 原子-流束変動に抵抗することを示した。 本研究は、原子干渉計の感度の一般的な解析を行い、有利な読み出し方式を同定する。

The sensitivity of an interferometer depends on its readout scheme. However, little attention has been paid to the readout schemes of atom interferometers from the viewpoint of their sensitivity. The difference in sensitivity between readout schemes or their optimization has not been considered in the literature. Herein, we analytically calculate the sensitivities of an atom interferometer with typical readout schemes by applying the two-photon formalism, which was developed for optical interferometers to deal with quantum noise. Our calculations reveal that by using sinusoidal phase modulation, the sensitivity can surpass that obtained by the conventional phase sweeping scheme. The superiority of this phase modulation scheme for both cold and thermal atomic beams is demonstrated. In addition, we show that the phase modulation scheme is advantageous for atom-flux fluctuation and resists atom-flux drift. This study performs a general analysis of the sensitivity of atom interferometers and identifies an advantageous readout scheme.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# GenSafe: 低次マルコフ決定プロセスモデルに基づく安全強化学習アルゴリズムの一般化可能な安全性向上

GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model ( http://arxiv.org/abs/2406.03912v1 )

ライセンス: Link先を確認
Zhehua Zhou, Xuan Xie, Jiayang Song, Zhan Shu, Lei Ma, (参考訳) 深層強化学習は、自動運転車やヒューマノイドロボットなどの様々な自律システムの制御において、目覚ましい成果を示しているが、ランダムな探索に依存しているため、現実の応用における安全性の懸念が高まる。 学習過程におけるシステム安全性を改善するために,制約付きマルコフ決定プロセス(CMDP)フレームワークに安全性制約を組み込んだ,様々な安全強化学習アルゴリズムが提案されている。 しかし、これらのSRLアルゴリズムの有効性は、しばしば正確な関数近似に依存している。 この問題に対処するため,本稿ではGenralizable Safety enhancer(GenSafe)を紹介する。 モデルオーダー削減技術を活用し,CMDPの原価関数の低次元プロキシとして,まずROMDP(Reduceed Order Markov Decision Process)を構築した。 そこで提案したGenSafeは,ROMDPに基づく制約を原コスト制約から再定義することで,エージェントのアクションを洗練し,制約満足度を高める。 基本的に、GenSafeはSRLアルゴリズムのための追加の安全レイヤとして機能し、様々なSRLアプローチにまたがる幅広い互換性を提供する。 複数のSRLベンチマーク問題に対してGenSafeの性能について検討した。 その結果,特に早期の学習段階において,安全性能を向上させるだけでなく,タスク性能を満足できるレベルに維持できることが示唆された。

Although deep reinforcement learning has demonstrated impressive achievements in controlling various autonomous systems, e.g., autonomous vehicles or humanoid robots, its inherent reliance on random exploration raises safety concerns in their real-world applications. To improve system safety during the learning process, a variety of Safe Reinforcement Learning (SRL) algorithms have been proposed, which usually incorporate safety constraints within the Constrained Markov Decision Process (CMDP) framework. However, the efficacy of these SRL algorithms often relies on accurate function approximations, a task that is notably challenging to accomplish in the early learning stages due to data insufficiency. To address this problem, we introduce a Genralizable Safety enhancer (GenSafe) in this work. Leveraging model order reduction techniques, we first construct a Reduced Order Markov Decision Process (ROMDP) as a low-dimensional proxy for the original cost function in CMDP. Then, by solving ROMDP-based constraints that are reformulated from the original cost constraints, the proposed GenSafe refines the actions taken by the agent to enhance the possibility of constraint satisfaction. Essentially, GenSafe acts as an additional safety layer for SRL algorithms, offering broad compatibility across diverse SRL approaches. The performance of GenSafe is examined on multiple SRL benchmark problems. The results show that, it is not only able to improve the safety performance, especially in the early learning phases, but also to maintain the task performance at a satisfactory level.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# ニューロシンボリック・テンポラルポイントプロセス

Neuro-Symbolic Temporal Point Processes ( http://arxiv.org/abs/2406.03914v1 )

ライセンス: Link先を確認
Yang Yang, Chao Yang, Boyang Li, Yinghao Fu, Shuang Li, (参考訳) 私たちのゴールは、不規則な関心事を説明するための時間論理ルールのコンパクトなセットを見つけることです。 本稿では,時間点プロセスモデルにニューラル・シンボリック・ルール誘導フレームワークを導入する。 負の対数類似性は学習を導く損失であり、説明論理規則とその重みが$\textit{differentiable}$方法でエンドツーエンドに学習される。 具体的には、述語と論理規則は $\textit{vector embeddeddings}$ と表現され、述語埋め込みは固定され、規則埋め込みは勾配勾配によって訓練され、述語埋め込みの最も適切な構成表現が得られる。 ルール学習プロセスをより効率的かつ柔軟にするために、$\textit{sequential cover algorithm}$を採用し、モデルに規則を徐々に追加し、すべてのイベントシーケンスがカバーされるまで説明されたイベントシーケンスを削除する。 見つかったすべてのルールは、最終ルールの埋め込みと重み付けのためにモデルに返される。 提案手法は, 合成データセットと実データセットをまたいだ顕著な効率と精度を示し, 効率の面で最先端のベースラインをはるかに上回っている。

Our goal is to $\textit{efficiently}$ discover a compact set of temporal logic rules to explain irregular events of interest. We introduce a neural-symbolic rule induction framework within the temporal point process model. The negative log-likelihood is the loss that guides the learning, where the explanatory logic rules and their weights are learned end-to-end in a $\textit{differentiable}$ way. Specifically, predicates and logic rules are represented as $\textit{vector embeddings}$, where the predicate embeddings are fixed and the rule embeddings are trained via gradient descent to obtain the most appropriate compositional representations of the predicate embeddings. To make the rule learning process more efficient and flexible, we adopt a $\textit{sequential covering algorithm}$, which progressively adds rules to the model and removes the event sequences that have been explained until all event sequences have been covered. All the found rules will be fed back to the models for a final rule embedding and weight refinement. Our approach showcases notable efficiency and accuracy across synthetic and real datasets, surpassing state-of-the-art baselines by a wide margin in terms of efficiency.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# ArMeme:アラビアのミームにおけるプロパガンダ的コンテンツ

ArMeme: Propagandistic Content in Arabic Memes ( http://arxiv.org/abs/2406.03916v1 )

ライセンス: Link先を確認
Firoj Alam, Abul Hasnat, Fatema Ahmed, Md Arid Hasan, Maram Hasanain, (参考訳) デジタルコミュニケーションが盛んになると、ミームは文化や政治的表現の重要な媒体となり、しばしば聴衆を誤解させるのに使われるようになった。 ソーシャルメディアのプラットフォームや政策立案者、より広範な社会など、個人、組織、社会に害を与えることが多い様々な利害関係者の間で、そのような誤解を招き、説得力のあるマルチモーダルコンテンツを特定することがより重要になっている。 リソース豊富な言語(例えば、英語)のためのAIベースの自動システムを開発する努力はあったが、中級から低級のリソース言語にとっては、比較的少ない。 本研究では,プロパガンダ的コンテンツの手動アノテーションを用いたアラビア・ミーム・データセットの開発に焦点をあてた。 我々は、さまざまなソーシャルメディアプラットフォームから収集された約6Kのアラビアミームを注釈付けした。 我々は,その検出のための計算ツールの開発を目的とした包括的解析を行う。 コミュニティ向けに公開します。

With the rise of digital communication, memes have become a significant medium for cultural and political expression that is often used to mislead audiences. Identification of such misleading and persuasive multimodal content has become more important among various stakeholders, including social media platforms, policymakers, and the broader society as they often cause harm to individuals, organizations, and/or society. While there has been effort to develop AI-based automatic systems for resource-rich languages (e.g., English), it is relatively little to none for medium to low resource languages. In this study, we focused on developing an Arabic memes dataset with manual annotations of propagandistic content. We annotated ~6K Arabic memes collected from various social media platforms, which is a first resource for Arabic multimodal research. We provide a comprehensive analysis aiming to develop computational tools for their detection. We will make them publicly available for the community.
翻訳日:2024-06-07 15:29:45 公開日:2024-06-06
# ロングテールセマンティックセグメンテーションのための周波数ベースマッチング

Frequency-based Matcher for Long-tailed Semantic Segmentation ( http://arxiv.org/abs/2406.03917v1 )

ライセンス: Link先を確認
Shan Li, Lu Yang, Pu Cao, Liulei Li, Huadong Ma, (参考訳) セマンティックセグメンテーション技術の現実世界への応用は、コンピュータビジョンコミュニティにおいて過去10年間で最もエキサイティングな成果の1つだ。 長い尾を持つ現象は、分類や物体検出など、多くの分野で研究されているが、セマンティックセグメンテーションには十分な注意が払われておらず、自律運転やバーチャルリアリティーにセマンティックセグメンテーション技術を適用する上では、無視できない障害となっている。 そこで本研究では,比較的未探索なタスクセグメンテーションであるLTSS(long-tailed semantic segmentation)に焦点を当てた。 まず、異なる側面、すなわちシーン、オブジェクト、人間から3つの代表的データセットを確立する。 さらに,2値評価システムを提案し,LTSSベンチマークを構築し,セマンティックセグメンテーション法と長鎖解の性能を実証する。 また,1対1のマッチングによってオーバープレッシャー問題を解消し,各クラスに対するマッチングクエリ数を自動的に決定するLTSS,周波数ベースのマーカを改良するトランスフォーマーベースのアルゴリズムを提案する。 本研究は,本研究の包括性と課題の重要性を踏まえ,セマンティックセグメンテーションタスクの実証的研究を促進することを目的としている。 データセット、コード、モデルは公開されます。

The successful application of semantic segmentation technology in the real world has been among the most exciting achievements in the computer vision community over the past decade. Although the long-tailed phenomenon has been investigated in many fields, e.g., classification and object detection, it has not received enough attention in semantic segmentation and has become a non-negligible obstacle to applying semantic segmentation technology in autonomous driving and virtual reality. Therefore, in this work, we focus on a relatively under-explored task setting, long-tailed semantic segmentation (LTSS). We first establish three representative datasets from different aspects, i.e., scene, object, and human. We further propose a dual-metric evaluation system and construct the LTSS benchmark to demonstrate the performance of semantic segmentation methods and long-tailed solutions. We also propose a transformer-based algorithm to improve LTSS, frequency-based matcher, which solves the oversuppression problem by one-to-many matching and automatically determines the number of matching queries for each class. Given the comprehensiveness of this work and the importance of the issues revealed, this work aims to promote the empirical study of semantic segmentation tasks. Our datasets, codes, and models will be publicly available.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# ベクトル化された条件付きニューラルネットワーク:時間依存パラメトリック部分微分方程式を解くためのフレームワーク

Vectorized Conditional Neural Fields: A Framework for Solving Time-dependent Parametric Partial Differential Equations ( http://arxiv.org/abs/2406.03919v1 )

ライセンス: Link先を確認
Jan Hagnberger, Marimuthu Kalimuthu, Daniel Musekamp, Mathias Niepert, (参考訳) 変圧器モデルは部分微分方程式(PDE)の解法としてますます使われている。 いくつかの適応法が提案されており、これらは全て2次記憶や時間複雑性といったトランスフォーマーの典型的な問題に悩まされている。 さらに、PDE解決のためのすべての一般的なアーキテクチャは、イデアル・サロゲートモデルのようないくつかの望ましい性質の少なくとも1つを欠いている。 (i)訓練中に見えないPDEパラメータへの一般化 (II)空間的・時間的ゼロショット超解像 (三)連続時間外挿 (四)1D、2D、3DPDEのサポート、及び (v) より長い時間的ロールアウトのための効率的な推論。 これらの制約に対処するため、時間依存型PDEの解をニューラルネットワークとして表現するVCNeF(Vectorized Conditional Neural Fields)を提案する。 しかし、従来の方法とは対照的に、VCNeFsは複数の時空間のクエリポイントに対して、それらのソリューションを並列に計算し、アテンション機構を通じて依存関係をモデル化する。 さらに、VCNeFは初期条件とPDEのパラメータの両方でニューラルネットワークを条件付けすることができる。 広範な実験により、VCNeFは既存のMLベースのサロゲートモデルと競合し、しばしば優れていることが示されている。

Transformer models are increasingly used for solving Partial Differential Equations (PDEs). Several adaptations have been proposed, all of which suffer from the typical problems of Transformers, such as quadratic memory and time complexity. Furthermore, all prevalent architectures for PDE solving lack at least one of several desirable properties of an ideal surrogate model, such as (i) generalization to PDE parameters not seen during training, (ii) spatial and temporal zero-shot super-resolution, (iii) continuous temporal extrapolation, (iv) support for 1D, 2D, and 3D PDEs, and (v) efficient inference for longer temporal rollouts. To address these limitations, we propose Vectorized Conditional Neural Fields (VCNeFs), which represent the solution of time-dependent PDEs as neural fields. Contrary to prior methods, however, VCNeFs compute, for a set of multiple spatio-temporal query points, their solutions in parallel and model their dependencies through attention mechanisms. Moreover, VCNeF can condition the neural field on both the initial conditions and the parameters of the PDEs. An extensive set of experiments demonstrates that VCNeFs are competitive with and often outperform existing ML-based surrogate models.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# 気候モデルパラメータ化のための物理的に一貫性のある深層学習を目指して

Towards Physically Consistent Deep Learning For Climate Model Parameterizations ( http://arxiv.org/abs/2406.03920v1 )

ライセンス: Link先を確認
Birgit Kühbacher, Fernando Iglesias-Suarez, Niki Kilbertus, Veronika Eyring, (参考訳) 気候変動の理解と予測において、気候モデルは重要な役割を担っている。 その複雑さのため、およそ40-100kmの水平解像度は、パラメータ化によって近似する必要がある雲や対流のような過程を解くには大きすぎる。 これらのパラメータ化は、気候予測における体系的な誤りと大きな不確実性の主要な原因である。 深層学習(DL)に基づくパラメータ化は、計算コストが高く、短い高解像度のシミュレーションに基づいて訓練されており、その点において気候モデルを改善するための大きな可能性を示している。 しかし、解釈可能性の欠如と、素早い非物理的相関を学習する傾向は、気候シミュレーションの信頼性を低下させる。 本稿では,DLに基づくパラメータ化のための効率的な教師付き学習フレームワークを提案する。 まず、対象の物理プロセスを決定する重要な特徴を明らかにする。 その後、ニューラルネットワークは、関連する機能のみを使用して微調整される。 実験により,本手法は入力の小さな部分集合を実際の物理的ドライバとして確実に識別するので,素早い非物理的関係を除去する。 これにより、標準的なブラックボックスDLベースのパラメータ化の予測性能を維持しつつ、物理的に一貫した解釈可能なニューラルネットワークを設計する。 我々のフレームワークは、基礎となる物理過程を尊重することで、データ駆動型気候モデルパラメータ化における大きな課題に取り組むための重要なステップであり、また、他の研究分野における物理的に一貫した深層学習にも利益をもたらす可能性がある。

Climate models play a critical role in understanding and projecting climate change. Due to their complexity, their horizontal resolution of ~40-100 km remains too coarse to resolve processes such as clouds and convection, which need to be approximated via parameterizations. These parameterizations are a major source of systematic errors and large uncertainties in climate projections. Deep learning (DL)-based parameterizations, trained on computationally expensive, short high-resolution simulations, have shown great promise for improving climate models in that regard. However, their lack of interpretability and tendency to learn spurious non-physical correlations result in reduced trust in the climate simulation. We propose an efficient supervised learning framework for DL-based parameterizations that leads to physically consistent models with improved interpretability and negligible computational overhead compared to standard supervised training. First, key features determining the target physical processes are uncovered. Subsequently, the neural network is fine-tuned using only those relevant features. We show empirically that our method robustly identifies a small subset of the inputs as actual physical drivers, therefore, removing spurious non-physical relationships. This results in by design physically consistent and interpretable neural networks while maintaining the predictive performance of standard black-box DL-based parameterizations. Our framework represents a crucial step in addressing a major challenge in data-driven climate model parameterizations by respecting the underlying physical processes, and may also benefit physically consistent deep learning in other research fields.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# 前向きおよび逆PDE問題の解法のための潜在ニューラル演算子

Latent Neural Operator for Solving Forward and Inverse PDE Problems ( http://arxiv.org/abs/2406.03923v1 )

ライセンス: Link先を確認
Tian Wang, Chuang Wang, (参考訳) ニューラルネットワークは、観測されたサンプルの入力シーケンスから予測値へのマップを学習する明示的な方程式を知らずに、データからPDE問題を効果的に解く。 現存するほとんどの研究は、元の幾何学空間でモデルを構築し、サンプル点の数が大きければ高い計算コストをもたらす。 本稿では、潜時空間におけるPDEを解く潜時ニューラルネットワーク(LNO)を提案する。 具体的には、まず幾何学空間から潜在空間へ表現を変換し、次に潜在空間の演算子を学習し、最後に逆PhCA写像を介して実世界の幾何学空間を復元する物理クロスアテンション(PhCA)を提案する。 我々のモデルは、トレーニングセットで定義された位置に限定されない任意の位置で値をデコードできる柔軟性を保持しており、それゆえ、特に逆問題に有用な補間および補間処理を自然に行うことができる。 さらに,提案したLNOは予測精度と計算効率の両方を改善した。 実験によると、LNOはGPUメモリを50%削減し、トレーニングを1.8回スピードアップし、6つの前処理のベンチマークのうち4つと逆処理のベンチマークで最先端の精度に達する。

Neural operators effectively solve PDE problems from data without knowing the explicit equations, which learn the map from the input sequences of observed samples to the predicted values. Most existed works build the model in the original geometric space, leading to high computational costs when the number of sample points is large. We present the Latent Neural Operator (LNO) solving PDEs in the latent space. In particular, we first propose Physics-Cross-Attention (PhCA) transforming representation from the geometric space to the latent space, then learn the operator in the latent space, and finally recover the real-world geometric space via the inverse PhCA map. Our model retains flexibility that can decode values in any position not limited to locations defined in training set, and therefore can naturally perform interpolation and extrapolation tasks particularly useful for inverse problems. Moreover, the proposed LNO improves in both prediction accuracy and computational efficiency. Experiments show that LNO reduces the GPU memory by 50%, speeds up training 1.8 times, and reaches state-of-the-art accuracy on four out of six benchmarks for forward problems and a benchmark for inverse problem.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# GSD-Frontによる統計的多基準ベンチマーク

Statistical Multicriteria Benchmarking via the GSD-Front ( http://arxiv.org/abs/2406.03924v1 )

ライセンス: Link先を確認
Christoph Jansen, Georg Schollmeyer, Julian Rodemann, Hannah Blocher, Thomas Augustin, (参考訳) 提案された(そして今後も続く)膨大な数の分類器を考えると、それらを比較するための信頼性の高い方法がますます重要になっている。 信頼性への欲求は3つの主な側面に分けられる。 2)ベンチマークスイートの選択によって引き起こされる統計的不確実性を考慮する必要がある。 (3) 基礎となる仮定における小さな偏差の下での比較の堅牢性は検証されるべきである。 1)に対処するために、一般化確率支配順序付け(GSD)を用いて分類器を比較し、従来のパレートフロントの代替としてGSDフロントを提示する。 2) では,GSD-front に対する一貫した統計的推定器を提案し,(潜在的に新しい) 分類器が一組の最先端分類器の GSD-front に含まれるか否かを統計的に検証する。 (3)では、頑健な統計と不正確な確率の手法を用いて、提案した試験を緩和する。 ベンチマークスイートであるPMLBとプラットフォームであるOpenMLについて説明する。

Given the vast number of classifiers that have been (and continue to be) proposed, reliable methods for comparing them are becoming increasingly important. The desire for reliability is broken down into three main aspects: (1) Comparisons should allow for different quality metrics simultaneously. (2) Comparisons should take into account the statistical uncertainty induced by the choice of benchmark suite. (3) The robustness of the comparisons under small deviations in the underlying assumptions should be verifiable. To address (1), we propose to compare classifiers using a generalized stochastic dominance ordering (GSD) and present the GSD-front as an information-efficient alternative to the classical Pareto-front. For (2), we propose a consistent statistical estimator for the GSD-front and construct a statistical test for whether a (potentially new) classifier lies in the GSD-front of a set of state-of-the-art classifiers. For (3), we relax our proposed test using techniques from robust statistics and imprecise probabilities. We illustrate our concepts on the benchmark suite PMLB and on the platform OpenML.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# MgO上のキラルグラフェンナノリボンの開殻拡張エッジ状態

Engineering open-shell extended edge states in chiral graphene nanoribbons on MgO ( http://arxiv.org/abs/2406.03927v1 )

ライセンス: Link先を確認
Amelia Domínguez-Celorrio, Leonard Edens, Sofía Sanz, Manuel Vilas-Varela, Jose Martinez-Castro, Diego Peña, Véronique Langlais, Thomas Frederiksen, José I. Pascual, David Serrate, (参考訳) グラフェンナノ構造は、配向された磁気と量子の性質を持つ電子状態の工学的基盤として有望である。 金属基板上での合成戦略により、原子レベルで精密なナノグラフェンを、サイズ、形状、エッジ形状で製造することが可能になった。 これらのナノグラフェンでは、有限スピン磁気モーメントは、分子軌道と$\pi$共役キャラクタとの多体相互作用の結果生じ、例えばジグザグエッジにおいて強い空間閉じ込めを受ける。 しかし、触媒基板からの分子軌道と金属状態の混合により、期待される量子現象学のほとんどは深刻な障害を受けている。 In-situ Ultra-Thin Decoupling Layerを使用することで、ナノグラフェンと金属のハイブリッド化を阻害し、予測特性の発現を促進することができる。 ここでは、Ag(001)上のMgO単分子膜上の狭いキラルグラフェンナノリボン(GNR)の縁が、整数電荷とスピン-1/2フロンティア状態を持つことを示す。 電子占有は、偶数または奇数の電子を交互に交換するGNR長さによって変化し、結果として非磁性閉殻状態または開殻常磁性系となる。 後者では,狭いクーロン相関ギャップのスペクトル指紋が検出された。 平均場ハバード (MFH) シミュレーションと走査トンネル顕微鏡 (STM) で得られた離散化分子軌道の実験地図を比較することで、19個の電子を含む荷電状態が同定された。 磁気モーメントの時間依存性と電子構造の離散性を考慮すると,GNRは量子センシングや量子情報処理において,高温絶縁膜で支えられた活性元素として使用できることが示唆された。

Graphene nanostructures are a promising platform for engineering electronic states with tailored magnetic and quantum properties. Synthesis strategies on metallic substrates have made it possible to manufacture atomically precise nanographenes with controlled size, shape and edge geometry. In these nanographenes, finite spin magnetic moment can arise as a result of many-body interactions in molecular orbitals with $\pi$-conjugated character and subject to strong spatial confinement, for example at the zig-zag edges. However, owing to the mixing of the molecular orbitals and metallic states from the catalysing substrate, most of their expected quantum phenomenology is severely hindered. The use of in-situ ultra-thin decoupling layers can impede nanographene-metal hybridization and facilitate the expression of predicted properties. Here we show that the edges of narrow chiral graphene nanoribbons (GNRs) over MgO monolayers on Ag(001) can host integer charge and spin-1/2 frontier states. The electron occupation varies with the GNR length, which alternates even or odd number of electrons, thus resulting correspondingly in a non-magnetic closed-shell state or an open-shell paramagnetic system. For the latter, we found the spectral fingerprint of a narrow Coulomb correlation gap. Charged states, up to 19 additional electrons, were identified by comparing mean-field Hubbard (MFH) simulations of the density of states with experimental maps of the discretized molecular orbitals acquired with a scanning tunnelling microscope (STM). In consideration of the length-dependent magnetic moment and the discrete nature of the electronic structure, we envisage that GNRs supported by thin insulating films can be used as tailor-made active elements in quantum sensing and quantum information processing.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# 文化的に認識・適応されたNLP : 分類学と芸術の実態調査

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art ( http://arxiv.org/abs/2406.03930v1 )

ライセンス: Link先を確認
Chen Cecilia Liu, Iryna Gurevych, Anna Korhonen, (参考訳) 文化的に認識され、適応された自然言語処理(NLP)への関心の高まりは、近年の研究にインスピレーションを与えている。 しかし、「文化」概念の共通理解の欠如は、この新興地域の進歩を評価するのを困難にしている。 我々は,NLPと関連分野の先行研究に基づいて,研究の進展を分析し,理解するための体系的な枠組みを提供する,文化の要素の広範な分類法を提案する。 分類学を用いて、文化的に認識され、適応されたNLPのための既存の資源やモデルを調査し、現状と、まだ満たすべき研究ギャップについて概観する。

The surge of interest in culturally aware and adapted Natural Language Processing (NLP) has inspired much recent research. However, the lack of common understanding of the concept of "culture" has made it difficult to evaluate progress in this emerging area. Drawing on prior research in NLP and related fields, we propose an extensive taxonomy of elements of culture that can provide a systematic framework for analyzing and understanding research progress. Using the taxonomy, we survey existing resources and models for culturally aware and adapted NLP, providing an overview of the state of the art and the research gaps that still need to be filled.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# 強化学習による育種プログラム最適化

Breeding Programs Optimization with Reinforcement Learning ( http://arxiv.org/abs/2406.03932v1 )

ライセンス: Link先を確認
Omar G. Younis, Luca Corinzia, Ioannis N. Athanasiadis, Andreas Krause, Joachim M. Buhmann, Matteo Turchetta, (参考訳) 作物の育種は農業の生産性向上に不可欠であり、土地使用量、温室効果ガス排出量、水消費を減少させる可能性がある。 しかし、長期の越冬期間、高次元の意思決定空間、長期的目標、急激な気候変動への適応の必要性により、繁殖プログラムは困難である。 本稿では,シミュレートされた作物育種プログラムの最適化にReinforcement Learning (RL) を用いることを提案する。 RLエージェントは、遺伝的情報に基づいて最適な作物の選択と交配決定を行うように訓練されている。 RLベースの育種アルゴリズムをベンチマークするために、Gym環境のスイートを導入する。 この研究は、実世界のゲノムトウモロコシデータを用いてシリコでシリコを模擬した場合、遺伝的利益の観点から、標準的手法よりもRL技術の方が優れていることを示した。

Crop breeding is crucial in improving agricultural productivity while potentially decreasing land usage, greenhouse gas emissions, and water consumption. However, breeding programs are challenging due to long turnover times, high-dimensional decision spaces, long-term objectives, and the need to adapt to rapid climate change. This paper introduces the use of Reinforcement Learning (RL) to optimize simulated crop breeding programs. RL agents are trained to make optimal crop selection and cross-breeding decisions based on genetic information. To benchmark RL-based breeding algorithms, we introduce a suite of Gym environments. The study demonstrates the superiority of RL techniques over standard practices in terms of genetic gain when simulated in silico using real-world genomic maize data.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# 類似性を超えて: 複合集約による個人化フェデレーション

Beyond Similarity: Personalized Federated Recommendation with Composite Aggregation ( http://arxiv.org/abs/2406.03933v1 )

ライセンス: Link先を確認
Honglei Zhang, Haoxuan Li, Jundong Chen, Sen Cui, Kunda Yan, Abudukelimu Wuerkaixi, Xin Zhou, Zhiqi Shen, Yidong Li, (参考訳) フェデレートされたレコメンデーションは、大規模なデバイスからローカルモデルを集約してグローバルな知識を収集し、プライバシーを確保しながらレコメンデーションを提供することを目的としている。 現在の手法は主に、フェデレートされたビジョンコミュニティによって発明された集約関数を利用して、類似のクライアント、例えばクラスタリングアグリゲーションからパラメータを集約する。 かなりの性能にもかかわらず、我々はそれらを直接フェデレーションレコメンデーションに適用するのは最適ではないと論じている。 これは主に異なるモデルアーキテクチャに反映される。 フェデレーションされたビジョンにおける畳み込みニューラルネットワークのような構造化パラメータとは異なり、フェデレーションされた推奨モデルは通常、1対1のアイテム埋め込みテーブルを使用することで自分自身を区別する。 このような不一致は、トレーニングされた埋め込みを継続的に更新するが、アグリゲーション中に訓練されていないものを無視し、将来の項目を正確に予測できない、困難な埋め込みスキュー問題を引き起こす。 この目的のために,FedCA(Composite Aggregation)を用いた個人化されたフェデレーションレコメンデーションモデルを提案し,類似のクライアントを集約してトレーニング済みの埋め込みを強化するだけでなく,補完的なクライアントを集約して非トレーニング型埋め込みを更新する。 さらに,総合的な学習プロセスを統一最適化アルゴリズムに定式化し,類似性と相補性について共同で学習する。 いくつかの実世界のデータセットに対する大規模な実験は、提案モデルの有効性を裏付けるものである。 ソースコードはhttps://github.com/hongleizhang/FedCAで入手できる。

Federated recommendation aims to collect global knowledge by aggregating local models from massive devices, to provide recommendations while ensuring privacy. Current methods mainly leverage aggregation functions invented by federated vision community to aggregate parameters from similar clients, e.g., clustering aggregation. Despite considerable performance, we argue that it is suboptimal to apply them to federated recommendation directly. This is mainly reflected in the disparate model architectures. Different from structured parameters like convolutional neural networks in federated vision, federated recommender models usually distinguish itself by employing one-to-one item embedding table. Such a discrepancy induces the challenging embedding skew issue, which continually updates the trained embeddings but ignores the non-trained ones during aggregation, thus failing to predict future items accurately. To this end, we propose a personalized Federated recommendation model with Composite Aggregation (FedCA), which not only aggregates similar clients to enhance trained embeddings, but also aggregates complementary clients to update non-trained embeddings. Besides, we formulate the overall learning process into a unified optimization algorithm to jointly learn the similarity and complementarity. Extensive experiments on several real-world datasets substantiate the effectiveness of our proposed model. The source codes are available at https://github.com/hongleizhang/FedCA.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# パープレクシングサンプルの優先順位付けによる確率的能動学習

Provably Neural Active Learning Succeeds via Prioritizing Perplexing Samples ( http://arxiv.org/abs/2406.03944v1 )

ライセンス: Link先を確認
Dake Bu, Wei Huang, Taiji Suzuki, Ji Cheng, Qingfu Zhang, Zhiqiang Xu, Hau-San Wong, (参考訳) ニューラルネットワークベースのアクティブラーニング(NAL)は、ニューラルネットワークを使用してサンプルの小さなサブセットを選択してトレーニングする、費用対効果の高いデータ選択技術である。 既存の研究は、様々な効率性や理論に最適化されたNALアルゴリズムの開発に成功しているが、NALの2つの一般的なクエリ基準(不確実性ベースと多様性ベース)の理解は、まだ初期段階にある。 本研究では,機能学習の観点から,問合せ基準に基づくNALの成功に関する統一的な説明を提供することにより,一歩前進させようとする。 具体的には、ノイズによって破壊される難聴・難聴の特徴を含む特徴雑音データモデルと、プールベースシナリオにおける2層NNベースNALの動作解析について考察する。 我々は、不確実性に基づくNALと多様性に基づくNALの両方が、本質的に同一の原則、すなわち、未学習の特徴を含むサンプルの優先順位付けを試みていることを確実に示している。 さらに、この共有原則が、小さなラベル付き集合内での小さなテストエラーを成功させる鍵であることを証明します。 対照的に、戦略のない受動的学習は、未学習の特徴の不十分な学習のために大きなテストエラーを示し、十分なテストエラーを減らすためには、ラベルの複雑さをはるかに大きくする必要がある。 実験の結果, 結果が得られた。

Neural Network-based active learning (NAL) is a cost-effective data selection technique that utilizes neural networks to select and train on a small subset of samples. While existing work successfully develops various effective or theory-justified NAL algorithms, the understanding of the two commonly used query criteria of NAL: uncertainty-based and diversity-based, remains in its infancy. In this work, we try to move one step forward by offering a unified explanation for the success of both query criteria-based NAL from a feature learning view. Specifically, we consider a feature-noise data model comprising easy-to-learn or hard-to-learn features disrupted by noise, and conduct analysis over 2-layer NN-based NALs in the pool-based scenario. We provably show that both uncertainty-based and diversity-based NAL are inherently amenable to one and the same principle, i.e., striving to prioritize samples that contain yet-to-be-learned features. We further prove that this shared principle is the key to their success-achieve small test error within a small labeled set. Contrastingly, the strategy-free passive learning exhibits a large test error due to the inadequate learning of yet-to-be-learned features, necessitating resort to a significantly larger label complexity for a sufficient test error reduction. Experimental results validate our findings.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# 局所的に到達不能な隠れ量子相関

Locally inaccessible hidden quantum correlations ( http://arxiv.org/abs/2406.03945v1 )

ライセンス: Link先を確認
Andrés F. Ducuara, Cristian E. Susa, Paul Skrzypczyk, (参考訳) 我々は、量子ステアリング楕円体が真であることの予想、局所的に到達不能な隠れ量子相関の存在をモジュロとして証明する。 すなわち、実験の一方にのみ実装された局所フィルタでは、隠れた量子相関が明らかにできない2粒子状態の存在は、双方が司法的に選択された局所フィルタを適用する際にも明らかである。 ここで考慮された量子相関は、ベル非局所性に対するCHSH-不等式違反と、EPR-ステアリングに対する$\rm F_3$-不等式違反である。 具体的には、任意の2量子状態に対してそのような現象の存在を保証するために必要な基準を提供する。 この基準は、CHSH-不等式と$\rm F_3$-不等式が共に量子ステアリング楕円体中心の大きさに依存する関数によって上界にあるという予想に依存する。 この後者の予想は、現在解析的な証明を欠いているが、数値的な結果によって支持されている。 我々はこの必要条件を用いて、局所的に到達不能な隠れ量子相関を持つ2量子状態の例を明示的に示し、さらに、局所的に到達不能な最大量子相関を持つ2量子状態を示す。

We prove, modulo a conjecture on quantum steering ellipsoids being true, the existence of the phenomenon of locally inaccessible hidden quantum correlations. That is, the existence of two-particle states whose hidden quantum correlations cannot be revealed by local filters implemented exclusively on one side of the experiment, but that can still be revealed when both parties cooperate in applying judiciously chosen local filters. The quantum correlations here considered are the violation of the CHSH-inequality for Bell-nonlocality and the violation of the $\rm F_3$-inequality for EPR-steering. Specifically, we provide a necessary criterion for guaranteeing the presence of such phenomenon for arbitrary two-qubit states. This criterion in turn relies on the conjecture that the maximal violation of CHSH-inequality and $\rm F_3$-inequality are both upper bounded by functions that depend on the magnitude of the quantum steering ellipsoid centre. This latter conjecture, although currently lacking an analytical proof, is supported by numerical results. We use this necessary criterion to explicitly show examples of two-qubit states with locally inaccessible hidden quantum correlations and, furthermore, two-qubit states with locally inaccessible maximal hidden quantum correlations.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# ステアブルCNNにおける等分散度学習のための確率論的アプローチ

A Probabilistic Approach to Learning the Degree of Equivariance in Steerable CNNs ( http://arxiv.org/abs/2406.03946v1 )

ライセンス: Link先を確認
Lars Veefkind, Gabriele Cesa, (参考訳) ステアブル畳み込みニューラルネットワーク(SCNN)は、重みの等分散制約を通じて幾何対称性をモデル化することによりタスク性能を向上させる。 しかし、未知あるいは様々な対称性は、過剰に制約された重量と性能を低下させる可能性がある。 そこで本研究では,SCNNにおける等価度を学習するための確率的手法を提案する。 フーリエ係数を用いて変換群上の確率分布として同値の度合いをパラメータ化し、層状および共有同値をモデル化するオプションを提供する。 これらの可能性分布は、ネットワーク全体での解釈可能な等式を保証するために規則化される。 利点としては、SCNNのフレキシブルな枠組みを通じて、多くの種類の同変ネットワークに適用可能であり、任意のコンパクト群の任意の部分群に対して、追加の層を必要とせずに同変を学習できる能力がある。 本実験は, 混合対称性を持つデータセット上で, 基礎となる等値度を表す学習確率分布を用いて, 競合性能を示すものである。

Steerable convolutional neural networks (SCNNs) enhance task performance by modelling geometric symmetries through equivariance constraints on weights. Yet, unknown or varying symmetries can lead to overconstrained weights and decreased performance. To address this, this paper introduces a probabilistic method to learn the degree of equivariance in SCNNs. We parameterise the degree of equivariance as a likelihood distribution over the transformation group using Fourier coefficients, offering the option to model layer-wise and shared equivariance. These likelihood distributions are regularised to ensure an interpretable degree of equivariance across the network. Advantages include the applicability to many types of equivariant networks through the flexible framework of SCNNs and the ability to learn equivariance with respect to any subgroup of any compact group without requiring additional layers. Our experiments reveal competitive performance on datasets with mixed symmetries, with learnt likelihood distributions that are representative of the underlying degree of equivariance.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# 重みに基づく分解 : バイリニア MLP の1例

Weight-based Decomposition: A Case for Bilinear MLPs ( http://arxiv.org/abs/2406.03947v1 )

ライセンス: Link先を確認
Michael T. Pearce, Thomas Dooms, Alice Rigg, (参考訳) GLU(Gated Linear Units)は、現代の基礎モデルにおいて一般的なビルディングブロックとなっている。 Bilinear 層は "gate" の非線形性を低下させるが、他の GLU に匹敵する性能を持つ。 双線型層の魅力的な性質は、3階テンソルと線形演算で完全に表現できることである。 そこで本研究では,双線形テンソルを,浅い画像分類器 (MNIST) と小さな言語モデル (Tiny Stories) の予備実験において,有望な解釈可能性特性を示す疎相互作用固有ベクトルの集合に分解する手法を開発した。 分解はモデルの本来の計算と完全に等価であるため、双線形層は、機能とモデルの重みを結びつけるのに役立つ解釈可能性に優しいアーキテクチャである。 TinyLlama-1.1Bのような言語モデルをバイリニア変種に微調整できるため,本手法の適用は事前訓練されたバイリニアモデルに限定されない可能性がある。

Gated Linear Units (GLUs) have become a common building block in modern foundation models. Bilinear layers drop the non-linearity in the "gate" but still have comparable performance to other GLUs. An attractive quality of bilinear layers is that they can be fully expressed in terms of a third-order tensor and linear operations. Leveraging this, we develop a method to decompose the bilinear tensor into a set of sparsely interacting eigenvectors that show promising interpretability properties in preliminary experiments for shallow image classifiers (MNIST) and small language models (Tiny Stories). Since the decomposition is fully equivalent to the model's original computations, bilinear layers may be an interpretability-friendly architecture that helps connect features to the model weights. Application of our method may not be limited to pretrained bilinear models since we find that language models such as TinyLlama-1.1B can be finetuned into bilinear variants.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# ウルトラメディカル: バイオメディシン専門のジェネラリストの構築

UltraMedical: Building Specialized Generalists in Biomedicine ( http://arxiv.org/abs/2406.03949v1 )

ライセンス: Link先を確認
Kaiyan Zhang, Sihang Zeng, Ermo Hua, Ning Ding, Zhang-Ren Chen, Zhiyuan Ma, Haoxin Li, Ganqu Cui, Biqing Qi, Xuekai Zhu, Xingtai Lv, Hu Jinfang, Zhiyuan Liu, Bowen Zhou, (参考訳) 大規模言語モデル(LLM)は、様々な領域にまたがる顕著な機能を示し、より専門的な領域に向かっています。 GPT-4やGeminiのような最近の先進的なプロプライエタリモデルでは、バイオメディシンの大幅な進歩が達成されており、プライバシとセキュリティの課題も提起されている。 専門的なジェネラリストの構築は、主に高品質なデータセットに基づいており、教師付き微調整や人間やAIのフィードバックからの強化学習、直接的な選好最適化といった技術によって強化されている。 しかし、これらの主要な技術(例えば、嗜好学習)は、特別なデータが不足しているため、オープンソースコミュニティでは依然として著しく制限されている。 本稿では,生物医学領域における高品質な手動および合成データセットからなるUltraMedicalコレクションについて述べる。 これらのデータセットを利用することで、Llama-3シリーズに基づいた専門的な医療モデル群を微調整し、様々な医療ベンチマークで呼吸能力を示す。 さらに、バイオメディカルおよび一般報酬ベンチマークに熟練した強力な報酬モデルを開発し、バイオメディカルLLMコミュニティ内でのオンライン嗜好学習をさらに強化する。

Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains and are moving towards more specialized areas. Recent advanced proprietary models such as GPT-4 and Gemini have achieved significant advancements in biomedicine, which have also raised privacy and security challenges. The construction of specialized generalists hinges largely on high-quality datasets, enhanced by techniques like supervised fine-tuning and reinforcement learning from human or AI feedback, and direct preference optimization. However, these leading technologies (e.g., preference learning) are still significantly limited in the open source community due to the scarcity of specialized data. In this paper, we present the UltraMedical collections, which consist of high-quality manual and synthetic datasets in the biomedicine domain, featuring preference annotations across multiple advanced LLMs. By utilizing these datasets, we fine-tune a suite of specialized medical models based on Llama-3 series, demonstrating breathtaking capabilities across various medical benchmarks. Moreover, we develop powerful reward models skilled in biomedical and general reward benchmark, enhancing further online preference learning within the biomedical LLM community.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# Tox-BART:不特定Hate音声の説明生成における毒性属性の活用

Tox-BART: Leveraging Toxicity Attributes for Explanation Generation of Implicit Hate Speech ( http://arxiv.org/abs/2406.03953v1 )

ライセンス: Link先を確認
Neemesh Yadav, Sarah Masud, Vikram Goyal, Vikram Goyal, Md Shad Akhtar, Tanmoy Chakraborty, (参考訳) 言語モデルを使用して、暗黙のヘイトポストの入力の説明を生成することは、研究の活発な領域である。 この説明は、基礎となるステレオタイプとヘルプコンテンツモデレーターを明確にすることを目的としている。 このトレーニングは、世界的知識を提供し、標準メトリクスのパフォーマンスを向上させるために、トップk関連知識グラフ(KG)タプルを組み合わせることが多い。 興味深いことに,本研究では,KGタプルの品質が暗黙的な説明を誘発する役割について,矛盾する証拠を提示する。 その結果、外部毒性シグナルを組み込んだより単純なモデルがKG注入モデルより優れている。 BLEU,ROUGE-L,BERTScoreにおける+0.44(+0.49),+1.83(-1.56),-4.59(+0.77)のSBIC(LatentHatred)データセットと同等のパフォーマンスを示す。 さらに人為的な評価と誤差分析により,提案手法はゼロショット GPT-3.5 よりも高精度な説明を行い,タスクの複雑な性質を強調した。

Employing language models to generate explanations for an incoming implicit hate post is an active area of research. The explanation is intended to make explicit the underlying stereotype and aid content moderators. The training often combines top-k relevant knowledge graph (KG) tuples to provide world knowledge and improve performance on standard metrics. Interestingly, our study presents conflicting evidence for the role of the quality of KG tuples in generating implicit explanations. Consequently, simpler models incorporating external toxicity signals outperform KG-infused models. Compared to the KG-based setup, we observe a comparable performance for SBIC (LatentHatred) datasets with a performance variation of +0.44 (+0.49), +1.83 (-1.56), and -4.59 (+0.77) in BLEU, ROUGE-L, and BERTScore. Further human evaluation and error analysis reveal that our proposed setup produces more precise explanations than zero-shot GPT-3.5, highlighting the intricate nature of the task.
翻訳日:2024-06-07 15:19:49 公開日:2024-06-06
# カーボンナノチューブ-ポリジメチルシロキサンナノコンポジットを用いたハプティックインセンサー・コンピューティング装置

Haptic in-sensor computing device made of carbon nanotube-polydimethylsiloxane nanocomposites ( http://arxiv.org/abs/2406.03958v1 )

ライセンス: Link先を確認
Kouki Kimizuka, Saman Azhari, Shoshi Tokuno, Ahmet Karacali, Yuki Usami, Shuhei Ikemoto, Hakaru Tamukoh, Hirofumi Tanaka, (参考訳) 触覚インセンサー・コンピューティング・デバイスの重要性が高まっている。 本研究では,炭素ナノチューブ-ポリジメチルシロキサン(CNTs-PDMS)ナノコンポジットを用いて,階層構造を有する触覚センサの試作に成功した。 CNTs-PDMSナノコンポジットセンサの感度はCNTの量によって異なる。 我々は、入力刺激を高次元情報に変換し、貯水池計算パラダイムを適用して、ロボットハンドで実装したCNTs-PDMSナノコンポジットアプリケーションのための新しい経路を可能にする。 センサから得られる非線形出力データは, 線形回帰を用いてトレーニングし, 日常で使用する9つの異なる物体を, 物体の認識精度が80%以上で分類した。 このアプローチは、計算コストを削減しつつ、ロボットの触覚を高めることができる。

The importance of haptic in-sensor computing devices has been increasing. In this study, we successfully fabricated a haptic sensor with a hierarchical structure via the sacrificial template method, using carbon nanotubes-polydimethylsiloxane (CNTs-PDMS) nanocomposites for in-sensor computing applications. The CNTs-PDMS nanocomposite sensors, with different sensitivities, were obtained by varying the amount of CNTs. We transformed the input stimuli into higher-dimensional information, enabling a new path for the CNTs-PDMS nanocomposite application, which was implemented on a robotic hand as an in-sensor computing device by applying a reservoir computing paradigm. The nonlinear output data obtained from the sensors were trained using linear regression and used to classify nine different objects used in everyday life with an object recognition accuracy of >80 % for each object. This approach could enable tactile sensation in robots while reducing the computational cost.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# LDM-RSIC:リモートセンシング画像圧縮のための遅延拡散モデルによる歪み探索

LDM-RSIC: Exploring Distortion Prior with Latent Diffusion Models for Remote Sensing Image Compression ( http://arxiv.org/abs/2406.03961v1 )

ライセンス: Link先を確認
Junhui Li, Jutao Li, Xingsong Hou, Huake Wang, Yutao Zhang, Yujie Dun, Wenke Sun, (参考訳) 深層学習に基づく画像圧縮アルゴリズムは、典型的には符号化と復号化ネットワークの設計に焦点を当て、エントロピーモデル推定の精度を改善してレート歪み(RD)性能を向上させる。 しかし,既存の圧縮アルゴリズムに先行する圧縮歪みを利用してRD性能を向上させるアルゴリズムはほとんどない。 本稿では,遅延拡散モデルに基づくリモートセンシング画像圧縮(LDM-RSIC)手法を提案する。 私たちのアプローチは2つの段階から成り立っている。 第1段階では、自己エンコーダは、高品質な入力画像から予め学習する。 第2段階では、既存の学習ベース画像圧縮アルゴリズムの復号化画像に条件付きLCMを介して前者が生成され、テクスチャリッチ強化画像を生成する補助情報として使用される。 事前に、トランスフォーマーベースのマルチスケールエンハンスメントネットワーク(MEN)に、チャネルアテンションとゲートベースのダイナミック機能アテンションモジュール(DFAM)を組み込んで画像エンハンスメントを行う。 LDM-RSICは、主観的知覚と客観的メトリクスの両方の観点から、既存の最先端および学習ベースの画像圧縮アルゴリズムを著しく上回っている。 さらに,従来の画像圧縮アルゴリズムJPEG2000の改良とDOTAテストセットの32.00%のビットセーブを実現するために,LDMベースのスキームを用いる。 コードはhttps://github.com/mlkk518/LDM-RSICで入手できる。

Deep learning-based image compression algorithms typically focus on designing encoding and decoding networks and improving the accuracy of entropy model estimation to enhance the rate-distortion (RD) performance. However, few algorithms leverage the compression distortion prior from existing compression algorithms to improve RD performance. In this paper, we propose a latent diffusion model-based remote sensing image compression (LDM-RSIC) method, which aims to enhance the final decoding quality of RS images by utilizing the generated distortion prior from a LDM. Our approach consists of two stages. In the first stage, a self-encoder learns prior from the high-quality input image. In the second stage, the prior is generated through an LDM, conditioned on the decoded image of an existing learning-based image compression algorithm, to be used as auxiliary information for generating the texture-rich enhanced image. To better utilize the prior, a channel attention and gate-based dynamic feature attention module (DFAM) is embedded into a Transformer-based multi-scale enhancement network (MEN) for image enhancement. Extensive experiments demonstrate the proposed LDM-RSIC significantly outperforms existing state-of-the-art traditional and learning-based image compression algorithms in terms of both subjective perception and objective metrics. Additionally, we use the LDM-based scheme to improve the traditional image compression algorithm JPEG2000 and obtain 32.00% bit savings on the DOTA testing set. The code will be available at https://github.com/mlkk518/LDM-RSIC.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# A + B: LLMをシナジーポテンシャルの解放に最適化するための一般的なジェネレータ・リーダー・フレームワーク

A + B: A General Generator-Reader Framework for Optimizing LLMs to Unleash Synergy Potential ( http://arxiv.org/abs/2406.03963v1 )

ライセンス: Link先を確認
Wei Tang, Yixin Cao, Jiahao Ying, Bo Wang, Yuyue Zhao, Yong Liao, Pengyuan Zhou, (参考訳) Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)に必要な知識を補う効果的なソリューションである。 検索性能のボトルネックを狙うため,LLM自体から生成する検索段階に代えて,"generate-then-read"パイプラインを提案する。 有望ではあるが、この研究の方向性は過小評価されており、情報源の知識が与えられた場合のシナリオではまだ機能しない。 本稿では,基礎モデルと型の組み合わせの異なる一般的な「A + B」フレームワークを体系的な調査のために形式化する。 我々は,LLMのベースバージョンとチャット版の有効性について検討し,それぞれが生成器Aと読取器Bに適した機能があることを見出した。 それらの組み合わせは、特に複雑なシナリオにおいて、単一モデルよりも一貫して優れている。 さらに、継続的学習を通じて、ソースドキュメントを含むシナリオへの"A + B"フレームワークの適用を拡大し、外部知識をLCMに直接統合することを可能にする。 このアプローチは、新しい知識の効果的な獲得を促進するだけでなく、安全と適応後の有用性の課題にも対処する。 本稿は、A+Bフレームワークの汎用性を強調し、様々な領域にわたるLCMの実用性を高める可能性を実証する。

Retrieval-Augmented Generation (RAG) is an effective solution to supplement necessary knowledge to large language models (LLMs). Targeting its bottleneck of retriever performance, "generate-then-read" pipeline is proposed to replace the retrieval stage with generation from the LLM itself. Although promising, this research direction is underexplored and still cannot work in the scenario when source knowledge is given. In this paper, we formalize a general "A + B" framework with varying combinations of foundation models and types for systematic investigation. We explore the efficacy of the base and chat versions of LLMs and found their different functionalities suitable for generator A and reader B, respectively. Their combinations consistently outperform single models, especially in complex scenarios. Furthermore, we extend the application of the "A + B" framework to scenarios involving source documents through continuous learning, enabling the direct integration of external knowledge into LLMs. This approach not only facilitates effective acquisition of new knowledge but also addresses the challenges of safety and helpfulness post-adaptation. The paper underscores the versatility of the "A + B" framework, demonstrating its potential to enhance the practical application of LLMs across various domains.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# 単位変換の実装のための量子速度限界

Quantum Speed Limits for Implementation of Unitary Transformations ( http://arxiv.org/abs/2406.03964v1 )

ライセンス: Link先を確認
Abolfazl Farmanian, Vahid Karimipour, (参考訳) 量子速度制限 (quantum speed limit) とは、1つの量子状態が別の量子状態へいかに素早く変換できるかを定義する境界である。 状態のペア間の変換に焦点をあてるのではなく、任意の次元のユニタリ作用素による量子進化の速度限界に制限を与える。 これらは初期状態と最終状態に依存しないが、実装されるユニタリ作用素のトレースと、このユニタリ進化を生成するハミルトニアンのエネルギースペクトルの全体的特性(平均と分散)にのみ依存する。 私たちが見いだす境界は、ユニタリ作用素の実装への状態変換に対するマンデルスタム・タム(TM)およびマーゴラス・レヴィチン(MT)境界の一般化と考えることができる。 量子情報処理に関心のある変換のいくつかのクラスにおけるこれらの境界の適用について論じる。

Quantum speed limits are the boundaries that define how quickly one quantum state can transform into another. Instead of focusing on the transformation between pairs of states, we provide bounds on the speed limit of quantum evolution by unitary operators in arbitrary dimensions. These do not depend on the initial and final state but depend only on the trace of the unitary operator that is to be implemented and the gross characteristics (average and variance) of the energy spectrum of the Hamiltonian which generates this unitary evolution. The bounds that we find can be thought of as the generalization of the Mandelstam-Tamm (TM) and the Margolus-Levitin (MT) bound for state transformations to implementations of unitary operators. We will discuss the application of these bounds in several classes of transformations that are of interest in quantum information processing.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# Poisson分散位相ランダム化による固有パストラバース

Eigenpath traversal by Poisson-distributed phase randomisation ( http://arxiv.org/abs/2406.03972v1 )

ライセンス: Link先を確認
Joseph Cunningham, Jérémie Roland, (参考訳) 本稿では,量子Zeno効果に基づくAQC(Adiabatic Quantum Computation)に類似した量子計算の枠組みを提案する。 ポアソン過程によって決定された間隔でランダムデファーズ演算を行うことにより、特定の固有値に関連する固有空間を追跡することができる。 有限性に対する単純な微分方程式を導出し、アルゴリズムのクラス全体の時間複雑性を束縛する一般定理を導出する。 また、固有状態フィルタリングを使用して、エラー耐性の複雑さのスケーリングを最適化します。 多くの場合、一般定理によって与えられる境界は最適であり、このギャップの最小値として$O(1/\Delta_m)$と$\Delta_m$の時間複雑性を与える。 これにより、問題固有の洞察を最小限に抑えながら、問題の非常に一般的な特徴を用いて最適な結果を証明できる。 フレームワークの2つの応用として、Grover問題(すなわち、$O(\sqrt{N})$)とQuantum Linear System Problem(すなわち、$O(\kappa\log(1/\epsilon))$($\kappa$は条件数、$\epsilon$はエラー許容性)の最適スケーリングを得る。

We present a framework for quantum computation, similar to Adiabatic Quantum Computation (AQC), that is based on the quantum Zeno effect. By performing randomised dephasing operations at intervals determined by a Poisson process, we are able to track the eigenspace associated to a particular eigenvalue. We derive a simple differential equation for the fidelity, leading to general theorems bounding the time complexity of a whole class of algorithms. We also use eigenstate filtering to optimise the scaling of the complexity in the error tolerance $\epsilon$. In many cases the bounds given by our general theorems are optimal, giving a time complexity of $O(1/\Delta_m)$ with $\Delta_m$ the minimum of the gap. This allows us to prove optimal results using very general features of problems, minimising the problem-specific insight necessary. As two applications of our framework, we obtain optimal scaling for the Grover problem (i.e.\ $O(\sqrt{N})$ where $N$ is the database size) and the Quantum Linear System Problem (i.e.\ $O(\kappa\log(1/\epsilon))$ where $\kappa$ is the condition number and $\epsilon$ the error tolerance) by direct applications of our theorems.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# ミニ・オナー・オブ・キングス:マルチエージェント強化学習のための軽量環境

Mini Honor of Kings: A Lightweight Environment for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2406.03978v1 )

ライセンス: Link先を確認
Lin Liu, Jian Zhao, Cheng Hu, Zhengtao Cao, Youpeng Zhao, Zhenbin Ye, Meng Meng, Wenjun Wang, Zhaofeng He, Houqiang Li, Xia Lin, Lanxiao Huang, (参考訳) ゲームはマルチエージェント強化学習(MARL)の研究環境として広く利用されているが、それらは3つの大きな課題である: 限定的なカスタマイズ、高い計算要求、過剰な単純化である。 これらの問題に対処するため、我々は人気のあるモバイルゲーム『Honor of Kings』の地図エディタを初めて公開し、研究者が実験を行うための軽量環境『Mini HoK』を設計した。 Mini HoKは非常に効率的で、実験をパーソナルPCやラップトップ上で行うことができるが、既存のMARLアルゴリズムには十分な課題がある。 我々は、一般的なMARLアルゴリズムで環境を検証し、これらのアルゴリズムがまだこの環境内で最適な解を見つけていないことを実証した。 これにより、研究コミュニティ内でのMARL手法の普及と普及が促進される。 さらに、より多くの研究者がHonor of Kingsマップエディタを利用して、革新的で科学的に価値のある新しい地図を開発することを期待しています。 私たちのコードとユーザマニュアルは、https://github.com/tencent-ailab/mini-hok.comで公開されています。

Games are widely used as research environments for multi-agent reinforcement learning (MARL), but they pose three significant challenges: limited customization, high computational demands, and oversimplification. To address these issues, we introduce the first publicly available map editor for the popular mobile game Honor of Kings and design a lightweight environment, Mini Honor of Kings (Mini HoK), for researchers to conduct experiments. Mini HoK is highly efficient, allowing experiments to be run on personal PCs or laptops while still presenting sufficient challenges for existing MARL algorithms. We have tested our environment on common MARL algorithms and demonstrated that these algorithms have yet to find optimal solutions within this environment. This facilitates the dissemination and advancement of MARL methods within the research community. Additionally, we hope that more researchers will leverage the Honor of Kings map editor to develop innovative and scientifically valuable new maps. Our code and user manual are available at: https://github.com/tencent-ailab/mini-hok.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# ポジション:機械学習における否定的な結果を受け入れる

Position: Embracing Negative Results in Machine Learning ( http://arxiv.org/abs/2406.03980v1 )

ライセンス: Link先を確認
Florian Karl, Lukas Malte Kemeter, Gabriel Dax, Paulina Sierak, (参考訳) 新たな機械学習手法を提案する出版物は、主に選択された問題に対する予測性能によって評価される。 このポジションペーパーでは、予測性能だけでは出版価値の指標にはならないと論じている。 機械学習の研究コミュニティ全体の非効率性や、研究者のインセンティブの誤った設定など、問題も生じます。 そこで我々は,これらの問題を緩和し,機械学習研究コミュニティの科学的成果を改善するために,「否定的」な結果の公表を呼び掛けた。 我々の立場を裏付けるために、我々は、ネガティブな結果を公開する利点を示し、コミュニティが出版が正規化されるパラダイムに進むための具体的な措置を提供する。

Publications proposing novel machine learning methods are often primarily rated by exhibited predictive performance on selected problems. In this position paper we argue that predictive performance alone is not a good indicator for the worth of a publication. Using it as such even fosters problems like inefficiencies of the machine learning research community as a whole and setting wrong incentives for researchers. We therefore put out a call for the publication of "negative" results, which can help alleviate some of these problems and improve the scientific output of the machine learning research community. To substantiate our position, we present the advantages of publishing negative results and provide concrete measures for the community to move towards a paradigm where their publication is normalized.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# レベル統計は一般化対称性を検出する

Level statistics detect generalized symmetries ( http://arxiv.org/abs/2406.03983v1 )

ライセンス: Link先を確認
Nicholas O'Dea, (参考訳) レベル統計は、対称性を検出し、可積分系と非可積分系を区別するのに有用なプローブである。 レベル統計が従来の格子対称性や内部対称性を超越した一般化対称性の存在を検出するいくつかの例を示す。 私は、イジング臨界点におけるクラマース・ワニエ双対性(英語版)の例による非可逆対称性、スピン-$1$異方性ハイゼンベルク鎖の例による非局所生成子との対称性、および$q$変形SPT相の最近の研究に密接に関連する例による$q$変形対称性を考える。 いずれの場合も、従来のレベル統計は一般化された対称性を検知し、これらの対称性は、非可積分系において特性レベルの反発を見る前に解決しなければならない。 $q$-変形対称性について、私はレベル統計学を通して、$q$-変形された逆変換の一般化を発見し、それはそれ自体が興味深く、$q$-変形されたSPT位相を保護するかもしれない。

Level statistics are a useful probe for detecting symmetries and distinguishing integrable and non-integrable systems. I show by way of several examples that level statistics detect the presence of generalized symmetries that go beyond conventional lattice symmetries and internal symmetries. I consider non-invertible symmetries through the example of Kramers-Wannier duality at an Ising critical point, symmetries with nonlocal generators through the example of a spin-$1$ anisotropic Heisenberg chain, and $q$-deformed symmetries through an example closely related to recent work on $q$-deformed SPT phases. In each case, conventional level statistics detect the generalized symmetries, and these symmetries must be resolved before seeing characteristic level repulsion in non-integrable systems. For the $q$-deformed symmetry, I discovered via level statistics a $q$-deformed generalization of inversion that is interesting in its own right and that may protect $q$-deformed SPT phases.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# LNQ Challenge 2023: Probabilistic Lymph Node Atlasを用いた縦隔リンパ節郭清の学習

LNQ Challenge 2023: Learning Mediastinal Lymph Node Segmentation with a Probabilistic Lymph Node Atlas ( http://arxiv.org/abs/2406.03984v1 )

ライセンス: Link先を確認
Sofija Engelson, Jan Ehrhardt, Timo Kepp, Joshua Niemeijer, Heinz Handels, (参考訳) リンパ節転移の評価は、正確ながん転移を達成する上で重要な役割を担い、治療オプションに関するその後の決定に影響を及ぼす。 リンパ節検出は、境界が不明確であり、様々な大きさと形態的特徴があるため、資源集約的なプロセスである。 LNQ 2023 MICCAIチャレンジの一環として,縦隔リンパ節分節に持続する課題と,課題トレーニングデータの部分的アノテーションを併用するツールとして,解剖学的先行性(anatomical priors)を提案する。 モデルアンサンブルでは、Diceスコアは0.6033で、接地真性リンパ節の57%であり、CTのみのトレーニングでは27%である。 損失重み付けと後処理に確率的リンパ節アトラスを組み込むことにより, セグメンテーション精度を著しく向上させる。 最大のパフォーマンス向上は、完全注釈付きデータをオーバーサンプリングしてチャレンジトレーニングデータの部分アノテーションを考慮し、CT画像の高均一性やリンパ節の外観に対処するための追加データを追加することで達成される。 私たちのコードはhttps://github.com/MICAI-IMI-UzL/LNQ2023で公開されています。

The evaluation of lymph node metastases plays a crucial role in achieving precise cancer staging, influencing subsequent decisions regarding treatment options. Lymph node detection poses challenges due to the presence of unclear boundaries and the diverse range of sizes and morphological characteristics, making it a resource-intensive process. As part of the LNQ 2023 MICCAI challenge, we propose the use of anatomical priors as a tool to address the challenges that persist in mediastinal lymph node segmentation in combination with the partial annotation of the challenge training data. The model ensemble using all suggested modifications yields a Dice score of 0.6033 and segments 57% of the ground truth lymph nodes, compared to 27% when training on CT only. Segmentation accuracy is improved significantly by incorporating a probabilistic lymph node atlas in loss weighting and post-processing. The largest performance gains are achieved by oversampling fully annotated data to account for the partial annotation of the challenge training data, as well as adding additional data augmentation to address the high heterogeneity of the CT images and lymph node appearance. Our code is available at https://github.com/MICAI-IMI-UzL/LNQ2023.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# ドメイン特化文書のペルソナによる要約について

On The Persona-based Summarization of Domain-Specific Documents ( http://arxiv.org/abs/2406.03986v1 )

ライセンス: Link先を確認
Ankan Mullick, Sombit Bose, Rounak Saha, Ayan Kumar Bhowmick, Pawan Goyal, Niloy Ganguly, Prasenjit Dey, Ravi Kokku, (参考訳) ドメイン固有の知識が拡大する世界では、情報の消費と保存の複雑さが増し、大きな情報リポジトリから要約を生成する必要がある。 しかし、ドメインのすべてのペルソナは異なる情報要件を持ち、従ってその要約を行う。 例えば、医療分野では、ターゲットとする医療情報を効率的に提供するために、ペルソナベースのアプローチ(医師、看護師、患者など)が不可欠である。 人間によるドメイン固有情報のペルソナに基づく要約は、認知負荷の高いタスクであり、一般的には好ましくない。 2人の異なる人間が生成する要約は、高い変動性を持ち、ドメインとペルソナが成長するにつれて、コストと主題の専門知識をスケールしない。 さらに、汎用Large Language Models(LLMs)を使用したAI生成サマリーは、ドメイン固有のデータに特化してトレーニングしなければ、必ずしも異なるドメインに対して満足のいく精度を提供することができず、日々の操作で非常に高価である。 この論文への私たちの貢献は2つあります。 1) 医療コーパスを用いて, ドメイン固有の小規模基盤LLMを効率よく微調整する手法を提案するとともに, AIベースの基準を用いて, 要約品質を効果的に評価できることを示す。 2)AIに基づく要約は,人間による要約の評定とよく一致していることを示す。 したがって、ドメイン固有のペルソナベースの要約を生成するようなAIベースのパイプラインは、非常に効率的で費用対効果の高い方法で、法律、企業文書、教育などの他のドメインに容易にスケールできる。

In an ever-expanding world of domain-specific knowledge, the increasing complexity of consuming, and storing information necessitates the generation of summaries from large information repositories. However, every persona of a domain has different requirements of information and hence their summarization. For example, in the healthcare domain, a persona-based (such as Doctor, Nurse, Patient etc.) approach is imperative to deliver targeted medical information efficiently. Persona-based summarization of domain-specific information by humans is a high cognitive load task and is generally not preferred. The summaries generated by two different humans have high variability and do not scale in cost and subject matter expertise as domains and personas grow. Further, AI-generated summaries using generic Large Language Models (LLMs) may not necessarily offer satisfactory accuracy for different domains unless they have been specifically trained on domain-specific data and can also be very expensive to use in day-to-day operations. Our contribution in this paper is two-fold: 1) We present an approach to efficiently fine-tune a domain-specific small foundation LLM using a healthcare corpus and also show that we can effectively evaluate the summarization quality using AI-based critiquing. 2) We further show that AI-based critiquing has good concordance with Human-based critiquing of the summaries. Hence, such AI-based pipelines to generate domain-specific persona-based summaries can be easily scaled to other domains such as legal, enterprise documents, education etc. in a very efficient and cost-effective manner.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# 関連パラフレーズレンズによるゼロショット抽象要約のためのLLMの評価

Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing ( http://arxiv.org/abs/2406.03993v1 )

ライセンス: Link先を確認
Hadi Askari, Anshuman Chhabra, Muhao Chen, Prasant Mohapatra, (参考訳) 大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。 しかし、そのようなゼロショット要約の過程の堅牢性についてはほとんど分かっていない。 このギャップを埋めるために,LLMのロバスト性を要約として測定するシンプルな戦略であるrelevance paraphrasingを提案する。 Relevance paraphrasingアプローチは、理想的な要約を生成するのに寄与する最も関連性の高い文を特定し、これらの入力をパラフレーズ化し、最小限の摂動データセットを得る。 次に,元のデータセットと摂動データセットの両方を要約するためのモデル性能を評価することにより,LLMの頑健性の1つの側面を評価することができる。 4つの異なるデータセットと4つの異なる大きさのLLM(GPT-3.5-Turbo, Llama-2-13B, Mistral-7B, Dolly-v2-7B)を関連づける実験を行った。 以上の結果から, LLM は最小限の摂動記事に対する一貫した要約ではなく, さらなる改善が必要であることが示唆された。

Large Language Models (LLMs) have achieved state-of-the-art performance at zero-shot generation of abstractive summaries for given articles. However, little is known about the robustness of such a process of zero-shot summarization. To bridge this gap, we propose relevance paraphrasing, a simple strategy that can be used to measure the robustness of LLMs as summarizers. The relevance paraphrasing approach identifies the most relevant sentences that contribute to generating an ideal summary, and then paraphrases these inputs to obtain a minimally perturbed dataset. Then, by evaluating model performance for summarization on both the original and perturbed datasets, we can assess the LLM's one aspect of robustness. We conduct extensive experiments with relevance paraphrasing on 4 diverse datasets, as well as 4 LLMs of different sizes (GPT-3.5-Turbo, Llama-2-13B, Mistral-7B, and Dolly-v2-7B). Our results indicate that LLMs are not consistent summarizers for the minimally perturbed articles, necessitating further improvements.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# AC4MPC:非線形モデル予測制御のためのアクタクリティカル強化学習

AC4MPC: Actor-Critic Reinforcement Learning for Nonlinear Model Predictive Control ( http://arxiv.org/abs/2406.03995v1 )

ライセンス: Link先を確認
Rudolf Reiter, Andrea Ghezzi, Katrin Baumgärtner, Jasper Hoffmann, Robert D. McAllister, Moritz Diehl, (参考訳) Ac{MPC} と \ac{RL} は相補的優位性を持つ2つの強力な制御戦略である。 本稿では,アクタクリティカルな \ac{RL} 技術をいかに活用して \ac{MPC} の性能を向上させるかを示す。 最適な値関数の近似として \ac{RL} 批評家が使用され、アクターロールアウトは \ac{MPC} の原始変数を初期推定する。 それぞれの \ac{MPC} インスタンスを、異なる初期推定に対して2回解決する並列制御アーキテクチャを提案する。 アクターロールアウト初期化に加えて、以前のソリューションからシフト初期化が使用される。 その後、アクターと批評家は、これらの軌跡の無限水平コストを概略評価するために再び使用される。 最低コスト軌道からの制御動作は、各タイミングステップでシステムに適用される。 提案アルゴリズムは, 従来の<ac{RL} ポリシーと, 批判者の精度に依存する誤差項, および<ac{MPC} 定式化の地平線長で減衰する誤差項を上回ることが保証されている。 さらに、これらの保証を保持するために、グローバルに最適な解決策を必要としない。 このアプローチは、イラストラティブなおもちゃの例と、シナリオを克服する‘ac{AD}’で実証されます。

\Ac{MPC} and \ac{RL} are two powerful control strategies with, arguably, complementary advantages. In this work, we show how actor-critic \ac{RL} techniques can be leveraged to improve the performance of \ac{MPC}. The \ac{RL} critic is used as an approximation of the optimal value function, and an actor roll-out provides an initial guess for primal variables of the \ac{MPC}. A parallel control architecture is proposed where each \ac{MPC} instance is solved twice for different initial guesses. Besides the actor roll-out initialization, a shifted initialization from the previous solution is used. Thereafter, the actor and the critic are again used to approximately evaluate the infinite horizon cost of these trajectories. The control actions from the lowest-cost trajectory are applied to the system at each time step. We establish that the proposed algorithm is guaranteed to outperform the original \ac{RL} policy plus an error term that depends on the accuracy of the critic and decays with the horizon length of the \ac{MPC} formulation. Moreover, we do not require globally optimal solutions for these guarantees to hold. The approach is demonstrated on an illustrative toy example and an \ac{AD} overtaking scenario.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# Hackatari:ロバストで継続的な強化学習のためのAtari学習環境

HackAtari: Atari Learning Environments for Robust and Continual Reinforcement Learning ( http://arxiv.org/abs/2406.03997v1 )

ライセンス: Link先を確認
Quentin Delfosse, Jannis Blüml, Bjarne Gregori, Kristian Kersting, (参考訳) 人工エージェントの新規性への適応性と意図した行動との整合性は、その効果的な展開に不可欠である。 強化学習(Reinforcement Learning, RL)は、新奇性を探索の手段として活用するが、エージェントはしばしば新しい状況を扱うのに苦労し、一般化を妨げている。 これらの問題に対処するため、最も一般的なRLベンチマークであるAtari Learning Environmentに制御ノベルティを導入したフレームワークであるHackAtariを提案する。 HackAtariを使うことで、新しいゲームシナリオ(カリキュラム学習の簡略化を含む)を作成し、ゲーム要素の色を交換し、エージェントに異なる報酬信号を導入することができます。 本研究は,RLエージェントのロバスト性向上と,C51およびPPOを用いた実験による協調行動の整合性向上におけるHackAtariの有効性を評価することを目的とする。 全体として、HackAtariは現在のRLアルゴリズムと将来のRLアルゴリズムの堅牢性を改善するために使用することができ、Neuro-Symbolic RL、カリキュラムRL、因果RLおよびLLM駆動RLを可能にする。 我々の研究は、RL剤の解釈可能な開発の重要性を浮き彫りにしている。

Artificial agents' adaptability to novelty and alignment with intended behavior is crucial for their effective deployment. Reinforcement learning (RL) leverages novelty as a means of exploration, yet agents often struggle to handle novel situations, hindering generalization. To address these issues, we propose HackAtari, a framework introducing controlled novelty to the most common RL benchmark, the Atari Learning Environment. HackAtari allows us to create novel game scenarios (including simplification for curriculum learning), to swap the game elements' colors, as well as to introduce different reward signals for the agent. We demonstrate that current agents trained on the original environments include robustness failures, and evaluate HackAtari's efficacy in enhancing RL agents' robustness and aligning behavior through experiments using C51 and PPO. Overall, HackAtari can be used to improve the robustness of current and future RL algorithms, allowing Neuro-Symbolic RL, curriculum RL, causal RL, as well as LLM-driven RL. Our work underscores the significance of developing interpretable in RL agents.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# 教師付き学習における情報対話のダイナミクスの解明

Unveiling the Dynamics of Information Interplay in Supervised Learning ( http://arxiv.org/abs/2406.03999v1 )

ライセンス: Link先を確認
Kun Song, Zhiquan Tan, Bochao Zou, Huimin Ma, Weiran Huang, (参考訳) 本稿では,行列情報理論を解析ツールとして用いて,教師付き学習過程におけるデータ表現と分類ヘッドベクトル間の情報相互作用のダイナミクスを解析する。 具体的には,ニューラルネットワーク学習におけるデータ表現とクラス分類ヘッドの相互作用を評価するために,行列相互情報比 (MIR) と行列エントロピー差率 (HDR) を導入する。 我々の実験は、MIRとHDRがニューラルネットワークで発生する多くの現象を効果的に説明できることを示し、例えば、標準教師付きトレーニングダイナミクス、線形モード接続、ラベルの平滑化とプルーニングの性能などである。 さらに,MIR と HDR を用いてグルーキングのダイナミクスの洞察を得る。これは教師付きトレーニングで観察される興味深い現象であり,トレーニングデータに適合する学習から長い後,モデルが一般化能力を示す。 さらに、教師付きおよび半教師付き学習における損失項として、MIRとHDRを導入し、サンプルと分類ヘッド間の情報相互作用を最適化する。 実験結果から,MIRとHDRの利用がトレーニングプロセス全体を通して力学の理解に有効であるだけでなく,トレーニング手順自体の強化も可能であることが示唆された。

In this paper, we use matrix information theory as an analytical tool to analyze the dynamics of the information interplay between data representations and classification head vectors in the supervised learning process. Specifically, inspired by the theory of Neural Collapse, we introduce matrix mutual information ratio (MIR) and matrix entropy difference ratio (HDR) to assess the interactions of data representation and class classification heads in supervised learning, and we determine the theoretical optimal values for MIR and HDR when Neural Collapse happens. Our experiments show that MIR and HDR can effectively explain many phenomena occurring in neural networks, for example, the standard supervised training dynamics, linear mode connectivity, and the performance of label smoothing and pruning. Additionally, we use MIR and HDR to gain insights into the dynamics of grokking, which is an intriguing phenomenon observed in supervised training, where the model demonstrates generalization capabilities long after it has learned to fit the training data. Furthermore, we introduce MIR and HDR as loss terms in supervised and semi-supervised learning to optimize the information interactions among samples and classification heads. The empirical results provide evidence of the method's effectiveness, demonstrating that the utilization of MIR and HDR not only aids in comprehending the dynamics throughout the training process but can also enhances the training procedure itself.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# PVUWチャレンジ2024の3位:ビデオパノプティカルセグメンテーション

3rd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation ( http://arxiv.org/abs/2406.04002v1 )

ライセンス: Link先を確認
Ruipu Wu, Jifei Che, Han Li, Chengjing Wu, Ting Liu, Luoqi Liu, (参考訳) ビデオパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパ DVIS++をベースラインモデルとして利用し、追加の手法で補足されたクエリワイドアンサンブルを中心にした包括的アプローチを導入することにより、DVIS++をベースラインモデルとして活用する。 提案手法はVIPSegテストセットのVPQスコア57.01を達成し,第3回Pixelレベルビデオ理解チャレンジのVPSトラックで3位にランクインした。

Video panoptic segmentation is an advanced task that extends panoptic segmentation by applying its concept to video sequences. In the hope of addressing the challenge of video panoptic segmentation in diverse conditions, We utilize DVIS++ as our baseline model and enhance it by introducing a comprehensive approach centered on the query-wise ensemble, supplemented by additional techniques. Our proposed approach achieved a VPQ score of 57.01 on the VIPSeg test set, and ranked 3rd in the VPS track of the 3rd Pixel-level Video Understanding in the Wild Challenge.
翻訳日:2024-06-07 15:10:00 公開日:2024-06-06
# 量子状態生成のためのT-Count最適化遺伝的アルゴリズム

T-Count Optimizing Genetic Algorithm for Quantum State Preparation ( http://arxiv.org/abs/2406.04004v1 )

ライセンス: Link先を確認
Andrew Wright, Marco Lewis, Paolo Zuliani, Sadegh Soudjani, (参考訳) 量子状態の準備は、多くの量子アルゴリズムにおいて重要なプロセスであり、量子レジスタの効率的な初期化の必要性は、有用な量子コンピューティングの需要が増大するにつれて増大している。 初期化すべき量子ビットの数が増加するにつれて、所望の状態を実装するために必要な回路も指数関数的に大きくなり、ノイズへの忠実さが失われる。 これは主に非クリフォードTゲートの環境影響を受けやすいためであり、このゲートは可能な限り使用を減らすべきである。 本稿では,Clifford+Tゲートセットのゲートからなる状態準備回路に対して遺伝的アルゴリズムを提案し,T-Countで最適化し,ノイズの影響を低減する。 ここで提示される方法は、常に忠実度の観点から最も正確な回路を生成するわけではないが、量子フーリエ変換状態のような高忠実で非自明な量子状態を生成することができる。 さらに,本アルゴリズムは,最もエラーが多いコンポーネントの数が減少するフォールトトレラントなソリューションを自動的に生成する。 確率分布, ポアソン確率分布, W, GHZ, 量子フーリエ変換の状態に対して, 提案アルゴリズムの評価を行った。 また,量子ビット数の増加に伴い,探索プロセスのさらなる最適化の必要性が強調され,拡張性の問題が実験的に示された。

Quantum state preparation is a crucial process within numerous quantum algorithms, and the need for efficient initialization of quantum registers is ever increasing as demand for useful quantum computing grows. The problem arises as the number of qubits to be initialized grows, the circuits required to implement the desired state also exponentially increase in size leading to loss of fidelity to noise. This is mainly due to the susceptibility to environmental effects of the non-Clifford T gate, whose use should thus be reduced as much as possible. In this paper, we present and utilize a genetic algorithm for state preparation circuits consisting of gates from the Clifford + T gate set and optimize them in T-Count as to reduce the impact of noise. Whilst the method presented here does not always produce the most accurate circuits in terms of fidelity, it can generate high-fidelity, non-trivial quantum states such as quantum Fourier transform states. In addition, our algorithm does automatically generate fault tolerantly implementable solutions where the number of the most error prone components is reduced. We present an evaluation of the algorithm when trialed against preparing random, Poisson probability distribution, W, GHZ, and quantum Fourier transform states. We also experimentally demonstrate the scalability issues as qubit count increases, which highlights the need for further optimization of the search process.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# 変分推論, ガウス混合, ベイズ機械学習

Variational inference, Mixture of Gaussians, Bayesian Machine Learning ( http://arxiv.org/abs/2406.04012v1 )

ライセンス: Link先を確認
Tom Huix, Anna Korba, Alain Durmus, Eric Moulines, (参考訳) 変分推論 (VI) はベイズ推定において一般的な手法であり、パラメトリック族内の後方分布の最適近似を求め、典型的には(逆)クルバック・リーブラー(KL)の偏差である損失を最小化する。 経験的な成功にもかかわらず、第6の理論的性質は近年のみ注目されており、主にパラメトリック家がガウス家のものである。 この研究は、非ガウスの場合のVIの理論研究に寄与することを目的として、固定された共分散と一定の重みを持つガウスの混合の設定を調査した。 この見方では、この特定の族上の VI は、モリファイド相対エントロピーの最小化、すなわちディラックス上で支持される原子測度の畳み込み(ガウス核に関して)とターゲット分布の間の KL としてキャストすることができる。 原子測度の支持はガウス成分の局所化に対応する。 したがって、変分推論の解法は、ディラック(粒子)の位置を最適化するのと同値となり、これは勾配降下によって行われ、相互作用する粒子系の形を取ることができる。 そこで本研究では,モーラ化相対エントロピーの最適化において,この文脈における変分推論の誤差の2つの原因について検討する。 1つは最適化結果であり、これはアルゴリズムが反復毎に目的を減少させることを示す降下補題である。 第2の誤差は近似誤差であり、最適有限混合と対象分布の上限となる。

Variational inference (VI) is a popular approach in Bayesian inference, that looks for the best approximation of the posterior distribution within a parametric family, minimizing a loss that is typically the (reverse) Kullback-Leibler (KL) divergence. Despite its empirical success, the theoretical properties of VI have only received attention recently, and mostly when the parametric family is the one of Gaussians. This work aims to contribute to the theoretical study of VI in the non-Gaussian case by investigating the setting of Mixture of Gaussians with fixed covariance and constant weights. In this view, VI over this specific family can be casted as the minimization of a Mollified relative entropy, i.e. the KL between the convolution (with respect to a Gaussian kernel) of an atomic measure supported on Diracs, and the target distribution. The support of the atomic measure corresponds to the localization of the Gaussian components. Hence, solving variational inference becomes equivalent to optimizing the positions of the Diracs (the particles), which can be done through gradient descent and takes the form of an interacting particle system. We study two sources of error of variational inference in this context when optimizing the mollified relative entropy. The first one is an optimization result, that is a descent lemma establishing that the algorithm decreases the objective at each iteration. The second one is an approximation error, that upper bounds the objective between an optimal finite mixture and the target distribution.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# 高電荷イオン中の高禁止光遷移の同定

Identification of highly-forbidden optical transitions in highly charged ions ( http://arxiv.org/abs/2406.04015v1 )

ライセンス: Link先を確認
Shuying Chen, Lukas J. Spieß, Alexander Wilzewski, Malte Wehrheim, Kai Dietze, Ivan Vybornyi, Klemens Hammerer, Jose R. Crespo Lopez-Urrutia, Piet O. Schmidt, (参考訳) 光時計は最も正確な実験装置であり、周波数気象学から基礎物理学まで幅広い分野に応用されている。 近年,Ar$^{13+}$で高電荷イオン(HCI)系光時計が実証され,高精度クロックに有利な原子特性を持つ新しい系が多数出現した。 多くの候補系が理論的に検討されているが、ほとんどの種における時計遷移周波数のかなりの不確実性は実験的な課題をもたらす。 ここでは、線形ポールトラップに制限されたHCIにおけるサブヘルツクロック遷移に対する量子論理にインスパイアされた実験的探索手法を探索することによって、このギャップを埋める。 これらの技術は、Rabiの励起、光双極子力(ODF)アプローチ、線形連続洗浄(LCS)とその異なるタイプのHCIへの適用性を含んでいる。 調査を通じて、我々は非常に正確なHCIベースの光時計の開発の道を開くためのツールを提供する。

Optical clocks represent the most precise experimental devices, finding application in fields spanning from frequency metrology to fundamental physics. Recently, the first highly charged ions (HCI) based optical clock was demonstrated using Ar$^{13+}$, opening up a plethora of novel systems with advantageous atomic properties for high accuracy clocks. While numerous candidate systems have been explored theoretically, the considerable uncertainty of the clock transition frequency for most species poses experimental challenges. Here, we close this gap by exploring quantum logic-inspired experimental search techniques for sub-Hertz clock transitions in HCI confined to a linear Paul trap. These techniques encompass Rabi excitation, an optical dipole force (ODF) approach, and linear continuous sweeping (LCS) and their applicability for different types of HCI. Through our investigation, we provide tools to pave the way for the development of exceptionally precise HCI-based optical clocks.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# アメリカの手話はコミュニケーション効率を高めるためにプレッシャーを反映する

American Sign Language Handshapes Reflect Pressures for Communicative Efficiency ( http://arxiv.org/abs/2406.04024v1 )

ライセンス: Link先を確認
Kayo Yin, Terry Regier, Dan Klein, (参考訳) コミュニケーション効率は言語学と認知科学において顕著な理論である。 多くの研究が、エネルギー節約の圧力が話し言葉の形でどのように反映されているかを示しているが、署名された言語でこの現象を探求する者はほとんどいない。 本稿では,アメリカ手話(ASL)におけるハンプチが,これらの効率をいかに反映しているかを示すとともに,視覚・ジェスチャーのモダリティにおけるコミュニケーション効率の新たな証拠を示す。 我々は、ASLと英語の双方の効率圧を比較するために、ネイティブのASL記号と英語からの借用記号の両方で使用されるハンプチに注目した。 まず,触覚の生成に必要な調音的努力と認識に必要な知覚的努力を定量化する手法を考案する。 そして,ASLと英語におけるコミュニケーションの取り組みと利用統計の相関関係を比較した。 以上の結果より, ASL の頻度は生産が容易であり, コミュニケーション効率のプレッシャーは英語の語彙を借りることではなく, ASL の使用によることが多いことが示唆された。

Communicative efficiency is a prominent theory in linguistics and cognitive science. While numerous studies have shown how the pressure to save energy is reflected in the form of spoken languages, few have explored this phenomenon in signed languages. In this paper, we show how handshapes in American Sign Language (ASL) reflect these efficiency pressures and we present new evidence of communicative efficiency in the visual-gestural modality. We focus on handshapes that are used in both native ASL signs and signs borrowed from English to compare efficiency pressures from both ASL and English. First, we design new methodologies to quantify the articulatory effort required to produce handshapes as well as the perceptual effort needed to recognize them. Then, we compare correlations between communicative effort and usage statistics in ASL and English. Our findings reveal that frequent ASL handshapes are easier to produce and that pressures for communicative efficiency mostly come from ASL usage, not from English lexical borrowing.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# 3歳から11歳児のマンダリン再帰的相対的節生成における構文・意味的インタフェースに関する研究

The syntax-semantics interface in a child's path: A study of 3- to 11-year-olds' elicited production of Mandarin recursive relative clauses ( http://arxiv.org/abs/2406.04025v1 )

ライセンス: Link先を確認
Caimei Yang, Qihang Yang, Xingzhi Su, Chenxi Fu, Xiaoyi Wang, Ying Yan, Zaijiang Man, (参考訳) 児童の獲得における構文と意味の関係については、明らかに矛盾する主張があった。 しかし,再帰的相対的節 (RRC) の取得に向けた子どもの道筋を判断する者はほとんどいない。 本論文の著者らは,3~11歳の最も構造化されたマンダリンRCを4(シンタクティックタイプ)*2(セマンティック条件)で生産する実験を行った。 4つの統語型は、対象群RC(SORRC)に、対象群RC(SORRC)に、対象群RC(OORRC)に、対象群RC(OORRC)に、対象群RC(OSRRC)に、対象群RC(SSRRC)に、対象群RC(SSRRC)に、対象群RC(SSRRC)に、である。 各構文型は内的意味論で異なる2つの条件、すなわち不可逆的内的意味論(IIS)と可逆的内的意味論(RIS)で表された。 例えば、「(_がバナナを食べる)風船は、IIS条件でSORRCであり、(_が豚を噛む)サルは、RIS条件でSORRCである。 各対象に対して, 可逆的外的意味論(IES)の条件を構成する音声・視覚刺激を提示した。 その結果,IIS-IES条件のSSRRCs,OSRRCs,SORRCsはRIS-IES条件のSSRRCsよりも2年早く生産された。 言語習得装置は、(可逆)構文とIISのインターフェースから始まり、構文とIESのインターフェースで終わる。

There have been apparently conflicting claims over the syntax-semantics relationship in child acquisition. However, few of them have assessed the child's path toward the acquisition of recursive relative clauses (RRCs). The authors of the current paper did experiments to investigate 3- to 11-year-olds' most-structured elicited production of eight Mandarin RRCs in a 4 (syntactic types)*2 (semantic conditions) design. The four syntactic types were RRCs with a subject-gapped RC embedded in an object-gapped RC (SORRCs), RRCs with an object-gapped RC embedded in another object-gapped RC (OORRCs), RRCs with an object-gapped RC embedded in a subject-gapped RC (OSRRCs), and RRCs with a subject-gapped RC embedded in another subject-gapped RC (SSRRCs). Each syntactic type was put in two conditions differing in internal semantics: irreversible internal semantics (IIS) and reversible internal semantics (RIS). For example, "the balloon that [the girl that _ eats the banana] holds _" is SORRCs in the IIS condition; "the monkey that [the dog that _ bites the pig] hits_" is SORRCs in the RIS condition. For each target, the participants were provided with a speech-visual stimulus constructing a condition of irreversible external semantics (IES). The results showed that SSRRCs, OSRRCs and SORRCs in the IIS-IES condition were produced two years earlier than their counterparts in the RIS-IES condition. Thus, a 2-stage development path is proposed: the language acquisition device starts with the interface between (irreversible) syntax and IIS, and ends with the interface between syntax and IES, both abiding by the syntax-semantic interface principle.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# PowerPeeler:PowerShellスクリプトの正確で一般的な動的難読化方法

PowerPeeler: A Precise and General Dynamic Deobfuscation Method for PowerShell Scripts ( http://arxiv.org/abs/2406.04027v1 )

ライセンス: Link先を確認
Ruijie Li, Chenyang Zhang, Huajun Chai, Lingyun Ying, Haixin Duan, Jun Tao, (参考訳) PowerShellは強力で汎用的なタスク自動化ツールです。 残念ながら、サイバー攻撃者には広く虐待されている。 マルウェアの検出を回避し、脅威分析を妨げるため、攻撃者は悪意のあるPowerShellスクリプトを難読化するために様々なテクニックを使うことが多い。 既存の難読化ツールは静的解析の限界に悩まされ、実際の難読化プロセスを正確にシミュレートすることができない。 本稿では,PowerPeelerを提案する。 私たちの知る限りでは、命令レベルでのPowerShellスクリプトの難読化アプローチとしては初めてのものです。 AST(Expression-related Abstract Syntax Tree)ノードを使用して、潜在的に難読化されたスクリプトを識別する。 そして、PowerPeelerは対応する命令とASTノードを関連付け、スクリプトの実行プロセス全体を監視する。 その後、PowerPeelerはこれらの命令の実行を動的に追跡し、実行結果を記録します。 最後に、PowerPeelerはこれらの結果を文字列化して、対応する難読化スクリプトを置き換え、難読化スクリプトを再構築する。 PowerPeelerの有効性を評価するために,多様性難読化手法を用いて実世界の1,736,669個のPowerShellサンプルを収集した。 我々はPowerPeelerを5つの最先端の難読化ツールとGPT-4と比較した。 評価結果は,PowerPeelerがよく知られた難読化手法を効果的に扱えることを示す。 さらに、PowerPeelerの難読化精度は95%に達し、他のツールをはるかに上回っている。 PowerPeelerは、最高の機密データを回復するだけでなく、セマンティック一貫性を97%以上維持する。 さらに、PowerPeelerは、有効な難読化結果の最大値を制限時間枠内で効果的に取得する。 さらに、PowerPeelerは拡張可能で、他のサイバーセキュリティソリューションの有用なツールとして使用できる。

PowerShell is a powerful and versatile task automation tool. Unfortunately, it is also widely abused by cyber attackers. To bypass malware detection and hinder threat analysis, attackers often employ diverse techniques to obfuscate malicious PowerShell scripts. Existing deobfuscation tools suffer from the limitation of static analysis, which fails to simulate the real deobfuscation process accurately. In this paper, we propose PowerPeeler. To the best of our knowledge, it is the first dynamic PowerShell script deobfuscation approach at the instruction level. It utilizes expression-related Abstract Syntax Tree (AST) nodes to identify potential obfuscated script pieces. Then, PowerPeeler correlates the AST nodes with their corresponding instructions and monitors the script's entire execution process. Subsequently, PowerPeeler dynamically tracks the execution of these instructions and records their execution results. Finally, PowerPeeler stringifies these results to replace the corresponding obfuscated script pieces and reconstruct the deobfuscated script. To evaluate the effectiveness of PowerPeeler, we collect 1,736,669 real-world malicious PowerShell samples with diversity obfuscation methods. We compare PowerPeeler with five state-of-the-art deobfuscation tools and GPT-4. The evaluation results demonstrate that PowerPeeler can effectively handle all well-known obfuscation methods. Additionally, the deobfuscation correctness rate of PowerPeeler reaches 95%, significantly surpassing that of other tools. PowerPeeler not only recovers the highest amount of sensitive data but also maintains a semantic consistency over 97%, which is also the best. Moreover, PowerPeeler effectively obtains the largest quantity of valid deobfuscated results within a limited time frame. Furthermore, PowerPeeler is extendable and can be used as a helpful tool for other cyber security solutions.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# チェス演奏エージェントの計画解釈のためのコントラストスパースオートエンコーダ

Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents ( http://arxiv.org/abs/2406.04028v1 )

ライセンス: Link先を確認
Yoann Poupart, (参考訳) AIはチェスシステムを超人的なレベルに導いたが、これらのシステムはブラックボックスアルゴリズムに大きく依存している。 これは、エンドユーザ、特に機密性の高い意思決定に責任を負うシステムに対して、透明性を確保する上では持続不可能である。 最近の解釈可能性の研究は、ディープニューラルネットワーク(DNN)の内部表現がファソマブルであり、人間の理解可能な概念を含んでいることを示した。 しかし、これらの手法は文脈化されることがほとんどなく、しばしば単一の隠れ状態に基づいているため、多段階の推論、例えば計画の解釈ができない。 本稿では,一対のゲームトラジェクトリを研究するための新しいフレームワークであるCSAEを提案する。 CSAEを用いて,チェスエージェントの計画に意味のある概念を抽出し,解釈することができる。 我々は,自動特徴分類の提案の前に,CSAE特徴の質的分析に主に焦点をあてた。 さらに, トレーニングしたCSAEの品質を評価するために, 結果に急激な相関性を持たせるために, 健全度チェックを考案した。

AI led chess systems to a superhuman level, yet these systems heavily rely on black-box algorithms. This is unsustainable in ensuring transparency to the end-user, particularly when these systems are responsible for sensitive decision-making. Recent interpretability work has shown that the inner representations of Deep Neural Networks (DNNs) were fathomable and contained human-understandable concepts. Yet, these methods are seldom contextualised and are often based on a single hidden state, which makes them unable to interpret multi-step reasoning, e.g. planning. In this respect, we propose contrastive sparse autoencoders (CSAE), a novel framework for studying pairs of game trajectories. Using CSAE, we are able to extract and interpret concepts that are meaningful to the chess-agent plans. We primarily focused on a qualitative analysis of the CSAE features before proposing an automated feature taxonomy. Furthermore, to evaluate the quality of our trained CSAE, we devise sanity checks to wave spurious correlations in our results.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# トレーニング済みのトランスフォーマーが人間の移動データに意味のあるパターンを発見

Pre-trained Transformer Uncovers Meaningful Patterns in Human Mobility Data ( http://arxiv.org/abs/2406.04029v1 )

ライセンス: Link先を確認
Alameen Najjar, (参考訳) 国規模の未ラベルの人体移動データに基づいて事前訓練されたトランスフォーマーは、微調整により、対象の地理とその対応する移動パターンの深い理解を深めることのできる埋め込みを学習することを実証的に実証した。 適応フレームワークを用いることで,人間の移動性に直接的かつ間接的に関連する概念をカプセル化する上で,事前学習した埋め込みの性能を評価する。 これには地理的な位置や距離といった基本的な概念が含まれており、行政区画や土地被覆のようなより複雑な構成にまで拡張されている。 広範囲にわたる実証分析の結果,プレトレーニングによって得られたパフォーマンスが,木被覆回帰などのタスクで最大38%向上したことが明らかとなった。 この結果は、事前学習が生データに隠された意味あるパターンを明らかにする能力に起因しており、関連する高レベルの概念をモデル化するのに有益である。 事前訓練された埋め込みは、領域や軌道の堅牢な表現として現れ、幅広い下流アプリケーションに有用である可能性がある。

We empirically demonstrate that a transformer pre-trained on country-scale unlabeled human mobility data learns embeddings capable, through fine-tuning, of developing a deep understanding of the target geography and its corresponding mobility patterns. Utilizing an adaptation framework, we evaluate the performance of our pre-trained embeddings in encapsulating a broad spectrum of concepts directly and indirectly related to human mobility. This includes basic notions, such as geographic location and distance, and extends to more complex constructs, such as administrative divisions and land cover. Our extensive empirical analysis reveals a substantial performance boost gained from pre-training, reaching up to 38% in tasks such as tree-cover regression. We attribute this result to the ability of the pre-training to uncover meaningful patterns hidden in the raw data, beneficial for modeling relevant high-level concepts. The pre-trained embeddings emerge as robust representations of regions and trajectories, potentially valuable for a wide range of downstream applications.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# Bi-Modal Adversarial Promptによるジェイルブレイクビジョン言語モデル

Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt ( http://arxiv.org/abs/2406.04031v1 )

ライセンス: Link先を確認
Zonghao Ying, Aishan Liu, Tianyuan Zhang, Zhengmin Yu, Siyuan Liang, Xianglong Liu, Dacheng Tao, (参考訳) 大規模視覚言語モデル(LVLM)の領域では、ジェイルブレイク攻撃はガードレールをバイパスし、安全への影響を明らかにするためのレッドチーム方式として機能する。 既存のジェイルブレイクは視覚的モダリティに主に焦点を合わせ、攻撃のプロンプトの中でのみ視覚的な入力を摂動する。 しかし、これらは、世代ごとに視覚的特徴とテキスト的特徴を同時に融合するアライメントモデルに直面すると、不足する。 この制限に対処するために,テキストと視覚のプロンプトを協調的に最適化し,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を導入する。 当初,画像に有害な摂動を交互に埋め込み,数発のクエリ非依存コーパス(例,肯定的な接頭辞,否定的な抑制)でガイドした。 このプロセスは、イメージプロンプトLVLMが有害なクエリに対して正に応答することを保証する。 その後、敵対画像を利用して、特定の有害な意図でテキストプロンプトを最適化する。 特に、大規模言語モデルを用いてジェイルブレイクの失敗を分析し、連鎖推論を用いてフィードバックイテレーションによってテキストプロンプトを洗練させる。 提案手法の有効性を検証するため, 各種データセットとLVLMを用いて広範囲な評価を行い, 攻撃成功率を平均29.03%) で比較した。 さらに,Gemini や ChatGLM などのブラックボックス商用 LVLM に対する攻撃の可能性を示す。

In the realm of large vision language models (LVLMs), jailbreak attacks serve as a red-teaming approach to bypass guardrails and uncover safety implications. Existing jailbreaks predominantly focus on the visual modality, perturbing solely visual inputs in the prompt for attacks. However, they fall short when confronted with aligned models that fuse visual and textual features simultaneously for generation. To address this limitation, this paper introduces the Bi-Modal Adversarial Prompt Attack (BAP), which executes jailbreaks by optimizing textual and visual prompts cohesively. Initially, we adversarially embed universally harmful perturbations in an image, guided by a few-shot query-agnostic corpus (e.g., affirmative prefixes and negative inhibitions). This process ensures that image prompt LVLMs to respond positively to any harmful queries. Subsequently, leveraging the adversarial image, we optimize textual prompts with specific harmful intent. In particular, we utilize a large language model to analyze jailbreak failures and employ chain-of-thought reasoning to refine textual prompts through a feedback-iteration manner. To validate the efficacy of our approach, we conducted extensive evaluations on various datasets and LVLMs, demonstrating that our method significantly outperforms other methods by large margins (+29.03% in attack success rate on average). Additionally, we showcase the potential of our attacks on black-box commercial LVLMs, such as Gemini and ChatGLM.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# Zero-Painter:テキスト・画像合成のための学習不要レイアウト制御

Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis ( http://arxiv.org/abs/2406.04032v1 )

ライセンス: Link先を確認
Marianna Ohanyan, Hayk Manukyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi, (参考訳) このZero-Painterは、レイアウト条件のテキスト-画像合成のための新しいトレーニングフリーフレームワークで、テキストプロンプトから詳細な画像や制御された画像の作成を容易にする。 本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。 Zero-Painterは、我々の小説『Prompt-Adjusted Cross-Attention』(PACA)と『RegCA』(RegCA)ブロックを含む2段階のプロセスを採用し、生成したオブジェクトをテキストプロンプトとマスク形状で正確にアライメントすることを保証する。 我々の広範な実験により、Zero-Painterはテクストの細部保存やマスク形状の付着に最先端の手法を超越していることが示された。

We present Zero-Painter, a novel training-free framework for layout-conditional text-to-image synthesis that facilitates the creation of detailed and controlled imagery from textual prompts. Our method utilizes object masks and individual descriptions, coupled with a global text prompt, to generate images with high fidelity. Zero-Painter employs a two-stage process involving our novel Prompt-Adjusted Cross-Attention (PACA) and Region-Grouped Cross-Attention (ReGCA) blocks, ensuring precise alignment of generated objects with textual prompts and mask shapes. Our extensive experiments demonstrate that Zero-Painter surpasses current state-of-the-art methods in preserving textual details and adhering to mask shapes.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# 多目的強化学習に基づく時空間早期予測

Spatio-temporal Early Prediction based on Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2406.04035v1 )

ライセンス: Link先を確認
Wei Shao, Yufan Kang, Ziyan Peng, Xiao Xiao, Lei Wang, Yuhui Yang, Flora D Salim, (参考訳) 正確さとタイムラインは、予測タスクの目標と矛盾することが多い。 早期の予測は誤報の頻度が高くなりうるが、より多くの情報を集めるのに遅延予測は役に立たない。 森林火災、犯罪、交通渋滞などの応用において、タイムリーな予測は人命と財産を守るのに不可欠である。 したがって、精度とタイムラインのバランスを見つけることが重要である。 本稿では,多目的強化学習に基づく時空間的早期予測モデルを提案する。 モデルは2つの主要な課題に対処する。 1【早期予測の精度の向上】 2 地域ごとに最適な予測時間を決定するための最適な政策を提供する。 提案手法は,3つの大規模実世界のデータセットにおいて,初期時空間予測タスクにおける既存手法よりも優れた性能を示す。

Accuracy and timeliness are indeed often conflicting goals in prediction tasks. Premature predictions may yield a higher rate of false alarms, whereas delaying predictions to gather more information can render them too late to be useful. In applications such as wildfires, crimes, and traffic jams, timely predictions are vital for safeguarding human life and property. Consequently, finding a balance between accuracy and timeliness is crucial. In this paper, we propose a spatio-temporal early prediction model based on Multi-Objective reinforcement learning that can either implement an optimal policy given a preference or infer the preference based on a small number of samples. The model addresses two primary challenges: 1) enhancing the accuracy of early predictions and 2) providing the optimal policy for determining the most suitable prediction time for each area. Our method demonstrates superior performance on three large-scale real-world datasets, surpassing existing methods in early spatio-temporal prediction tasks.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# ビヘイビアのモデルベース初期V&Vのためのソフトウェア工学手法をシステム工学へ移行するためのロードマップ

A Road-Map for Transferring Software Engineering methods for Model-Based Early V&V of Behaviour to Systems Engineering ( http://arxiv.org/abs/2406.04037v1 )

ライセンス: Link先を確認
Johan Cederbladh, Antonio Cicchetti, (参考訳) 本稿では,モデルベースシステムエンジニアリングの初期において,システム動作の検証と検証(V&V'ed)の必要性が高まっていることについて論じる。 いくつかの側面は企業に対して、より効果的な意思決定を支援するために、より早く特定の、一般的なV&V活動を促進する技術、方法、プロセスの統合を促す。 その結果、システム複雑性と不均一性の最近の急激な変化と競合し続けるために、新しい技術を導入するインセンティブがある。 開発の初期段階でV&Vを実行することは、プロセスの早い段階で重要なアクティビティを移動させながら、後のエラー検出のリスクを低減する手段である。 本稿では、初期のV&Vに関する文献の概要と、潜在的な解決策や今後の調査に関する既存の課題について述べる。 特に、ソフトウェア工学のコミュニティは、ソフトウェア領域の多くの新興技術がより広いシステム領域で約束しているように、インスピレーションの源として振る舞うことができる。 本論文は、研究者と実践者の両方が議論する概念をさらに発展させるために、今後の研究・開発のためのロードマップで締めくくっている。

In this paper we discuss the growing need for system behaviour to be validated and verified (V&V'ed) early in model-based systems engineering. Several aspects push companies towards integration of techniques, methods, and processes that promote specific and general V&V activities earlier to support more effective decision-making. As a result, there are incentives to introduce new technologies to remain competitive with the recently drastic changes in system complexity and heterogeneity. Performing V&V early on in development is a means of reducing risk for later error detection while moving key activities earlier in a process. We present a summary of the literature on early V&V and position existing challenges regarding potential solutions and future investigations. In particular, we reason that the software engineering community can act as a source for inspiration as many emerging technologies in the software domain are showing promise in the wider systems domain, and there already exist well formed methods for early V&V of software behaviour in the software modelling community. We conclude the paper with a road-map for future research and development for both researchers and practitioners to further develop the concepts discussed in the paper.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# 地理第三法則を用いた道路網表現学習

Road Network Representation Learning with the Third Law of Geography ( http://arxiv.org/abs/2406.04038v1 )

ライセンス: Link先を確認
Haicang Zhou, Weiming Huang, Yile Chen, Tiantian He, Gao Cong, Yew-Soon Ong, (参考訳) 道路ネットワーク表現学習は,多くのタスクに適用可能な道路セグメントに対して,圧縮された効率的なベクトル化表現を学習することを目的としている。 本稿では,既存の手法の限界,特に地理学第一法則に概説された距離効果の過大評価について述べる。 そこで本研究では,道路ネットワークの表現を,最近の第3次地理学法則の原則に則って行うことを提案する。 そこで本研究では,地理的な構成を意識したグラフ増分とスペクトル陰性サンプリングを用いて,類似の地理的構成を持つ道路セグメントが同様の表現を得られることを保証し,その逆も第3法則に規定される原則と整合する新しいグラフコントラスト学習フレームワークを提案する。 この枠組みは、両法の影響を効果的にバランスさせるために、二重の対照的な学習目的を通じて、第三法と第一法とを融合させる。 3つの下流タスクにまたがる2つの実世界のデータセット上で、我々のフレームワークを評価する。 その結果,第3法則の統合により,下流タスクにおける道路セグメント表現の性能が大幅に向上することが示唆された。

Road network representation learning aims to learn compressed and effective vectorized representations for road segments that are applicable to numerous tasks. In this paper, we identify the limitations of existing methods, particularly their overemphasis on the distance effect as outlined in the First Law of Geography. In response, we propose to endow road network representation with the principles of the recent Third Law of Geography. To this end, we propose a novel graph contrastive learning framework that employs geographic configuration-aware graph augmentation and spectral negative sampling, ensuring that road segments with similar geographic configurations yield similar representations, and vice versa, aligning with the principles stated in the Third Law. The framework further fuses the Third Law with the First Law through a dual contrastive learning objective to effectively balance the implications of both laws. We evaluate our framework on two real-world datasets across three downstream tasks. The results show that the integration of the Third Law significantly improves the performance of road segment representations in downstream tasks.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# 形状履歴:3千年以上にわたるキュニフォームテーブルの分析・日誌解析のための高度な機械学習技術

Shaping History: Advanced Machine Learning Techniques for the Analysis and Dating of Cuneiform Tablets over Three Millennia ( http://arxiv.org/abs/2406.04039v1 )

ライセンス: Link先を確認
Danielle Kapon, Michael Fire, Shai Gordin, (参考訳) 紀元前4千年紀後期頃の古代メソポタミアに出現したキュニフォーム・タブレットは、人類最古の書記体系の1つである。 粘土板のくさび形跡によって特徴付けられるこれらの遺物は、様々な領域にわたるメソポタミア文明の洞察を与えた。 伝統的に、これらのタブレットの分析と年代付けは、形状と書体スタイルの主観的な評価に依存しており、正確な時間的起源の特定に不確実性をもたらす。 デジタル化の最近の進歩は、アクセシビリティと分析能力を高めることによって、キュニフォームの研究に革命をもたらした。 我々の研究は、タブレットのシルエットを歴史的に重要な指標とすることに特化しており、テキストコンテンツに焦点を当てたほとんどの研究から逸脱している。 Cuneiform Digital Library Initiativeの収集した94,000以上の画像のデータセットを前代未聞のデータセットを用いて、我々は、3000年以上の歴史をカバーした、クヌーフォームタブレットの分類にディープラーニング手法を適用した。 変分自動エンコーダ(VAE)による統計的・計算的手法および生成的モデリングを活用することにより,これらの古文書の自動分類の大幅な進歩を達成し,タブレットのシルエットを重要な予測器として重視する。 我々の分類法は高さと幅の比を用いた決定木から始まり、ResNet50モデルで決定し、タブレットシルエットの61%のマクロF1スコアを達成する。 さらに,VAEを利用した新しいツールを導入して説明可能性を高め,研究者が時代やジャンルの異なるタブレット形状の変化を探索できるようにする。 本研究は,大規模データ分析と統計的手法を組み合わせた価値を実証することにより,文書分析と外交に寄与する。 これらの洞察は、歴史学者や叙事詩家にとって貴重な道具を提供し、それらを生み出したキュニフォーム・タブレットと文化に対する我々の理解を豊かにしている。

Cuneiform tablets, emerging in ancient Mesopotamia around the late fourth millennium BCE, represent one of humanity's earliest writing systems. Characterized by wedge-shaped marks on clay tablets, these artifacts provided insight into Mesopotamian civilization across various domains. Traditionally, the analysis and dating of these tablets rely on subjective assessment of shape and writing style, leading to uncertainties in pinpointing their exact temporal origins. Recent advances in digitization have revolutionized the study of cuneiform by enhancing accessibility and analytical capabilities. Our research uniquely focuses on the silhouette of tablets as significant indicators of their historical periods, diverging from most studies that concentrate on textual content. Utilizing an unprecedented dataset of over 94,000 images from the Cuneiform Digital Library Initiative collection, we apply deep learning methods to classify cuneiform tablets, covering over 3,000 years of history. By leveraging statistical, computational techniques, and generative modeling through Variational Auto-Encoders (VAEs), we achieve substantial advancements in the automatic classification of these ancient documents, focusing on the tablets' silhouettes as key predictors. Our classification approach begins with a Decision Tree using height-to-width ratios and culminates with a ResNet50 model, achieving a 61% macro F1-score for tablet silhouettes. Moreover, we introduce novel VAE-powered tools to enhance explainability and enable researchers to explore changes in tablet shapes across different eras and genres. This research contributes to document analysis and diplomatics by demonstrating the value of large-scale data analysis combined with statistical methods. These insights offer valuable tools for historians and epigraphists, enriching our understanding of cuneiform tablets and the cultures that produced them.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# グラフの不確実性定量化のための線形オピニオンプール

Linear Opinion Pooling for Uncertainty Quantification on Graphs ( http://arxiv.org/abs/2406.04041v1 )

ライセンス: Link先を確認
Clemens Damke, Eyke Hüllermeier, (参考訳) 本稿では,グラフ構造データに対する不確実性定量化の問題,あるいはより具体的には,(半教師付き)ノード分類における予測不確実性を定量化する問題に対処する。 この点における主要な疑問は、2つの異なるタイプの不確実性、失語症とてんかんの区別と、グラフトポロジーによって提供される構造情報を活用することによって不確実性定量化を支援する方法に関するものである。 そこで本稿では, ディリクレ分布の混合による不確実性を表現する手法を提案するとともに, グラフ内の隣接ノード間の情報伝達のための線形世論プーリングの確立した原理について述べる。 このアプローチの有効性は、様々なグラフ構造化データセットに関する一連の実験で実証されている。

We address the problem of uncertainty quantification for graph-structured data, or, more specifically, the problem to quantify the predictive uncertainty in (semi-supervised) node classification. Key questions in this regard concern the distinction between two different types of uncertainty, aleatoric and epistemic, and how to support uncertainty quantification by leveraging the structural information provided by the graph topology. Challenging assumptions and postulates of state-of-the-art methods, we propose a novel approach that represents (epistemic) uncertainty in terms of mixtures of Dirichlet distributions and refers to the established principle of linear opinion pooling for propagating information between neighbored nodes in the graph. The effectiveness of this approach is demonstrated in a series of experiments on a variety of graph-structured datasets.
翻訳日:2024-06-07 14:59:54 公開日:2024-06-06
# グラフニューラルネットワークにおけるエネルギーベースエピステマティック不確かさ

Energy-based Epistemic Uncertainty for Graph Neural Networks ( http://arxiv.org/abs/2406.04043v1 )

ライセンス: Link先を確認
Dominik Fuchsgruber, Tom Wollschläger, Stephan Günnemann, (参考訳) グラフのような相互依存データを持つ領域では、グラフニューラルネットワーク(GNN)の疫学的不確かさを定量化することは困難である。 既存の手法はこの問題を無視するか、あるいは1つの尺度に組み合わせることなく構造認識と構造認識の不確かさを区別するのみである。 我々は,グラフ拡散から自然に生じる異なる構造レベルでエネルギーを集約することにより,高品質な不確実性推定を提供するエネルギーベースモデル(EBM)であるGEBMを提案する。 ロジットベースのEMMとは対照的に、エネルギー関数を正則化することにより、データ空間の可積分密度を確実に誘導する。 我々は,GNNの予測ロバスト性を大幅に向上させるEMMの明確な解釈を導入する。 我々のフレームワークは、様々な分散シフトに敏感な事前学習GNNに適用可能な、シンプルで効果的なポストホック手法である。 7つの異常なタイプのうち6つについて、分布内と分布外データの最良の分離を一貫して達成すると同時に、 \emph{all}データセット上のシフトよりも平均的なランクが最良である。

In domains with interdependent data, such as graphs, quantifying the epistemic uncertainty of a Graph Neural Network (GNN) is challenging as uncertainty can arise at different structural scales. Existing techniques neglect this issue or only distinguish between structure-aware and structure-agnostic uncertainty without combining them into a single measure. We propose GEBM, an energy-based model (EBM) that provides high-quality uncertainty estimates by aggregating energy at different structural levels that naturally arise from graph diffusion. In contrast to logit-based EBMs, we provably induce an integrable density in the data space by regularizing the energy function. We introduce an evidential interpretation of our EBM that significantly improves the predictive robustness of the GNN. Our framework is a simple and effective post hoc method applicable to any pre-trained GNN that is sensitive to various distribution shifts. It consistently achieves the best separation of in-distribution and out-of-distribution data on 6 out of 7 anomaly types while having the best average rank over shifts on \emph{all} datasets.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# ActionReasoningBench: ラミフィケーション制約の有無によるアクションの推論

ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints ( http://arxiv.org/abs/2406.04046v1 )

ライセンス: Link先を確認
Divij Handa, Pavel Dolin, Shrinidhi Kumbhar, Chitta Baral, Tran Cao Son, (参考訳) 行動と変化(RAC)に関する推論は、歴史的にフレーム問題や非モノトニック推論やコモンセンス推論など、多くのAI分野など、多くの初期のAI課題の開発を推進してきた。 RACの役割は今でも重要であり、特に動的環境、インタラクティブシナリオ、コモンセンス推論といったタスクにおいて重要である。 さまざまなAIドメインにおけるLarge Language Models(LLM)の進歩にもかかわらず、RACのパフォーマンスは過小評価されている。 このギャップに対処するために、13のドメインを含む新しいベンチマークであるActionReasoningBenchを導入し、RACの8つの異なる領域にわたるLSMを厳格に評価する。 対象追跡、フルエントトラッキング、状態追跡、アクション実行性、アクションの効果、数値RAC、幻覚検出、複合質問などである。 さらに,各領域の分岐制約による行動の間接的影響についても検討する。 最後に, GPT-4o, Gemini-1.0-Pro, Llama2-7b-chat, Llama2-13b-chat, Llama3-8b-instruct, Gemma-2b-instruct, Gemma-7b-instructなどのオープンソースおよび商用LLMを用いて評価を行った。 この結果は,これらのモデルがベンチマークに含まれるすべてのカテゴリで重大な課題に直面していることを示唆している。

Reasoning about actions and change (RAC) has historically driven the development of many early AI challenges, such as the frame problem, and many AI disciplines, including non-monotonic and commonsense reasoning. The role of RAC remains important even now, particularly for tasks involving dynamic environments, interactive scenarios, and commonsense reasoning. Despite the progress of Large Language Models (LLMs) in various AI domains, their performance on RAC is underexplored. To address this gap, we introduce a new benchmark, ActionReasoningBench, encompassing 13 domains and rigorously evaluating LLMs across eight different areas of RAC. These include - Object Tracking, Fluent Tracking, State Tracking, Action Executability, Effects of Actions, Numerical RAC, Hallucination Detection, and Composite Questions. Furthermore, we also investigate the indirect effect of actions due to ramification constraints for every domain. Finally, we evaluate our benchmark using open-sourced and commercial state-of-the-art LLMs, including GPT-4o, Gemini-1.0-Pro, Llama2-7b-chat, Llama2-13b-chat, Llama3-8b-instruct, Gemma-2b-instruct, and Gemma-7b-instruct. Our findings indicate that these models face significant challenges across all categories included in our benchmark.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# ニューラルネットワークのための相互情報一般化境界のスライシング

Slicing Mutual Information Generalization Bounds for Neural Networks ( http://arxiv.org/abs/2406.04047v1 )

ライセンス: Link先を確認
Kimia Nadjahi, Kristjan Greenewald, Rickard Brüel Gabrielsson, Justin Solomon, (参考訳) 学習データと学習仮説のMIを、入力出力相互情報(MI)で一般化誤差をバウンドすることで、機械学習(ML)アルゴリズムが未確認データに対して適切に一般化する能力について、情報理論のレンズを通して研究されている。 しかし、これらの境界は、MIを高次元で評価することが困難であるため、現代のMLアプリケーション(例えばディープラーニング)に限られる。 ニューラルネットワークの圧縮性に関する最近の知見により、パラメータ空間をスライスすることで動作するアルゴリズム、すなわちランダムな下次元部分空間で訓練されたアルゴリズムを考える。 我々は,そのようなアルゴリズムに適した,より厳密な情報理論の一般化バウンダリを導入し,スライシングが一般化を改善することを示す。 我々の境界は標準的なMI境界よりも大きな計算的および統計的優位性を提供しており、それらは拡張性のある相互情報、すなわち分解された相互情報と$k$sliced相互情報に依存する。 次に、速度歪み理論を利用して、パラメータがランダムな部分空間に正確に嘘をつく必要のないアルゴリズムに解析を拡張する。 この戦略は、スライシング下での歪み項測定モデル圧縮性を組み込んだ一般化境界を求め、これにより、性能を損なうことなく、あるいはモデル圧縮を必要とすることなく、既存の境界を締め付ける。 そこで本研究では,圧縮性による一般化制御を実現するための正規化手法を提案する。 最後に、実験により得られた結果を実証的に検証し、これまで到達できなかったニューラルネットワークに対する非空でない情報理論の一般化境界の計算を達成した。

The ability of machine learning (ML) algorithms to generalize well to unseen data has been studied through the lens of information theory, by bounding the generalization error with the input-output mutual information (MI), i.e., the MI between the training data and the learned hypothesis. Yet, these bounds have limited practicality for modern ML applications (e.g., deep learning), due to the difficulty of evaluating MI in high dimensions. Motivated by recent findings on the compressibility of neural networks, we consider algorithms that operate by slicing the parameter space, i.e., trained on random lower-dimensional subspaces. We introduce new, tighter information-theoretic generalization bounds tailored for such algorithms, demonstrating that slicing improves generalization. Our bounds offer significant computational and statistical advantages over standard MI bounds, as they rely on scalable alternative measures of dependence, i.e., disintegrated mutual information and $k$-sliced mutual information. Then, we extend our analysis to algorithms whose parameters do not need to exactly lie on random subspaces, by leveraging rate-distortion theory. This strategy yields generalization bounds that incorporate a distortion term measuring model compressibility under slicing, thereby tightening existing bounds without compromising performance or requiring model compression. Building on this, we propose a regularization scheme enabling practitioners to control generalization through compressibility. Finally, we empirically validate our results and achieve the computation of non-vacuous information-theoretic generalization bounds for neural networks, a task that was previously out of reach.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# Semmeldetector: 商用ベーカリーにおける機械学習の適用

Semmeldetector: Application of Machine Learning in Commercial Bakeries ( http://arxiv.org/abs/2406.04050v1 )

ライセンス: Link先を確認
Thomas H. Schmitt, Maximilian Bundscherer, Tobias Bocklet, (参考訳) Semmeldetectorは、オブジェクト検出モデルを使用して、画像中の焼き菓子を検出し、分類し、カウントする機械学習アプリケーションである。 当社のアプリケーションでは、市販のパン屋が未販売の焼き菓子を追跡できるため、生産を最適化し、資源効率を向上させることができる。 我々は18種類の焼き菓子を識別して検出モデルを訓練する1151の画像からなるデータセットをコンパイルした。 モデルのトレーニングを容易にするために、データセットを拡張するために、Copy-Paste拡張パイプラインを使用しました。 我々は,現在最先端のオブジェクト検出モデルYOLOv8を,検出タスクで訓練した。 私たちは、異なるトレーニングデータ、モデルスケール、オンライン画像拡張パイプラインがモデルパフォーマンスに与える影響をテストしました。 テストセットでAP@0.5の89.1%を達成しました。 結果から、機械学習は、ベイクリーのような予期せぬ産業でも、非常に限られたデータセットであっても、貴重なツールになり得ると結論付けました。

The Semmeldetector, is a machine learning application that utilizes object detection models to detect, classify and count baked goods in images. Our application allows commercial bakers to track unsold baked goods, which allows them to optimize production and increase resource efficiency. We compiled a dataset comprising 1151 images that distinguishes between 18 different types of baked goods to train our detection models. To facilitate model training, we used a Copy-Paste augmentation pipeline to expand our dataset. We trained the state-of-the-art object detection model YOLOv8 on our detection task. We tested the impact of different training data, model scale, and online image augmentation pipelines on model performance. Our overall best performing model, achieved an AP@0.5 of 89.1% on our test set. Based on our results, we conclude that machine learning can be a valuable tool even for unforeseen industries like bakeries, even with very limited datasets.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# マルチベクトルニューロン:O(n)-同変クリフォードグラフニューラルネットワークの改良と高速化

Multivector Neurons: Better and Faster O(n)-Equivariant Clifford Graph Neural Networks ( http://arxiv.org/abs/2406.04052v1 )

ライセンス: Link先を確認
Cong Liu, David Ruhe, Patrick Forré, (参考訳) 現在のディープラーニングモデルの多くは$O(n)$または$SO(n)$に同値である。 本研究では,クリフォード・マルチベクターをベースとした新しいメッセージパッシンググラフニューラルネットワーク(GNN)を,幾何学的深層学習における他の同変モデルと同様に構築した。 提案手法は,特に等変幾何積演算子を用いて,多ベクトル表現の表現学習を同時に実施しながら,効率的な不変スカラー特徴を利用する。 これらの要素を統合することにより,N-Bodyシミュレーションタスクとタンパク質分解タスクにおいて,高い効率を維持しつつ,効率的なベースラインモデルを構築した。 特に、Nボディデータセットの最先端エラーを0.0035(平均3回以上)にプッシュします。 私たちの実装はGithubで公開しています。

Most current deep learning models equivariant to $O(n)$ or $SO(n)$ either consider mostly scalar information such as distances and angles or have a very high computational complexity. In this work, we test a few novel message passing graph neural networks (GNNs) based on Clifford multivectors, structured similarly to other prevalent equivariant models in geometric deep learning. Our approach leverages efficient invariant scalar features while simultaneously performing expressive learning on multivector representations, particularly through the use of the equivariant geometric product operator. By integrating these elements, our methods outperform established efficient baseline models on an N-Body simulation task and protein denoising task while maintaining a high efficiency. In particular, we push the state-of-the-art error on the N-body dataset to 0.0035 (averaged over 3 runs); an 8% improvement over recent methods. Our implementation is available on Github.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# 構造健康モニタリングのための量子古典ハイブリッドモデルにおけるリーマン多様体上のSPD行列の活用

Leveraging SPD Matrices on Riemannian Manifolds in Quantum Classical Hybrid Models for Structural Health Monitoring ( http://arxiv.org/abs/2406.04055v1 )

ライセンス: Link先を確認
Azadeh Alavi, Sanduni Jayasinghe, (参考訳) 橋梁のリアルタイム有限要素モデリングは、構造的整合性に関する包括的な洞察を提供することにより、現代の構造的健康モニタリングシステムを支援する。 この能力は橋梁の安全確保と突然の破滅的故障の防止に不可欠である。 しかし、FEM計算コストとリアルタイム解析の必要性は大きな課題となっている。 さらに、入力データは7次元ベクトルであり、出力は1017次元ベクトルであり、特に正確かつ効率的な分析が困難である。 本研究では,Symmetric Positive Definite matrices と Riemannian manifolds を有効データ表現に用いるハイブリッド量子古典多層パーセプトロンパイプラインを提案する。 量子ビット構造の整合性を維持するため、SPD行列を用い、データ表現が量子計算フレームワークと適切に整合していることを保証する。 さらに、この手法は多項式特徴展開を利用してデータ内の非線形関係をキャプチャする。 提案したパイプラインは、古典的な完全に接続されたニューラルネットワーク層と量子回路層を組み合わせて、モデル性能と効率を向上させる。 実験では, 高精度かつ効率的なリアルタイム解析のための最適構造を特定するために, ハイブリッドモデルの様々な構成に焦点をあてた。 最高の性能モデルは平均平方誤差0.00031を達成し、従来の手法を著しく上回った。

Realtime finite element modeling of bridges assists modern structural health monitoring systems by providing comprehensive insights into structural integrity. This capability is essential for ensuring the safe operation of bridges and preventing sudden catastrophic failures. However, FEM computational cost and the need for realtime analysis pose significant challenges. Additionally, the input data is a 7 dimensional vector, while the output is a 1017 dimensional vector, making accurate and efficient analysis particularly difficult. In this study, we propose a novel hybrid quantum classical Multilayer Perceptron pipeline leveraging Symmetric Positive Definite matrices and Riemannian manifolds for effective data representation. To maintain the integrity of the qubit structure, we utilize SPD matrices, ensuring data representation is well aligned with the quantum computational framework. Additionally, the method leverages polynomial feature expansion to capture nonlinear relationships within the data. The proposed pipeline combines classical fully connected neural network layers with quantum circuit layers to enhance model performance and efficiency. Our experiments focused on various configurations of such hybrid models to identify the optimal structure for accurate and efficient realtime analysis. The best performing model achieved a Mean Squared Error of 0.00031, significantly outperforming traditional methods.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# Bisimulation Metrics is Optimal Transport Distances and can Computediently

Bisimulation Metrics are Optimal Transport Distances, and Can be Computed Efficiently ( http://arxiv.org/abs/2406.04056v1 )

ライセンス: Link先を確認
Sergio Calo, Anders Jonsson, Gergely Neu, Ludovic Schwartz, Javier Segovia, (参考訳) マルコフ連鎖間の最適な輸送距離を定式化するための新しい枠組みを提案する。 これまで知られていた定式化は、連鎖によって誘導される結合分布全体と、適切に定義されたマルコフ決定過程における動的プログラミング(DP)への還元による導出解の間の結合を研究していた。 しかし、この定式化は、関連するDP演算子を計算する際には、静的な最適輸送問題を完全に解決する必要があるため、これまでは特に効率的なアルゴリズムを導いていない。 本研究では, 分割占有結合と呼ばれる関節分布の平坦化バージョン間の結合を考慮し, この縮小された空間における線形プログラム(LP)の解法として, 関節分布の全空間における最適輸送距離を等価に定式化できることを示す。 このLP定式化により、最適輸送理論の他の領域からいくつかのアルゴリズム的アイデアを移植することができる。 具体的には,最適化問題にエントロピー正規化の適切な概念を導入し,Sinkhorn Value Iteration (SVI) と呼ぶSinkhornライクな手法を用いて,最適な輸送距離を直接計算することができる。 本手法は,バニラ・シンクホーンを各状態に走らせるのと同じ計算コストで,最適結合に迅速に収束することを示す。 その過程で, 最適輸送距離はマルコフ連鎖間のバイシミュレーション指標の共通概念と正確に一致していることが指摘され, 結果もそのような指標の計算に適用され, 実際, この目的のために開発した最もよく知られた手法よりもはるかに効率的であることが判明した。

We propose a new framework for formulating optimal transport distances between Markov chains. Previously known formulations studied couplings between the entire joint distribution induced by the chains, and derived solutions via a reduction to dynamic programming (DP) in an appropriately defined Markov decision process. This formulation has, however, not led to particularly efficient algorithms so far, since computing the associated DP operators requires fully solving a static optimal transport problem, and these operators need to be applied numerous times during the overall optimization process. In this work, we develop an alternative perspective by considering couplings between a flattened version of the joint distributions that we call discounted occupancy couplings, and show that calculating optimal transport distances in the full space of joint distributions can be equivalently formulated as solving a linear program (LP) in this reduced space. This LP formulation allows us to port several algorithmic ideas from other areas of optimal transport theory. In particular, our formulation makes it possible to introduce an appropriate notion of entropy regularization into the optimization problem, which in turn enables us to directly calculate optimal transport distances via a Sinkhorn-like method we call Sinkhorn Value Iteration (SVI). We show both theoretically and empirically that this method converges quickly to an optimal coupling, essentially at the same computational cost of running vanilla Sinkhorn in each pair of states. Along the way, we point out that our optimal transport distance exactly matches the common notion of bisimulation metrics between Markov chains, and thus our results also apply to computing such metrics, and in fact our algorithm turns out to be significantly more efficient than the best known methods developed so far for this purpose.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# 圧倒されたソフトウェア開発者

Overwhelmed Software Developers ( http://arxiv.org/abs/2406.04057v1 )

ライセンス: Link先を確認
Lisa-Marie Michels, Aleksandra Petkova, Marcel Richter, Andreas Farley, Daniel Graziotin, Stefan Wagner, (参考訳) 我々は,ソフトウェア開発の領域で過度に圧倒されたと感じた経験を探るため,質的な心理学的研究を行った。 最近、圧倒的な課題に直面した2人の参加者の率直な告白を通じて、コミュニケーション誘発、障害関連、組織的、多様性、技術的、時間的、ポジティブな圧倒の7つのカテゴリを特定した。 ほとんどの過圧は生産性を低下させストレスレベルを上昇させる傾向にあるが、開発者は過圧を集中力、自己動機、生産性を高める触媒として捉えることがある。 ストレスはしばしば圧倒の共通の相性であることが判明した。 我々の研究結果は、様々な分野で行われた以前の研究と一致している。 しかし、私たちは、ソフトウェア開発者は、より効果的に圧倒の嵐をナビゲートできるユニークな特性を持っていると信じています。

We have conducted a qualitative psychology study to explore the experience of feeling overwhelmed in the realm of software development. Through the candid confessions of two participants who have recently faced overwhelming challenges, we have identified seven distinct categories: communication-induced, disturbance-related, organizational, variety, technical, temporal, and positive overwhelm. While most types of overwhelm tend to deteriorate productivity and increase stress levels, developers sometimes perceive overwhelm as a catalyst for heightened focus, self-motivation, and productivity. Stress was often found to be a common companion of overwhelm. Our findings align with previous studies conducted in diverse disciplines. However, we believe that software developers possess unique traits that may enable them to navigate through the storm of overwhelm more effectively.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# 単一の量子クエリを持つRSAモジュールに対する$\varphi(N)$の計算

Computing $\varphi(N)$ for an RSA module with a single quantum query ( http://arxiv.org/abs/2406.04061v1 )

ライセンス: Link先を確認
Luis Víctor Dieulefait, Jorge Urróz, (参考訳) 本稿では RSA モジュール $N$ に対して、ランダムに選択された整数の順序変調 $N$ を入力として、多項式時間アルゴリズムで $\varphi(N)$ を計算する。 このアルゴリズムは、最大公約数の計算、2つの乗算、1つの除算のみで構成されている。 このアルゴリズムは、少なくとも1-\frac{C\log\log N}{N^{1/2}}$の確率で動作する。

In this paper we give a polynomial time algorithm to compute $\varphi(N)$ for an RSA module $N$ using as input the order modulo $N$ of a randomly chosen integer. The algorithm consists only on a computation of a greatest common divisor, two multiplications and a division. The algorithm works with a probability of at least $1-\frac{C\log\log N}{N^{1/2}}$.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# LLMに直接質問:「偏見はどんな形になるか?」:大規模言語モデルにおける社会的バイアスの測定

Ask LLMs Directly, "What shapes your bias?": Measuring Social Bias in Large Language Models ( http://arxiv.org/abs/2406.04064v1 )

ライセンス: Link先を確認
Jisu Shin, Hoyun Song, Huije Lee, Soyeong Jeong, Jong C. Park, (参考訳) 社会的偏見は、様々な人口統計学的アイデンティティを対象とする社会的認識の蓄積によって形成される。 大規模言語モデル(LLM)におけるこのような社会的バイアスを十分に理解するためには、アイデンティティ間の多様な視点から社会的知覚の合成を考えることが不可欠である。 過去の研究では、生成されたテキストの集団的アイデンティティに対する感情の存在を間接的に評価したり、与えられたステレオタイプとのアライメントの度合いを計測することで、LSMのバイアスを評価してきた。 これらの方法には、アイデンティティ間の異なる視点のレベルで、社会的バイアスを直接定量化する制限がある。 本稿では,様々な観点からの社会的認知が,LLMにおける社会的バイアスの発達にどのように貢献するかを検討する。 そこで我々は,これらの社会的知覚を直感的に定量化する新しい戦略を提案し,多様な社会的知覚を集約してLLM内の社会的バイアスを評価する指標を提案する。 実験の結果, LLMにおける社会的態度の定量的な実証は, 社会的知覚を調べることによって行われた。 分析の結果,提案手法は社会的偏見の多次元的側面を捉え,LLMにおける偏見のきめ細かい包括的調査を可能にした。

Social bias is shaped by the accumulation of social perceptions towards targets across various demographic identities. To fully understand such social bias in large language models (LLMs), it is essential to consider the composite of social perceptions from diverse perspectives among identities. Previous studies have either evaluated biases in LLMs by indirectly assessing the presence of sentiments towards demographic identities in the generated text or measuring the degree of alignment with given stereotypes. These methods have limitations in directly quantifying social biases at the level of distinct perspectives among identities. In this paper, we aim to investigate how social perceptions from various viewpoints contribute to the development of social bias in LLMs. To this end, we propose a novel strategy to intuitively quantify these social perceptions and suggest metrics that can evaluate the social biases within LLMs by aggregating diverse social perceptions. The experimental results show the quantitative demonstration of the social attitude in LLMs by examining social perception. The analysis we conducted shows that our proposed metrics capture the multi-dimensional aspects of social bias, enabling a fine-grained and comprehensive investigation of bias in LLMs.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# 組織のレジリエンスに必要なもの - エンジニアリング開発者の幸福

Requirements for Organizational Resilience: Engineering Developer Happiness ( http://arxiv.org/abs/2406.04066v1 )

ライセンス: Link先を確認
Markus Borg, Daniel Graziotin, (参考訳) 適切な要件は開発者の満足度と幸福を高めることができるか? 彼らはできると信じている。 この問題のテーマである"Well-Being for Resilience: Developers Thrive"に合わせて、3つのキーワード、幸福、レジリエンス、繁栄の関連について論じる。 要求工学がこれらの品質を育むには? このトピックについてはあまり研究されていないが、将来的な仕事の機会がある。 議論を始めよう!

Can the right requirements boost developer satisfaction and happiness? We believe they can. In keeping with this issue's theme, "Well-Being for Resilience: Developers Thrive," we discuss the connection between the three keywords, well-being, resilience, and thriving. How could requirements engineering foster these qualities? While there hasn't been much research on this topic, we see opportunities for future work. Let's initiate the discussion!
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# 機械学習モデルの校正方法と校正方法の再評価

Reassessing How to Compare and Improve the Calibration of Machine Learning Models ( http://arxiv.org/abs/2406.04068v1 )

ライセンス: Link先を確認
Muthu Chidambaram, Rong Ge, (参考訳) 結果の予測確率がモデル予測に基づいてその結果の観測周波数と一致した場合、機械学習モデルを校正する。 この性質は、機械学習モデルの影響が様々な領域に広がり続けているため、ますます重要になっている。 その結果、(特にディープラーニング)モデルのキャリブレーションの測定と改善に関する最近の論文がめちゃくちゃに増えている。 本研究では,最近の文献における校正基準の報告を再評価する。 キャリブレーションと予測基準(検定精度)が負の対数のような追加の一般化指標を伴わない限り、最先端のように見えるような簡単な再校正手法が存在することを示す。 次に、一般化計量に基づいてキャリブレーション計量の選択を動機付け、自明なキャリブレーションを検出するのに使用できるブレグマン微分のキャリブレーションに基づく分解を導出する。 最後に、これらのアイデアを適用して、キャリブレーションとモデルの推定一般化誤差を共同で視覚化できる信頼性図の新たな拡張を開発する。

A machine learning model is calibrated if its predicted probability for an outcome matches the observed frequency for that outcome conditional on the model prediction. This property has become increasingly important as the impact of machine learning models has continued to spread to various domains. As a result, there are now a dizzying number of recent papers on measuring and improving the calibration of (specifically deep learning) models. In this work, we reassess the reporting of calibration metrics in the recent literature. We show that there exist trivial recalibration approaches that can appear seemingly state-of-the-art unless calibration and prediction metrics (i.e. test accuracy) are accompanied by additional generalization metrics such as negative log-likelihood. We then derive a calibration-based decomposition of Bregman divergences that can be used to both motivate a choice of calibration metric based on a generalization metric, and to detect trivial calibration. Finally, we apply these ideas to develop a new extension to reliability diagrams that can be used to jointly visualize calibration as well as the estimated generalization error of a model.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# Batch-in-Batch:最初の摂動とサンプル選択のための新しい対向学習フレームワーク

Batch-in-Batch: a new adversarial training framework for initial perturbation and sample selection ( http://arxiv.org/abs/2406.04070v1 )

ライセンス: Link先を確認
Yinting Wu, Pai Peng, Bo Cai, Le Li, ., (参考訳) 逆行訓練法は、単純な一様分布から逆行サンプルの独立な初期摂動を一般的に生成し、選択せずに分類器の訓練バッチを得る。 本研究では,モデル堅牢性を高めるため,Batch-in-Batch (BB) と呼ばれるシンプルだが効果的なトレーニングフレームワークを提案する。 具体的には、元のバッチセットから$m$の摂動セットを同時に生成して、敵のサンプルにさらなる多様性を提供するような初期値を共同構築することと、トレーニングされたモデルがよりスムーズな損失を被り、過信な出力を避けるための様々なサンプル選択戦略を含む。 3つのベンチマークデータセット (CIFAR-10, SVHN, CIFAR-100) において, 単一ステップ (Noise-Fast Gradient Sign Method, N-FGSM) とマルチステップ (Projected Gradient Descent, PGD-10) の両方で使用される2つのネットワーク (PreActResNet18, WideResNet28-10) と多段階 (Projected Gradient Descent, PGD-10) の大規模な実験により, BBフレームワークで訓練されたモデルは, N-FGSMベースラインモデルと比較して13%以上改善されていることを示す。 さらに,提案した初期摂動法とサンプル選択法の両方の有効性を実験的に解析し,その妥当性を検証した。 最後に、我々のフレームワークは、比較的大きな$m$であっても、計算資源の観点からコスト効率が良いことを示す。

Adversarial training methods commonly generate independent initial perturbation for adversarial samples from a simple uniform distribution, and obtain the training batch for the classifier without selection. In this work, we propose a simple yet effective training framework called Batch-in-Batch (BB) to enhance models robustness. It involves specifically a joint construction of initial values that could simultaneously generates $m$ sets of perturbations from the original batch set to provide more diversity for adversarial samples; and also includes various sample selection strategies that enable the trained models to have smoother losses and avoid overconfident outputs. Through extensive experiments on three benchmark datasets (CIFAR-10, SVHN, CIFAR-100) with two networks (PreActResNet18 and WideResNet28-10) that are used in both the single-step (Noise-Fast Gradient Sign Method, N-FGSM) and multi-step (Projected Gradient Descent, PGD-10) adversarial training, we show that models trained within the BB framework consistently have higher adversarial accuracy across various adversarial settings, notably achieving over a 13% improvement on the SVHN dataset with an attack radius of 8/255 compared to the N-FGSM baseline model. Furthermore, experimental analysis of the efficiency of both the proposed initial perturbation method and sample selection strategies validates our insights. Finally, we show that our framework is cost-effective in terms of computational resources, even with a relatively large value of $m$.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# 滑らか性制約下における動的角同期

Dynamic angular synchronization under smoothness constraints ( http://arxiv.org/abs/2406.04071v1 )

ライセンス: Link先を確認
Ernesto Araya, Mihai Cucuringu, Hemant Tyagi, (参考訳) 非方向測度グラフ $\mathcal{H} = ([n], \mathcal{E})$ が与えられたとき、古典的な角同期問題は未知の角度 $\theta_1^*,\dots,\theta_n^*$ を $(\theta_i^* - \theta_j^*) \mod 2\pi$, for all $\{i,j\} \in \mathcal{E}$ という形の雑音の対数測定の集合から回復する。 この問題は、コンピュータビジョン、分散ネットワークの時間同期、ペア比較からのランキングなど、様々なアプリケーションで発生する。 本稿では、この問題の動的バージョンとして、角度と測定グラフが時間点$T$以上で進化する点について考察する。 潜角の進化に関する滑らかさ条件を仮定すると、全点にわたる角度の合同推定のための3つのアルゴリズムを導出する。 さらに,アルゴリズムの1つとして,平均二乗誤差(MSE)の漸近的回復保証を,異なる統計モデルの下で確立する。 特に、MSE が 0 に収束すると、静的条件よりも穏やかな条件で$T$ が増加することが示される。 これには、測定グラフが非常に疎結合で切断されている設定や、測定ノイズが大きくて、潜在的に$T$で増加する可能性がある設定が含まれる。 我々は、理論結果を合成データの実験で補完する。

Given an undirected measurement graph $\mathcal{H} = ([n], \mathcal{E})$, the classical angular synchronization problem consists of recovering unknown angles $\theta_1^*,\dots,\theta_n^*$ from a collection of noisy pairwise measurements of the form $(\theta_i^* - \theta_j^*) \mod 2\pi$, for all $\{i,j\} \in \mathcal{E}$. This problem arises in a variety of applications, including computer vision, time synchronization of distributed networks, and ranking from pairwise comparisons. In this paper, we consider a dynamic version of this problem where the angles, and also the measurement graphs evolve over $T$ time points. Assuming a smoothness condition on the evolution of the latent angles, we derive three algorithms for joint estimation of the angles over all time points. Moreover, for one of the algorithms, we establish non-asymptotic recovery guarantees for the mean-squared error (MSE) under different statistical models. In particular, we show that the MSE converges to zero as $T$ increases under milder conditions than in the static setting. This includes the setting where the measurement graphs are highly sparse and disconnected, and also when the measurement noise is large and can potentially increase with $T$. We complement our theoretical results with experiments on synthetic data.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# Federated TrustChain: ブロックチェーンによるLLMトレーニングとアンラーニング

Federated TrustChain: Blockchain-Enhanced LLM Training and Unlearning ( http://arxiv.org/abs/2406.04076v1 )

ライセンス: Link先を確認
Xuhan Zuo, Minghao Wang, Tianqing Zhu, Lefeng Zhang, Dayong Ye, Shui Yu, Wanlei Zhou, (参考訳) LLM(Large Language Models)の開発は大きな課題に直面している。 LLMのトレーニングには大量の新しいデータが必要なためです。 フェデレートドラーニングは有望なソリューションとして登場し、協調モデルが自身のプライベートデータをLLMグローバルモデルにコントリビュートできるようにする。 しかし、連合学習とLLMを統合することで、透明性の欠如や効果的なアンラーニングメカニズムの必要性など、新たな課題がもたらされる。 透明性は参加者間の信頼と公正を確保するために不可欠であり、説明責任は悪意のある行動を抑え、必要に応じて修正行動を可能にするために不可欠である。 これらの課題に対処するために、透明性、説明責任、未学習能力を向上するLLMのための、ブロックチェーンベースの新しいフェデレーション学習フレームワークを提案する。 我々のフレームワークはブロックチェーン技術を活用して、各モデルのコントリビューションの改ざん防止記録を作成し、フェデレートされた学習メカニズムをシームレスに統合する革新的なアンラーニング機能を導入しています。 ローランド適応(LoRA)ハイパーパラメータが未学習のパフォーマンスに与える影響を調査し、Hyperledger Fabricを統合して、未学習プロセスのセキュリティ、透明性、検証性を保証する。 総合的な実験と分析を通じて,フェデレート学習を用いて学習したLLMにおいて,非常に効果的なアンラーニングを実現する上で,提案手法の有効性を示す。 我々の発見は、LLMのためのフェデレーション学習フレームワークにブロックチェーン技術を統合する可能性を強調した。

The development of Large Language Models (LLMs) faces a significant challenge: the exhausting of publicly available fresh data. This is because training a LLM needs a large demanding of new data. Federated learning emerges as a promising solution, enabling collaborative model to contribute their private data to LLM global model. However, integrating federated learning with LLMs introduces new challenges, including the lack of transparency and the need for effective unlearning mechanisms. Transparency is essential to ensuring trust and fairness among participants, while accountability is crucial for deterring malicious behaviour and enabling corrective actions when necessary. To address these challenges, we propose a novel blockchain-based federated learning framework for LLMs that enhances transparency, accountability, and unlearning capabilities. Our framework leverages blockchain technology to create a tamper-proof record of each model's contributions and introduces an innovative unlearning function that seamlessly integrates with the federated learning mechanism. We investigate the impact of Low-Rank Adaptation (LoRA) hyperparameters on unlearning performance and integrate Hyperledger Fabric to ensure the security, transparency, and verifiability of the unlearning process. Through comprehensive experiments and analysis, we showcase the effectiveness of our proposed framework in achieving highly effective unlearning in LLMs trained using federated learning. Our findings highlight the feasibility of integrating blockchain technology into federated learning frameworks for LLMs.
翻訳日:2024-06-07 14:49:58 公開日:2024-06-06
# 強化学習におけるブートストラップ期待

Bootstrapping Expectiles in Reinforcement Learning ( http://arxiv.org/abs/2406.04081v1 )

ライセンス: Link先を確認
Pierre Clavier, Emmanuel Rachelson, Erwan Le Pennec, Matthieu Geist, (参考訳) 多くの古典的強化学習(RL)アルゴリズムは、次の状態への期待を含むベルマン演算子に依存しており、ブートストラップの概念につながっている。 悲観論の形式を導入するために、我々はこの期待を期待に置き換えることを提案する。 実際にこれは、$L_2$損失を、批評家にとってより一般的な期待損失に置き換えることによって、非常に簡単にできる。 RLにおける悲観論の導入は、過大評価問題(古典的解が二重Q-ラーニングやTD3の双極批判的アプローチ)や頑健なRL(遷移が逆である)など、様々な理由から望ましい。 この2つの症例を経験的に研究する。 過大評価問題に対して,提案手法は古典的ツインクリティカルよりも優れた結果をもたらすことを示す。 環境変化を伴うロバストなRLベンチマークでは、我々のアプローチは古典的なRLアルゴリズムよりも堅牢であることを示す。 我々はまた、最先端のロバストなRLエージェントと競合するドメインランダム化と組み合わせたPre expectRLのバリエーションも導入する。 最終的には \ExpectRL も拡張して,期待値,すなわち悲観論の次数を自動的に選択する機構を持つ。

Many classic Reinforcement Learning (RL) algorithms rely on a Bellman operator, which involves an expectation over the next states, leading to the concept of bootstrapping. To introduce a form of pessimism, we propose to replace this expectation with an expectile. In practice, this can be very simply done by replacing the $L_2$ loss with a more general expectile loss for the critic. Introducing pessimism in RL is desirable for various reasons, such as tackling the overestimation problem (for which classic solutions are double Q-learning or the twin-critic approach of TD3) or robust RL (where transitions are adversarial). We study empirically these two cases. For the overestimation problem, we show that the proposed approach, ExpectRL, provides better results than a classic twin-critic. On robust RL benchmarks, involving changes of the environment, we show that our approach is more robust than classic RL algorithms. We also introduce a variation of ExpectRL combined with domain randomization which is competitive with state-of-the-art robust RL agents. Eventually, we also extend \ExpectRL with a mechanism for choosing automatically the expectile value, that is the degree of pessimism
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# より良いプロジェクトを選択する方法を人々に教えるために、自動戦略発見を活用する

Leveraging automatic strategy discovery to teach people how to select better projects ( http://arxiv.org/abs/2406.04082v1 )

ライセンス: Link先を確認
Lovis Heindrich, Falk Lieder, (参考訳) 個人や組織の決定は、規範的な決定戦略が現実の世界であまりにも要求されているため、過小評価されることが多い。 最近の研究は、人工知能を活用して、人々の制約を考慮に入れた規範的な意思決定戦略を発見し、教えることによって、いくつかのエラーを防ぐことができることを示唆している。 これまでのところ、この研究は意思決定の簡易化に限られている。 この記事は、このアプローチを現実の意思決定問題、すなわちプロジェクト選択に拡張する最初のものです。 我々は,現実の人に最適化されたプロジェクト選択戦略を自動的に発見する計算手法(MGPS)を開発し,発見した戦略を教えるインテリジェントなチューターを開発する。 我々は,MGPSを計算ベンチマークで評価し,2つの制御条件のトレーニング実験において知能チュータを試験した。 MGPSは最先端の手法より優れ、より計算効率が良い。 さらに、知的家庭教師は人々の意思決定戦略を著しく改善した。 提案手法は,実世界のプロジェクト選択と同様の自然主義的環境下での人間による意思決定を改善することができることを示す。

The decisions of individuals and organizations are often suboptimal because normative decision strategies are too demanding in the real world. Recent work suggests that some errors can be prevented by leveraging artificial intelligence to discover and teach prescriptive decision strategies that take people's constraints into account. So far, this line of research has been limited to simplified decision problems. This article is the first to extend this approach to a real-world decision problem, namely project selection. We develop a computational method (MGPS) that automatically discovers project selection strategies that are optimized for real people and develop an intelligent tutor that teaches the discovered strategies. We evaluated MGPS on a computational benchmark and tested the intelligent tutor in a training experiment with two control conditions. MGPS outperformed a state-of-the-art method and was more computationally efficient. Moreover, the intelligent tutor significantly improved people's decision strategies. Our results indicate that our method can improve human decision-making in naturalistic settings similar to real-world project selection, a first step towards applying strategy discovery to the real world.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# 漏れ低減装置としての超電導量子ビットの漏れ移動

Leakage Mobility in Superconducting Qubits as a Leakage Reduction Unit ( http://arxiv.org/abs/2406.04083v1 )

ライセンス: Link先を確認
Joan Camps, Ophelia Crawford, György P. Gehér, Alexander V. Gramolin, Matthew P. Stafford, Mark Turner, (参考訳) 計算部分空間からの漏れは、ほとんどの量子ビット型の性能を劣化させるノイズの損傷源である。 他の種類のノイズとは異なり、リークは標準的な量子エラー補正技術では克服できず、専用のリーク低減ユニットを必要とする。 本研究では,超伝導量子ビット間のリークモビリティが量子安定性実験の性能に及ぼす影響について検討する。 本研究では,Fujitsu Quantum Simulatorを用いて,表面コード上に実装された安定性実験の完全な密度行列シミュレーションを行う。 我々は、モビリティの向上による性能向上を観察し、データからのリークを補助量子ビットに自然に移動させることにより、リークモビリティ自体がリーク低減ユニットとして機能し、リセット時に除去されることを示唆した。 データと補助量子ビットが各ラウンドの誤差補正における役割を交互に行う、特定のリーク低減技術である"パッチウィグリング"と標準誤差補正回路の性能を比較した。 パッチウィグリングは、標準回路の性能向上とは対照的に、リークモビリティの向上により非効率になる。 これらの結果から, 専用のリーク低減ユニットを必要とせず, キュービット間のリークモビリティを刺激することで, 漏れの損傷を克服できることが示唆された。

Leakage from the computational subspace is a damaging source of noise that degrades the performance of most qubit types. Unlike other types of noise, leakage cannot be overcome by standard quantum error correction techniques and requires dedicated leakage reduction units. In this work, we study the effects of leakage mobility between superconducting qubits on the performance of a quantum stability experiment, which is a benchmark for fault-tolerant logical computation. Using the Fujitsu Quantum Simulator, we perform full density-matrix simulations of stability experiments implemented on the surface code. We observe improved performance with increased mobility, suggesting leakage mobility can itself act as a leakage reduction unit by naturally moving leakage from data to auxiliary qubits, where it is removed upon reset. We compare the performance of standard error-correction circuits with "patch wiggling", a specific leakage reduction technique where data and auxiliary qubits alternate their roles in each round of error correction. We observe that patch wiggling becomes inefficient with increased leakage mobility, in contrast to the improved performance of standard circuits. These observations suggest that the damage of leakage can be overcome by stimulating leakage mobility between qubits without the need for a dedicated leakage reduction unit.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# モデルに基づくオフライン強化学習の改善のための決定論的不確実性伝播

Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2406.04088v1 )

ライセンス: Link先を確認
Abdullah Akgül, Manuel Haußmann, Melih Kandemir, (参考訳) モデルに基づくオフライン強化学習(RL)への現在のアプローチは、分散シフト問題に対処するために不確実性に基づく報酬のペナル化をしばしば取り入れている。 これらのアプローチはいくつかの成功をおさめたが、この罰則化は過度な保守主義をもたらし、過小評価による過度な最適政策をもたらす可能性があると論じる。 我々は,ベルマン作用素における不確実性を伝播できる信頼性の高い不確実性推定器の欠如を,過納化の重要な原因とみなす。 ペナルティ項を計算する一般的な手法はサンプリングに基づく不確実性推定に依存しており、高い分散をもたらす。 この課題に対処するため,Moment Matching Offline Model-Based Policy Optimization (MOMBO) と呼ばれる新しい手法を提案する。 MOMBOはモーメントマッチングを用いてQ-関数を学習し、Q-関数を通して不確かさを決定論的に伝達する。 我々はMOMBOの性能を様々な環境で評価し、MOMBOがより安定的でサンプル効率のよいアプローチであることを実証した。

Current approaches to model-based offline Reinforcement Learning (RL) often incorporate uncertainty-based reward penalization to address the distributional shift problem. While these approaches have achieved some success, we argue that this penalization introduces excessive conservatism, potentially resulting in suboptimal policies through underestimation. We identify as an important cause of over-penalization the lack of a reliable uncertainty estimator capable of propagating uncertainties in the Bellman operator. The common approach to calculating the penalty term relies on sampling-based uncertainty estimation, resulting in high variance. To address this challenge, we propose a novel method termed Moment Matching Offline Model-Based Policy Optimization (MOMBO). MOMBO learns a Q-function using moment matching, which allows us to deterministically propagate uncertainties through the Q-function. We evaluate MOMBO's performance across various environments and demonstrate empirically that MOMBO is a more stable and sample-efficient approach.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# HMM学習用変圧器の限界について

On Limitation of Transformer for Learning HMMs ( http://arxiv.org/abs/2406.04089v1 )

ライセンス: Link先を確認
Jiachen Hu, Qinghua Liu, Chi Jin, (参考訳) 自然言語処理、コンピュータビジョン、ロボット工学といった様々なシーケンシャルなモデリングタスクにおいてトランスフォーマーベースのアーキテクチャが顕著に成功したにもかかわらず、隠れマルコフモデル(HMM)のような基本的なシーケンシャルなモデルを学ぶ能力はいまだに不明である。 本稿では,HMMの学習におけるトランスフォーマーの性能について,広範囲な実験を通して検討し,それをリカレントニューラルネットワーク(RNN)と比較する。 実験された全HMMモデルにおいて,トランスフォーマーはトレーニング速度とテスト精度の両方において連続的にRNNより劣っていることを示す。 さらには、Transformerが学習に苦労するHMMインスタンスもあるが、RNNはそれをうまく行うことができる。 さらに,HMMのタイプと複雑さに基づいて,トランスフォーマーの深さと,それが効果的に学習できるシーケンス長との関係を明らかにした。 HMMのモデリングにおける変換器の限界に対処するために、トレーニングフェーズにおいて$\textit{block CoT}$と呼ばれるChain-of-Thought(CoT)の変種が、変換器が評価誤差を低減し、トレーニング時間を増やすコストで長いシーケンスを学習するのに役立つことを実証する。 最後に,HMMを対数深度で近似する際の変圧器の表現性を理論的に証明し,実験結果を補完する。

Despite the remarkable success of Transformer-based architectures in various sequential modeling tasks, such as natural language processing, computer vision, and robotics, their ability to learn basic sequential models, like Hidden Markov Models (HMMs), is still unclear. This paper investigates the performance of Transformers in learning HMMs and their variants through extensive experimentation and compares them to Recurrent Neural Networks (RNNs). We show that Transformers consistently underperform RNNs in both training speed and testing accuracy across all tested HMM models. There are even challenging HMM instances where Transformers struggle to learn, while RNNs can successfully do so. Our experiments further reveal the relation between the depth of Transformers and the longest sequence length it can effectively learn, based on the types and the complexity of HMMs. To address the limitation of transformers in modeling HMMs, we demonstrate that a variant of the Chain-of-Thought (CoT), called $\textit{block CoT}$ in the training phase, can help transformers to reduce the evaluation error and to learn longer sequences at a cost of increasing the training time. Finally, we complement our empirical findings by theoretical results proving the expressiveness of transformers in approximating HMMs with logarithmic depth.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# 学習したグラフの平滑化前処理による解釈可能な軽量変圧器

Interpretable Lightweight Transformer via Unrolling of Learned Graph Smoothness Priors ( http://arxiv.org/abs/2406.04090v1 )

ライセンス: Link先を確認
Tam Thuc Do, Parham Eftekhar, Seyed Alireza Hosseini, Gene Cheung, Philip Chou, (参考訳) 本研究では,2次グラフラプラシアン正規化器 (GLR) と$\ell_1$-norm graph total variation (GTV) を補間制約の下で,グラフの滑らかさを最小化する反復最適化アルゴリズムをアンロールすることによって,解釈可能で軽量なトランスフォーマー型ニューラルネットワークを構築する。 重要な洞察は、正規化された信号依存グラフ学習モジュールは、従来の変圧器の基本的な自己保持機構の変種に相当することである。 大規模ドット積を親和性や出力埋め込みとして計算するために、大きなキー、クエリ、値行列の学習を必要とする「ブラックボックス」変換器とは異なり、我々の未学習ネットワークは、浅いCNNを用いてノード毎の低次元の特徴を学習し、ペアワイズマハラノビス距離を確立し、スパース類似性グラフを構築する。 各層において、学習グラフが与えられた場合、ターゲット補間信号は、仮定されたグラフの滑らかさの最小化から得られる、単なる低パスフィルタ出力であり、パラメータ数を大幅に減少させる。 2つの画像補間アプリケーションの実験は、従来の変圧器と比較して、グラフベースの非ローリングネットワークの共変量シフトに対する復元性能、パラメータ効率、ロバスト性を検証する。

We build interpretable and lightweight transformer-like neural networks by unrolling iterative optimization algorithms that minimize graph smoothness priors -- the quadratic graph Laplacian regularizer (GLR) and the $\ell_1$-norm graph total variation (GTV) -- subject to an interpolation constraint. The crucial insight is that a normalized signal-dependent graph learning module amounts to a variant of the basic self-attention mechanism in conventional transformers. Unlike "black-box" transformers that require learning of large key, query and value matrices to compute scaled dot products as affinities and subsequent output embeddings, resulting in huge parameter sets, our unrolled networks employ shallow CNNs to learn low-dimensional features per node to establish pairwise Mahalanobis distances and construct sparse similarity graphs. At each layer, given a learned graph, the target interpolated signal is simply a low-pass filtered output derived from the minimization of an assumed graph smoothness prior, leading to a dramatic reduction in parameter count. Experiments for two image interpolation applications verify the restoration performance, parameter efficiency and robustness to covariate shift of our graph-based unrolled networks compared to conventional transformers.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# スパースオートエンコーダのスケーリングと評価

Scaling and evaluating sparse autoencoders ( http://arxiv.org/abs/2406.04093v1 )

ライセンス: Link先を確認
Leo Gao, Tom Dupré la Tour, Henk Tillman, Gabriel Goh, Rajan Troll, Alec Radford, Ilya Sutskever, Jan Leike, Jeffrey Wu, (参考訳) スパースオートエンコーダは、スパースボトルネック層からアクティベーションを再構築することにより、言語モデルから解釈可能な特徴を抽出するための有望な教師なしアプローチを提供する。 言語モデルは多くの概念を学習するので、オートエンコーダは関連するすべての機能を回復するために非常に大きい必要がある。 しかし, 自己エンコーダのスケーリング特性の研究は, 復元目標と疎性目標のバランスと死潜者の存在のバランスを取る必要があるため困難である。 我々は、k-スパースオートエンコーダ(Makhzani and Frey, 2013)を用いて、空間を直接制御し、チューニングを簡素化し、再構成・スパーシティフロンティアを改善することを提案する。 さらに、私たちが試した最大のスケールでさえ、死んだ潜伏者はほとんどいないという修正が見つかりました。 これらの手法を用いて、オートエンコーダのサイズと空間性に関してクリーンなスケーリング法則を求める。 また、仮説化された特徴の回復、アクティベーションパターンの説明可能性、下流効果の空間性に基づく特徴量評価のための新しい指標をいくつか導入する。 これらのメトリクスはすべて、オートエンコーダのサイズによって改善される。 提案手法のスケーラビリティを実証するため,4000億トークンのGPT-4アクティベーションに対して,1600万の遅延オートエンコーダをトレーニングした。 オープンソースモデルのためのトレーニングコードとオートエンコーダ、ビジュアライザをリリースしています。

Sparse autoencoders provide a promising unsupervised approach for extracting interpretable features from a language model by reconstructing activations from a sparse bottleneck layer. Since language models learn many concepts, autoencoders need to be very large to recover all relevant features. However, studying the properties of autoencoder scaling is difficult due to the need to balance reconstruction and sparsity objectives and the presence of dead latents. We propose using k-sparse autoencoders [Makhzani and Frey, 2013] to directly control sparsity, simplifying tuning and improving the reconstruction-sparsity frontier. Additionally, we find modifications that result in few dead latents, even at the largest scales we tried. Using these techniques, we find clean scaling laws with respect to autoencoder size and sparsity. We also introduce several new metrics for evaluating feature quality based on the recovery of hypothesized features, the explainability of activation patterns, and the sparsity of downstream effects. These metrics all generally improve with autoencoder size. To demonstrate the scalability of our approach, we train a 16 million latent autoencoder on GPT-4 activations for 40 billion tokens. We release training code and autoencoders for open-source models, as well as a visualizer.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# 低次元データの生存モデルに関する大規模中性比較研究

A Large-Scale Neutral Comparison Study of Survival Models on Low-Dimensional Data ( http://arxiv.org/abs/2406.04098v1 )

ライセンス: Link先を確認
Lukas Burk, John Zobolas, Bernd Bischl, Andreas Bender, Marvin N. Wright, Raphael Sonabend, (参考訳) この研究は、単一イベント、右検閲、低次元生存データに焦点を当てた最初の大規模中性ベンチマーク実験を示す。 ベンチマーク実験は、科学的に新しいモデルクラスと既存のモデルクラスを適切な経験的評価によって比較するために、方法論研究において不可欠である。 現存するサバイバル文献のベンチマークはしばしばスコープが狭く、例えば高次元データに焦点が当てられている。 さらに、適切なチューニングや評価手順が欠如している場合や、定量的比較よりも質的なレビューがある場合もあります。 この包括的研究は、幅広い手法を中立的に評価し、一般化可能な結論を提供することによってギャップを埋めることを目的としている。 我々は、32の公開データセット上で、古典的な統計的アプローチから多くの一般的な機械学習手法まで、18のモデルをベンチマークした。 ベンチマークは、異なる設定でパフォーマンスを評価するために、判別基準と適切なスコアリングルールの両方をチューニングする。 8つのサバイバル指標を評価し, 評価, キャリブレーション, 総合的な予測性能を評価した。 判別手法を用いることで、Coxモデルよりも優れた手法が存在しないことが分かる。 しかし、(調整された)高速化された失敗時間モデルは、右の検閲されたログライクな状態によって測定された全体的な予測性能に関して、はるかに優れた結果を得ることができた。 比較できる限りよく実行される機械学習手法には、識別対象の斜めランダムサバイバルフォレストや、全体的な予測性能に基づくコックスベースの可能性ブースティングがある。 我々は、低次元の右チャージされたデータの標準生存分析設定における予測的目的のために、Cox Proportional Hazardsモデルは、実践者にとって十分な単純で堅牢な方法のままである、と結論付けた。

This work presents the first large-scale neutral benchmark experiment focused on single-event, right-censored, low-dimensional survival data. Benchmark experiments are essential in methodological research to scientifically compare new and existing model classes through proper empirical evaluation. Existing benchmarks in the survival literature are often narrow in scope, focusing, for example, on high-dimensional data. Additionally, they may lack appropriate tuning or evaluation procedures, or are qualitative reviews, rather than quantitative comparisons. This comprehensive study aims to fill the gap by neutrally evaluating a broad range of methods and providing generalizable conclusions. We benchmark 18 models, ranging from classical statistical approaches to many common machine learning methods, on 32 publicly available datasets. The benchmark tunes for both a discrimination measure and a proper scoring rule to assess performance in different settings. Evaluating on 8 survival metrics, we assess discrimination, calibration, and overall predictive performance of the tested models. Using discrimination measures, we find that no method significantly outperforms the Cox model. However, (tuned) Accelerated Failure Time models were able to achieve significantly better results with respect to overall predictive performance as measured by the right-censored log-likelihood. Machine learning methods that performed comparably well include Oblique Random Survival Forests under discrimination, and Cox-based likelihood-boosting under overall predictive performance. We conclude that for predictive purposes in the standard survival analysis setting of low-dimensional, right-censored data, the Cox Proportional Hazards model remains a simple and robust method, sufficient for practitioners.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# 気象予測の強化:深部拡散モデルによる超解法

Enhancing Weather Predictions: Super-Resolution via Deep Diffusion Models ( http://arxiv.org/abs/2406.04099v1 )

ライセンス: Link先を確認
Jan Martinů, Petr Šimánek, (参考訳) 本研究では,気象データの超解像に対する深層学習拡散モデルの適用について検討した。 拡散モデル,特にSR3およびResDiffアーキテクチャの機能を活用し,低分解能気象データを高分解能出力に変換する手法を提案する。 WeatherBenchデータセットを用いて実施した実験では,2メートル温度変数の超解像に着目し,詳細な正確な気象図を作成する能力を示した。 その結果,ResDiffモデルはさらに改良され,従来のSR3法よりも平均二乗誤差(MSE),構造類似度指数(SSIM),ピーク信号対雑音比(PSNR)が大幅に向上した。 この研究は気象学的な応用における拡散モデルの可能性を強調し、気象予測と気候分析の今後の進歩に対するその効果、課題、展望について洞察を提供する。

This study investigates the application of deep-learning diffusion models for the super-resolution of weather data, a novel approach aimed at enhancing the spatial resolution and detail of meteorological variables. Leveraging the capabilities of diffusion models, specifically the SR3 and ResDiff architectures, we present a methodology for transforming low-resolution weather data into high-resolution outputs. Our experiments, conducted using the WeatherBench dataset, focus on the super-resolution of the two-meter temperature variable, demonstrating the models' ability to generate detailed and accurate weather maps. The results indicate that the ResDiff model, further improved by incorporating physics-based modifications, significantly outperforms traditional SR3 methods in terms of Mean Squared Error (MSE), Structural Similarity Index (SSIM), and Peak Signal-to-Noise Ratio (PSNR). This research highlights the potential of diffusion models in meteorological applications, offering insights into their effectiveness, challenges, and prospects for future advancements in weather prediction and climate analysis.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# ロボット間超音波画像におけるUS-CT自動登録のためのクラスアウェア軟骨分割法

Class-Aware Cartilage Segmentation for Autonomous US-CT Registration in Robotic Intercostal Ultrasound Imaging ( http://arxiv.org/abs/2406.04100v1 )

ライセンス: Link先を確認
Zhongliang Jiang, Yunfeng Kang, Yuan Bi, Xuesong Li, Chenyang Li, Nassir Navab, (参考訳) 超音波画像は、携帯性、リアルタイム性、放射線のないという利点があるため、臨床検査に広く用いられている。 病院における自律的な検査システムの広範な展開の可能性を考えると、ロボットUSイメージングが注目を集めている。 しかし, 患者間変動が原因で, 特に超音波窓が限られている胸部領域では, それぞれの患者に最適な経路を持つことは依然として困難である。 この問題に対処するため, 形状制約後処理を施したクラス認識軟骨骨分節ネットワークを提示し, 患者固有の骨骨格を捉えた。 次に、密度の高い骨格グラフに基づく非剛性登録を行い、一般的なテンプレートから個々の患者に宿主間走査経路をマッピングする。 高音響インピーダンスの骨構造を明示的に考慮することにより、転写された走査路を宿主間空間に正確に配置することができ、音響的影を低減して内臓の視認性を高めることができる。 提案手法を評価するため、5つの異なるCTデータと2つのボランティアUSデータに対して最終経路マッピング性能を検証し、10組のCTとUSの組み合わせを得た。 その結果,提案手法はCTテンプレートから個々の患者への経路を頑健かつ正確にマッピングできることがわかった(ユークリッド誤差:2.21\pm1.11~mm$)。

Ultrasound imaging has been widely used in clinical examinations owing to the advantages of being portable, real-time, and radiation-free. Considering the potential of extensive deployment of autonomous examination systems in hospitals, robotic US imaging has attracted increased attention. However, due to the inter-patient variations, it is still challenging to have an optimal path for each patient, particularly for thoracic applications with limited acoustic windows, e.g., intercostal liver imaging. To address this problem, a class-aware cartilage bone segmentation network with geometry-constraint post-processing is presented to capture patient-specific rib skeletons. Then, a dense skeleton graph-based non-rigid registration is presented to map the intercostal scanning path from a generic template to individual patients. By explicitly considering the high-acoustic impedance bone structures, the transferred scanning path can be precisely located in the intercostal space, enhancing the visibility of internal organs by reducing the acoustic shadow. To evaluate the proposed approach, the final path mapping performance is validated on five distinct CTs and two volunteer US data, resulting in ten pairs of CT-US combinations. Results demonstrate that the proposed graph-based registration method can robustly and precisely map the path from CT template to individual patients (Euclidean error: $2.21\pm1.11~mm$).
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# Instant-NGP-based NeRFはどこまで圧縮できるのか?

How Far Can We Compress Instant-NGP-Based NeRF? ( http://arxiv.org/abs/2406.04101v1 )

ライセンス: Link先を確認
Yihang Chen, Qianyi Wu, Mehrtash Harandi, Jianfei Cai, (参考訳) 近年,Neural Radiance Field (NeRF) は3次元シーンを表現できることを実証している。 レンダリング処理を高速化するために、暗黙のNeRF表現と組み合わせて学習可能な明示表現が導入された。 本稿では、高効率なコンテキストモデルを利用して、ストレージフレンドリーなNeRF表現を提供するContext-based NeRF Compression (CNC)フレームワークを紹介する。 具体的には、情報エントロピー低減のための確率予測を可能にするために、レベルワイドと次元ワイドのコンテキスト依存を抽出する。 さらに, ハッシュ衝突と占有グリッドを, より優れたコンテキストモデリングのための強力な事前知識として活用する。 我々の知る限り、我々はNeRF圧縮のためのコンテキストモデルを構築し、活用した最初の人です。 我々は,Synthesic-NeRF のベースラインである Instant-NGP に対して,100$\times$ と 70$\times$ をそれぞれ改善した。 さらに,SOTA NeRF圧縮方式BiRFに対して86.7\%,82.3\%のストレージサイズ削減を実現した。 私たちのコードは、https://github.com/YihangChen-ee/CNC.comで利用可能です。

In recent years, Neural Radiance Field (NeRF) has demonstrated remarkable capabilities in representing 3D scenes. To expedite the rendering process, learnable explicit representations have been introduced for combination with implicit NeRF representation, which however results in a large storage space requirement. In this paper, we introduce the Context-based NeRF Compression (CNC) framework, which leverages highly efficient context models to provide a storage-friendly NeRF representation. Specifically, we excavate both level-wise and dimension-wise context dependencies to enable probability prediction for information entropy reduction. Additionally, we exploit hash collision and occupancy grids as strong prior knowledge for better context modeling. To the best of our knowledge, we are the first to construct and exploit context models for NeRF compression. We achieve a size reduction of 100$\times$ and 70$\times$ with improved fidelity against the baseline Instant-NGP on Synthesic-NeRF and Tanks and Temples datasets, respectively. Additionally, we attain 86.7\% and 82.3\% storage size reduction against the SOTA NeRF compression method BiRF. Our code is available here: https://github.com/YihangChen-ee/CNC.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# モーメントマッチングによる拡散モデルの多段階蒸留

Multistep Distillation of Diffusion Models via Moment Matching ( http://arxiv.org/abs/2406.04103v1 )

ライセンス: Link先を確認
Tim Salimans, Thomas Mensink, Jonathan Heek, Emiel Hoogeboom, (参考訳) 本稿では,拡散モデルをより高速にサンプル化するための新しい手法を提案する。 本手法は, サンプリング軌道に沿ったノイズデータから得られたクリーンデータの条件付き期待値とを一致させて, 多段階拡散モデルを数段階モデルに蒸留する。 提案手法は,最近提案された一段階法を多段階に拡張し,これらの手法をモーメントマッチングの観点で解釈することで,新たな視点を提供する。 最大8ステップのサンプリングを行うことで、1ステップバージョンだけでなく、元の多ステップ教師モデルよりも優れた蒸留モデルを取得し、Imagenetデータセット上で新しい最先端結果を得る。 また、オートエンコーダやアップサンプラーを必要とせず、画像空間で高解像度画像を高速に生成する大規模テキスト・画像モデルに有望な結果を示す。

We present a new method for making diffusion models faster to sample. The method distills many-step diffusion models into few-step models by matching conditional expectations of the clean data given noisy data along the sampling trajectory. Our approach extends recently proposed one-step methods to the multi-step case, and provides a new perspective by interpreting these approaches in terms of moment matching. By using up to 8 sampling steps, we obtain distilled models that outperform not only their one-step versions but also their original many-step teacher models, obtaining new state-of-the-art results on the Imagenet dataset. We also show promising results on a large text-to-image model where we achieve fast generation of high resolution images directly in image space, without needing autoencoders or upsamplers.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# 組織平面から組織世界へ:ディープコアテンションネットワークを用いたマルチモーダルバイオメディカル画像登録のためのベンチマークデータセット

From Tissue Plane to Organ World: A Benchmark Dataset for Multimodal Biomedical Image Registration using Deep Co-Attention Networks ( http://arxiv.org/abs/2406.04105v1 )

ライセンス: Link先を確認
Yifeng Wang, Weipeng Li, Thomas Pearce, Haohan Wang, (参考訳) 神経病理学と神経画像所見との関連は、メソからマイクロスケールにまたがるヒト臓器の病理学的変化を多面的に観察し、多くの疾患状態に光を当てることが期待される新たな方法論である。 このマルチモーダル・マルチスケールアプローチから最も多くの情報を得るためには、組織学的組織部位が臓器内からどこから取られたのかを正確に把握し、組織の特徴と正確に同一の臓器領域で相関することが必要である。 組織と臓器の登録は、特定の組織学的セクションがヒトの臓器のごく一部しか取得できないため、追加の課題となる。 最先端のディープラーニングモデルの能力を活用して、このような複雑な課題に対処し解決する可能性を解き放つ。 そこで我々は,この課題を機械学習問題に転換し,バイオメディカルコミュニティを啓蒙する卓越した成果をもたらすことを目的として,多様な機関から得られたATOMベンチマークデータセットを作成する。 RegisMCANモデルの性能は,臓器画像から抽出した部分領域が全体の3次元体積内からどこから抽出されたのかを正確に予測する深層学習の可能性を示している。 コードとデータセットは、https://github.com/haizailache999/Image-Registration/tree/mainで確認できる。

Correlating neuropathology with neuroimaging findings provides a multiscale view of pathologic changes in the human organ spanning the meso- to micro-scales, and is an emerging methodology expected to shed light on numerous disease states. To gain the most information from this multimodal, multiscale approach, it is desirable to identify precisely where a histologic tissue section was taken from within the organ in order to correlate with the tissue features in exactly the same organ region. Histology-to-organ registration poses an extra challenge, as any given histologic section can capture only a small portion of a human organ. Making use of the capabilities of state-of-the-art deep learning models, we unlock the potential to address and solve such intricate challenges. Therefore, we create the ATOM benchmark dataset, sourced from diverse institutions, with the primary objective of transforming this challenge into a machine learning problem and delivering outstanding outcomes that enlighten the biomedical community. The performance of our RegisMCAN model demonstrates the potential of deep learning to accurately predict where a subregion extracted from an organ image was obtained from within the overall 3D volume. The code and dataset can be found at: https://github.com/haizailache999/Image-Registration/tree/main
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# 説明可能性とヘイトスピーチ: 構造化された説明によってソーシャルメディアモデレーターはより速くなる

Explainability and Hate Speech: Structured Explanations Make Social Media Moderators Faster ( http://arxiv.org/abs/2406.04106v1 )

ライセンス: Link先を確認
Agostina Calabrese, Leonardo Neves, Neil Shah, Maarten W. Bos, Björn Ross, Mirella Lapata, Francesco Barbieri, (参考訳) コンテンツモデレーターは、ソーシャルメディア上での会話を健全に保つ上で重要な役割を果たす。 判断するために必要な大量のコンテンツは、モデレーションパイプラインのボトルネックを表しているが、モデルがより高速な意思決定を実現するためにモデルをどのようにサポートするかは、研究されていない。 現在、ヘイトスピーチの検出に関する膨大な研究は、コンテンツのモデレーションを改善するために、しばしば明確に動機付けられたが、実際のコンテンツモデレーターを用いた研究は乏しい。 本研究では,実世界のモデレータの速度に及ぼす説明の影響について検討する。 我々の実験では、一般的な説明は速度に影響せず、しばしば無視されるが、構造化された説明はモデレーターの意思決定時間を7.4%減少させる。

Content moderators play a key role in keeping the conversation on social media healthy. While the high volume of content they need to judge represents a bottleneck to the moderation pipeline, no studies have explored how models could support them to make faster decisions. There is, by now, a vast body of research into detecting hate speech, sometimes explicitly motivated by a desire to help improve content moderation, but published research using real content moderators is scarce. In this work we investigate the effect of explanations on the speed of real-world moderators. Our experiments show that while generic explanations do not affect their speed and are often ignored, structured explanations lower moderators' decision making time by 7.4%.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# 対話における意図と顔

Intention and Face in Dialog ( http://arxiv.org/abs/2406.04109v1 )

ライセンス: Link先を確認
Adil Soubki, Owen Rambow, (参考訳) Brown and Levinson (1987) によって記述された顔の概念は、非常に詳細に研究されてきたが、その枠組みの重要な側面は、顔に課される回転の計画をどのように仲介するかに焦点を当てたものである。 本稿では,前者が後者にどのように影響するかに着目し,意図と礼儀正しさの両方を分類するために訓練された3つの計算システムについて分析する。 丁寧な理論では、エージェントは彼らの欲求(肯定的な顔)に感謝したいという願望に参画し、無力で自由(否定的な顔)を維持したいという補完的な願望に参画する。 音声行為と同様に、発話はいわゆる顔行為を行うことができ、これは話者や聞き手の肯定的な顔や否定的な顔を上げたり脅したりすることができる。 まず、既存のコーパスを使用して、顔の動作を分類するモデルをトレーニングし、その過程で新しいSoTAを実現する。 次に、すべての顔アクトが、それを動機づける基本的な意図を持っていることを観察し、ダイアログアクトアノテーションを統合して、これらの意図をプロキシによって提供します。 分析の結果, ダイアログは, 少数クラスにおける顔行動検出の性能向上に寄与し, 顔と意図の面の密接な関係を指摘できることがわかった。

The notion of face described by Brown and Levinson (1987) has been studied in great detail, but a critical aspect of the framework, that which focuses on how intentions mediate the planning of turns which impose upon face, has received far less attention. We present an analysis of three computational systems trained for classifying both intention and politeness, focusing on how the former influences the latter. In politeness theory, agents attend to the desire to have their wants appreciated (positive face), and a complementary desire to act unimpeded and maintain freedom (negative face). Similar to speech acts, utterances can perform so-called face acts which can either raise or threaten the positive or negative face of the speaker or hearer. We begin by using an existing corpus to train a model which classifies face acts, achieving a new SoTA in the process. We then observe that every face act has an underlying intention that motivates it and perform additional experiments integrating dialog act annotations to provide these intentions by proxy. Our analysis finds that dialog acts improve performance on face act detection for minority classes and points to a close relationship between aspects of face and intent.
翻訳日:2024-06-07 14:40:14 公開日:2024-06-06
# UrbanSARFloods: Sentinel-1 SLC-based Benchmark dataset for Urban and Open-Area Flood Mapping

UrbanSARFloods: Sentinel-1 SLC-Based Benchmark Dataset for Urban and Open-Area Flood Mapping ( http://arxiv.org/abs/2406.04111v1 )

ライセンス: Link先を確認
Jie Zhao, Zhitong Xiong, Xiao Xiang Zhu, (参考訳) 衛星合成開口レーダ(SAR)は、雲を通す能力と太陽の照明から独立しているため、大規模な洪水マッピングのために好まれるデータ源であり、地球規模のカバーを提供し、様々な土地被覆クラスも備えている。 しかし、ディープラーニングアルゴリズムを用いた大規模SAR由来の洪水マッピングに関する研究の多くは、利用可能なオープンアクセスデータセット(例:Sen1Floods11)を活用し、都市洪水に限られた注意を払って、主に浸水した地域に焦点を当てている。 このギャップに対処するために,前処理されたSentinel-1強度データと,洪水前後に取得した干渉コヒーレンス画像を含む洪水データセットである‘textbf{UrbanSARFloods} を導入する。 8,879ドルの512\times 512$チップは、20の土地被覆クラスと5つの大陸にまたがる807,500ドルのkm^2$をカバーし、18の洪水イベントにまたがっている。 我々はUrbanSARFloodsを用いて、既存の最先端の畳み込みニューラルネットワーク(CNN)を、オープンかつ都市的な洪水領域のセグメンテーションに使用した。 以上の結果から,Weighted Cross-Entropy (WCE) の損失や,事前訓練されたモデルによる伝達学習の適用といった一般的なアプローチは,不均衡なデータや小さなトレーニングデータセットの制約によって引き起こされる障害を克服するには不十分であることが示唆された。 都市の洪水検出は依然として困難である。 今後の研究は、不均衡なデータ課題に対処するための戦略を探求し、SARに基づく大規模洪水マッピングにおけるトランスファーラーニングの可能性について検討する。 さらに、このデータセットを追加の洪水イベントを含むように拡張することは、その実用性を強化し、洪水マッピング技術の進歩に寄与する、という約束がある。

Due to its cloud-penetrating capability and independence from solar illumination, satellite Synthetic Aperture Radar (SAR) is the preferred data source for large-scale flood mapping, providing global coverage and including various land cover classes. However, most studies on large-scale SAR-derived flood mapping using deep learning algorithms have primarily focused on flooded open areas, utilizing available open-access datasets (e.g., Sen1Floods11) and with limited attention to urban floods. To address this gap, we introduce \textbf{UrbanSARFloods}, a floodwater dataset featuring pre-processed Sentinel-1 intensity data and interferometric coherence imagery acquired before and during flood events. It contains 8,879 $512\times 512$ chips covering 807,500 $km^2$ across 20 land cover classes and 5 continents, spanning 18 flood events. We used UrbanSARFloods to benchmark existing state-of-the-art convolutional neural networks (CNNs) for segmenting open and urban flood areas. Our findings indicate that prevalent approaches, including the Weighted Cross-Entropy (WCE) loss and the application of transfer learning with pretrained models, fall short in overcoming the obstacles posed by imbalanced data and the constraints of a small training dataset. Urban flood detection remains challenging. Future research should explore strategies for addressing imbalanced data challenges and investigate transfer learning's potential for SAR-based large-scale flood mapping. Besides, expanding this dataset to include additional flood events holds promise for enhancing its utility and contributing to advancements in flood mapping techniques.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 深度過度化低ランク学習・適応における圧縮性ダイナミクス

Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation ( http://arxiv.org/abs/2406.04112v1 )

ライセンス: Link先を確認
Can Yaras, Peng Wang, Laura Balzano, Qing Qu, (参考訳) 機械学習モデルの過度パラメータ化は、最適化と一般化の点で大きなメリットをもたらすが、モデルのサイズが大きくなるにつれて、計算要求も増加する。 本研究では,データ固有の低次元構造と圧縮可能な動力学をモデルパラメータ内で活用することにより,計算負担を伴わずに過度パラメータ化の利点を享受できることを示す。 実際に,本手法の低ランク行列補完および微調整言語モデルへの適用例を示す。 提案手法は,各重み行列の学習力学が不変な低次元部分空間に制限されていることを示す。 したがって、過パラメータ化された因子と同じ利点を持つコンパクトで高度に圧縮された因子化を構築し、訓練することができる。 本手法は, オーバーパラメータ化の利点を保ちながら, トレーニング効率を大幅に向上させる。 言語モデルの微調整において,既存のローランク適応(LoRA)技術を改善する手法である"Deep LoRA"を提案する。 本稿では,自然言語処理におけるDeep LoRAの有効性について検証する。

While overparameterization in machine learning models offers great benefits in terms of optimization and generalization, it also leads to increased computational requirements as model sizes grow. In this work, we show that by leveraging the inherent low-dimensional structures of data and compressible dynamics within the model parameters, we can reap the benefits of overparameterization without the computational burdens. In practice, we demonstrate the effectiveness of this approach for deep low-rank matrix completion as well as fine-tuning language models. Our approach is grounded in theoretical findings for deep overparameterized low-rank matrix recovery, where we show that the learning dynamics of each weight matrix are confined to an invariant low-dimensional subspace. Consequently, we can construct and train compact, highly compressed factorizations possessing the same benefits as their overparameterized counterparts. In the context of deep matrix completion, our technique substantially improves training efficiency while retaining the advantages of overparameterization. For language model fine-tuning, we propose a method called "Deep LoRA", which improves the existing low-rank adaptation (LoRA) technique, leading to reduced overfitting and a simplified hyperparameter setup, while maintaining comparable efficiency. We validate the effectiveness of Deep LoRA on natural language tasks, particularly when fine-tuning with limited data.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 表から探す情報における大規模言語モデルの限界を明らかにする

Uncovering Limitations of Large Language Models in Information Seeking from Tables ( http://arxiv.org/abs/2406.04113v1 )

ライセンス: Link先を確認
Chaoxu Pang, Yixuan Cao, Chunhao Yang, Ping Luo, (参考訳) テーブルは高い情報密度と広く使われていることから認識されており、重要な情報源となっている。 表(TIS)から情報を探すことは、Large Language Models(LLM)にとって重要な機能であり、知識に基づくQ&Aシステムの基盤となっている。 しかし、この分野では現在、徹底的で信頼性の高い評価が欠如している。 本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。 テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。 選択肢を生成し、その困難さと品質を確保するための効果的なパイプラインを構築します。 12個のLLM実験により, GPT-4-turboの性能は極めて良好であるが, 他のプロプライエタリモデルとオープンソースモデルでは不十分であることが判明した。 さらに分析したところ、LLMはテーブル構造に対する理解が乏しく、TIS性能と疑似関連テーブル(検索強化システムでよく見られる)とのバランスがとれないことが示されている。 これらの結果から,表から情報を求めるLLMの限界と潜在的な課題が明らかになった。 私たちはこの分野のさらなる研究を促進するために、データとコードを公開します。

Tables are recognized for their high information density and widespread usage, serving as essential sources of information. Seeking information from tables (TIS) is a crucial capability for Large Language Models (LLMs), serving as the foundation of knowledge-based Q&A systems. However, this field presently suffers from an absence of thorough and reliable evaluation. This paper introduces a more reliable benchmark for Table Information Seeking (TabIS). To avoid the unreliable evaluation caused by text similarity-based metrics, TabIS adopts a single-choice question format (with two options per question) instead of a text generation format. We establish an effective pipeline for generating options, ensuring their difficulty and quality. Experiments conducted on 12 LLMs reveal that while the performance of GPT-4-turbo is marginally satisfactory, both other proprietary and open-source models perform inadequately. Further analysis shows that LLMs exhibit a poor understanding of table structures, and struggle to balance between TIS performance and robustness against pseudo-relevant tables (common in retrieval-augmented systems). These findings uncover the limitations and potential challenges of LLMs in seeking information from tables. We release our data and code to facilitate further research in this field.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# トポロジカルエッジ状態を持つ高調波発生と電子-電子相互作用

Harmonic generation with topological edge states and electron-electron interaction ( http://arxiv.org/abs/2406.04114v1 )

ライセンス: Link先を確認
Siamak Pooyan, Dieter Bauer, (参考訳) 従来,Su-Schrieffer-Heeger (SSH) モデルにおける位相的エッジ状態の存在は,高調波発生スペクトルに大きな影響を及ぼすことがわかった。 より具体的には、バンドギャップの下にある光子エネルギーに対応する高調波の高調波の収量は、自明な位相と位相的な位相において、桁違いに異なる。 この研究において、電子-電子相互作用を考慮した場合、すなわち、ハバード項がSSHハミルトニアンに付加された場合、この効果は依然として存在することが示されている。 この目的のために、半充填の有限SSH-Hubbard鎖は、正確な対角化にアクセスできるほど短いが、既に位相相のエッジ状態を示していると考えられている。 我々は,多体基底状態と少数の励起多体状態のみを用いて,自明な位相と位相相の調和収率の大きな差を少数レベルのモデルで再現できることを示した。

It has been found previously that the presence or absence of topological edge states in the Su-Schrieffer-Heeger (SSH) model has a huge impact on harmonic generation spectra. More specifically, the yield of harmonics for harmonic orders that correspond to photon energies below the band gap is many orders of magnitude different in the trivial and topological phase. It is shown in this work that this effect is still present if electron-electron interaction is taken into account, i.e., if a Hubbard term is added to the SSH Hamiltonian. To that end, finite SSH-Hubbard chains at half filling are considered that are short enough to be accessible to exact diagonalization but already showing edge states in the topological phase. We show that the huge difference in the harmonic yield between the trivial and the topological phase can be reproduced with few-level models employing only the many-body ground state and a few excited many-body states.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# グローバルパラメータ化に基づくテクスチャ空間最適化

Global Parameterization-based Texture Space Optimization ( http://arxiv.org/abs/2406.04115v1 )

ライセンス: Link先を確認
Wei Chen, Yuxue Ren, Na Lei, Zhongxuan Luo, Xianfeng Gu, (参考訳) テクスチャマッピングはコンピュータグラフィックスの分野で一般的な技術であり、3次元表面空間を2次元テクスチャ空間にマッピングする。 しかし、ゆるやかなテクスチャ空間は、レンダリングプロセスにおけるデータストレージとGPUメモリアドレスの効率を低下させる。 既存の手法の多くは、与えられたテクスチャを再パッケージすることに重点を置いているが、それでも高い計算コストに悩まされており、完全に密なテクスチャ空間を産み出すことはほとんどない。 本稿では,グローバルなパラメータ化に基づいて,テクスチャ空間を最適化し,コンパクトなテクスチャマッピングを実現する手法を提案する。 提案手法は計算に頑健で効率的である。 実験により, 提案手法の有効性と, 保存効率, レンダリング効率の向上効果が示された。

Texture mapping is a common technology in the area of computer graphics, it maps the 3D surface space onto the 2D texture space. However, the loose texture space will reduce the efficiency of data storage and GPU memory addressing in the rendering process. Many of the existing methods focus on repacking given textures, but they still suffer from high computational cost and hardly produce a wholly tight texture space. In this paper, we propose a method to optimize the texture space and produce a new texture mapping which is compact based on global parameterization. The proposed method is computationally robust and efficient. Experiments show the effectiveness of the proposed method and the potency in improving the storage and rendering efficiency.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 精神保健・神経障害研究における音声データセットの公平性と多様性の促進

Promoting Fairness and Diversity in Speech Datasets for Mental Health and Neurological Disorders Research ( http://arxiv.org/abs/2406.04116v1 )

ライセンス: Link先を確認
Eleonora Mancini, Ana Tanevska, Andrea Galassi, Alessio Galatolo, Federico Ruggeri, Paolo Torroni, (参考訳) 機械学習と人工知能の現在の研究は、主にデータ収集よりもモデリングと性能評価に重点を置いている。 しかし、最近の研究では、データの制限とバイアスが信頼性と信頼性に悪影響を及ぼす可能性があることが示されている。 音声データは、患者の健康を改善し、医療提供者を支援することを目的としたAIアプリケーションを開発するために使用される。 本稿では、この領域で利用可能な音声データセットの展望をグラフ化し、改善のための落とし穴と機会を強調し、公平さと多様性を促進する。 本稿では、精神保健・神経疾患のための音声データセットを構築するためのデシラタの包括的リストと、より責任ある研究を促進するための倫理的懸念に焦点を当てたチェックリストに抽出する。

Current research in machine learning and artificial intelligence is largely centered on modeling and performance evaluation, less so on data collection. However, recent research demonstrated that limitations and biases in data may negatively impact trustworthiness and reliability. These aspects are particularly impactful on sensitive domains such as mental health and neurological disorders, where speech data are used to develop AI applications aimed at improving the health of patients and supporting healthcare providers. In this paper, we chart the landscape of available speech datasets for this domain, to highlight possible pitfalls and opportunities for improvement and promote fairness and diversity. We present a comprehensive list of desiderata for building speech datasets for mental health and neurological disorders and distill it into a checklist focused on ethical concerns to foster more responsible research.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 古典的確率法による粒子生成

Particle creation using the classical stochastic method ( http://arxiv.org/abs/2406.04125v1 )

ライセンス: Link先を確認
Takayuki Hirayama, (参考訳) 古典的確率法による高調波発振器の粒子生成を計算した。 この方法は量子論における全ての真空期待値を再現する。 はじめに真空状態を作成し、ランゲヴィンの運動方程式を用いて時間とともに進化させる。 アンサンブルを平均化することにより、状態のエネルギーを最終時に計算し、生成した粒子の量を決定する。 粒子生成が量子論の予測と一致することを検証する。

We compute the particle creation of a harmonic oscillator using the classical stochastic method. This method reproduces all the vacuum expectation values in quantum theory. We prepare the vacuum state at the initial time and evolve it over time using Langevin equations of motion. By averaging over the ensemble, we compute the energy of the state at the final time and determine the amount of particles created. We verify that the particle creation agrees with predictions from quantum theory.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# MMLUでやれるか?

Are We Done with MMLU? ( http://arxiv.org/abs/2406.04127v1 )

ライセンス: Link先を確認
Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini, (参考訳) たぶん違う。 我々は,MMLU(Massive Multitask Language Understanding)ベンチマークにおいて,誤りを特定し解析する。 MMLUは広く採用されているが,本研究では,LLMの真の性能を隠蔽する基礎的真理誤差を多数示している。 例えば、Virologyサブセットで分析された質問の57%にエラーが含まれていることがわかった。 この問題に対処するために、新しいエラー分類法を用いてデータセットエラーを識別する包括的なフレームワークを導入する。 MMLU-Reduxは,30名のMMLU被験者を対象に,手動で書き直した3000の質問のサブセットである。 MMLU-Reduxを用いて、当初報告されたモデル性能指標と大きな相違点を示す。 本結果は,MMLUの今後の実用性と信頼性をベンチマークとして向上する上で,誤りを犯した質問の修正を強く主張するものである。 したがって、追加アノテーション https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux に対して MMLU-Redux を開きます。

Maybe not. We identify and analyse errors in the popular Massive Multitask Language Understanding (MMLU) benchmark. Even though MMLU is widely adopted, our analysis demonstrates numerous ground truth errors that obscure the true capabilities of LLMs. For example, we find that 57% of the analysed questions in the Virology subset contain errors. To address this issue, we introduce a comprehensive framework for identifying dataset errors using a novel error taxonomy. Then, we create MMLU-Redux, which is a subset of 3,000 manually re-annotated questions across 30 MMLU subjects. Using MMLU-Redux, we demonstrate significant discrepancies with the model performance metrics that were originally reported. Our results strongly advocate for revising MMLU's error-ridden questions to enhance its future utility and reliability as a benchmark. Therefore, we open up MMLU-Redux for additional annotation https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# LenslessFace: プライバシー保護顔認証のためのエンド・ツー・エンド最適化レンズレスシステム

LenslessFace: An End-to-End Optimized Lensless System for Privacy-Preserving Face Verification ( http://arxiv.org/abs/2406.04129v1 )

ライセンス: Link先を確認
Xin Cai, Hailong Zhang, Chenchen Wang, Wentao Liu, Jinwei Gu, Tianfan Xue, (参考訳) レンズレスカメラは、従来のレンズを超薄型で平らな光学系に置き換え、光を直接センサーにエンコードし、すぐには認識できない画像を生成する。 このコンパクトで軽量で費用対効果の高いイメージングソリューションは、固有のプライバシー上のアドバンテージを提供し、顔認証のようなプライバシーに敏感なアプリケーションには魅力がある。 典型的なレンズレス顔認証は、2段階の再構成プロセスを採用し、その後に検証を行い、再構成された顔からのプライバシーリスクと高い計算コストを発生させる。 本稿では、レンズレスキャプチャーで直接プライバシー保護顔認証を行うためのエンドツーエンドの最適化手法を提案する。 これを実現するために,従来の顔検出・アライメントを阻害するレンズレスセットアップから,ユニークな課題に対処する手法をいくつか提案する。 具体的には,フェースセンターアライメント方式,変動に対するロバスト性を構築するための拡張カリキュラム,最適化と性能向上のための知識蒸留手法を提案する。 シミュレーションと実環境の両方で評価した結果,2段階のレンズレス検証より優れ,プライバシーと効率が向上した。 プロジェクトウェブサイト: \url{lenslessface.github.io}

Lensless cameras, innovatively replacing traditional lenses for ultra-thin, flat optics, encode light directly onto sensors, producing images that are not immediately recognizable. This compact, lightweight, and cost-effective imaging solution offers inherent privacy advantages, making it attractive for privacy-sensitive applications like face verification. Typical lensless face verification adopts a two-stage process of reconstruction followed by verification, incurring privacy risks from reconstructed faces and high computational costs. This paper presents an end-to-end optimization approach for privacy-preserving face verification directly on encoded lensless captures, ensuring that the entire software pipeline remains encoded with no visible faces as intermediate results. To achieve this, we propose several techniques to address unique challenges from the lensless setup which precludes traditional face detection and alignment. Specifically, we propose a face center alignment scheme, an augmentation curriculum to build robustness against variations, and a knowledge distillation method to smooth optimization and enhance performance. Evaluations under both simulation and real environment demonstrate our method outperforms two-stage lensless verification while enhancing privacy and efficiency. Project website: \url{lenslessface.github.io}.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 司法判決の再考:インドの裁判所におけるPredExとインテリジェントAI解釈の台頭

Legal Judgment Reimagined: PredEx and the Rise of Intelligent AI Interpretation in Indian Courts ( http://arxiv.org/abs/2406.04136v1 )

ライセンス: Link先を確認
Shubham Kumar Nigam, Anurag Sharma, Danush Khanna, Noel Shallum, Kripabandhu Ghosh, Arnab Bhattacharya, (参考訳) LLM(Large Language Models)の時代において、法的手続きの複雑さと専門家による注釈付きデータセットの不足により、司法結果の予測が重大な課題となる。 これに対応するために、インドにおける15,000以上のアノテーションを特徴とする法的判断と説明のための、最大のエキスパートアノテーション付きデータセットである、 \textbf{Pred}iction with \textbf{Ex}planation (\texttt{PredEx})を紹介した。 この画期的なコーパスは、LLMへのインストラクションチューニングの適用を含む、法的分析におけるAIモデルのトレーニングと評価を大幅に強化する。 この手法は,法的な判断のために,これらのモデルの予測精度と説明深度を著しく改善した。 私たちは、一般とインドの両方の法的な文脈に合わせて、様々なトランスフォーマーベースのモデルを採用しました。 厳密な語彙、意味、専門家の評価を通じて、我々のモデルは、厳密な予測と意味のある説明を提供するために『texttt{PredEx}』を効果的に活用し、法律専門家とNLPコミュニティの両方にとって価値のあるベンチマークとして確立した。

In the era of Large Language Models (LLMs), predicting judicial outcomes poses significant challenges due to the complexity of legal proceedings and the scarcity of expert-annotated datasets. Addressing this, we introduce \textbf{Pred}iction with \textbf{Ex}planation (\texttt{PredEx}), the largest expert-annotated dataset for legal judgment prediction and explanation in the Indian context, featuring over 15,000 annotations. This groundbreaking corpus significantly enhances the training and evaluation of AI models in legal analysis, with innovations including the application of instruction tuning to LLMs. This method has markedly improved the predictive accuracy and explanatory depth of these models for legal judgments. We employed various transformer-based models, tailored for both general and Indian legal contexts. Through rigorous lexical, semantic, and expert assessments, our models effectively leverage \texttt{PredEx} to provide precise predictions and meaningful explanations, establishing it as a valuable benchmark for both the legal profession and the NLP community.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 最適バッチリニアバンド

Optimal Batched Linear Bandits ( http://arxiv.org/abs/2406.04137v1 )

ライセンス: Link先を確認
Xuanfei Ren, Tianyuan Jin, Pan Xu, (参考訳) 本稿では,探索・推定・消去・探索の枠組みを取り入れたバッチ線形バンドイット問題に対するE$^4$アルゴリズムを提案する。 探索レートの適切な選択により、E$^4$は、O(\log\log T)$バッチのみで有限時間ミニマックス最適後悔を達成し、漸近的に最適な後悔は、$T\rightarrow\infty$としてわずか$3$のバッチでしか達成しない。 さらに、任意の漸近的最適アルゴリズムは、少なくとも$T\rightarrow\infty$として3$のバッチを必要とすることを示し、E$^4$は後悔とバッチの複雑さを同時に漸近的最適性を達成することを示す。 我々の知る限り、E$^4$は、対応する最適バッチ複素量に後悔してミニマックスと漸近最適性を同時に達成する線形バンディットの最初のアルゴリズムである。 さらに、探索レートの別の選択により、E$^4$は、最大$O(\log T)$バッチを必要とするインスタンス依存の後悔境界を達成し、極小最適性と漸近最適性を維持することを示す。 我々は、ランダムに生成されたインスタンス上でアルゴリズムを評価するための徹底的な実験を行い、最適化に基づくアルゴリズムの学習が困難であることが判明した、挑戦的な \textit{End of Optimism} インスタンス \citep{lattimore2017end} について検討した。 実験結果によると、E$^4$は、後悔の最小化、バッチの複雑さ、計算効率に関して、ベースラインアルゴリズムを一貫して上回っている。

We introduce the E$^4$ algorithm for the batched linear bandit problem, incorporating an Explore-Estimate-Eliminate-Exploit framework. With a proper choice of exploration rate, we prove E$^4$ achieves the finite-time minimax optimal regret with only $O(\log\log T)$ batches, and the asymptotically optimal regret with only $3$ batches as $T\rightarrow\infty$, where $T$ is the time horizon. We further prove a lower bound on the batch complexity of linear contextual bandits showing that any asymptotically optimal algorithm must require at least $3$ batches in expectation as $T\rightarrow\infty$, which indicates E$^4$ achieves the asymptotic optimality in regret and batch complexity simultaneously. To the best of our knowledge, E$^4$ is the first algorithm for linear bandits that simultaneously achieves the minimax and asymptotic optimality in regret with the corresponding optimal batch complexities. In addition, we show that with another choice of exploration rate E$^4$ achieves an instance-dependent regret bound requiring at most $O(\log T)$ batches, and maintains the minimax optimality and asymptotic optimality. We conduct thorough experiments to evaluate our algorithm on randomly generated instances and the challenging \textit{End of Optimism} instances \citep{lattimore2017end} which were shown to be hard to learn for optimism based algorithms. Empirical results show that E$^4$ consistently outperforms baseline algorithms with respect to regret minimization, batch complexity, and computational efficiency.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 3D-PC:人間と機械の視覚的視点評価のためのベンチマーク

The 3D-PC: a benchmark for visual perspective taking in humans and machines ( http://arxiv.org/abs/2406.04138v1 )

ライセンス: Link先を確認
Drew Linsley, Peisen Zhou, Alekh Karkada Ashok, Akash Nagaraj, Gaurav Gaonkar, Francis E Lewis, Zygmunt Pizlo, Thomas Serre, (参考訳) 視覚的な視点を取る(VPT)とは、他人の視点を知覚し、解釈する能力である。 それは人間の知性の本質的な特徴であり、それは人生の最初の10年間で発展し、視覚シーンの3D構造を処理する能力を必要とする。 ディープニューラルネットワーク(DNN)は、大規模な画像データセットのトレーニング後に3Dシーンを分析できるようになる、という報告が増えている。 DNNにおけるこの3D解析能力は、人間とDNNにおける3D知覚の新たなベンチマークである3D-PCを用いたVPTにとって十分かどうかを検討した。 3D-PCは3つの3次元解析タスクからなる。 1. オブジェクト深度順序の簡単なテスト。 2.基本的なVPTタスク(VPTベース)、及び 3.「ショートカット」視覚戦略の有効性を制限するために設計されたVPT(VPT-Strategy)の別のバージョン。 被験者(N=33)を検定し,300以上のDNNを直線的に探り,テキストで分析したところ,ほぼすべてのDNNが対象の深度を解析するためにヒトの精度に近づいたか超えた。 驚くべきことに、このタスクにおけるDNNの精度は、オブジェクト認識性能と相関する。 対照的に、VPTベース上では、DNNと人間の間には異常なギャップがあった。 人間はほとんど完璧だったが、ほとんどのDNNはチャンスに近かった。 VPT-basicで微調整されたDNNは、人間のパフォーマンスに近づいたものの、VPT-perturbでテストすると、人間とは異なり、チャンスを逃した。 我々の課題は、今日のDNNのトレーニングルーチンとアーキテクチャが、シーンやオブジェクトの基本的な3D特性を学ぶのに適しているが、人間のようにこれらの特性を推論するのに不適であることを実証している。 私たちは、人間と機械の間の3D知覚のギャップを埋めるために、私たちの3D-PCデータセットとコードをリリースします。

Visual perspective taking (VPT) is the ability to perceive and reason about the perspectives of others. It is an essential feature of human intelligence, which develops over the first decade of life and requires an ability to process the 3D structure of visual scenes. A growing number of reports have indicated that deep neural networks (DNNs) become capable of analyzing 3D scenes after training on large image datasets. We investigated if this emergent ability for 3D analysis in DNNs is sufficient for VPT with the 3D perception challenge (3D-PC): a novel benchmark for 3D perception in humans and DNNs. The 3D-PC is comprised of three 3D-analysis tasks posed within natural scene images: 1. a simple test of object depth order, 2. a basic VPT task (VPT-basic), and 3. another version of VPT (VPT-Strategy) designed to limit the effectiveness of "shortcut" visual strategies. We tested human participants (N=33) and linearly probed or text-prompted over 300 DNNs on the challenge and found that nearly all of the DNNs approached or exceeded human accuracy in analyzing object depth order. Surprisingly, DNN accuracy on this task correlated with their object recognition performance. In contrast, there was an extraordinary gap between DNNs and humans on VPT-basic. Humans were nearly perfect, whereas most DNNs were near chance. Fine-tuning DNNs on VPT-basic brought them close to human performance, but they, unlike humans, dropped back to chance when tested on VPT-perturb. Our challenge demonstrates that the training routines and architectures of today's DNNs are well-suited for learning basic 3D properties of scenes and objects but are ill-suited for reasoning about these properties like humans do. We release our 3D-PC datasets and code to help bridge this gap in 3D perception between humans and machines.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 確率的ポリアークステップサイズとモーメント:収束保証と実用性

Stochastic Polyak Step-sizes and Momentum: Convergence Guarantees and Practical Performance ( http://arxiv.org/abs/2406.04142v1 )

ライセンス: Link先を確認
Dimitris Oikonomou, Nicolas Loizou, (参考訳) Stochastic Heavy Ball Method (SHB) は、様々な機械学習タスクにおける大規模確率最適化問題の解法として最も一般的なアルゴリズムの1つである。 実際のシナリオでは、手法のステップサイズと運動量パラメータをチューニングするのは、極めて高価で時間を要するプロセスである。 本研究は,確率勾配降下(SGD)の性能における確率的ポリアックの段差の最近の利点に着想を得て,SHB法の更新規則に適した新しいポリアック型変種を提案し,検討する。 特に、SHBの反復移動平均(IMA)視点を用いて、3つの新しいステップサイズ選択(MomSPS$_{\max}$, MomDecSPS, MomAdaSPS)を提案し、解析する。 MomSPS$_{\max}$ に対して、SHB の収束保証を凸および滑らかな問題(補間を仮定せずに)の解の近傍に与える。 補間も満たされるなら、MomSPS$_{\max}$ を用いて、SHB は決定論的 HB と一致する高速速度で真の解に収束する。 他の2つの変種であるMomDecSPSとMomAdaSPSはSHBの最初の適応的なステップサイズであり、問題パラメータの事前の知識や補間を仮定することなく、正確な最小値への収束を保証する。 SHBの収束解析は厳密であり、確率的ポリアークのステップサイズを持つSGDの収束保証を得る。 我々は,この理論を検証し,新しいアルゴリズムの有効性とロバスト性を実証する実験で解析を補足する。

Stochastic gradient descent with momentum, also known as Stochastic Heavy Ball method (SHB), is one of the most popular algorithms for solving large-scale stochastic optimization problems in various machine learning tasks. In practical scenarios, tuning the step-size and momentum parameters of the method is a prohibitively expensive and time-consuming process. In this work, inspired by the recent advantages of stochastic Polyak step-size in the performance of stochastic gradient descent (SGD), we propose and explore new Polyak-type variants suitable for the update rule of the SHB method. In particular, using the Iterate Moving Average (IMA) viewpoint of SHB, we propose and analyze three novel step-size selections: MomSPS$_{\max}$, MomDecSPS, and MomAdaSPS. For MomSPS$_{\max}$, we provide convergence guarantees for SHB to a neighborhood of the solution for convex and smooth problems (without assuming interpolation). If interpolation is also satisfied, then using MomSPS$_{\max}$, SHB converges to the true solution at a fast rate matching the deterministic HB. The other two variants, MomDecSPS and MomAdaSPS, are the first adaptive step-sizes for SHB that guarantee convergence to the exact minimizer without prior knowledge of the problem parameters and without assuming interpolation. The convergence analysis of SHB is tight and obtains the convergence guarantees of SGD with stochastic Polyak step-sizes as a special case. We supplement our analysis with experiments that validate the theory and demonstrate the effectiveness and robustness of the new algorithms.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 言語モデルはモラルを理解するか? : モラル内容のロバストな検出に向けて

Do Language Models Understand Morality? Towards a Robust Detection of Moral Content ( http://arxiv.org/abs/2406.04143v1 )

ライセンス: Link先を確認
Luana Bulla, Aldo Gangemi, Misael Mongiovì, (参考訳) テキストにおける道徳的価値を検出するタスクは、自然言語処理、社会科学、倫理的意思決定など、様々な分野で重要な意味を持つ。 従来提案された教師付きモデルは、しばしば過度な適合に悩まされ、異なるドメインのデータでうまく機能するのに苦労する、過度に専門化されたモラル分類器に繋がる。 この問題に対処するために,複数のデータソースのトレーニングの前の段階において,大規模言語モデルと自然言語推論モデルから得られた抽象概念と常識知識を活用する新しいシステムを導入する。 そこで本研究では,現実のシナリオにおける道徳的価値を検出する汎用的で堅牢な手法を開発することを目的とする。 提案手法では,GPT 3.5モデルをモラル値検出のためのゼロショット対応無教師付きマルチラベル分類器として使用し,ラベル付きデータに対する明示的なトレーニングを不要とした。 より小さなNLIベースのゼロショットモデルと比較する。 その結果,NLI法はダヴィンチモデルと比較して競争力のある結果が得られることがわかった。 さらに、クロスドメインマルチラベル道徳的価値検出の文脈において、教師付きシステムの性能を詳細に調査する。 これには、異なるドメイン上の教師付きモデルをトレーニングし、異なるソースからのデータを処理し、教師なしのメソッドとパフォーマンスを比較して、その有効性を調べることが含まれる。 我々の貢献は、クロスドメイン値検出のための教師なしおよび教師なしの両方の方法論の徹底的な分析を含む。 我々は、ダヴィンチモデルを最先端のゼロショット非教師付きモラル値分類器として導入し、ラベル付きデータに対する明示的なトレーニングを必要とせず、モラル値検出の境界を推し進める。 さらに、教師付きモデルによるアプローチの比較評価を行い、それぞれの強みと弱みに光を当てる。

The task of detecting moral values in text has significant implications in various fields, including natural language processing, social sciences, and ethical decision-making. Previously proposed supervised models often suffer from overfitting, leading to hyper-specialized moral classifiers that struggle to perform well on data from different domains. To address this issue, we introduce novel systems that leverage abstract concepts and common-sense knowledge acquired from Large Language Models and Natural Language Inference models during previous stages of training on multiple data sources. By doing so, we aim to develop versatile and robust methods for detecting moral values in real-world scenarios. Our approach uses the GPT 3.5 model as a zero-shot ready-made unsupervised multi-label classifier for moral values detection, eliminating the need for explicit training on labeled data. We compare it with a smaller NLI-based zero-shot model. The results show that the NLI approach achieves competitive results compared to the Davinci model. Furthermore, we conduct an in-depth investigation of the performance of supervised systems in the context of cross-domain multi-label moral value detection. This involves training supervised models on different domains to explore their effectiveness in handling data from different sources and comparing their performance with the unsupervised methods. Our contributions encompass a thorough analysis of both supervised and unsupervised methodologies for cross-domain value detection. We introduce the Davinci model as a state-of-the-art zero-shot unsupervised moral values classifier, pushing the boundaries of moral value detection without the need for explicit training on labeled data. Additionally, we perform a comparative evaluation of our approach with the supervised models, shedding light on their respective strengths and weaknesses.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# ロボット学習のための冗長性を考慮した行動空間

Redundancy-aware Action Spaces for Robot Learning ( http://arxiv.org/abs/2406.04144v1 )

ライセンス: Link先を確認
Pietro Mazzaglia, Nicholas Backshall, Xiao Ma, Stephen James, (参考訳) 共同空間制御とタスク空間制御は、ロボット学習文学におけるロボットアームを制御する2つの主要な動作モードである。 関節空間でのアクションはロボットの姿勢を正確に制御するが、非効率な訓練に苦しむ傾向がある。 本研究は,ロボット操作のための動作空間設計の基準を解析し,操作子に存在する冗長性に対処することで,作業空間と作業空間の利点を両立させることを目標とし,ロボットアームの精密な包括的制御を高能率なロボットアームで実現しつつ実現することを目的とした,新しい動作空間定式化であるER(End-effector Redundancy)を導入する。 本稿では,ERアングル(ERA)とERJoint(ERJ)の2つの実装について述べる。 シミュレーションと実際のロボット環境の両方で結果を検証する。

Joint space and task space control are the two dominant action modes for controlling robot arms within the robot learning literature. Actions in joint space provide precise control over the robot's pose, but tend to suffer from inefficient training; actions in task space boast data-efficient training but sacrifice the ability to perform tasks in confined spaces due to limited control over the full joint configuration. This work analyses the criteria for designing action spaces for robot manipulation and introduces ER (End-effector Redundancy), a novel action space formulation that, by addressing the redundancies present in the manipulator, aims to combine the advantages of both joint and task spaces, offering fine-grained comprehensive control with overactuated robot arms whilst achieving highly efficient robot learning. We present two implementations of ER, ERAngle (ERA) and ERJoint (ERJ), and we show that ERJ in particular demonstrates superior performance across multiple settings, especially when precise control over the robot configuration is required. We validate our results both in simulated and real robotic environments.
翻訳日:2024-06-07 14:30:04 公開日:2024-06-06
# 答えのすべて:確率的対策による常識の評価

Every Answer Matters: Evaluating Commonsense with Probabilistic Measures ( http://arxiv.org/abs/2406.04145v1 )

ライセンス: Link先を確認
Qi Cheng, Michael Boratko, Pranay Kumar Yelugam, Tim O'Gorman, Nalini Singh, Andrew McCallum, Xiang Lorraine Li, (参考訳) 大規模な言語モデルは、コモンセンスタスクにおいて印象的なパフォーマンスを示してきたが、これらのタスクは、しばしば複数の選択の質問として提示され、モデルが体系的なバイアスを活用できる。 Commonsenseは本質的には確率的であり、複数の正しい答えがある。 沸騰する水」の目的は、茶と料理を作ることであったが、菌類を殺すこともできた。 既存のタスクは、常識の確率的性質を捉えない。 この目的のために、複数のオープンエンド世代を通して常識を評価する新しい生成タスクであるCommonsense frame completion (CFC)を提案する。 また,人間の判断と強く相関する確率的評価法を提案する。 人間はデータセット上で強い言語モデルベースラインを大幅に上回り、このアプローチは、マシンの常識を困難かつ有用な評価であることを示している。

Large language models have demonstrated impressive performance on commonsense tasks; however, these tasks are often posed as multiple-choice questions, allowing models to exploit systematic biases. Commonsense is also inherently probabilistic with multiple correct answers. The purpose of "boiling water" could be making tea and cooking, but it also could be killing germs. Existing tasks do not capture the probabilistic nature of common sense. To this end, we present commonsense frame completion (CFC), a new generative task that evaluates common sense via multiple open-ended generations. We also propose a method of probabilistic evaluation that strongly correlates with human judgments. Humans drastically outperform strong language model baselines on our dataset, indicating this approach is both a challenging and useful evaluation of machine common sense.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 内因性バイアスのレンズを通してのタスク非依存的嫌悪感の理解に向けて

Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness ( http://arxiv.org/abs/2406.04146v1 )

ライセンス: Link先を確認
Guangliang Liu, Milad Afshari, Xitong Zhang, Zhiyu Xue, Avrajit Ghosh, Bidhan Bashyal, Rongrong Wang, Kristen Johnson, (参考訳) タスク非依存のデバイアスは、下流データへの顕著な一般化性と信頼性の低下をもたらすが、言語モデリング能力への影響と、下流タスク固有のデータから社会的バイアスを再学習するリスクは、事前訓練された言語モデル(PLM)をデバイアスする際の2つの重要な課題として残されている。 言語モデリング能力に影響を及ぼす影響は、高品質でコンテキストの長いデバイアスコーパスによって緩和できるが、リラーニングバイアスの具体性を理解する上ではまだ不十分である。 ダウンストリームアプリケーションに使用されるタスク固有データとデバイアスモデルの両方の量的バイアスレベルに対して、タスク非依存のデバイアス・ヒンジの有効性を実証的に確認する。 実験により,下流の微調整モデルのバイアスレベルの下限は,デバイアスモデルのバイアスレベルによって近似できることを示した。 本研究では, PLM の忘れ問題による微調整中に PLM のパラメータがどう変化するか, より深く理解するために, 下流の微調整 ProSocialTuning に社会的に公平なデバイアスを伝達できる新しい枠組みを提案する。 提案手法は, 上流の微調整中に下限のバイアスにアプローチするために微調整モデルを推し進めることにより, PLMの偏りレベルを事前学習や偏りの段階から順応することで, 脱バイアスの非効率性を回避できることを示唆する。

While task-agnostic debiasing provides notable generalizability and reduced reliance on downstream data, its impact on language modeling ability and the risk of relearning social biases from downstream task-specific data remain as the two most significant challenges when debiasing Pretrained Language Models (PLMs). The impact on language modeling ability can be alleviated given a high-quality and long-contextualized debiasing corpus, but there remains a deficiency in understanding the specifics of relearning biases. We empirically ascertain that the effectiveness of task-agnostic debiasing hinges on the quantitative bias level of both the task-specific data used for downstream applications and the debiased model. We empirically show that the lower bound of the bias level of the downstream fine-tuned model can be approximated by the bias level of the debiased model, in most practical cases. To gain more in-depth understanding about how the parameters of PLMs change during fine-tuning due to the forgetting issue of PLMs, we propose a novel framework which can Propagate Socially-fair Debiasing to Downstream Fine-tuning, ProSocialTuning. Our proposed framework can push the fine-tuned model to approach the bias lower bound during downstream fine-tuning, indicating that the ineffectiveness of debiasing can be alleviated by overcoming the forgetting issue through regularizing successfully debiased attention heads based on the PLMs' bias levels from stages of pretraining and debiasing.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 局所感性ハッシュを用いた高速再記述マイニング

Fast Redescription Mining Using Locality-Sensitive Hashing ( http://arxiv.org/abs/2406.04148v1 )

ライセンス: Link先を確認
Maiju Karjalainen, Esther Galbrun, Pauli Miettinen, (参考訳) リセプションマイニング(英: Redescription mining)は、さまざまな分野の応用を見出したデータ分析技術である。 最もよく使われている再記述マイニング手法には、データ属性間のマッチングペアを見つけ、ペアを拡張するという2つのフェーズがある。 このプロセスは、属性の数が制限されたままであり、属性がBooleanである場合には比較的効率的であるが、多くの数値属性で構成されるとほとんど難解になる。 本稿では,既存の手法よりも高速にマッチングおよび拡張順序を実行するアルゴリズムを提案する。 提案アルゴリズムは局所性に敏感なハッシュに基づいており, 数値属性の離散化を再現マイニングに用いた。

Redescription mining is a data analysis technique that has found applications in diverse fields. The most used redescription mining approaches involve two phases: finding matching pairs among data attributes and extending the pairs. This process is relatively efficient when the number of attributes remains limited and when the attributes are Boolean, but becomes almost intractable when the data consist of many numerical attributes. In this paper, we present new algorithms that perform the matching and extension orders of magnitude faster than the existing approaches. Our algorithms are based on locality-sensitive hashing with a tailored approach to handle the discretisation of numerical attributes as used in redescription mining.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 空中画像解析を用いた深層岩盤の分離特性評価

Characterizing segregation in blast rock piles a deep-learning approach leveraging aerial image analysis ( http://arxiv.org/abs/2406.04149v1 )

ライセンス: Link先を確認
Chengeng Liu, Sihong Liu, Chaomin Shen, Yupeng Gao, Yuxuan Liu, (参考訳) 砕石材は, 様々な工学的応用において重要な役割を担っているが, 採石場の傾斜によって, 分別粒子径が著しく変化する現象は, 採石場の貯蔵と処理を最適化する上での課題を表している。 本研究では, 岩盤断片の分離を特徴付ける高度な画像解析手法を提案する。 ドローンが捉えた画像の解析と拡張ベースの後処理技術と統合された拡張Unetセマンティックセマンティックセグメンテーションモデルの適用により,詳細な岩片サイズ分布の正確なデライン化を実現した。 採石場の斜面は4つの縦断面に成層し, 楕円形状近似による各断面の大きさ分布の定量化を行った。 以上の結果から, 垂直偏析パターンが明らかになり, より微細な粒子が上部斜面に集中し, 粗い粒子が下部に分布することが明らかとなった。 相対的な特徴径を生かして, 偏析の程度を把握し, 破片径の空間的不均一性をより明確に表現した。 本研究で概説した手法は, 採石場管理において, 資源管理や運用上の意思決定をより効果的に行えるように, フラグメントサイズの分布を評価するためのスケーラブルで正確な手法を提供するものである。

Blasted rock material serves a critical role in various engineering applications, yet the phenomenon of segregation-where particle sizes vary significantly along the gradient of a quarry pile-presents challenges for optimizing quarry material storage and handling. This study introduces an advanced image analysis methodology to characterize such segregation of rock fragments. The accurate delineation of detailed rock fragment size distributions was achieved through the analysis of drone-captured imagery, coupled with the application of an enhanced Unet semantic segmentation model integrated with an expansion-based post-processing technique. The quarry slope was stratified into four vertical sections, with the size distribution of each section quantified via ellipsoid shape approximations. Our results disclose pronounced vertical segregation patterns, with finer particles concentrated in the upper slope regions and coarser particles in the lower. Utilizing relative characteristic diameters, we offered insight into the degree of segregation, thereby illustrating the spatial heterogeneity in fragment size more clearly. The techniques outlined in this study deliver a scalable and accurate method for assessing fragment size distribution, with the potential to better inform resource management and operational decisions in quarry management.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 外部収容・検出のための$t$分布を用いた新しいロバストメタ分析モデル

A novel robust meta-analysis model using the $t$ distribution for outlier accommodation and detection ( http://arxiv.org/abs/2406.04150v1 )

ライセンス: Link先を確認
Yue Wang, Jianhua Zhao, Fen Jiang, Lei Shi, Jianxin Pan, (参考訳) ランダム効果メタ分析モデルは、複数の独立した研究結果を統合する上で重要なツールである。 しかし、標準モデルはランダム効果とイントラスタディエラーの両方の正規分布の仮定に基づいており、外見的な研究には影響しない。 $t$分布を用いたロバストなモデリングは魅力的なアイデアであるが、既存の研究は$t$分布をランダムな効果にのみ使用することを探り、複雑な数値積分と数値最適化を伴っている。 本稿では,$t$分布を用いた新しいロバストメタ分析モデルを提案する(t$Meta)。 新規性は、$t$Meta における効果サイズの限界分布が $t$Meta の分布に従えば、$t$Meta が同時に、シンプルで適応的な方法で外部研究を適応および検出できるということである。 簡易かつ高速なEM型アルゴリズムを極大推定のために開発した。 $t$分布の数学的トラクタビリティのため、$t$Metaは数値積分から解放され、効率的な最適化が可能である。 実際のデータでの実験では、$t$Metaは、穏やかなアウトリーチを伴う状況において、関連する競合と好意的に比較されている。 さらに、粗悪なアウトリーチの存在下では、関連する競合が失敗する可能性があるが、$t$Metaは一貫して、堅牢なパフォーマンスを続けている。

Random effects meta-analysis model is an important tool for integrating results from multiple independent studies. However, the standard model is based on the assumption of normal distributions for both random effects and within-study errors, making it susceptible to outlying studies. Although robust modeling using the $t$ distribution is an appealing idea, the existing work, that explores the use of the $t$ distribution only for random effects, involves complicated numerical integration and numerical optimization. In this paper, a novel robust meta-analysis model using the $t$ distribution is proposed ($t$Meta). The novelty is that the marginal distribution of the effect size in $t$Meta follows the $t$ distribution, enabling that $t$Meta can simultaneously accommodate and detect outlying studies in a simple and adaptive manner. A simple and fast EM-type algorithm is developed for maximum likelihood estimation. Due to the mathematical tractability of the $t$ distribution, $t$Meta frees from numerical integration and allows for efficient optimization. Experiments on real data demonstrate that $t$Meta is compared favorably with related competitors in situations involving mild outliers. Moreover, in the presence of gross outliers, while related competitors may fail, $t$Meta continues to perform consistently and robustly.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# AgentGym: さまざまな環境にまたがる大規模言語モデルベースエージェントの進化

AgentGym: Evolving Large Language Model-based Agents across Diverse Environments ( http://arxiv.org/abs/2406.04151v1 )

ライセンス: Link先を確認
Zhiheng Xi, Yiwen Ding, Wenxiang Chen, Boyang Hong, Honglin Guo, Junzhe Wang, Dingwen Yang, Chenyang Liao, Xin Guo, Wei He, Songyang Gao, Lu Chen, Rui Zheng, Yicheng Zou, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang, (参考訳) 多様なタスクを処理し、異なる環境を横断して進化できるジェネラリストエージェントを構築することは、AIコミュニティの長期的な目標である。 大規模言語モデル(LLM)は、一般化された機能のためにそのようなエージェントを構築するための有望な基盤と考えられている。 現在のアプローチでは、LSMベースのエージェントが専門家が提供する軌道を段階的に模倣し、人間の監督を必要とする。 本稿では,自己進化能力を備えた汎用LLMエージェント構築に向けた第一歩を踏み出す。 具材の種類は次の3つです。 1)エージェント探索と学習のための多様な環境。 2 エージェントに基本的な能力及び事前知識を持たせるための軌道 3) 効果的でスケーラブルな進化法。 我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。 AgentGymには、拡張されたインストラクション、ベンチマークスイート、環境横断の高品質なトラジェクトリを含むデータベースも含まれている。 次に,従来のタスクや環境にまたがるデータを超えて,エージェントの自己進化の可能性を調べる新しい手法であるAgentEvolを提案する。 実験の結果, 進化したエージェントはSOTAモデルに匹敵する結果が得られることがわかった。 AgentGymスイートには、プラットフォーム、データセット、ベンチマーク、チェックポイント、アルゴリズムの実装が含まれています。 AgentGymスイートはhttps://github.com/WooooDyy/AgentGym.comで入手できる。

Building generalist agents that can handle diverse tasks and evolve themselves across different environments is a long-term goal in the AI community. Large language models (LLMs) are considered a promising foundation to build such agents due to their generalized capabilities. Current approaches either have LLM-based agents imitate expert-provided trajectories step-by-step, requiring human supervision, which is hard to scale and limits environmental exploration; or they let agents explore and learn in isolated environments, resulting in specialist agents with limited generalization. In this paper, we take the first step towards building generally-capable LLM-based agents with self-evolution ability. We identify a trinity of ingredients: 1) diverse environments for agent exploration and learning, 2) a trajectory set to equip agents with basic capabilities and prior knowledge, and 3) an effective and scalable evolution method. We propose AgentGym, a new framework featuring a variety of environments and tasks for broad, real-time, uni-format, and concurrent agent exploration. AgentGym also includes a database with expanded instructions, a benchmark suite, and high-quality trajectories across environments. Next, we propose a novel method, AgentEvol, to investigate the potential of agent self-evolution beyond previously seen data across tasks and environments. Experimental results show that the evolved agents can achieve results comparable to SOTA models. We release the AgentGym suite, including the platform, dataset, benchmark, checkpoints, and algorithm implementations. The AgentGym suite is available on https://github.com/WooooDyy/AgentGym.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# ポジション:規制がソフトウェアのセキュリティ研究をどのように変えるか

Position: How Regulation Will Change Software Security Research ( http://arxiv.org/abs/2406.04152v1 )

ライセンス: Link先を確認
Steven Arzt, Linda Schreiber, Dominik Appelt, (参考訳) ソフトウェアセキュリティは、長年にわたり重要な研究トピックである。 コミュニティは、セキュアなソフトウェア開発とセキュリティ分析のためのプロセスとツールを提案している。 しかし、実際のソフトウェア駆動システムや製品には、かなりの数の脆弱性が残っている。 この問題を軽減するため、例えば、メーカーに必須のセキュリティ要件を遵守し、適切な開発慣行を確立するよう義務付ける法律が制定されている。 ソフトウェア工学の研究は、効率的なプロセスを保ちながら、業界が新しい標準に準拠するのに役立つより良いツールとサポートを提供する必要がある、と私たちは主張する。 我々は、法学者とコンピュータ科学者のより強力な協力と、より高いレベルの規制とコードレベルのエンジニアリングのギャップを埋めることを主張します。

Software security has been an important research topic over the years. The community has proposed processes and tools for secure software development and security analysis. However, a significant number of vulnerabilities remains in real-world software-driven systems and products. To alleviate this problem, legislation is being established to oblige manufacturers, for example, to comply with essential security requirements and to establish appropriate development practices. We argue that software engineering research needs to provide better tools and support that helps industry comply with the new standards while retaining effcient processes. We argue for a stronger cooperation between legal scholars and computer scientists, and for bridging the gap between higher-level regulation and code-level engineering.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 自動機能エンジニアリングのための学習された特徴重要度スコア

Learned Feature Importance Scores for Automated Feature Engineering ( http://arxiv.org/abs/2406.04153v1 )

ライセンス: Link先を確認
Yihe Dong, Sercan Arik, Nathanael Yoder, Tomas Pfister, (参考訳) 機能エンジニアリングは、小さなデータ構造や分散シフトが深刻である場合など、多くの機械学習ワークフローにかなりの有用性を示している。 したがって、この機能を自動化すれば、多くの手作業が軽減され、モデルのパフォーマンスが向上します。 そこで我々は,高い精度,低レイテンシを実現する自動機能エンジニアリングフレームワークであるAutoMAN(Automated Mask-based Feature Engineering)を提案する。 AutoMANは、変換された特徴を明確に示さずに、候補の変換空間を効果的に探索することに基づいている。 これは、時系列などの他のモダリティをサポートするために拡張できる特徴重要マスクの学習によって達成される。 AutoMANは、データセットのタスクターゲットを直接機能エンジニアリングに組み込むことで、機能変換の重要性をエンドツーエンドに学習する。

Feature engineering has demonstrated substantial utility for many machine learning workflows, such as in the small data regime or when distribution shifts are severe. Thus automating this capability can relieve much manual effort and improve model performance. Towards this, we propose AutoMAN, or Automated Mask-based Feature Engineering, an automated feature engineering framework that achieves high accuracy, low latency, and can be extended to heterogeneous and time-varying data. AutoMAN is based on effectively exploring the candidate transforms space, without explicitly manifesting transformed features. This is achieved by learning feature importance masks, which can be extended to support other modalities such as time series. AutoMAN learns feature transform importance end-to-end, incorporating a dataset's task target directly into feature engineering, resulting in state-of-the-art performance with significantly lower latency compared to alternatives.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# ラグランジアン粒子最適化を用いた物理増強連続神経放射場に基づく幾何-非依存系の同定

Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization ( http://arxiv.org/abs/2406.04155v1 )

ライセンス: Link先を確認
Takuhiro Kaneko, (参考訳) 幾何学に依存しないシステム識別(Geometry-Agnostic System Identification)は、幾何学的な仮定なしにビデオシーケンスから物体の幾何学的特性と物理的性質を識別する技術である。 近年, 物理増強連続体ニューラル放射場 (PAC-NeRF) は, ユーレリア・ラグランジアンのハイブリッド表現を用いて, 幾何学をNeRFのユーレリア格子表現で表現し, 物理を物質点法 (MPM) で記述し, ラグランジアン粒子を介して接続することで, この手法の有望な結果を証明している。 しかしながら、PAC-NeRFの顕著な制限は、その2ステップの最適化のため、その性能が第1フレームからの幾何学の学習に敏感である点である。 まず、グリッド表現をビデオシーケンスの第1フレームに最適化し、固定された第1フレームグリッド表現を利用して物理特性をビデオシーケンスで最適化する。 この制限は、例えば数ショット(スパースビュー)の設定など、幾何学的構造を学ぶのが難しいときに重要である。 この制限を克服するため,ラグランジアン粒子最適化(LPO)を提案し,粒子の位置と特徴をラグランジアン空間内のビデオシーケンスによって最適化する。 この方法では、MPMによって課される物理的制約の中で、ビデオシーケンス全体にわたって幾何学的構造を最適化することができる。 実験により,LPOはスパースビュー設定における幾何補正や物理的同定に有用であることが示された。

Geometry-agnostic system identification is a technique for identifying the geometry and physical properties of an object from video sequences without any geometric assumptions. Recently, physics-augmented continuum neural radiance fields (PAC-NeRF) has demonstrated promising results for this technique by utilizing a hybrid Eulerian-Lagrangian representation, in which the geometry is represented by the Eulerian grid representations of NeRF, the physics is described by a material point method (MPM), and they are connected via Lagrangian particles. However, a notable limitation of PAC-NeRF is that its performance is sensitive to the learning of the geometry from the first frames owing to its two-step optimization. First, the grid representations are optimized with the first frames of video sequences, and then the physical properties are optimized through video sequences utilizing the fixed first-frame grid representations. This limitation can be critical when learning of the geometric structure is difficult, for example, in a few-shot (sparse view) setting. To overcome this limitation, we propose Lagrangian particle optimization (LPO), in which the positions and features of particles are optimized through video sequences in Lagrangian space. This method allows for the optimization of the geometric structure across the entire video sequence within the physical constraints imposed by the MPM. The experimental results demonstrate that the LPO is useful for geometric correction and physical identification in sparse-view settings.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# ポインタガイドによる事前学習:パラグラフレベル文脈認識を用いた大規模言語モデルの構築

Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness ( http://arxiv.org/abs/2406.04156v1 )

ライセンス: Link先を確認
Lars Hillebrand, Prabhupad Pradhan, Christian Bauckhage, Rafet Sifa, (参考訳) 大規模言語モデルにおける段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である「ポインタ誘導セグメント順序付け(SO)」を導入する。 本手法は,自己注意型ポインタネットワークを利用して,文書内の構造的コヒーレンスとコンテキスト依存性を捉えるという課題に対処するため,シャッフルテキストセグメントの元のシーケンスを復元する。 この事前トレーニングアプローチは、動的サンプリングを取り入れ、トレーニングインスタンスの多様性を強化し、さまざまなダウンストリームアプリケーションのためのサンプル効率を改善する微調整手法によって補完される。 本手法は多種多様なデータセットを用いて評価し,学術文献および財務報告分野にまたがる逐次テキスト分類を必要とする課題において有効性を示す。 実験の結果,ポインタ誘導による事前学習により,複雑な文書構造を理解する能力が大幅に向上し,下流の分類タスクにおける最先端のパフォーマンスが向上することがわかった。

We introduce "pointer-guided segment ordering" (SO), a novel pre-training technique aimed at enhancing the contextual understanding of paragraph-level text representations in large language models. Our methodology leverages a self-attention-driven pointer network to restore the original sequence of shuffled text segments, addressing the challenge of capturing the structural coherence and contextual dependencies within documents. This pre-training approach is complemented by a fine-tuning methodology that incorporates dynamic sampling, augmenting the diversity of training instances and improving sample efficiency for various downstream applications. We evaluate our method on a diverse set of datasets, demonstrating its efficacy in tasks requiring sequential text classification across scientific literature and financial reporting domains. Our experiments show that pointer-guided pre-training significantly enhances the model's ability to understand complex document structures, leading to state-of-the-art performance in downstream classification tasks.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 猫符号の回路レベルの耐故障性

Circuit-level fault tolerance of cat codes ( http://arxiv.org/abs/2406.04157v1 )

ライセンス: Link先を確認
Long D. H. My, Shushen Qin, Hui Khoon Ng, (参考訳) ボソニック符号は、誤りを訂正する能力を持つ単一の無限次元物理系に量子情報を格納する可能性を提供し、ノイズから保護するために必要な物理成分の数を減少させる。 ボソニックコードにおける現在の取り組みの多くは、損失エラーのみを訂正することであり、フェーズエラー(おそらく積極的に抑制されている)の修正を、標準量子ビットコードによるその後の符号化層に延期することである。 よく知られた猫と二項符号を含む回転対称なボソニック符号は、損失と位相誤差の両方を同時に補正することができ、ベース層で既に任意のエラーを扱う代替経路を提供する。 Grimsmo et al [PRX 10, 011058 (2020)] はこれらの符号の族を解析し、損失と位相誤差の両方を補正する一般的な誤り訂正回路を提案し、誤り訂正回路はノイズのないままである。 しかし、適切な評価では、個々の回路コンポーネント自体が故障し、符号化された情報にエラーを発生させる回路レベルのノイズを考慮する必要がある。 そこで我々は,このような回路レベルの解析を行い,猫コードで符号化された情報の記憶のための誤り訂正回路の性能を評価する。 Grimsmo et al ~の回路は、回路レベルのノイズの下でも正式には耐障害性を持つが、しきい値はかなり悪い。 我々は、待ち時間最適化とスクイーズの使用により、ノイズ要求を短期量子ハードウェアで達成可能なものに復元する方法を示す。 また,回路レベルの解析により,従来の理想回路の視点では見えない誤差補正回路の重要な特徴が明らかになった。

Bosonic codes offer the possibility of storing quantum information in a single infinite-dimensional physical system endowed with the capability to correct errors, thereby reducing the number of physical components needed to protect against noise. Much of the current efforts in bosonic codes are on correcting only loss errors, while deferring the correction of phase errors -- perhaps actively suppressed -- to subsequent layers of encoding with standard qubit codes. Rotationally symmetric bosonic codes, which include the well-known cat and binomial codes, are capable of simultaneous correction of both loss and phase errors, offer an alternate route that deals with arbitrary errors already at the base layer. Grimsmo et al. [PRX 10, 011058 (2020)] analyzed the family of such codes and proposed general error-correction circuits to correct both loss and phase errors, reporting high noise thresholds in the presence of loss and phase errors on the input, while the error-correction circuits remain noiseless. A proper assessment, however, requires consideration of circuit-level noise, where the individual circuit components can themselves be faulty and introduce errors on the encoded information. Here, we carry out such a circuit-level analysis, and assess the performance of the error-correction circuits for the storage of information encoded with cat codes. While the circuits of Grimsmo et al.~are formally fault tolerant even under circuit-level noise, the thresholds are significantly worse. We show how, through waiting-time optimization and the use of squeezing, we can restore the noise requirements to ones plausibly achievable with near-term quantum hardware. Our circuit-level analysis also reveals important features of the error-correction circuits not visible in the earlier ideal-circuit perspective.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 車両目標のスパースマルチベースラインSARクロスモーダル3次元再構成

Sparse Multi-baseline SAR Cross-modal 3D Reconstruction of Vehicle Targets ( http://arxiv.org/abs/2406.04158v1 )

ライセンス: Link先を確認
Da Li, Guoqiang Zhao, Houjun Sun, Jiacheng Bao, (参考訳) マルチベースラインのSAR 3Dイメージングは、データの分散によって大きな課題に直面している。 近年、深層学習技術はスパースSAR3D画像の品質向上に顕著な成功を収めている。 しかしながら、従来の研究は通常、ディープニューラルネットワーク(DNN)のトレーニングを監督するために、完全な高解像度レーダイメージに依存しており、レーダデータからの単一モーダル情報のみを利用している。 その結果、撮像性能は制限され、マルチベースラインSARのフルアパーチャデータを取得することは、現実のアプリケーションではコストがかかり、時には実用的ではない。 本稿では,多基線SAR 3D画像の視覚的構造と高解像度化を両立させるために,異なるレンダリングとクロスモーダルを光学画像と統合したクロスモーダル再構成ネットワーク(CMR-Net)を提案する。 我々は,ネットワークの一般化能力を高めるため,ネットワークアーキテクチャとトレーニング戦略を慎重に設計した。 注目すべきは、シミュレーションデータのみに基づいてトレーニングされたCMR-Netは、公開可能なシミュレーションデータセットと実測データセットの両方で高解像度の再構成機能を示し、圧縮センシングやその他の学習ベースの手法に基づく従来のスパース再構成アルゴリズムよりも優れていることだ。 さらに、光学イメージを監視として使用すると、トレーニングデータセットを構築するためのコスト効率が向上し、メソッドの普及の困難さが軽減される。 本研究は,マルチベースラインSAR 3Dイメージングにおける深層学習の可能性を示すとともに,クロスモーダル学習理論に基づくレーダイメージング研究の新たな道筋を提供する。

Multi-baseline SAR 3D imaging faces significant challenges due to data sparsity. In recent years, deep learning techniques have achieved notable success in enhancing the quality of sparse SAR 3D imaging. However, previous work typically rely on full-aperture high-resolution radar images to supervise the training of deep neural networks (DNNs), utilizing only single-modal information from radar data. Consequently, imaging performance is limited, and acquiring full-aperture data for multi-baseline SAR is costly and sometimes impractical in real-world applications. In this paper, we propose a Cross-Modal Reconstruction Network (CMR-Net), which integrates differentiable render and cross-modal supervision with optical images to reconstruct highly sparse multi-baseline SAR 3D images of vehicle targets into visually structured and high-resolution images. We meticulously designed the network architecture and training strategies to enhance network generalization capability. Remarkably, CMR-Net, trained solely on simulated data, demonstrates high-resolution reconstruction capabilities on both publicly available simulation datasets and real measured datasets, outperforming traditional sparse reconstruction algorithms based on compressed sensing and other learning-based methods. Additionally, using optical images as supervision provides a cost-effective way to build training datasets, reducing the difficulty of method dissemination. Our work showcases the broad prospects of deep learning in multi-baseline SAR 3D imaging and offers a novel path for researching radar imaging based on cross-modal learning theory.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 離散離散マルコフ決定過程におけるエントロピー正規化誤差のシャープ推定

Essentially Sharp Estimates on the Entropy Regularization Error in Discrete Discounted Markov Decision Processes ( http://arxiv.org/abs/2406.04163v1 )

ライセンス: Link先を確認
Johannes Müller, Semih Cayci, (参考訳) 無限水平離散化マルコフ決定過程のエントロピー正規化による誤差について検討する。 この誤差は、重み付きKL偏差と問題固有指数の値の両方において、逆正則化強度において指数関数的に減少することを示す。 多項式係数までの上界に一致する下界を与える。 我々の証明は、エントロピー正則化マルコフ決定過程の解と、自然政策勾配法に共通するリーマン計量に対する非正則化報酬の勾配フローとの対応に依存する。 さらに、この対応により、勾配フローの限界を一般化された最大エントロピー最適ポリシーとして特定することができ、これにより、自然方針勾配法の時間連続バージョンに対応するカカデ勾配フローの暗黙のバイアスを特徴づけることができる。 これを用いて、エントロピー規則化自然ポリシー勾配法では、全体の誤差は既存の線形保証を改善する反復数の平方根で指数関数的に減少することを示す。

We study the error introduced by entropy regularization of infinite-horizon discrete discounted Markov decision processes. We show that this error decreases exponentially in the inverse regularization strength both in a weighted KL-divergence and in value with a problem-specific exponent. We provide a lower bound matching our upper bound up to a polynomial factor. Our proof relies on the correspondence of the solutions of entropy-regularized Markov decision processes with gradient flows of the unregularized reward with respect to a Riemannian metric common in natural policy gradient methods. Further, this correspondence allows us to identify the limit of the gradient flow as the generalized maximum entropy optimal policy, thereby characterizing the implicit bias of the Kakade gradient flow which corresponds to a time-continuous version of the natural policy gradient method. We use this to show that for entropy-regularized natural policy gradient methods the overall error decays exponentially in the square root of the number of iterations improving existing sublinear guarantees.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 埋め込みモデルに言語モデルを組み込む:最適なレシピを見つける

Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe ( http://arxiv.org/abs/2406.04165v1 )

ライセンス: Link先を確認
Alicja Ziarko, Albert Q. Jiang, Bartosz Piotrowski, Wenda Li, Mateja Jamnik, Piotr Miłoś, (参考訳) テキストの埋め込みは、文書検索、クラスタリング、意味的類似性評価など、多くのタスクに必須である。 本稿では,事前学習されたデコーダのみの言語モデルを考えると,テキスト埋め込みモデルを計算最適に学習する方法を検討する。 我々の革新は、異なる計算予算レベルでのテキスト埋め込みモデルのモデルサイズ、データ量、微調整方法の最適構成を生成するアルゴリズムである。 得られたレシピは、広範囲な実験を通じて得られるもので、実践者が埋め込みモデルにインフォームドデザインを選択するために利用することができる。 具体的には, 完全微調整および低ランク適応微調整は, それぞれ, より低い計算予算で最適モデルを生成することが示唆された。

Text embeddings are essential for many tasks, such as document retrieval, clustering, and semantic similarity assessment. In this paper, we study how to contrastively train text embedding models in a compute-optimal fashion, given a suite of pre-trained decoder-only language models. Our innovation is an algorithm that produces optimal configurations of model sizes, data quantities, and fine-tuning methods for text-embedding models at different computational budget levels. The resulting recipe, which we obtain through extensive experiments, can be used by practitioners to make informed design choices for their embedding models. Specifically, our findings suggest that full fine-tuning and low-rank adaptation fine-tuning produce optimal models at lower and higher computational budgets respectively.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 要素的乗法に基づく物理インフォームドニューラルネットワーク

Element-wise Multiplication Based Physics-informed Neural Networks ( http://arxiv.org/abs/2406.04170v1 )

ライセンス: Link先を確認
Feilong Jiang, Xiaonan Hou, Min Xia, (参考訳) 偏微分方程式(PDE)を解くための有望な枠組みとして、物理情報ニューラルネットワーク(PINN)は産業や科学分野から広く注目を集めている。 しかし、表現力の欠如や初期化病理の問題点は、複雑なPDEにPINNを適用するのを妨げている。 本研究では,これらの問題を解決するために,EM-PINN( Element-wise Multiplication Based Physics-informed Neural Networks)を提案する。 要素ワイド乗算演算は、特徴を高次元非線形空間に変換するために採用され、PINNの表現能力を効果的に向上する。 EM-PINNは、要素の乗算操作に適しており、PINNの初期化病理を除去することができる。 提案手法は様々なベンチマークで検証される。 その結果,EM-PINNの表現能力は高いことがわかった。

As a promising framework for resolving partial differential equations (PDEs), physics-informed neural networks (PINNs) have received widespread attention from industrial and scientific fields. However, lack of expressive ability and initialization pathology issues are found to prevent the application of PINNs in complex PDEs. In this work, we propose Element-wise Multiplication Based Physics-informed Neural Networks (EM-PINNs) to resolve these issues. The element-wise multiplication operation is adopted to transform features into high-dimensional, non-linear spaces, which effectively enhance the expressive capability of PINNs. Benefiting from element-wise multiplication operation, EM-PINNs can eliminate the initialization pathologies of PINNs. The proposed structure is verified on various benchmarks. The results show that EM-PINNs have strong expressive ability.
翻訳日:2024-06-07 14:20:13 公開日:2024-06-06
# 衝突: 大規模言語モデル幻覚の意外な価値

Confabulation: The Surprising Value of Large Language Model Hallucinations ( http://arxiv.org/abs/2406.04175v1 )

ライセンス: Link先を確認
Peiqi Sui, Eamon Duede, Sophie Wu, Richard Jean So, (参考訳) 本稿では,大言語モデル (LLM) の幻覚や「対話」を,分類的に否定的な落とし穴ではなく潜在的資源として体系的に防御する。 標準的な見解では、コミュニケーションは本質的に問題であり、AI研究はこの欠陥を排除すべきである。 本稿では,LLMのコミュニケーションの認知的資源としてナラティビティの増大を活用すべく,LLMの可測な意味的特性が人間の正当性を反映している,と論じ,実証的な実証を行った。 言い換えれば、潜在的な価値がある。 具体的には、一般的な幻覚ベンチマークを分析し、幻覚出力は、検証結果と比較して、ナラティリティとセマンティックコヒーレンス(意味的コヒーレンス)のレベルが増大していることを明らかにする。 この発見は、通常、非難の否定的な理解の中で緊張を浮き彫りにしている。 反故意に、LCMが相反する傾向は、コヒーレントな物語文生成の正の能力と密接に関連している可能性があることを示唆している。

This paper presents a systematic defense of large language model (LLM) hallucinations or 'confabulations' as a potential resource instead of a categorically negative pitfall. The standard view is that confabulations are inherently problematic and AI research should eliminate this flaw. In this paper, we argue and empirically demonstrate that measurable semantic characteristics of LLM confabulations mirror a human propensity to utilize increased narrativity as a cognitive resource for sense-making and communication. In other words, it has potential value. Specifically, we analyze popular hallucination benchmarks and reveal that hallucinated outputs display increased levels of narrativity and semantic coherence relative to veridical outputs. This finding reveals a tension in our usually dismissive understandings of confabulation. It suggests, counter-intuitively, that the tendency for LLMs to confabulate may be intimately associated with a positive capacity for coherent narrative-text generation.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# 土壌中の微生物分解シミュレーションのためのVoxel-based Approach: LBMとの比較と形態モデルの改善

A Voxel-based Approach for Simulating Microbial Decomposition in Soil: Comparison with LBM and Improvement of Morphological Models ( http://arxiv.org/abs/2406.04177v1 )

ライセンス: Link先を確認
Mouad Klai, Olivier Monga, Mohamed Soufiane Jouini, Valérie Pot, (参考訳) 本研究では,土壌の3次元マイクロCT画像から有機物の微生物分解をシミュレーションするための新しい計算手法を提案する。 この方法では、複雑な土壌マトリックス内の微生物分解に関与する変換および拡散過程をシミュレートするために、連結ボクセルの評価グラフを用いる。 得られたモデルは、多孔質媒体の拡散変換過程をシミュレートするために適応することができる。 我々は並列化戦略を実装し、暗黙的、明示的、同期的、非同期的なスキームを含む様々な数値手法を探索した。 提案手法を検証するため,LBioSとモザイクモデルによるシミュレーション結果と比較した。 LBioSは拡散のために格子ボルツマン法を使用し、モザイクは球面や楕円体のような幾何学的プリミティブを用いて孔ネットワーク幾何学的モデリング(PNGM)を利用する。 このアプローチは従来のLBMベースのシミュレーションに匹敵する結果を得たが、計算時間の4分の1しか必要としなかった。 モザイクシミュレーションと比較して、提案手法は遅いがより正確であり、キャリブレーションを必要としない。 さらに、PNGMに基づくシミュレーションを強化するための理論的枠組みと応用例を示す。 これは、確率勾配降下と現在のアプローチによって生成されたデータを用いて拡散伝導係数を近似することにより達成される。

This study presents a new computational approach for simulating the microbial decomposition of organic matter, from 3D micro-computed tomography (micro-CT) images of soil. The method employs a valuated graph of connected voxels to simulate transformation and diffusion processes involved in microbial decomposition within the complex soil matrix. The resulting model can be adapted to simulate any diffusion-transformation processes in porous media. We implemented parallelization strategies and explored different numerical methods, including implicit, explicit, synchronous, and asynchronous schemes. To validate our method, we compared simulation outputs with those provided by LBioS and by Mosaic models. LBioS uses a lattice-Boltzmann method for diffusion and Mosaic takes benefit of Pore Network Geometrical Modelling (PNGM) by means of geometrical primitives such as spheres and ellipsoids. This approach achieved comparable results to traditional LBM-based simulations, but required only one-fourth of the computing time. Compared to Mosaic simulation, the proposed method is slower but more accurate and does not require any calibration. Furthermore, we present a theoretical framework and an application example to enhance PNGM-based simulations. This is accomplished by approximating the diffusional conductance coefficients using stochastic gradient descent and data generated by the current approach.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# 意味的先行表現を暗黙的神経表現の重みに符号化する

Encoding Semantic Priors into the Weights of Implicit Neural Representation ( http://arxiv.org/abs/2406.04178v1 )

ライセンス: Link先を確認
Zhicheng Cai, Qiu Shen, (参考訳) Inlicit Neural representation (INR) は、最近信号表現のための有望なパラダイムとして登場し、座標を入力として取り、対応する信号値を生成する。 これらの座標には意味的特徴がないため、INRは意味的な情報を考慮に入れない。 しかし、セマンティック情報は多くの視覚的タスク、特に視覚信号表現において批判的であることが証明されている。 本稿では,INRの重みに先立って意味を符号化し,INRに意味情報を暗黙的に含み,表現能力を高めるSPWと呼ばれる再パラメータ化手法を提案する。 具体的には、セマンティックニューラルネットワーク(SNN)を用いて、ターゲット視覚信号の低レベルと高レベルの両方の意味情報を抽出し、重み生成ネットワーク(WGN)に入力された意味ベクトルを生成し、INRモデルの重みを生成する。 最後に、INRは生成した重みとセマンティックプライドを使用して、座標を信号値にマッピングする。 トレーニング後、私たちはSNNとWGNの両方を放棄しながら生成した重量しか保持しないため、SPWは推論に余分なコストを伴わない。 実験の結果,SPWは画像適合性,CT再構成,MRI再構成,新しいビュー合成など,様々なタスクにおいて,INRモデルの性能を著しく向上させることができることがわかった。 さらなる実験では、SPWを用いたモデルは重量冗長性が低く、より新しい表現を学習し、SPWの有効性を検証する。

Implicit neural representation (INR) has recently emerged as a promising paradigm for signal representations, which takes coordinates as inputs and generates corresponding signal values. Since these coordinates contain no semantic features, INR fails to take any semantic information into consideration. However, semantic information has been proven critical in many vision tasks, especially for visual signal representation. This paper proposes a reparameterization method termed as SPW, which encodes the semantic priors to the weights of INR, thus making INR contain semantic information implicitly and enhancing its representational capacity. Specifically, SPW uses the Semantic Neural Network (SNN) to extract both low- and high-level semantic information of the target visual signal and generates the semantic vector, which is input into the Weight Generation Network (WGN) to generate the weights of INR model. Finally, INR uses the generated weights with semantic priors to map the coordinates to the signal values. After training, we only retain the generated weights while abandoning both SNN and WGN, thus SPW introduces no extra costs in inference. Experimental results show that SPW can improve the performance of various INR models significantly on various tasks, including image fitting, CT reconstruction, MRI reconstruction, and novel view synthesis. Further experiments illustrate that model with SPW has lower weight redundancy and learns more novel representations, validating the effectiveness of SPW.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# ボンド散逸による境界散逸系の緩和時間操作

Manipulating the Relaxation Time of Boundary-Dissipative Systems through Bond Dissipation ( http://arxiv.org/abs/2406.04183v1 )

ライセンス: Link先を確認
Yi Peng, Chao Yang, Yucheng Wang, (参考訳) 緩和時間は量子系の緩和過程を記述する上で重要な役割を果たす。 結合散逸が境界散逸系の緩和時間に与える影響について検討し、緩和時間のスケーリングを$T_c\sim L^{z}$が$z=3$から$3$未満の値に変更できることを見出した。 さらに、そのような結合の散逸が緩和時間を著しく短縮できる理由は、特定の状態を選択的に標的にできるためであることも明らかにした。 アンダーソン局在系の場合、緩和時間のスケーリングの挙動は指数形式からシステムサイズが変化するにつれてパワーロー形式に変化する。 これは、我々が考える結合の散逸が特定の状態を選択するだけでなく、局在特性を破壊できるためである。 我々の研究は、オープンシステムでは、ある種類の消散が、別の種類の消散によって生じる影響を規制するために使用できることを明らかにしている。

Relaxation time plays a crucial role in describing the relaxation processes of quantum systems. We study the effect of a type of bond dissipation on the relaxation time of boundary dissipative systems and find that it can change the scaling of the relaxation time $T_c\sim L^{z}$ from $z=3$ to a value significantly less than $3$. We further reveal that the reason such bond dissipation can significantly reduce the relaxation time is that it can selectively target specific states. For Anderson localized systems, the scaling behavior of the relaxation time changes from an exponential form to a power-law form as the system size varies. This is because the bond dissipation we consider can not only select specific states but also disrupt the localization properties. Our work reveals that in open systems, one type of dissipation can be used to regulate the effects produced by another type of dissipation.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# LTLモデュロ理論のためのシールド合成

Shield Synthesis for LTL Modulo Theories ( http://arxiv.org/abs/2406.04184v1 )

ライセンス: Link先を確認
Andoni Rodriguez, Guy Amir, Davide Corsi, Cesar Sanchez, Guy Katz, (参考訳) 近年,機械学習(ML)モデルは様々な分野で大きな成功を収めている。 しかしながら、これらのモデルはまた、安全クリティカルなシステムへの展開を前にして、安全でない振る舞いを示す傾向がある。 この問題に対処するために、豊富な研究は、与えられたMLモデルの安全な振る舞いを保証する方法の開発に重点を置いている。 注目すべき例として、不要な振る舞いをブロックする外部コンポーネント("シールド")を組み込んだシールドがある。 シールドは現在、命題論理(例:LTL)にのみ符号化されたプロパティを対象としており、よりリッチなロジックには適していない。 これにより、多くの現実世界システムにおけるシールドの適用範囲が制限される。 本研究では, このギャップに対処し, 反応性合成モジュロ理論の最近の進歩を基盤として, LTLモジュロ理論への遮蔽を拡大する。 これにより、より表現力に富んだ論理において、複雑な安全仕様に準拠したシールドを生成するための新しいアプローチを開発することができた。 我々はシールドを評価し、時間的ダイナミクスでリッチなデータを処理できることを実証した。 我々の知る限りでは、このような表現力のためにシールドを合成するための最初のアプローチである。

In recent years, Machine Learning (ML) models have achieved remarkable success in various domains. However, these models also tend to demonstrate unsafe behaviors, precluding their deployment in safety-critical systems. To cope with this issue, ample research focuses on developing methods that guarantee the safe behaviour of a given ML model. A prominent example is shielding which incorporates an external component (a "shield") that blocks unwanted behavior. Despite significant progress, shielding suffers from a main setback: it is currently geared towards properties encoded solely in propositional logics (e.g., LTL) and is unsuitable for richer logics. This, in turn, limits the widespread applicability of shielding in many real-world systems. In this work, we address this gap, and extend shielding to LTL modulo theories, by building upon recent advances in reactive synthesis modulo theories. This allowed us to develop a novel approach for generating shields conforming to complex safety specifications in these more expressive, logics. We evaluated our shields and demonstrate their ability to handle rich data with temporal dynamics. To the best of our knowledge, this is the first approach for synthesizing shields for such expressivity.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# 安定度エントロピーの普遍飽和による量子複雑性の探索

Probing quantum complexity via universal saturation of stabilizer entropies ( http://arxiv.org/abs/2406.04190v1 )

ライセンス: Link先を確認
Tobias Haug, Leandro Aolita, M. S. Kim, (参考訳) 非安定化器性 (nonstabilizerness) または 'magic' は量子コンピューティングの鍵となる資源であり、量子優位性に必要な条件である。 非クリフォード演算は安定化器状態を資源状態に変え、安定化器R'enyi entropies (SREs)のような資源測度によって非安定化器の量を定量化する。 ここでは,SREが臨界数の非クリフォード演算でその最大値を飽和させることを示す。 臨界点に近いSREは普遍的な振舞いを示す。 顕著なことに、SREの微分は、キュービットの数とは無関係に同じ点で交差し、単一の曲線に再スケールすることができる。 臨界点は R'enyi index $\alpha$ に非自明に依存していることが分かる。 Tゲートをドープしたランダムなクリフォード回路の場合、臨界Tゲート密度は$\alpha$とは独立にスケールする。 対照的に、ランダムなハミルトン進化の場合、臨界時間は、$\alpha>1$ のキュービット数で線形にスケールするが、$\alpha<1$ の定数は$\alpha<1$ である。 このことは、$\alpha$-SREsは、基本的には$\alpha$:$\alpha$-SREsと$\alpha<1$は、Cliffordシミュレーションの複雑さに関連する。 技術的貢献として、ランダム進化のパウリスペクトルは2つの高度集中ピークによって近似され、SREを計算することができる。 さらに、ランダムなクリフォード回路と回転として表現できるランダムな進化のクラスを導入し、その正確なSREを提供する。 量子システムの複雑性を特徴付ける新しい手法が提案されている。

Nonstabilizerness or `magic' is a key resource for quantum computing and a necessary condition for quantum advantage. Non-Clifford operations turn stabilizer states into resourceful states, where the amount of nonstabilizerness is quantified by resource measures such as stabilizer R\'enyi entropies (SREs). Here, we show that SREs saturate their maximum value at a critical number of non-Clifford operations. Close to the critical point SREs show universal behavior. Remarkably, the derivative of the SRE crosses at the same point independent of the number of qubits and can be rescaled onto a single curve. We find that the critical point depends non-trivially on R\'enyi index $\alpha$. For random Clifford circuits doped with T-gates, the critical T-gate density scales independently of $\alpha$. In contrast, for random Hamiltonian evolution, the critical time scales linearly with qubit number for $\alpha>1$, while is a constant for $\alpha<1$. This highlights that $\alpha$-SREs reveal fundamentally different aspects of nonstabilizerness depending on $\alpha$: $\alpha$-SREs with $\alpha<1$ relate to Clifford simulation complexity, while $\alpha>1$ probe the distance to the closest stabilizer state and approximate state certification cost via Pauli measurements. As technical contributions, we observe that the Pauli spectrum of random evolution can be approximated by two highly concentrated peaks which allows us to compute its SRE. Further, we introduce a class of random evolution that can be expressed as random Clifford circuits and rotations, where we provide its exact SRE. Our results opens up new approaches to characterize the complexity of quantum systems.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# DICE:数学推論のためのLDMの微調整相における分布内汚染の検出

DICE: Detecting In-distribution Contamination in LLM's Fine-tuning Phase for Math Reasoning ( http://arxiv.org/abs/2406.04197v1 )

ライセンス: Link先を確認
Shangqing Tu, Kejian Zhu, Yushi Bai, Zijun Yao, Lei Hou, Juanzi Li, (参考訳) 大規模言語モデル(LLM)の進歩は、公開ベンチマークによる評価に依存するが、データ汚染は過大評価パフォーマンスをもたらす可能性がある。 従来の研究は、トレーニング中にモデルが全く同じデータを見たかどうかを判断することで汚染を検出することに重点を置いていた。 本研究では、ベンチマークデータに類似したデータによるトレーニングでさえ、全体的な能力を改善することなく、インディストリビューションタスクのパフォーマンスを膨張させ、インディストリビューション汚染(In-distriion contamination)と呼ぶ。 そこで本研究では,LSMの内部状態を利用して汚染を検出・検出する新しい手法であるDICEを提案する。 DICEはまず汚染に対して最も敏感な層を特定し、その層の内部状態に基づいて分類器を訓練する。 実験により、DICEは様々なLSMおよび数学推論データセットにまたがる分布内汚染を検出するのに高い精度を示している。 また、類似した分布を持つ複数のベンチマーク間で汚染を検出することができる訓練されたDICE検出器の一般化能力を示す。 さらに、DICE検出スコアは、4つの数学推論データセット(0.6から0.75のR^2$値)において、私たちまたは他の組織によって微調整された10個のLLMの性能と正の相関関係があることが判明した。 このことは、分布内汚染問題は、既存の多くのモデルの真の能力を過大評価する可能性があることを示している。 コードとデータはhttps://github.com/THU-KEG/DICE.comで公開されている。

The advancement of large language models (LLMs) relies on evaluation using public benchmarks, but data contamination can lead to overestimated performance. Previous researches focus on detecting contamination by determining whether the model has seen the exact same data during training. In this work, we argue that even training on data similar to benchmark data inflates performance on in-distribution tasks without improving overall capacity, which we called In-distribution contamination. To effectively detect in-distribution contamination, we propose DICE, a novel method that leverages the internal states of LLMs to locate-then-detect the contamination. DICE first identifies the most sensitive layer to contamination, then trains a classifier based on the internal states of that layer. Experiments reveal DICE's high accuracy in detecting in-distribution contamination across various LLMs and math reasoning datasets. We also show the generalization capability of the trained DICE detector, which is able to detect contamination across multiple benchmarks with similar distributions. Additionally, we find that the DICE detection scores are positively correlated with the performance of ten LLMs fine-tuned by either us or other organizations on four math reasoning datasets (with $R^2$ values between 0.6 and 0.75). This indicates that the in-distribution contamination problem potentially lead to an overestimation of the true capabilities of many existing models. The code and data are available at https://github.com/THU-KEG/DICE.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# スケーラブルダイヤモンド量子レジスタにおける高忠実電子スピンゲート

High-Fidelity Electron Spin Gates in a Scalable Diamond Quantum Register ( http://arxiv.org/abs/2406.04199v1 )

ライセンス: Link先を確認
Timo Joas, Florian Ferlemann, Roberto Sailer, Philipp J. Vetter, Jingfu Zhang, Ressa S. Said, Tokuyuki Teraji, Shinobu Onoda, Tommaso Calarco, Genko Genov, Matthias M. Müller, Fedor Jelezko, (参考訳) ダイアモンドは量子情報処理のための有望なプラットフォームであり、大きな量子レジスタの構築を可能にする、高度に一貫性のある量子ビットをホストすることができる。 このような装置の前提条件は、電子窒素空孔(NV)スピン間のコヒーレント相互作用である。 双極子結合したNVスピン対間の絡み合いは実証されているが、絡み合いが限られており、その誤差源は明らかにされていない。 そこで我々は,ダイヤモンド中のNVスピン間の絡み合うゲートを頑健で容易に実装し,複数の誤差源がゲート性能に与える影響を定量化する。 実験では, 環境条件下でのF=(96.0 \pm 2.5)=%の記録ゲートの忠実度を実証した。 我々の支配的誤差の同定は、誤差補正しきい値を超えたNV-NVゲートへの道を開く。

Diamond is a promising platform for quantum information processing as it can host highly coherent qubits that might allow for the construction of large quantum registers. A prerequisite for such devices is a coherent interaction between electron nitrogen vacancy (NV) spins. Entanglement between dipolar-coupled NV spin pairs has been demonstrated, but with a limited entanglement fidelity and its error sources have not been characterized. Here, we design a robust, easy to implement entangling gate between NV spins in diamond and quantify the influence of multiple error sources on the gate performance. Experimentally, we demonstrate a record gate fidelity of $F=(96.0 \pm 2.5)$ % under ambient conditions. Our identification of the dominant errors paves the way towards NV-NV gates beyond the error correction threshold.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# マルチプレイヤーシンメトリゲームのための原理的超人的AIを目指して

Towards Principled Superhuman AI for Multiplayer Symmetric Games ( http://arxiv.org/abs/2406.04201v1 )

ライセンス: Link先を確認
Jiawei Ge, Yuanhao Wang, Wenzhe Li, Chi Jin, (参考訳) マルチプレイヤーゲームは、プレイヤー数が2人を超えると、広く研究されている2人のゼロサムゲームと根本的に区別する固有の課題を提示する。 これらの課題は、均衡の非特異性と、均衡戦略を採用する際に非常に過度に作用するエージェントのリスクから生じる。 近年の一連の研究は、Mahjong、Poker、Diplomacyといった人気マルチプレイヤーゲームにおいて、人間のレベルや超人的なパフォーマンスを達成することができるような学習システムを開発したが、重要な疑問は2つ残っている。 そして、(2)このクラス内の全てのゲームを確実に解決する一般的なアルゴリズムフレームワークは何ですか。 本稿では,マルチプレイヤー対称正規形式ゲームにおいて,両課題を実証的に解決することで,マルチプレイヤーゲームにおけるこれらのユニークな課題を解決するための第一歩を踏み出す。 また,従来のマルチプレイヤーゲームで開発されたメタアルゴリズムは,エージェントの対等な報酬の獲得という基本目標さえ達成できないことが実証された。

Multiplayer games, when the number of players exceeds two, present unique challenges that fundamentally distinguish them from the extensively studied two-player zero-sum games. These challenges arise from the non-uniqueness of equilibria and the risk of agents performing highly suboptimally when adopting equilibrium strategies. While a line of recent works developed learning systems successfully achieving human-level or even superhuman performance in popular multiplayer games such as Mahjong, Poker, and Diplomacy, two critical questions remain unaddressed: (1) What is the correct solution concept that AI agents should find? and (2) What is the general algorithmic framework that provably solves all games within this class? This paper takes the first step towards solving these unique challenges of multiplayer games by provably addressing both questions in multiplayer symmetric normal-form games. We also demonstrate that many meta-algorithms developed in prior practical systems for multiplayer games can fail to achieve even the basic goal of obtaining agent's equal share of the total reward.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# 微調整付き事前学習型大言語モデルによる法的文書作成

Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model ( http://arxiv.org/abs/2406.04202v1 )

ライセンス: Link先を確認
Chun-Hsien Lin, Pu-Jen Cheng, (参考訳) 大規模言語モデル(LLM)の開発により、微調整事前学習 LLM は自然言語処理の下流タスクを解決する主要なパラダイムとなっている。 しかし、法的分野における言語モデルの訓練には、言語モデルが法的用語学や法律文書の形式を習得できるように、多数の法的文書が必要である。 典型的なNLPアプローチは通常、トレーニングのために手動でアノテートされたデータセットに頼っている。 しかし, 法律分野の応用においては, 手動で注釈付きデータセットを多数取得することは困難であり, 文書の起草作業に適用される典型的な手法を制限している。 本研究は,中国語の単語セグメント化を伴わない大量の注釈なし法定文書を大規模言語モデルに微調整できるだけでなく,ローカルコンピュータ上で事前学習したLCMを微調整することで,法定文書草案作成作業を実現し,同時に情報プライバシーの保護と情報セキュリティ問題の改善を図ることができることを示す。

With the development of large-scale Language Models (LLM), fine-tuning pre-trained LLM has become a mainstream paradigm for solving downstream tasks of natural language processing. However, training a language model in the legal field requires a large number of legal documents so that the language model can learn legal terminology and the particularity of the format of legal documents. The typical NLP approaches usually rely on many manually annotated data sets for training. However, in the legal field application, it is difficult to obtain a large number of manually annotated data sets, which restricts the typical method applied to the task of drafting legal documents. The experimental results of this paper show that not only can we leverage a large number of annotation-free legal documents without Chinese word segmentation to fine-tune a large-scale language model, but more importantly, it can fine-tune a pre-trained LLM on the local computer to achieve the generating legal document drafts task, and at the same time achieve the protection of information privacy and to improve information security issues.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# 拡散に基づく内的学習による画像のインペインティング

Diffusion-based image inpainting with internal learning ( http://arxiv.org/abs/2406.04206v1 )

ライセンス: Link先を確認
Nicolas Cherel, Andrés Almansa, Yann Gousseau, Alasdair Newson, (参考訳) 拡散モデルは現在、画像生成と画像復元の最先端技術である。 しかし、トレーニングや推論には大量の計算能力が必要である。 本稿では,1枚の画像,あるいは数枚の画像でトレーニング可能な画像インペイントのための軽量拡散モデルを提案する。 このアプローチは,特定のケースにおいて,最先端の大規模モデルと競合することを示す。 また、1つの画像上でモデルをトレーニングすることは、標準学習データベースのRGB画像とは異なる画像取得のモダリティに特に関係していることを示す。 我々は,テクスチャ画像,線描画画像,BRDFの3つの異なるコンテキストで結果を示す。

Diffusion models are now the undisputed state-of-the-art for image generation and image restoration. However, they require large amounts of computational power for training and inference. In this paper, we propose lightweight diffusion models for image inpainting that can be trained on a single image, or a few images. We show that our approach competes with large state-of-the-art models in specific cases. We also show that training a model on a single image is particularly relevant for image acquisition modality that differ from the RGB images of standard learning databases. We show results in three different contexts: texture images, line drawing images, and materials BRDF, for which we achieve state-of-the-art results in terms of realism, with a computational load that is greatly reduced compared to concurrent methods.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# CDMamba:Mambaによるリモートセンシング画像変化検出

CDMamba: Remote Sensing Image Change Detection with Mamba ( http://arxiv.org/abs/2406.04207v1 )

ライセンス: Link先を確認
Haotian Zhang, Keyan Chen, Chenyang Liu, Hao Chen, Zhengxia Zou, Zhenwei Shi, (参考訳) 近年,状態空間モデルに基づくMambaアーキテクチャは,一連の自然言語処理タスクにおいて顕著な性能を示し,リモートセンシング変化検出(CD)タスクに急速に適用されている。 しかし、ほとんどの手法はマンバのスキャンモードを直接修正し、局所情報が密接な予測タスク(例えばCD)で果たす重要な役割を無視して、大域的受容野を高める。 本稿では,CDタスクを扱うグローバル機能とローカル機能を効果的に組み合わせたCDMambaというモデルを提案する。 具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化を図り,現在のMamba方式では詳細な手がかりが欠如しており,密集予測タスクにおいて微妙な検出が難しいという問題を緩和するために,SRCMブロックを提案する。 さらに,CDに必要な両時間的特徴相互作用の特性を考慮し,他の時間的グローバル/ローカル特徴によって誘導されるバイテンポラル相互作用を動的に促進するアダプティブ・グローバル・ローカル・ガイドド・フュージョン(AGLGF)ブロックを提案する。 我々の直感は、より差別的な変化特徴は、他の時間的特徴のガイダンスによって取得できるということです。 3つのデータセットに対する大規模な実験により、提案したCDMambaは現在の最先端手法よりも優れていることが示された。 私たちのコードはhttps://github.com/zmoka-zht/CDMamba.comでオープンソース化されます。

Recently, the Mamba architecture based on state space models has demonstrated remarkable performance in a series of natural language processing tasks and has been rapidly applied to remote sensing change detection (CD) tasks. However, most methods enhance the global receptive field by directly modifying the scanning mode of Mamba, neglecting the crucial role that local information plays in dense prediction tasks (e.g., CD). In this article, we propose a model called CDMamba, which effectively combines global and local features for handling CD tasks. Specifically, the Scaled Residual ConvMamba (SRCM) block is proposed to utilize the ability of Mamba to extract global features and convolution to enhance the local details, to alleviate the issue that current Mamba-based methods lack detailed clues and are difficult to achieve fine detection in dense prediction tasks. Furthermore, considering the characteristics of bi-temporal feature interaction required for CD, the Adaptive Global Local Guided Fusion (AGLGF) block is proposed to dynamically facilitate the bi-temporal interaction guided by other temporal global/local features. Our intuition is that more discriminative change features can be acquired with the guidance of other temporal features. Extensive experiments on three datasets demonstrate that our proposed CDMamba outperforms the current state-of-the-art methods. Our code will be open-sourced at https://github.com/zmoka-zht/CDMamba.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# 大規模言語モデルのようなエージェントの調整

Aligning Agents like Large Language Models ( http://arxiv.org/abs/2406.04208v1 )

ライセンス: Link先を確認
Adam Jelley, Yuhan Cao, Dave Bignell, Sam Devlin, Tabish Rashid, (参考訳) 高次元感覚情報から複雑な3D環境下での行動訓練は困難である。 多様な人間の行動からの模倣学習は、合理的な行動規範を持つエージェントを訓練するためのスケーラブルなアプローチを提供するが、そのようなエージェントは、デプロイ時に特定の行動を実行することはできない。 この問題に対処するために、模倣学習エージェントの望ましくない振る舞いと、不整合大言語モデル(LLM)の不整合応答とを類似させる。 次に,LLMの整列処理を画素から3次元環境下での整列処理に適用する方法について検討する。 分析では,人間の行動分布が多モードである現代のゲーム機ゲームにおいて,学術的に説明的な部分を利用するが,エージェントは,この動作の単一モードを模倣することを望んでいる。 トレーニングエージェントにこのアプローチをうまく適用するための洞察とアドバイスを提供しながら、希望するモードを一貫して実行できるようにエージェントを調整できることを実証する。 プロジェクトWebページはhttps://adamjelley.github.io/aligning-agents-like-llms。

Training agents to behave as desired in complex 3D environments from high-dimensional sensory information is challenging. Imitation learning from diverse human behavior provides a scalable approach for training an agent with a sensible behavioral prior, but such an agent may not perform the specific behaviors of interest when deployed. To address this issue, we draw an analogy between the undesirable behaviors of imitation learning agents and the unhelpful responses of unaligned large language models (LLMs). We then investigate how the procedure for aligning LLMs can be applied to aligning agents in a 3D environment from pixels. For our analysis, we utilize an academically illustrative part of a modern console game in which the human behavior distribution is multi-modal, but we want our agent to imitate a single mode of this behavior. We demonstrate that we can align our agent to consistently perform the desired mode, while providing insights and advice for successfully applying this approach to training agents. Project webpage at https://adamjelley.github.io/aligning-agents-like-llms .
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# ValueBench: 価値指向の総合的な評価と大規模言語モデルの理解を目指して

ValueBench: Towards Comprehensively Evaluating Value Orientations and Understanding of Large Language Models ( http://arxiv.org/abs/2406.04214v1 )

ライセンス: Link先を確認
Yuanyi Ren, Haoran Ye, Hanjun Fang, Xin Zhang, Guojie Song, (参考訳) 大規模言語モデル(LLM)は多様な分野を変革し、人間のプロキシとして影響力を増している。 この開発は、公共向けアプリケーションへの責任ある統合を保証するために、価値オリエンテーションの評価とLLMの理解を緊急に必要とすることを明確にしている。 この研究は、LLMにおける価値オリエンテーションと価値理解を評価するための最初の総合的な心理測定ベンチマークであるValueBenchを紹介した。 ValueBenchは、453の多面的価値次元を含む44の確立された心理測定在庫からデータを収集する。 本研究では,現実的な人間とAIの相互作用を基礎とした評価パイプラインの提案と,オープンな価値空間における価値理解を評価するための新しいタスクを提案する。 6つの代表的なLCMに対して行われた広範囲な実験により,それらの共有的および特異な値配向を明らかにし,価値関連抽出および生成タスクにおける専門家の結論を近似する能力を示す。 ValueBenchはhttps://github.com/Value4AI/ValueBench.comで公開されている。

Large Language Models (LLMs) are transforming diverse fields and gaining increasing influence as human proxies. This development underscores the urgent need for evaluating value orientations and understanding of LLMs to ensure their responsible integration into public-facing applications. This work introduces ValueBench, the first comprehensive psychometric benchmark for evaluating value orientations and value understanding in LLMs. ValueBench collects data from 44 established psychometric inventories, encompassing 453 multifaceted value dimensions. We propose an evaluation pipeline grounded in realistic human-AI interactions to probe value orientations, along with novel tasks for evaluating value understanding in an open-ended value space. With extensive experiments conducted on six representative LLMs, we unveil their shared and distinctive value orientations and exhibit their ability to approximate expert conclusions in value-related extraction and generation tasks. ValueBench is openly accessible at https://github.com/Value4AI/ValueBench.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# mCSQA:言語モデルと人間による統一創造戦略を用いた多言語コモンセンス推論データセット

mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans ( http://arxiv.org/abs/2406.04215v1 )

ライセンス: Link先を確認
Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe, (参考訳) 言語モデルの自然言語理解能力を評価するために,言語固有の知識と常識のデータセットをキュレートすることは極めて困難である。 アノテータの可用性が制限されているため、現在の多言語データセットのほとんどは翻訳によって作成され、そのような言語固有の側面を評価できない。 そこで本研究では,CSQAの構築プロセスに基づいた多言語共通言語QA(mCSQA)を提案する。 構成データセットは多言語LMの言語間変換能力のベンチマークであり、実験結果は、LMが容易に解ける質問に対して高い言語間変換能力を示したが、深い知識や常識を必要とする質問に対する転送能力は低かった。 これは、評価とトレーニングのための言語固有のデータセットの必要性を強調している。 最後に,多言語LMが言語固有の知識を含むQAを生成できることを示した。 データセットはhttps://huggingface.co/datasets/yusuke 1997/mCSQAで公開されている。

It is very challenging to curate a dataset for language-specific knowledge and common sense in order to evaluate natural language understanding capabilities of language models. Due to the limitation in the availability of annotators, most current multilingual datasets are created through translation, which cannot evaluate such language-specific aspects. Therefore, we propose Multilingual CommonsenseQA (mCSQA) based on the construction process of CSQA but leveraging language models for a more efficient construction, e.g., by asking LM to generate questions/answers, refine answers and verify QAs followed by reduced human efforts for verification. Constructed dataset is a benchmark for cross-lingual language-transfer capabilities of multilingual LMs, and experimental results showed high language-transfer capabilities for questions that LMs could easily solve, but lower transfer capabilities for questions requiring deep knowledge or commonsense. This highlights the necessity of language-specific datasets for evaluation and training. Finally, our method demonstrated that multilingual LMs could create QA including language-specific knowledge, significantly reducing the dataset creation cost compared to manual creation. The datasets are available at https://huggingface.co/datasets/yusuke1997/mCSQA.
翻訳日:2024-06-07 14:10:28 公開日:2024-06-06
# 言語モデルは文脈で何を学ぶか? : 構造的タスク仮説

What Do Language Models Learn in Context? The Structured Task Hypothesis ( http://arxiv.org/abs/2406.04216v1 )

ライセンス: Link先を確認
Jiaoda Li, Yifan Hou, Mrinmaya Sachan, Ryan Cotterell, (参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する興味深い能力を示す。 当然のことながら、ICLの根底にある理論の解明に多くの研究が費やされている。 一般的な仮説の一つは、タスク選択によるICLの説明である。 LLMはデモに基づいてタスクを特定し、それをプロンプトに一般化する。 もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。 最後に、第3の仮説では、LCMは実演を使用してICLを実行するために事前学習中に学んだタスクの合成を選択する。 本稿では,これら3つの仮説を実証的に検証し,LLMが文脈で学習する能力を説明する。 我々は、最初の2つの仮説を反例で無効化し、最後の仮説を支持する証拠を提供する。 この結果から,LLMは事前学習中に学習したタスクを合成することで,文脈において新しいタスクを学習できる可能性が示唆された。

Large language models (LLMs) exhibit an intriguing ability to learn a novel task from in-context examples presented in a demonstration, termed in-context learning (ICL). Understandably, a swath of research has been dedicated to uncovering the theories underpinning ICL. One popular hypothesis explains ICL by task selection. LLMs identify the task based on the demonstration and generalize it to the prompt. Another popular hypothesis is that ICL is a form of meta-learning, i.e., the models learn a learning algorithm at pre-training time and apply it to the demonstration. Finally, a third hypothesis argues that LLMs use the demonstration to select a composition of tasks learned during pre-training to perform ICL. In this paper, we empirically explore these three hypotheses that explain LLMs' ability to learn in context with a suite of experiments derived from common text classification tasks. We invalidate the first two hypotheses with counterexamples and provide evidence in support of the last hypothesis. Our results suggest an LLM could learn a novel task in context via composing tasks learned during pre-training.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# バイスタブルレジームにおけるオプトメカニカルバックアクション

Optomechanical Backaction in the Bistable Regime ( http://arxiv.org/abs/2406.04217v1 )

ライセンス: Link先を確認
L. F. Deeg, D. Zoepfl, N. Diaz-Naufal, M. L. Juan, A. Metelmann, G. Kirchmair, (参考訳) 様々な実現法により、光力学はその光物質相互作用を利用して基礎物理学をテストする。 メカニカル共振器のフォノンを高品質なキャビティ内の光子に結合することにより、ますますマクロな物体の制御が可能になった。 このようなシステムでは、キャビティを駆動することで、メカニカルモードの状態操作を実現する。 高い駆動力を達成するために、システムは典型的には、駆動時に線形応答状態に留まるように設計されている。 駆動キャビティにおける非線形応答、特に不安定性は、オプトメカニカルシステムにおける冷却と状態調整に有害であると考えられ、実験では避けられる。 ここでは,機械共振器の固有非線形空洞バックアクション冷却は,空洞の非線形状態内で深く動作可能であることを示す。 非線形性を考慮に入れた理論により、キャビティ光子数スペクトルが典型的なローレンツ形状から逸脱し始める分岐点を超えても、バックアクション冷却の正確な予測が達成できる。

With a variety of realisations, optomechanics utilizes its light matter interaction to test fundamental physics. By coupling the phonons of a mechanical resonator to the photons in a high quality cavity, control of increasingly macroscopic objects has become feasible. In such systems, state manipulation of the mechanical mode is achieved by driving the cavity. To be able to achieve high drive powers the system is typically designed such that it remains in a linear response regime when driven. A nonlinear response and especially bistability in a driven cavity is often considered detrimentally to cooling and state preparation in optomechanical systems and is avoided in experiments. Here we show, that with an intrinsic nonlinear cavity backaction cooling of a mechanical resonator is feasible operating deeply within the nonlinear regime of the cavity. With our theory taking the nonlinearity into account, precise predictions on backaction cooling can be achieved even with a cavity beyond the bifurcation point, where the cavity photon number spectrum starts to deviate from a typical Lorentzian shape.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# LLMと言語ステガナリシスの再考 : 強吸収ステゴの効率的な検出法

Rethinking LLM and Linguistic Steganalysis: An Efficient Detection of Strongly Concealed Stego ( http://arxiv.org/abs/2406.04218v1 )

ライセンス: Link先を確認
Yifan Tang, Yihao Wang, Ru Zhang, Jianyi Liu, (参考訳) 複雑なシナリオにおけるステゴ(ステガノグラフィーテキスト)を検出するため,様々なモチベーションを持つ言語ステガナリシス(LS)が提案され,優れた性能を示した。 しかし, 造形ステガノグラフィーの発達に伴い, 一部のステガノグラフィーは強い隠蔽を有しており, 特にLDMによるステガノグラフィーが出現した後は, 既存のLSは検出が低く, 検出すらできない。 我々はLSGCと呼ばれる2つのモードを持つ新しいLSを設計した。 生成モードでは、LS-taskの「記述」を作成し、LLMの生成能力を用いて検出対象のテキストがステゴであるかどうかを説明する。 そこで我々はLSとLLMの原理を再考し,分類モードを提案する。 このモードでは、LSGCはLS-taskの"記述"を削除し、"causalLM"のLLMを"シーケンス分類"アーキテクチャに変更した。 LS特徴はモデルの1パスのみで抽出でき、初期化重み付き線形層を追加して分類確率を得る。 強く隠蔽されたステゴスの実験では、LSGCは検出を著しく改善し、SOTA性能に達することが示されている。 さらに、分類モードにおけるLSGCは、高い性能を維持しながらトレーニング時間を大幅に短縮する。

To detect stego (steganographic text) in complex scenarios, linguistic steganalysis (LS) with various motivations has been proposed and achieved excellent performance. However, with the development of generative steganography, some stegos have strong concealment, especially after the emergence of LLMs-based steganography, the existing LS has low detection or even cannot detect them. We designed a novel LS with two modes called LSGC. In the generation mode, we created an LS-task "description" and used the generation ability of LLM to explain whether texts to be detected are stegos. On this basis, we rethought the principle of LS and LLMs, and proposed the classification mode. In this mode, LSGC deleted the LS-task "description" and changed the "causalLM" LLMs to the "sequenceClassification" architecture. The LS features can be extracted by only one pass of the model, and a linear layer with initialization weights is added to obtain the classification probability. Experiments on strongly concealed stegos show that LSGC significantly improves detection and reaches SOTA performance. Additionally, LSGC in classification mode greatly reduces training time while maintaining high performance.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# マルチエージェントの模倣学習: 価値は簡単,レグレトは難しい

Multi-Agent Imitation Learning: Value is Easy, Regret is Hard ( http://arxiv.org/abs/2406.04219v1 )

ライセンス: Link先を確認
Jingwu Tang, Gokul Swamy, Fei Fang, Zhiwei Steven Wu, (参考訳) 本研究では,エージェントのグループを協調させようとする学習者の視点を,専門家の実証に基づくマルチエージェント模倣学習(MAIL)問題として考察する。 MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。 エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱に対する堅牢性は保証されない。 直感的には、これは戦略的な逸脱が反現実的な量に依存する可能性があるためである。 これに対し、マルコフゲームにおけるMAILの代替目的の研究を開始し、グループ内のエージェントによる潜在的な逸脱を明示的に説明する後悔のギャップを表現した。 まず、価値と後悔のギャップの関係を詳細に調査する。 まず、単一エージェントILアルゴリズムの直接拡張により、値ギャップを効率よく最小化できる一方で、値等価性さえも、任意に大きな後悔ギャップをもたらす可能性があることを示す。 これは、後悔の同値性を達成することは、MAILにおける価値同値性を達成することよりも難しいことを意味する。 そして、後悔のギャップを最小限に抑えることができるオンライン凸最適化を効率よく削減する。 (a)専門家(MALICE)又は (b)クエリ可能なエキスパート(BLADES)へのアクセス。

We study a multi-agent imitation learning (MAIL) problem where we take the perspective of a learner attempting to coordinate a group of agents based on demonstrations of an expert doing so. Most prior work in MAIL essentially reduces the problem to matching the behavior of the expert within the support of the demonstrations. While doing so is sufficient to drive the value gap between the learner and the expert to zero under the assumption that agents are non-strategic, it does not guarantee robustness to deviations by strategic agents. Intuitively, this is because strategic deviations can depend on a counterfactual quantity: the coordinator's recommendations outside of the state distribution their recommendations induce. In response, we initiate the study of an alternative objective for MAIL in Markov Games we term the regret gap that explicitly accounts for potential deviations by agents in the group. We first perform an in-depth exploration of the relationship between the value and regret gaps. First, we show that while the value gap can be efficiently minimized via a direct extension of single-agent IL algorithms, even value equivalence can lead to an arbitrarily large regret gap. This implies that achieving regret equivalence is harder than achieving value equivalence in MAIL. We then provide a pair of efficient reductions to no-regret online convex optimization that are capable of minimizing the regret gap (a) under a coverage assumption on the expert (MALICE) or (b) with access to a queryable expert (BLADES).
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# BEAD: ドメイン間のバイアス評価

BEADs: Bias Evaluation Across Domains ( http://arxiv.org/abs/2406.04220v1 )

ライセンス: Link先を確認
Shaina Raza, Mizanur Rahman, Michael R. Zhang, (参考訳) 大規模言語モデル(LLM)の最近の改良は、自然言語処理(NLP)アプリケーションを大幅に強化した。 しかし、これらのモデルはトレーニングデータからバイアスを継承し、永続することができる。 この問題に対処することは極めて重要ですが、既存のデータセットの多くは、さまざまなNLPタスクに対する評価を提供していません。 これを解決するために,テキスト分類,バイアスエンティティ認識,バイアス定量化,良言語生成など,幅広いNLPタスクをサポートするために設計されたBias Evaluations Across Domains(BEADs)データセットを紹介した。 BEADはAI駆動アノテーションと専門家の検証を組み合わせて信頼性のあるラベルを提供する。 この方法は、クラウドソーシングや、バイアス評価の制限のある専門家のみのアノテーション、検証されていないAIラベルに依存する既存のデータセットの制限を克服する。 我々の経験的分析により、BEADは異なる言語モデル間でのバイアスの検出と低減に有効であることが示された。 しかし、これらのモデルは特定の人口層に対する偏見を示す可能性がある。 良質な言語データによる微調整LDMは、モデルの知識を保ちながらバイアスを低減します。 本研究は, 総合的バイアス評価の重要性と, LLMのバイアス低減を目的とした微調整の可能性を強調した。 私たちはBEADをhttps://huggingface.co/datasets/shainar/BEAD Warningで公開しています。

Recent improvements in large language models (LLMs) have significantly enhanced natural language processing (NLP) applications. However, these models can also inherit and perpetuate biases from their training data. Addressing this issue is crucial, yet many existing datasets do not offer evaluation across diverse NLP tasks. To tackle this, we introduce the Bias Evaluations Across Domains (BEADs) dataset, designed to support a wide range of NLP tasks, including text classification, bias entity recognition, bias quantification, and benign language generation. BEADs uses AI-driven annotation combined with experts' verification to provide reliable labels. This method overcomes the limitations of existing datasets that typically depend on crowd-sourcing, expert-only annotations with limited bias evaluations, or unverified AI labeling. Our empirical analysis shows that BEADs is effective in detecting and reducing biases across different language models, with smaller models fine-tuned on BEADs often outperforming LLMs in bias classification tasks. However, these models may still exhibit biases towards certain demographics. Fine-tuning LLMs with our benign language data also reduces biases while preserving the models' knowledge. Our findings highlight the importance of comprehensive bias evaluation and the potential of targeted fine-tuning for reducing the bias of LLMs. We are making BEADs publicly available at https://huggingface.co/datasets/shainar/BEAD Warning: This paper contains examples that may be considered offensive.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# セグメンテーション(セグメンテーション)によるマッチング

Matching Anything by Segmenting Anything ( http://arxiv.org/abs/2406.04221v1 )

ライセンス: Link先を確認
Siyuan Li, Lei Ke, Martin Danelljan, Luigi Piccinelli, Mattia Segu, Luc Van Gool, Fisher Yu, (参考訳) 複雑なシーンにおけるビデオフレーム間の同じオブジェクトのロバストな関連は、多くのアプリケーション、特にMultiple Object Tracking (MOT)にとって不可欠である。 現在の手法は主にラベル付きドメイン固有のビデオデータセットに依存しており、学習された類似性埋め込みのドメイン間一般化を制限する。 ラベルを追跡せずにビデオ内の任意のオブジェクトをマッチングできる,ロバストなインスタンスアソシエイト学習手法であるMASAを提案する。 SAM(Segment Anything Model)からリッチなオブジェクトセグメンテーションを活用することで、MASAは全データ変換を通じてインスタンスレベルの対応を学習する。 SAM出力を高密度なオブジェクト領域の提案として扱い、膨大な画像収集からそれらの領域に一致することを学習する。 さらに,基本セグメンテーションや検出モデルと連動して動作し,検出対象の追跡を可能にする汎用MASAアダプタを設計する。 これらの組み合わせは、複雑な領域において強いゼロショット追跡能力を示す。 複数の挑戦的MOTおよびMOTSベンチマークの広範囲なテストにより、提案手法は、ゼロショットアソシエイトにおいて、完全アノテーション付きドメイン内ビデオシーケンスでトレーニングされた最先端の手法よりも、より優れたパフォーマンスが得られることが示された。 Project Page: https://matchinganything.github.io/

The robust association of the same objects across video frames in complex scenes is crucial for many applications, especially Multiple Object Tracking (MOT). Current methods predominantly rely on labeled domain-specific video datasets, which limits the cross-domain generalization of learned similarity embeddings. We propose MASA, a novel method for robust instance association learning, capable of matching any objects within videos across diverse domains without tracking labels. Leveraging the rich object segmentation from the Segment Anything Model (SAM), MASA learns instance-level correspondence through exhaustive data transformations. We treat the SAM outputs as dense object region proposals and learn to match those regions from a vast image collection. We further design a universal MASA adapter which can work in tandem with foundational segmentation or detection models and enable them to track any detected objects. Those combinations present strong zero-shot tracking ability in complex domains. Extensive tests on multiple challenging MOT and MOTS benchmarks indicate that the proposed method, using only unlabeled static images, achieves even better performance than state-of-the-art methods trained with fully annotated in-domain video sequences, in zero-shot association. Project Page: https://matchinganything.github.io/
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# R-CONV:畳み込み勾配による効率的なデータ再構成のための解析的アプローチ

R-CONV: An Analytical Approach for Efficient Data Reconstruction via Convolutional Gradients ( http://arxiv.org/abs/2406.04227v1 )

ライセンス: Link先を確認
Tamer Ahmed Eltaras, Qutaibah Malluhi, Alessandro Savino, Stefano Di Carlo, Adnan Qayyum, Junaid Qadir, (参考訳) 分散データの大規模な収集から学ぶために、フェデレーション学習は、生データを交換する代わりに勾配共有機構を使用することで、プライバシを保護するための有望なアプローチとして登場した。 しかし、最近の研究では、多くのグラデーションアタックによってプライベートトレーニングデータがリークされることが示されている。 従来の分析に基づく攻撃は、完全に接続された層から入力データを再構成することに成功しているが、畳み込み層に適用した場合、その効果は低下する。 本稿では,畳み込み層の勾配を効率的に利用するための高度なデータ漏洩手法を提案する。 ReLUのような非完全可逆的活性化関数であっても、勾配からトレーニングサンプルを解析的に再構築することができる。 我々の知る限りでは、これは、階層の出力を再構築する必要性を回避し、勾配から直接畳み込み層入力を再構築する最初の分析的アプローチである。 それまでの研究は主に、勾配制約の意義を見越して、畳み込み層の重み制約に焦点を合わせてきた。 以上の結果から,グラデーション攻撃のリスクを推定する既存の分析手法では精度が低いことが示唆された。 一部のレイヤでは、報告された制約の5%未満でアタックを起動することができる。

In the effort to learn from extensive collections of distributed data, federated learning has emerged as a promising approach for preserving privacy by using a gradient-sharing mechanism instead of exchanging raw data. However, recent studies show that private training data can be leaked through many gradient attacks. While previous analytical-based attacks have successfully reconstructed input data from fully connected layers, their effectiveness diminishes when applied to convolutional layers. This paper introduces an advanced data leakage method to efficiently exploit convolutional layers' gradients. We present a surprising finding: even with non-fully invertible activation functions, such as ReLU, we can analytically reconstruct training samples from the gradients. To the best of our knowledge, this is the first analytical approach that successfully reconstructs convolutional layer inputs directly from the gradients, bypassing the need to reconstruct layers' outputs. Prior research has mainly concentrated on the weight constraints of convolution layers, overlooking the significance of gradient constraints. Our findings demonstrate that existing analytical methods used to estimate the risk of gradient attacks lack accuracy. In some layers, attacks can be launched with less than 5% of the reported constraints.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# CLRS-Textアルゴリズム推論言語ベンチマーク

The CLRS-Text Algorithmic Reasoning Language Benchmark ( http://arxiv.org/abs/2406.04229v1 )

ライセンス: Link先を確認
Larisa Markeeva, Sean McLeish, Borja Ibarz, Wilfried Bounsi, Olga Kozlova, Alex Vitvitskyi, Charles Blundell, Tom Goldstein, Avi Schwarzschild, Petar Veličković, (参考訳) 言語モデル(LM)からの推論能力の排除は、インテリジェントシステム構築への道のりの重要な方向である。 近年の研究では、特定のスキルのみを評価するために、手続き的に生成した合成ベンチマークのアウト・オブ・ディストリビューション性能に焦点をあてている。 この傾向により、結果は出版物間での移動が難しくなり、進捗が遅くなる。 3年前、CLRSベンチマークの出現とともに、ニューラルアルゴリズム推論の分野で同様の問題が特定され、修正された。 CLRSは、古典的なアルゴリズムのグラフ実行トレースで構成されるデータセットジェネレータである。 これに触発されて、これらのアルゴリズムトレースのテキストバージョンであるCLRS-Textを提案する。 CLRS-Textは、望まれる任意の入力分布にまたがる、30の多様な、挑戦的なアルゴリズムタスクのトレースデータを手続き的に生成すると同時に、ベンチマークで追加のアルゴリズムタスクを作成可能な標準パイプラインを提供する。 我々は、このベンチマークにおいて、様々なLMをジェネリストエグゼクタとして微調整し、評価し、事前の作業を検証するとともに、LM推論コミュニティにとって新しい、興味深い課題を明らかにする。 私たちのコードはhttps://github.com/google-deepmind/clrs/tree/master/clrs/_src/clrs_textで利用可能です。

Eliciting reasoning capabilities from language models (LMs) is a critical direction on the path towards building intelligent systems. Most recent studies dedicated to reasoning focus on out-of-distribution performance on procedurally-generated synthetic benchmarks, bespoke-built to evaluate specific skills only. This trend makes results hard to transfer across publications, slowing down progress. Three years ago, a similar issue was identified and rectified in the field of neural algorithmic reasoning, with the advent of the CLRS benchmark. CLRS is a dataset generator comprising graph execution traces of classical algorithms from the Introduction to Algorithms textbook. Inspired by this, we propose CLRS-Text -- a textual version of these algorithmic traces. Out of the box, CLRS-Text is capable of procedurally generating trace data for thirty diverse, challenging algorithmic tasks across any desirable input distribution, while offering a standard pipeline in which any additional algorithmic tasks may be created in the benchmark. We fine-tune and evaluate various LMs as generalist executors on this benchmark, validating prior work and revealing a novel, interesting challenge for the LM reasoning community. Our code is available at https://github.com/google-deepmind/clrs/tree/master/clrs/_src/clrs_text.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# M3LEO:干渉SARとRGBデータを統合したマルチモード・マルチラベル地球観測データセット

M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and RGB Data ( http://arxiv.org/abs/2406.04230v1 )

ライセンス: Link先を確認
Matthew J Allen, Francisco Dorr, Joseph Alejandro Gallego Mejia, Laura Martínez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Raúl Ramos-Pollán, (参考訳) 衛星ベースのリモートセンシングは、急速に発展する世界のグローバルな課題に対処する方法に革命をもたらした。 大量の地球観測データ(EO)は衛星センサーによって毎日生成されますが、これらの大規模なデータセットをMLパイプラインで使用するために処理することは技術的に、計算的に困難です。 具体的には、さまざまなタイプのEOデータがさまざまなプラットフォームでホストされることが多く、Pythonプリプロセッシングツールの可用性が異なる。 さらに、データソース間の空間的アライメントやデータタイリングは、初心者ユーザーにとって重要な技術的ハードルとなる可能性がある。 一部の前処理されたEOデータセットは存在するが、その内容は夜間や悪天候下では有効ではない光学的または近光的波長のデータに限られることが多い。 SAR(Synthetic Aperture Radar)はマイクロ波長放射に基づく能動センシング技術である。 しかし、機械学習のSARへの適用は、ML対応のデータとパイプラインの欠如、特に偏光度、コヒーレンス、インターフェロメトリーを含むSARデータの完全な多様性のために制限されている。 我々は、Sentinel-1から得られた偏光、干渉、コヒーレンスSARデータと、Sentinel-2 RGB画像とモデル評価のためのラベル付きタスクスイートを含むマルチモーダルなマルチラベルEOデータセットであるM3LEOを紹介する。 M3LEOは17.5TBで、6つの地理的領域に約10Mのデータチップを含んでいる。 データセットは、Hydraを使用した構成管理を備えた柔軟なPyTorch Lightningフレームワークによって補完される。 フレームワークとの統合のために、Google Earth Engineのような一般的なプラットフォームで利用可能なデータセットを処理するツールを提供しています。 SAR画像には,RGBデータから抽出可能な情報が追加されていることを示す。 huggingface.co/M3LEOのデータとgithub.com/spaceml-org/M3LEOのコード。

Satellite-based remote sensing has revolutionised the way we address global challenges in a rapidly evolving world. Huge quantities of Earth Observation (EO) data are generated by satellite sensors daily, but processing these large datasets for use in ML pipelines is technically and computationally challenging. Specifically, different types of EO data are often hosted on a variety of platforms, with differing availability for Python preprocessing tools. In addition, spatial alignment across data sources and data tiling can present significant technical hurdles for novice users. While some preprocessed EO datasets exist, their content is often limited to optical or near-optical wavelength data, which is ineffective at night or in adverse weather conditions. Synthetic Aperture Radar (SAR), an active sensing technique based on microwave length radiation, offers a viable alternative. However, the application of machine learning to SAR has been limited due to a lack of ML-ready data and pipelines, particularly for the full diversity of SAR data, including polarimetry, coherence and interferometry. We introduce M3LEO, a multi-modal, multi-label EO dataset that includes polarimetric, interferometric, and coherence SAR data derived from Sentinel-1, alongside Sentinel-2 RGB imagery and a suite of labelled tasks for model evaluation. M3LEO spans 17.5TB and contains approximately 10M data chips across six geographic regions. The dataset is complemented by a flexible PyTorch Lightning framework, with configuration management using Hydra. We provide tools to process any dataset available on popular platforms such as Google Earth Engine for integration with our framework. Initial experiments validate the utility of our data and framework, showing that SAR imagery contains information additional to that extractable from RGB data. Data at huggingface.co/M3LEO, and code at github.com/spaceml-org/M3LEO.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# エージェント間の相違の定量化

Quantifying Misalignment Between Agents ( http://arxiv.org/abs/2406.04231v1 )

ライセンス: Link先を確認
Aidan Kierans, Avijit Ghosh, Hananel Hazan, Shiri Dori-Hacohen, (参考訳) 近年,AIアライメント問題に対する懸念が高まり,(1)アライメント問題の質的な説明,(2)バリュー仕様と学習に焦点をあててAI行動と人間の利害関係を整合させようとする試み,(3)単一エージェントや単一ユニットとしての人間性に焦点を当てることを中心に,AIアライメント問題に対する懸念が高まっている。 社会技術的AIアライメントにおける最近の研究は、包括的にアライメントを定義することに多少進展しているが、全体としては、個々の人間、AIエージェント、企業、国家など複雑な構成エンティティを含むエンティティ間のミスアライメントの特定、記述、分析の方法に関する体系的な理解はいまだに欠けている。 計算社会科学における論争に関する以前の研究は、(人間の)人口間の競合の数学的モデルを提供する。 本稿では、この競合モデルをアライメント問題に適応させ、観察対象のエージェント(人間かその他のエージェント)の人口、被疑領域、および可能性のある結果間のエージェントの確率重み付け嗜好によって、どのように不一致が変化するかを示す。 私たちのモデルは、価値仕様のアプローチから離れ、代わりにエージェントが実際に持っているような複雑な、インターロック、時には矛盾する目標に焦点を合わせています。 我々は,ソーシャルメディアのモデレーションから自律走行車行動まで,いくつかのケーススタディを解析し,本モデルを適用した。 私たちのモデルに適切な代表的価値データを適用することで、AIエンジニアは、システムがさまざまな人間の関心事と最大限に一致した価値を学習できるようにします。

Growing concerns about the AI alignment problem have emerged in recent years, with previous work focusing mainly on (1) qualitative descriptions of the alignment problem; (2) attempting to align AI actions with human interests by focusing on value specification and learning; and/or (3) focusing on a single agent or on humanity as a singular unit. Recent work in sociotechnical AI alignment has made some progress in defining alignment inclusively, but the field as a whole still lacks a systematic understanding of how to specify, describe, and analyze misalignment among entities, which may include individual humans, AI agents, and complex compositional entities such as corporations, nation-states, and so forth. Previous work on controversy in computational social science offers a mathematical model of contention among populations (of humans). In this paper, we adapt this contention model to the alignment problem, and show how misalignment can vary depending on the population of agents (human or otherwise) being observed, the domain in question, and the agents' probability-weighted preferences between possible outcomes. Our model departs from value specification approaches and focuses instead on the morass of complex, interlocking, sometimes contradictory goals that agents may have in practice. We apply our model by analyzing several case studies ranging from social media moderation to autonomous vehicle behavior. By applying our model with appropriately representative value data, AI engineers can ensure that their systems learn values maximally aligned with diverse human interests.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# FairytaleQA 翻訳:低リソース言語における教育的質問と回答の作成

FairytaleQA Translated: Enabling Educational Question and Answer Generation in Less-Resourced Languages ( http://arxiv.org/abs/2406.04233v1 )

ライセンス: Link先を確認
Bernardo Leite, Tomás Freitas Osório, Henrique Lopes Cardoso, (参考訳) 質問応答(QA)データセットは、機械と人の両方の読解スキルを評価するのに不可欠である。 この目的のために多くのデータセットが英語で開発されているが、少ないリソースの言語には顕著な空白が存在する。 このギャップを緩和するために,幼児の物語理解能力の評価と向上を目的とした有名なQAデータセットであるFairytaleQAの機械翻訳版を紹介した。 微調整された、控えめなスケールのモデルを用いることで、翻訳データセット内の質問生成(QG)タスクとQAタスクのベンチマークを確立する。 また,質問対生成モデルを提案するケーススタディとして,質問適合性,回答可能性,妥当性,子どもの適合性などの品質指標を取り入れた評価を行った。 我々の評価は、エラー事例の定量化と記述を優先し、今後の作業の方向性を提供する。 本稿では,低リソース言語におけるQA研究とQG研究の進展に寄与し,これらの学習モデルの開発におけるアクセシビリティとインクリシティの促進に寄与する。 コードとデータはgithub.com/bernardoleite/fairytaleqa-tranlateで公開されている。

Question Answering (QA) datasets are crucial in assessing reading comprehension skills for both machines and humans. While numerous datasets have been developed in English for this purpose, a noticeable void exists in less-resourced languages. To alleviate this gap, our paper introduces machine-translated versions of FairytaleQA, a renowned QA dataset designed to assess and enhance narrative comprehension skills in young children. By employing fine-tuned, modest-scale models, we establish benchmarks for both Question Generation (QG) and QA tasks within the translated datasets. In addition, we present a case study proposing a model for generating question-answer pairs, with an evaluation incorporating quality metrics such as question well-formedness, answerability, relevance, and children suitability. Our evaluation prioritizes quantifying and describing error cases, along with providing directions for future work. This paper contributes to the advancement of QA and QG research in less-resourced languages, promoting accessibility and inclusivity in the development of these models for reading comprehension. The code and data is publicly available at github.com/bernardoleite/fairytaleqa-translated.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# 品質多様性を用いたレニアにおける人工的オープンエンド進化に向けて

Toward Artificial Open-Ended Evolution within Lenia using Quality-Diversity ( http://arxiv.org/abs/2406.04235v1 )

ライセンス: Link先を確認
Maxence Faldor, Antoine Cully, (参考訳) 雪片の形成から多様な生命形態の進化に至るまで、宇宙には出現が至るところにある。 単純なルールから複雑性がどのように生じるかを理解するために、セルラーオートマトンのような抽象計算モデルが自己組織化を研究するために開発されている。 しかし、人工システムにおける自己組織化パターンの発見は困難であり、過去には手動や半自動検索に大きく依存していた。 本稿では,進化的アルゴリズムのファミリーであるQuality-Diversityが,複雑なシステムにおける多様な自己組織化パターンの自動発見に有効なフレームワークであることを示す。 品質多様性アルゴリズムは多様な個体の集団を進化させることを目的としており、それぞれが生態学的ニッチに適応している。 連続的なセルオートマトンであるLeniaと組み合わせることで、我々の方法は多様な生物のような自己組織型自律パターンを進化させることができることを実証した。 我々のフレームワークはLeniabreederと呼ばれ、手動で定義された多様性基準を利用して、興味のある領域を探索し、また発見可能なパターンの範囲を広げるために、教師なしの多様性の測定を行うことができる。 我々はLeniabreederが自己組織化パターンを発見するための強力なソリューションであることを示す。 レニアの豊かな景観と組み合わせた教師なし品質多様性手法の有効性は、生物進化の多様性と複雑さの持続的な発生を示す。 非有界な多様性を示唆する実証的な証拠を提供し、レニアブレーダーはシリコにおけるオープンエンド進化の複製へのステップであると主張している。

From the formation of snowflakes to the evolution of diverse life forms, emergence is ubiquitous in our universe. In the quest to understand how complexity can arise from simple rules, abstract computational models, such as cellular automata, have been developed to study self-organization. However, the discovery of self-organizing patterns in artificial systems is challenging and has largely relied on manual or semi-automatic search in the past. In this paper, we show that Quality-Diversity, a family of Evolutionary Algorithms, is an effective framework for the automatic discovery of diverse self-organizing patterns in complex systems. Quality-Diversity algorithms aim to evolve a large population of diverse individuals, each adapted to its ecological niche. Combined with Lenia, a family of continuous cellular automata, we demonstrate that our method is able to evolve a diverse population of lifelike self-organizing autonomous patterns. Our framework, called Leniabreeder, can leverage both manually defined diversity criteria to guide the search toward interesting areas, as well as unsupervised measures of diversity to broaden the scope of discoverable patterns. We demonstrate both qualitatively and quantitatively that Leniabreeder offers a powerful solution for discovering self-organizing patterns. The effectiveness of unsupervised Quality-Diversity methods combined with the rich landscape of Lenia exhibits a sustained generation of diversity and complexity characteristic of biological evolution. We provide empirical evidence that suggests unbounded diversity and argue that Leniabreeder is a step toward replicating open-ended evolution in silico.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# マルチモーダル大言語モデルにおける情報保存と伝達の理解

Understanding Information Storage and Transfer in Multi-modal Large Language Models ( http://arxiv.org/abs/2406.04236v1 )

ライセンス: Link先を確認
Samyadeep Basu, Martin Grayson, Cecily Morrison, Besmira Nushi, Soheil Feizi, Daniela Massiceti, (参考訳) トランスフォーマーモデルにおける情報記憶と転送のメカニズムを理解することは、モデル理解の進展を駆動する上で重要である。 最近の研究は、Large Language Models (LLMs) のこれらのメカニズムを研究し、モデルのパラメータに情報がどのように格納されているか、特定のプロンプトに応答してパラメータから情報がどのように流れているか、といった知見を明らかにしている。 しかし、これらの研究はまだMLLM(Multi-modal Large Language Models)に拡張されていない。 拡張能力と実世界の利用を考えると、まずこれらのモデルの1つの側面 - MLLMが実際の視覚的質問応答タスクで情報をどのように処理するか - を研究することから始めます。 我々は、視覚的質問を、モデルが生成した回答が正しいことを満たさなければならない視覚的あるいはテキスト的制約のセットであると見なす制約ベースの定式化を使用する(例えば、この写真のディレクターが監督する映画がゴールデングローブを獲得したか?)。 この設定で、私たちは貢献します 一 純粋言語からマルチモーダル設定への因果情報追跡を拡張する方法 ii) VQA-Constraintsは、制約を付した9.7Kの視覚的質問のテストベッドである。 これらのツールを用いて、2つのオープンソースのMLLM、LLaVaとマルチモーダルPhi-2を研究する。 これらのMLLMは,中層MLPがより重要となるLPMと比較して,情報記憶においてずっと早い段階でMLPや自己保持ブロックに依存していることを示す。 また、視覚エンコーダが出力する視覚トークンの一貫したサブセットが、画像からこれらの因果ブロックに情報を転送する役割を担っていることを示す。 モデル編集アルゴリズムであるMultEditを導入し、これらの因果ブロックをターゲットとして、誤りを訂正し、新しい長尾情報をMLLMに挿入することで、これらのメカニズムを検証する。

Understanding the mechanisms of information storage and transfer in Transformer-based models is important for driving model understanding progress. Recent work has studied these mechanisms for Large Language Models (LLMs), revealing insights on how information is stored in a model's parameters and how information flows to and from these parameters in response to specific prompts. However, these studies have not yet been extended to Multi-modal Large Language Models (MLLMs). Given their expanding capabilities and real-world use, we start by studying one aspect of these models -- how MLLMs process information in a factual visual question answering task. We use a constraint-based formulation which views a visual question as having a set of visual or textual constraints that the model's generated answer must satisfy to be correct (e.g. What movie directed by the director in this photo has won a Golden Globe?). Under this setting, we contribute i) a method that extends causal information tracing from pure language to the multi-modal setting, and ii) VQA-Constraints, a test-bed of 9.7K visual questions annotated with constraints. We use these tools to study two open-source MLLMs, LLaVa and multi-modal Phi-2. Our key findings show that these MLLMs rely on MLP and self-attention blocks in much earlier layers for information storage, compared to LLMs whose mid-layer MLPs are more important. We also show that a consistent small subset of visual tokens output by the vision encoder are responsible for transferring information from the image to these causal blocks. We validate these mechanisms by introducing MultEdit, a model-editing algorithm that can correct errors and insert new long-tailed information into MLLMs by targeting these causal blocks.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# 拡散前駆体を用いたタンパク質空間の逆問題の解法

Solving Inverse Problems in Protein Space Using Diffusion-Based Priors ( http://arxiv.org/abs/2406.04239v1 )

ライセンス: Link先を確認
Axel Levy, Eric R. Chan, Sara Fridovich-Keil, Frédéric Poitevin, Ellen D. Zhong, Gordon Wetzstein, (参考訳) タンパク質とその環境との相互作用は、その3D構造を通して理解および制御することができる。 X線結晶学や低温電子顕微鏡などのタンパク質構造決定のための実験的手法は、生物学的プロセスに光を放つが、挑戦的な逆問題をもたらす。 学習に基づくアプローチは、これらの逆問題の3次元構造決定のための正確かつ効率的な方法として現れてきたが、事前に定義された種類の測定に特化している。 本稿では,様々な種類の生生物物理測定を3次元原子モデルに変換するための多用途フレームワークを提案する。 本手法は,測定プロセスの物理に基づくフォワードモデルと,タスクに依存しないデータ駆動型前処理モデルとを組み合わせる。 本手法は, 線形および非線形逆問題において, 後方サンプリングベースラインよりも優れた性能を示す。 特に、Cryo-EM密度マップから原子モデルを精製する最初の拡散法である。

The interaction of a protein with its environment can be understood and controlled via its 3D structure. Experimental methods for protein structure determination, such as X-ray crystallography or cryogenic electron microscopy, shed light on biological processes but introduce challenging inverse problems. Learning-based approaches have emerged as accurate and efficient methods to solve these inverse problems for 3D structure determination, but are specialized for a predefined type of measurement. Here, we introduce a versatile framework to turn raw biophysical measurements of varying types into 3D atomic models. Our method combines a physics-based forward model of the measurement process with a pretrained generative model providing a task-agnostic, data-driven prior. Our method outperforms posterior sampling baselines on both linear and non-linear inverse problems. In particular, it is the first diffusion-based method for refining atomic models from cryo-EM density maps.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# 非定型音声へのASRのパーソナライズのためのハイパーネット

Hypernetworks for Personalizing ASR to Atypical Speech ( http://arxiv.org/abs/2406.04240v1 )

ライセンス: Link先を確認
Max Mueller-Eberstein, Dianna Yee, Karren Yang, Gautam Varma Mantena, Colin Lea, (参考訳) 自動音声認識(ASR)をパーソナライズするためのパラメータ効率のよい微調整(PEFT)は,最近,一般集団モデルを非定型音声に適用することを約束している。 しかし、これらのアプローチは、非典型的言語障害が適応されているという先駆的な知識を前提としており、その診断には、常に利用できるわけではない専門家の知識が必要である。 この知識を踏まえると、データ不足とイントラスピーカー間の高いばらつきにより、従来の微調整の有効性はさらに制限される。 これらの課題を回避するために、まずASR適応に必要なモデルパラメータの最小セットを同定する。 適応性能に対する各パラメータの影響の分析により,全重みの0.03\%を適応させながら,ワード誤り率(WER)を半減することができる。 次に,コホート固有モデルの必要性を軽減し,多種多様な非定型音声特性に対して,高度に個別化された発話レベル適応を生成するメタ学習型ハイパーネットワークを提案する。 グローバル,コホート,個人レベルでの適応を評価することで,ハイパーネットワークは,全パラメータ予算の0.1%を用いて,WER全体の75.2%削減を維持しつつ,アウト・オブ・ディストリビューション話者よりも一般化されていることを示す。

Parameter-efficient fine-tuning (PEFT) for personalizing automatic speech recognition (ASR) has recently shown promise for adapting general population models to atypical speech. However, these approaches assume a priori knowledge of the atypical speech disorder being adapted for -- the diagnosis of which requires expert knowledge that is not always available. Even given this knowledge, data scarcity and high inter/intra-speaker variability further limit the effectiveness of traditional fine-tuning. To circumvent these challenges, we first identify the minimal set of model parameters required for ASR adaptation. Our analysis of each individual parameter's effect on adaptation performance allows us to reduce Word Error Rate (WER) by half while adapting 0.03\% of all weights. Alleviating the need for cohort-specific models, we next propose the novel use of a meta-learned hypernetwork to generate highly individualized, utterance-level adaptations on-the-fly for a diverse set of atypical speech characteristics. Evaluating adaptation at the global, cohort and individual-level, we show that hypernetworks generalize better to out-of-distribution speakers, while maintaining an overall relative WER reduction of 75.2% using 0.1% of the full parameter budget.
翻訳日:2024-06-07 13:59:57 公開日:2024-06-06
# 大規模言語モデルのベンチマークデータ汚染に関する調査

Benchmark Data Contamination of Large Language Models: A Survey ( http://arxiv.org/abs/2406.04244v1 )

ライセンス: Link先を確認
Cheng Xu, Shuhao Guan, Derek Greene, M-Tahar Kechadi, (参考訳) GPT-4、Claude-3、Geminiのような大規模言語モデル(LLM)の急速な開発により、自然言語処理の分野が変化した。 しかし、これはBenchmark Data Contamination (BDC)と呼ばれる重大な問題を引き起こした。 これは、言語モデルがトレーニングデータから評価ベンチマーク情報を不注意に組み込んで、プロセスの評価フェーズ中に不正確または信頼性の低いパフォーマンスをもたらす場合に発生する。 本稿では,LCM評価におけるBDCの複雑な課題を概説し,従来のベンチマークによるリスクを軽減するための代替評価手法について検討する。 また、BDCリスク軽減の課題と今後の方向性について検討し、現実のアプリケーションにおけるLCM評価の信頼性を確保するために、問題の複雑さと革新的なソリューションの必要性を強調した。

The rapid development of Large Language Models (LLMs) like GPT-4, Claude-3, and Gemini has transformed the field of natural language processing. However, it has also resulted in a significant issue known as Benchmark Data Contamination (BDC). This occurs when language models inadvertently incorporate evaluation benchmark information from their training data, leading to inaccurate or unreliable performance during the evaluation phase of the process. This paper reviews the complex challenge of BDC in LLM evaluation and explores alternative assessment methods to mitigate the risks associated with traditional benchmarks. The paper also examines challenges and future directions in mitigating BDC risks, highlighting the complexity of the issue and the need for innovative solutions to ensure the reliability of LLM evaluation in real-world applications.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# 量子オブジェクトのパノプリのオンライン学習

Online learning of a panoply of quantum objects ( http://arxiv.org/abs/2406.04245v1 )

ライセンス: Link先を確認
Akshay Bansal, Ian George, Soumik Ghosh, Jamie Sikora, Alice Zheng, (参考訳) 多くの量子タスクにおいて、学習したい未知の量子オブジェクトが存在する。 このタスクのオンライン戦略は、そのような対象またはその測定統計を再現するために仮説を適応的に精製することを含む。 そのような戦略の一般的な評価基準は、その後悔または仮説統計における概ね蓄積された誤りである。 正半定値行列の一般部分集合について正規化フォロー・ザ・リーダーアルゴリズムを用いて学習し、量子オブジェクトを学習したい様々な設定に適用するためのサブ線形後悔を証明した。 具体的には, 量子状態, 効果, チャネル, 対話的測定, 戦略, 共同戦略, 純粋状態の内積の収集について述べる。 我々の境界はコンパクトな凸表現を持つ他の多くの量子オブジェクトに適用できる。 残念なことに、量子情報理論に有用な様々な行列解析結果を確立する。 これは、おそらく異なるトレースを持つ任意の正の半定値作用素に対するピンスカーの不等式を一般化することを含み、これは独立な興味を持ち、より一般的な発散クラスに適用できる。

In many quantum tasks, there is an unknown quantum object that one wishes to learn. An online strategy for this task involves adaptively refining a hypothesis to reproduce such an object or its measurement statistics. A common evaluation metric for such a strategy is its regret, or roughly the accumulated errors in hypothesis statistics. We prove a sublinear regret bound for learning over general subsets of positive semidefinite matrices via the regularized-follow-the-leader algorithm and apply it to various settings where one wishes to learn quantum objects. For concrete applications, we present a sublinear regret bound for learning quantum states, effects, channels, interactive measurements, strategies, co-strategies, and the collection of inner products of pure states. Our bound applies to many other quantum objects with compact, convex representations. In proving our regret bound, we establish various matrix analysis results useful in quantum information theory. This includes a generalization of Pinsker's inequality for arbitrary positive semidefinite operators with possibly different traces, which may be of independent interest and applicable to more general classes of divergences.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# 量子信号処理における補多項式

Complementary polynomials in quantum signal processing ( http://arxiv.org/abs/2406.04246v1 )

ライセンス: Link先を確認
Bjorn K. Berntson, Christoph Sünderhauf, (参考訳) 量子信号処理は、量子コンピュータ上で多項式関数を実装するためのフレームワークである。 与えられた多項式$P$を実装するためには、まず対応する補多項式$Q$を構築する必要がある。 この問題に対する既存のアプローチでは、明示的な誤り解析には適さない数値的手法が採用されている。 複素解析を用いた補多項式に対する新しいアプローチを提案する。 我々の主な数学的結果は、正準補多項式に対する輪郭積分表現である。 単位円上の積分表現は、特に単純で効率的なフーリエ解析解釈を持ち、明示的なエラー保証付き単項法で$Q$の効率的な計算を行うための高速フーリエ変換アルゴリズムを開発するために用いられる。 このアルゴリズムが相補多項式計算の最先端最適化法より優れていることを示す数値的証拠を提供する。

Quantum signal processing is a framework for implementing polynomial functions on quantum computers. To implement a given polynomial $P$, one must first construct a corresponding complementary polynomial $Q$. Existing approaches to this problem employ numerical methods that are not amenable to explicit error analysis. We present a new approach to complementary polynomials using complex analysis. Our main mathematical result is a contour integral representation for a canonical complementary polynomial. The integral representation on the unit circle has a particularly simple and efficacious Fourier analytic interpretation, which we use to develop a Fast Fourier Transform-based algorithm for the efficient calculation of $Q$ in the monomial basis with explicit error guarantees. Numerical evidence that our algorithm outperforms the state-of-the-art optimization-based method for computing complementary polynomials is provided.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# Conv-INR:マルチモーダル視覚信号のための畳み込み型暗黙的ニューラル表現

Conv-INR: Convolutional Implicit Neural Representation for Multimodal Visual Signals ( http://arxiv.org/abs/2406.04249v1 )

ライセンス: Link先を確認
Zhicheng Cai, (参考訳) Inlicit Neural representation (INR) は近年,信号表現の有望なパラダイムとして浮上している。 通常、INRはマルチプレイヤーパーセプトロン(MLP)によってパラメータ化され、座標を入力として取り、信号の対応する属性を生成する。 しかし、MLPベースのINRは2つの重大な問題に直面している。 一 接続を無視して各座標を個別に考慮すること 二 スペクトルバイアスに悩まされ、高周波成分を習得できないこと。 ターゲットの視覚信号は通常、強い局所構造と近傍依存性を示し、これらの信号には高周波成分が重要であるが、問題はINRの表現能力に悪影響を及ぼす。 本稿では,畳み込みに基づく最初のINRモデルであるConv-INRを提案する。 畳み込みの固有の特性のため、Conv-INRは隣接座標を同時に検討し、高周波成分を効果的に学習することができる。 既存のMLPベースのINRと比較して、Conv-INRは一次機能拡張を必要とせず、表現能力と訓練性を向上させる。 画像適合、CT/MRI再構成、新しいビュー合成を含む4つのタスクについて広範な実験を行い、Conv-INRは既存のMLPベースのINRを大幅に上回り、その効果を検証した。 最後に,バニラConv-INRの性能を高めるために,余分な推論コストを伴わずに3つの再パラメータ化手法を立案する。

Implicit neural representation (INR) has recently emerged as a promising paradigm for signal representations. Typically, INR is parameterized by a multiplayer perceptron (MLP) which takes the coordinates as the inputs and generates corresponding attributes of a signal. However, MLP-based INRs face two critical issues: i) individually considering each coordinate while ignoring the connections; ii) suffering from the spectral bias thus failing to learn high-frequency components. While target visual signals usually exhibit strong local structures and neighborhood dependencies, and high-frequency components are significant in these signals, the issues harm the representational capacity of INRs. This paper proposes Conv-INR, the first INR model fully based on convolution. Due to the inherent attributes of convolution, Conv-INR can simultaneously consider adjacent coordinates and learn high-frequency components effectively. Compared to existing MLP-based INRs, Conv-INR has better representational capacity and trainability without requiring primary function expansion. We conduct extensive experiments on four tasks, including image fitting, CT/MRI reconstruction, and novel view synthesis, Conv-INR all significantly surpasses existing MLP-based INRs, validating the effectiveness. Finally, we raise three reparameterization methods that can further enhance the performance of the vanilla Conv-INR without introducing any extra inference cost.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# 量子過程のオンライン学習

Online learning of quantum processes ( http://arxiv.org/abs/2406.04250v1 )

ライセンス: Link先を確認
Asad Raza, Matthias C. Caro, Jens Eisert, Sumeet Khatri, (参考訳) 量子状態の学習に関する最近の知見の中で、オンライン学習とシャドウトモグラフィーの手順は、適応的に選択された観測値であっても予測値を正確に予測する能力で有名である。 状態の場合とは対照的に、適応性に類似した量子プロセス学習タスクはほとんど注目されていない。 本研究では,量子プロセスのオンライン学習タスクについて検討する。 一般的な量子チャネルではオンライン学習が不可能であるのに対して、我々は、オンライン学習の後悔とミスバウンドモデルにおいて、境界ゲートの複雑さのチャネルとパウリのチャネルをオンライン学習できることを示した。 実際、私たちは指数関数的に大きな既知のチャネルの確率的混合をオンラインで学習することができる。 また,パウリ流路に対する試料効率の高いシャドウトモグラフィー法も提案する。 我々の結果は、量子チャネルを超えて非マルコフ的マルチタイムプロセスに拡張され、良好な後悔と誤り境界、およびシャドウトモグラフィーの手順が得られた。 オンライン学習の上位境界と誤りと計算の下位境界を補完する。 技術的には、乗法重み更新アルゴリズム、古典的適応データ分析、ベルサンプリング、およびマルチ時間量子プロセスの量子コム理論のツールを利用する。 我々の研究は、量子チャネルのクラスおよびより一般的には非マルコフ量子プロセスに対するオンライン学習の研究を開始する。 状態影トモグラフィーにおけるオンライン学習の重要性を考えると、これは適応影トモグラフィーの量子チャネル変種へのステップとなる。

Among recent insights into learning quantum states, online learning and shadow tomography procedures are notable for their ability to accurately predict expectation values even of adaptively chosen observables. In contrast to the state case, quantum process learning tasks with a similarly adaptive nature have received little attention. In this work, we investigate online learning tasks for quantum processes. Whereas online learning is infeasible for general quantum channels, we show that channels of bounded gate complexity as well as Pauli channels can be online learned in the regret and mistake-bounded models of online learning. In fact, we can online learn probabilistic mixtures of any exponentially large set of known channels. We also provide a provably sample-efficient shadow tomography procedure for Pauli channels. Our results extend beyond quantum channels to non-Markovian multi-time processes, with favorable regret and mistake bounds, as well as a shadow tomography procedure. We complement our online learning upper bounds with mistake as well as computational lower bounds. On the technical side, we make use of the multiplicative weights update algorithm, classical adaptive data analysis, and Bell sampling, as well as tools from the theory of quantum combs for multi-time quantum processes. Our work initiates a study of online learning for classes of quantum channels and, more generally, non-Markovian quantum processes. Given the importance of online learning for state shadow tomography, this may serve as a step towards quantum channel variants of adaptive shadow tomography.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# 局所ガウス点管理

Localized Gaussian Point Management ( http://arxiv.org/abs/2406.04251v1 )

ライセンス: Link先を確認
Haosen Yang, Chenhao Zhang, Wenqing Wang, Marco Volino, Adrian Hilton, Li Zhang, Xiatian Zhu, (参考訳) 点管理は3Dガウススプラッティング(3DGS)モデルを最適化する上で重要な要素であり、点開始(例えば、動きからの構造を通して)は分布的に不適切である。 通常、アダプティブ・デシデント・コントロール (ADC) アルゴリズムが適用され、点密度化、プルーニングのための不透明度閾値設定、および通常の全点不透明度リセットに平均勾配度しきい値を用いた。 しかし、この戦略は、点密度を必要とする全ての3次元領域を識別できないため、複雑な画像領域(例えば、透明な画像領域)への対処に限られており、悪条件の点を負の影響(偽高不透明性による排除)で扱うための適切なメカニズムが欠如していることが判明した。 これらの制約に対処するため,我々は,点加算と幾何校正の双方において,これらの誤り貢献ゾーンを最も高い需要で特定できる局所的点管理(LPM)戦略を提案する。 ゾーン識別は、画像レンダリングエラーのガイダンスを用いて、基礎となるマルチビュー幾何学的制約を活用することで達成される。 特定された領域に点密度を適用し、これらの領域の前に位置する点の不透明度をリセットし、不条件点を補正する新たな機会を創出する。 汎用的なプラグインとして機能するLPMは、既存の3Dガウススプラッティングモデルにシームレスに統合することができる。 静的3Dシーンと動的4Dシーンの両方で実験的に評価し,LPM戦略の有効性を定量的および定性的に評価した。 特に、LPMはバニラ3DGSとSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現し、Thants & TemplesやNeural 3D Video Datasetといった挑戦的なデータセットよりも優れたパフォーマンスを実現している。

Point management is a critical component in optimizing 3D Gaussian Splatting (3DGS) models, as the point initiation (e.g., via structure from motion) is distributionally inappropriate. Typically, the Adaptive Density Control (ADC) algorithm is applied, leveraging view-averaged gradient magnitude thresholding for point densification, opacity thresholding for pruning, and regular all-points opacity reset. However, we reveal that this strategy is limited in tackling intricate/special image regions (e.g., transparent) as it is unable to identify all the 3D zones that require point densification, and lacking an appropriate mechanism to handle the ill-conditioned points with negative impacts (occlusion due to false high opacity). To address these limitations, we propose a Localized Point Management (LPM) strategy, capable of identifying those error-contributing zones in the highest demand for both point addition and geometry calibration. Zone identification is achieved by leveraging the underlying multiview geometry constraints, with the guidance of image rendering errors. We apply point densification in the identified zone, whilst resetting the opacity of those points residing in front of these regions so that a new opportunity is created to correct ill-conditioned points. Serving as a versatile plugin, LPM can be seamlessly integrated into existing 3D Gaussian Splatting models. Experimental evaluation across both static 3D and dynamic 4D scenes validate the efficacy of our LPM strategy in boosting a variety of existing 3DGS models both quantitatively and qualitatively. Notably, LPM improves both vanilla 3DGS and SpaceTimeGS to achieve state-of-the-art rendering quality while retaining real-time speeds, outperforming on challenging datasets such as Tanks & Temples and the Neural 3D Video Dataset.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# 3次元アバターモデリングに関する研究 -再構築から生成まで-

A Survey on 3D Human Avatar Modeling -- From Reconstruction to Generation ( http://arxiv.org/abs/2406.04253v1 )

ライセンス: Link先を確認
Ruihe Wang, Yukang Cao, Kai Han, Kwan-Yee K. Wong, (参考訳) 3Dモデリングはコンピュータビジョンとコンピュータグラフィックスにおいて長い間重要な領域であった。 近年, ニューラル表現と生成モデルの進歩により, 3次元モデリングの急速な発展が見られた。 ゲームやアニメーションなど、多くの現実世界のアプリケーションの中核に位置する3Dヒューマンモデリングは、大きな注目を集めている。 過去数年間、人間の3Dアバターを作るための大規模な研究が行われ、3Dモデリングのための新しい豊富な知識基盤を形成してきた。 文学の規模は、個人がすべての作品を追跡するのを困難にしている。 本調査は, これら3次元アバターモデリング技術について, 再構築と生成の両面から概観することを目的としている。 まず, 画素アラインの暗黙的機能, 神経放射場, 3次元ガウススプラッティングなどに基づく3次元人体再構成の代表的手法について検討する。 次に,その代表的手法,特にCLIP,拡散モデル,および最先端性能を示す様々な3D表現などの大規模言語モデルを用いたものを要約する。 最後に,3次元アバターモデリングにおける既存の手法とオープンな課題について考察し,今後の研究に光を当てる。

3D modeling has long been an important area in computer vision and computer graphics. Recently, thanks to the breakthroughs in neural representations and generative models, we witnessed a rapid development of 3D modeling. 3D human modeling, lying at the core of many real-world applications, such as gaming and animation, has attracted significant attention. Over the past few years, a large body of work on creating 3D human avatars has been introduced, forming a new and abundant knowledge base for 3D human modeling. The scale of the literature makes it difficult for individuals to keep track of all the works. This survey aims to provide a comprehensive overview of these emerging techniques for 3D human avatar modeling, from both reconstruction and generation perspectives. Firstly, we review representative methods for 3D human reconstruction, including methods based on pixel-aligned implicit function, neural radiance field, and 3D Gaussian Splatting, etc. We then summarize representative methods for 3D human generation, especially those using large language models like CLIP, diffusion models, and various 3D representations, which demonstrate state-of-the-art performance. Finally, we discuss our reflection on existing methods and open challenges for 3D human avatar modeling, shedding light on future research.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# GeoGen: 符号付き距離関数による幾何認識生成モデリング

GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions ( http://arxiv.org/abs/2406.04254v1 )

ライセンス: Link先を確認
Salvatore Esposito, Qingshan Xu, Kacper Kania, Charlie Hewitt, Octave Mariotti, Lohit Petikam, Julien Valentin, Arno Onken, Oisin Mac Aodha, (参考訳) 単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。 既存のほとんどのアプローチは、多視点一貫した画像をレンダリングするために体積密度を予測する。 ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がなく、出力メッシュの品質と有用性に制限されるという、重要な制限を継承する。 この問題に対処するために、我々は、エンドツーエンドで訓練されたSDFベースの新しい3D生成モデルGeoGenを提案する。 当初は,体積密度を符号付き距離関数 (Signed Distance Function, SDF) として再解釈した。 これにより、有効なメッシュを生成するための有用なプリエントを導入することができます。 しかし、これらの先行は、生成モデルが詳細を学習することを防ぎ、実際のシナリオに適用性を制限する。 この問題を緩和するため、変換を学習可能とし、描画深度マップをSDFのゼロレベル集合と整合性に制約する。 敵対的トレーニングのレンズを通して、我々はネットワークに対して、出力メッシュについて高い忠実度の詳細を作成するよう奨励する。 評価のために、360度カメラアングルから取得した人間のアバターの合成データセットを導入し、現実のデータセットが生み出す課題を克服する。 複数のデータセットに対する実験により,GeoGenは従来のニューラル放射場に基づく生成モデルよりも視覚的,定量的に優れた幾何を生成することが示された。

We introduce a new generative approach for synthesizing 3D geometry and images from single-view collections. Most existing approaches predict volumetric density to render multi-view consistent images. By employing volumetric rendering using neural radiance fields, they inherit a key limitation: the generated geometry is noisy and unconstrained, limiting the quality and utility of the output meshes. To address this issue, we propose GeoGen, a new SDF-based 3D generative model trained in an end-to-end manner. Initially, we reinterpret the volumetric density as a Signed Distance Function (SDF). This allows us to introduce useful priors to generate valid meshes. However, those priors prevent the generative model from learning details, limiting the applicability of the method to real-world scenarios. To alleviate that problem, we make the transformation learnable and constrain the rendered depth map to be consistent with the zero-level set of the SDF. Through the lens of adversarial training, we encourage the network to produce higher fidelity details on the output meshes. For evaluation, we introduce a synthetic dataset of human avatars captured from 360-degree camera angles, to overcome the challenges presented by real-world datasets, which often lack 3D consistency and do not cover all camera angles. Our experiments on multiple datasets show that GeoGen produces visually and quantitatively better geometry than the previous generative models based on neural radiance fields.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# 分散データ市場におけるデータ計測

Data Measurements for Decentralized Data Markets ( http://arxiv.org/abs/2406.04257v1 )

ライセンス: Link先を確認
Charles Lu, Mohammad Mohammadi Amiri, Ramesh Raskar, (参考訳) 分散データ市場は、機械学習のためのより公平なデータ取得を提供することができる。 しかし,現実的なマーケットプレースを実現するためには,売り手選択のための効率的な技術を開発する必要がある。 我々は、データ購入者が関連する多様なデータセットを持つ売り手を見つけることができるように、フェデレートされたデータ測定をベンチマークして提案する。 多様性と妥当性の尺度により、買い手は中間ブローカーやタスク依存モデルのトレーニングを必要とせずに、売り手間で相対的な比較を行うことができる。

Decentralized data markets can provide more equitable forms of data acquisition for machine learning. However, to realize practical marketplaces, efficient techniques for seller selection need to be developed. We propose and benchmark federated data measurements to allow a data buyer to find sellers with relevant and diverse datasets. Diversity and relevance measures enable a buyer to make relative comparisons between sellers without requiring intermediate brokers and training task-dependent models.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# ブラックボックス最適化のための学習ポリシーのシミュレーション・高速・低速化

Simulating, Fast and Slow: Learning Policies for Black-Box Optimization ( http://arxiv.org/abs/2406.04261v1 )

ライセンス: Link先を確認
Fabio Valerio Massoli, Tim Bakker, Thomas Hehn, Tribhuvanesh Orekondy, Arash Behboodi, (参考訳) 近年,ブラックボックスシミュレータによる最適化問題の解決が,科学と工学の両面から機械学習コミュニティの焦点となっている。 シミュレータは、フォワードプロセス $f_{\mathrm{sim}}: (\psi, x) \rightarrow y$ from simulation parameters $\psi$ and input data $x$ to observed $y$を記述し、最適化問題の目標は、望まれる損失関数を最小化するパラメータ $\psi$を見つけることである。 高度化された最適化アルゴリズムは、通常、フォワードプロセスに関する勾配情報、$f_{\mathrm{sim}}$、パラメータ $\psi$ を必要とする。 しかし、ブラックボックスシミュレータから勾配を得るのは、しばしば違法にコストがかかるか、場合によっては不可能である。 さらに、多くの応用において、実践者は一連の関連する問題を解決することを目指している。 したがって、最適化 "`ab initio" をスクラッチから始めると、フォワードモデルを評価するのにコストがかかる場合、各時間が非効率になる可能性がある。 これらの課題に対処するため,本論文では,シュロゲートの学習指導を指導する能動的学習ポリシーを学習し,シュロゲートの勾配を用いてシュミレーションパラメータを勾配降下で最適化することで,類似のブラックボックス最適化問題のクラスを解く手法を提案する。 ブラックボックスシミュレーターに関わる問題の下流での最適化には、ローカルサロゲートベースのアプローチ、数値最適化、ベイズ方式などのベースラインに比べて、コストのかかるシミュレーターコールを最大$\sim$90\%削減する必要がある。

In recent years, solving optimization problems involving black-box simulators has become a point of focus for the machine learning community due to their ubiquity in science and engineering. The simulators describe a forward process $f_{\mathrm{sim}}: (\psi, x) \rightarrow y$ from simulation parameters $\psi$ and input data $x$ to observations $y$, and the goal of the optimization problem is to find parameters $\psi$ that minimize a desired loss function. Sophisticated optimization algorithms typically require gradient information regarding the forward process, $f_{\mathrm{sim}}$, with respect to the parameters $\psi$. However, obtaining gradients from black-box simulators can often be prohibitively expensive or, in some cases, impossible. Furthermore, in many applications, practitioners aim to solve a set of related problems. Thus, starting the optimization ``ab initio", i.e. from scratch, each time might be inefficient if the forward model is expensive to evaluate. To address those challenges, this paper introduces a novel method for solving classes of similar black-box optimization problems by learning an active learning policy that guides a differentiable surrogate's training and uses the surrogate's gradients to optimize the simulation parameters with gradient descent. After training the policy, downstream optimization of problems involving black-box simulators requires up to $\sim$90\% fewer expensive simulator calls compared to baselines such as local surrogate-based approaches, numerical optimization, and Bayesian methods.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# 連続可変測定装置独立量子鍵分布における光子サブトラクションと変位の真の利点

No real advantage of photon subtraction and displacement in continuous variable measurement device independent quantum key distribution ( http://arxiv.org/abs/2406.04263v1 )

ライセンス: Link先を確認
Chandan Kumar, Sarbani Chatterjee, Arvind, (参考訳) 連続可変計測装置独立量子鍵分布(CV-MDI-QKD)の性能向上における単一光子減算(SPS)と変位の役割を批判的に分析する。 SPSが生成する資源状態を持つCV-MDI-QKDを2モード圧縮真空状態に置き換える。 シークレットキーレートを状態パラメータで最適化すると、SPSを実装することでCV-MDI-QKDの損失耐性を改善するメリットが得られないことが分かる。 さらに, CV-MDI-QKDの性能向上には, 変位も役に立たないことがわかった。 SPSの有用性とCV-MDI-QKDの変位に関する分野における広く信じられている信念とは対照的であるが、様々な量子情報処理プロトコルの効率を高める上での非ガウス演算の役割の再検討も求めている。

We critically analyse the role of single photon subtraction (SPS) and displacement in improving the performance of continuous variable measurement device independent quantum key distribution (CV-MDI-QKD). We consider CV-MDI-QKD with resource states generated by SPS on a displaced two-mode squeezed vacuum state. Optimizing the secret key rate with state parameters reveals that implementing SPS yields no benefits in improving the loss tolerance of CV-MDI-QKD. Additionally, we find that displacement too is not useful in improving the performance of CV-MDI-QKD. While our result is in contradistinction with the widely held belief in the field regarding the utility of SPS and displacement in CV-MDI-QKD, it also calls for a re-examination of the role of non-Gaussian operations in increasing the efficiency of various quantum information processing protocols.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# MLVU:マルチタスク長ビデオ理解のための総合ベンチマーク

MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding ( http://arxiv.org/abs/2406.04264v1 )

ライセンス: Link先を確認
Junjie Zhou, Yan Shu, Bo Zhao, Boya Wu, Shitao Xiao, Xi Yang, Yongping Xiong, Bo Zhang, Tiejun Huang, Zheng Liu, (参考訳) ロングビデオ理解(Long Video Understanding, LVU)の性能評価は重要な研究課題である。 これまでの努力にもかかわらず、既存のビデオ理解ベンチマークはいくつかの問題、特にビデオの長さの不足、ビデオの種類や評価タスクの多様性の欠如、LVUのパフォーマンスを評価するための不適切さなどによって厳しい制約を受けている。 上記の問題に対処するため,我々はMLVU (Multi-task Long Video Understanding Benchmark) と呼ばれる新しいベンチマークを提案し,LVUの包括的かつ詳細な評価を行う。 MLVUは以下の臨界値を示します。 1) ビデオ長の実質的かつ柔軟な拡張により, 幅広い期間にわたってLVU性能を評価することが可能となった。 2) 様々なビデオジャンル,例えば映画,監視映像,エゴセントリックなビデオ,漫画,ゲームビデオなどが含まれており,異なるシナリオにおけるモデルのLVUパフォーマンスを反映している。 3)長期映像理解におけるMLLMの重要能力の総合的な検証を可能にする多種多様な評価タスクの開発。 20の最新のMLLMによる実証的研究は、既存のすべてのメソッドがほとんどの評価タスクに苦労し、より長いビデオを扱う際に深刻なパフォーマンス劣化を示すため、今日のテクニックにおいて、大きな改善の余地があることを明らかにしている。 さらに, 文脈長, 画質, LLMバックボーンの選択などの要因が, 今後の進歩において重要な役割を担っていることを示唆している。 我々はMLVUが、MLLMの包括的かつ詳細な分析を提供することで、長いビデオ理解の研究を進めることを期待する。

The evaluation of Long Video Understanding (LVU) performance poses an important but challenging research problem. Despite previous efforts, the existing video understanding benchmarks are severely constrained by several issues, especially the insufficient lengths of videos, a lack of diversity in video types and evaluation tasks, and the inappropriateness for evaluating LVU performances. To address the above problems, we propose a new benchmark, called MLVU (Multi-task Long Video Understanding Benchmark), for the comprehensive and in-depth evaluation of LVU. MLVU presents the following critical values: 1) The substantial and flexible extension of video lengths, which enables the benchmark to evaluate LVU performance across a wide range of durations. 2) The inclusion of various video genres, e.g., movies, surveillance footage, egocentric videos, cartoons, game videos, etc., which reflects the models' LVU performances in different scenarios. 3) The development of diversified evaluation tasks, which enables a comprehensive examination of MLLMs' key abilities in long-video understanding. The empirical study with 20 latest MLLMs reveals significant room for improvement in today's technique, as all existing methods struggle with most of the evaluation tasks and exhibit severe performance degradation when handling longer videos. Additionally, it suggests that factors such as context length, image-understanding quality, and the choice of LLM backbone can play critical roles in future advancements. We anticipate that MLVU will advance the research of long video understanding by providing a comprehensive and in-depth analysis of MLLMs.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# トランスフォーマーは眼鏡を必要とする!言語タスクにおける過度な情報

Transformers need glasses! Information over-squashing in language tasks ( http://arxiv.org/abs/2406.04267v1 )

ライセンス: Link先を確認
Federico Barbero, Andrea Banino, Steven Kapturowski, Dharshan Kumaran, João G. M. Araújo, Alex Vitvitskyi, Razvan Pascanu, Petar Veličković, (参考訳) 本稿では,既存のフロンティア大言語モデル (LLM) のアーキテクチャバックボーンであるデコーダのみのトランスフォーマーにおける情報伝達について検討する。 我々は理論的なシグナル伝搬分析に依存します -- 具体的には、Transformerの最終層における最後のトークンの表現を分析します。 変換器への入力の特定の異なるシーケンスが、最終的なトークンにおいて任意に閉じた表現が得られることを証明します。 この効果は、現代のLLMで頻繁に使われる低精度浮動小数点法によってさらに悪化する。 その結果、モデルが異なる方法でこれらのシーケンスに応答できないことが証明できる — 例えば、カウントやコピーを含むタスクのエラーにつながる。 さらに,デコーダのみのトランスフォーマー言語モデルでは,入力中の特定のトークンに対する感度が低下し,グラフニューラルネットワークにおける過度なスキャッシング現象がよく知られる。 現代LPMの主張を裏付ける実証的証拠を提供する。 私たちの理論は、これらの問題を改善するための単純な解決策も指している。

We study how information propagates in decoder-only Transformers, which are the architectural backbone of most existing frontier large language models (LLMs). We rely on a theoretical signal propagation analysis -- specifically, we analyse the representations of the last token in the final layer of the Transformer, as this is the representation used for next-token prediction. Our analysis reveals a representational collapse phenomenon: we prove that certain distinct sequences of inputs to the Transformer can yield arbitrarily close representations in the final token. This effect is exacerbated by the low-precision floating-point formats frequently used in modern LLMs. As a result, the model is provably unable to respond to these sequences in different ways -- leading to errors in, e.g., tasks involving counting or copying. Further, we show that decoder-only Transformer language models can lose sensitivity to specific tokens in the input, which relates to the well-known phenomenon of over-squashing in graph neural networks. We provide empirical evidence supporting our claims on contemporary LLMs. Our theory also points to simple solutions towards ameliorating these issues.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# オープンエンドレスネスは人工超人的知能に欠かせない

Open-Endedness is Essential for Artificial Superhuman Intelligence ( http://arxiv.org/abs/2406.04268v1 )

ライセンス: Link先を確認
Edward Hughes, Michael Dennis, Jack Parker-Holder, Feryal Behbahani, Aditi Mavalankar, Yuge Shi, Tom Schaul, Tim Rocktaschel, (参考訳) 近年、AIシステムの一般的な能力は飛躍的に急増しており、主にインターネットスケールデータに関する基礎モデルのトレーニングによって支えられている。 それでも、オープンで、常に自己改善するAIの創造は、いまだにあり得ない。 本稿では,人間の観察者に対して,AIシステムにおける開放性を実現するための材料が現在存在することを論じる。 さらに、そのような開放性は、いかなる人工超人的知能(ASI)においても不可欠な性質であると主張する。 まず、新規性と学習可能性のレンズを通して、オープンディペンデントを明確に定義することから始める。 次に、ファンデーションモデル上に構築されたオープンエンドシステムを通じてAISへの道を示し、新しい人間関係の発見を可能にする。 我々は、一般の能力を持つオープンAIの安全性への影響を検証して結論付ける。 オープンエンドのファンデーションモデルは、近い将来、ますます肥大化し、安全に欠かせない研究領域になると予想している。

In recent years there has been a tremendous surge in the general capabilities of AI systems, mainly fuelled by training foundation models on internetscale data. Nevertheless, the creation of openended, ever self-improving AI remains elusive. In this position paper, we argue that the ingredients are now in place to achieve openendedness in AI systems with respect to a human observer. Furthermore, we claim that such open-endedness is an essential property of any artificial superhuman intelligence (ASI). We begin by providing a concrete formal definition of open-endedness through the lens of novelty and learnability. We then illustrate a path towards ASI via open-ended systems built on top of foundation models, capable of making novel, humanrelevant discoveries. We conclude by examining the safety implications of generally-capable openended AI. We expect that open-ended foundation models will prove to be an increasingly fertile and safety-critical area of research in the near future.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# 変位支援光子減算測定-デバイス非依存量子鍵分布における状態パラメータの最適化

Optimization of state parameters in displacement assisted photon subtracted measurement-device-independent quantum key distribution ( http://arxiv.org/abs/2406.04270v1 )

ライセンス: Link先を確認
Chandan Kumar, Sarbani Chatterjee, Arvind, (参考訳) 非ガウス演算、特に光子減算(PS)は、連続変数測定装置独立量子鍵分布(CV-MDI-QKD)を含む様々な量子情報処理タスクの性能を向上させることが示されている。 本研究は, CV-MDI-QKDにおける非ガウス資源状態, すなわち, 光子減圧二モード減圧コヒーレント (PSTMSC) (特別の場合として光子減圧二モード減圧真空 (PSTMSV) を含む) の役割について検討する。 この目的のために、資源状態に対するウィグナー特性関数を導出し、そこから共分散行列と最後に秘密鍵レート式を抽出する。 状態パラメータの最適化は、この状態の族の中で最も適切なリソース状態を見つけるために行われる。 CV-MDI-QKDにおけるPSTMSVおよびPSTMSC状態について、PS操作を用いた以前の研究がある。 我々はこれらの提案を評価し,PSTMSCとPSTMSVの資源状態が,PS操作と変位が望ましくないTMSV状態と比較して性能が劣っていることに驚いた。

Non-Gaussian operations, in particular, photon subtraction (PS), have been shown to enhance the performance of various quantum information processing tasks including continuous variable measurement device independent quantum key distribution (CV-MDI-QKD). This work investigates the role of non-Gaussian resource states, namely, the photon subtracted two-mode squeezed coherent (PSTMSC) (which include photon subtracted two-mode squeezed vacuum (PSTMSV) as a special case) states in CV-MDI-QKD. To this end, we derive the Wigner characteristic function for the resource states, from which the covariance matrix and, finally, the secret key rate expressions are extracted. The optimization of the state parameters is undertaken to find the most suitable resource states in this family of states. There have been previous studies on the PSTMSV and PSTMSC states in CV-MDI-QKD that make use of PS operation. We evaluate such proposals and find to our surprise that both PSTMSC and PSTMSV resource states underperform as compared to the TMSV state rendering PS operation and displacement undesirable.
翻訳日:2024-06-07 13:50:11 公開日:2024-06-06
# 思考のバッファ:大規模言語モデルによる思考強化推論

Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models ( http://arxiv.org/abs/2406.04271v1 )

ライセンス: Link先を確認
Ling Yang, Zhaochen Yu, Tianjun Zhang, Shiyi Cao, Minkai Xu, Wentao Zhang, Joseph E. Gonzalez, Bin Cui, (参考訳) 本稿では,大規模言語モデル (LLM) の精度, 効率, 堅牢性を向上させるために, 思考のバッファ (BoT) を導入する。 具体的には,様々な課題にまたがる問題解決プロセスから抽出した一連の情報的高レベルの思考,すなわち思考的思考を記憶するためのメタバッファを提案する。 そして、各問題に対して、関連する思考タイミングを検索し、それを特定の推論構造で適応的にインスタンス化し、効率的な推論を行う。 スケーラビリティと安定性を保証するため,メタバッファを動的に更新するバッファマネージャを提案する。 従来のSOTA法に比べて11%, 幾何学的形状が20%, チェックメイト・イン・ワンが51%であった。 さらに分析した結果,BoTの一般化能力とモデルロバスト性を向上すると同時に,平均的なマルチクエリプロンプト手法(例えば,ツリー/グラフ)のコストの12%しか必要としないことがわかった。 特に、我々のLlama3-8B+BoTはLlama3-70Bモデルを上回る可能性がある。 私たちのプロジェクトは、https://github.com/YangLing0818/buffer-of- Thought-llmで利用可能です。

We introduce Buffer of Thoughts (BoT), a novel and versatile thought-augmented reasoning approach for enhancing accuracy, efficiency and robustness of large language models (LLMs). Specifically, we propose meta-buffer to store a series of informative high-level thoughts, namely thought-template, distilled from the problem-solving processes across various tasks. Then for each problem, we retrieve a relevant thought-template and adaptively instantiate it with specific reasoning structures to conduct efficient reasoning. To guarantee the scalability and stability, we further propose buffer-manager to dynamically update the meta-buffer, thus enhancing the capacity of meta-buffer as more tasks are solved. We conduct extensive experiments on 10 challenging reasoning-intensive tasks, and achieve significant performance improvements over previous SOTA methods: 11% on Game of 24, 20% on Geometric Shapes and 51% on Checkmate-in-One. Further analysis demonstrate the superior generalization ability and model robustness of our BoT, while requiring only 12% of the cost of multi-query prompting methods (e.g., tree/graph of thoughts) on average. Notably, we find that our Llama3-8B+BoT has the potential to surpass Llama3-70B model. Our project is available at: https://github.com/YangLing0818/buffer-of-thought-llm
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# チャネル容量における量子メモリのエンタングリング

Entangling Quantum Memories at Channel Capacity ( http://arxiv.org/abs/2406.04272v1 )

ライセンス: Link先を確認
Prajit Dhara, Liang Jiang, Saikat Guha, (参考訳) 光周波数またはマイクロ波チャネルを介する量子メモリを、高速かつ忠実にエンタングすることは、短い範囲と長い範囲にわたって量子ビットをリンクする鍵となる。 すべてのよく知られたプロトコルは、光モード当たり1キュービットまでエンコードするため、伝送モード当たり1組のメモリキュービットをチャネル上にエンコードし、チャネルの透過率である$\eta$の確率を持つ。 レートはモードごとに$\eta$ ideal Bell state (ebits) に比例する。 量子容量$C(\eta) = -\log_2(1-{\eta})$ ebits per mode, which $\approx 1.44\eta$ for high loss、すなわち$\eta \ll 1$は、これらのスキームを速度最適に近いものにする。 しかし、$C(\eta) \to \infty$ as $\eta \to 1$ として、既知のスキームはより短い範囲に対して非常にレート・サブ最適である。 キャビティアシスト型メモリフォトンインタフェースは,ゴッテマン・キタエフ・プレスキル(GKP)フォトニッククアディットと相互作用し,アナログ情報を保持する二重ホモジンエンタングルメントスワップと組み合わせることで,低損失でキャパシティ・アタッチメント速度でメモリをアンタングルできることを示す。 我々は、GKP量子ビットの損失レジリエンスと、複数の量子ビットを1つのモードでエンコードする能力の恩恵を受ける。 我々のメモリ・フォトンインタフェースは、必要なアンシラGKPクアディットの調製をさらにサポートする。 我々は、高効率光カップリングによる低損失高協調性空洞結合量子ビットの研究や、高速短距離量子リンクの実証に拍車をかけることを期待する。

Entangling quantum memories, mediated by optical-frequency or microwave channels, at high rates and fidelities is key for linking qubits across short and long ranges. All well-known protocols encode up to one qubit per optical mode, hence entangling one pair of memory qubits per transmitted mode over the channel, with probability $\eta$, the channel's transmissivity. The rate is proportional to $\eta$ ideal Bell states (ebits) per mode. The quantum capacity, $C(\eta) = -\log_2(1-{\eta})$ ebits per mode, which $\approx 1.44\eta$ for high loss, i.e., $\eta \ll 1$, thereby making these schemes near rate-optimal. However, $C(\eta) \to \infty$ as $\eta \to 1$, making the known schemes highly rate-suboptimal for shorter ranges. We show that a cavity-assisted memory-photon interface can be used to entangle matter memories with Gottesman-Kitaev-Preskill (GKP) photonic qudits, which along with dual-homodyne entanglement swaps that retain analog information, enables entangling memories at capacity-approaching rates at low loss. We benefit from loss resilience of GKP qudits, and their ability to encode multiple qubits in one mode. Our memory-photon interface further supports the preparation of needed ancilla GKP qudits. We expect our result to spur research in low-loss high-cooperativity cavity-coupled qubits with high-efficiency optical coupling, and demonstrations of high-rate short-range quantum links.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# ELFS:クラスタリングベースの擬似ラベルによるラベルフリーコアセット選択の強化

ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling ( http://arxiv.org/abs/2406.04273v1 )

ライセンス: Link先を確認
Haizhong Zheng, Elisa Tsai, Yifu Lu, Jiachen Sun, Brian R. Bartoldson, Bhavya Kailkhura, Atul Prakash, (参考訳) 高品質な人間アノテーション付きデータは、現代のディープラーニングパイプラインにとって不可欠だが、人間のアノテーションプロセスは費用と時間の両方を要している。 制限された人間のラベル付け予算が与えられた場合、ラベル付けのための情報的および代表的なデータサブセットを選択することで、人間のアノテーションの労力を大幅に削減することができる。 高性能なSOTA(State-of-the-art)コアセット選択手法では、データセット全体に対して地味なラベルを必要とするため、人間のラベル付けの負担を軽減できない。 一方、SOTAラベルなしコアセット選択法は、幾何ベースのスコアが低いため、性能が劣る。 本稿では,新しいラベルフリーコアセット選択法であるELFSを紹介する。 ELFSは、深層クラスタリングを使用して、地味ラベルなしでデータの難易度を推定する。 さらに、ELFSは、計算されたスコアに対するバイアスを軽減するために、単純だが効果的なダブルエンドプルーニング法を使用し、選択したコアセットの性能をさらに向上する。 我々は,ELFSを5つのビジョンベンチマークで評価し,ELFSがSOTAラベルのないベースラインを一貫して上回っていることを示す。 例えば、90%のプルーニングレートで、ELFSはCIFAR10では5.3%、CIFAR100では7.1%という最高のパフォーマンスのベースラインを上回っている。 さらに、ELFSは、CIFAR10とImageNet-1Kで低プルーニングレート(例:30%、50%)で、教師付きコアセット選択に匹敵する性能を達成している。

High-quality human-annotated data is crucial for modern deep learning pipelines, yet the human annotation process is both costly and time-consuming. Given a constrained human labeling budget, selecting an informative and representative data subset for labeling can significantly reduce human annotation effort. Well-performing state-of-the-art (SOTA) coreset selection methods require ground-truth labels over the whole dataset, failing to reduce the human labeling burden. Meanwhile, SOTA label-free coreset selection methods deliver inferior performance due to poor geometry-based scores. In this paper, we introduce ELFS, a novel label-free coreset selection method. ELFS employs deep clustering to estimate data difficulty scores without ground-truth labels. Furthermore, ELFS uses a simple but effective double-end pruning method to mitigate bias on calculated scores, which further improves the performance on selected coresets. We evaluate ELFS on five vision benchmarks and show that ELFS consistently outperforms SOTA label-free baselines. For instance, at a 90% pruning rate, ELFS surpasses the best-performing baseline by 5.3% on CIFAR10 and 7.1% on CIFAR100. Moreover, ELFS even achieves comparable performance to supervised coreset selection at low pruning rates (e.g., 30% and 50%) on CIFAR10 and ImageNet-1K.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# 言語モデルのための確率的でスケーラブルなオフラインアライメント

Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models ( http://arxiv.org/abs/2406.04274v1 )

ライセンス: Link先を確認
Xiang Ji, Sanjeev Kulkarni, Mengdi Wang, Tengyang Xie, (参考訳) 本研究では,大規模言語モデル(LLM)とオフラインの嗜好データとの整合性について検討する。 我々は、特に人間フィードバックからの強化学習(RLHF)によるアライメントに焦点を当てる。 一般的な選好最適化手法は、実際は優れた経験的性能を示すが、理論上は最適ポリシーに収束することが保証されておらず、古典的なオフライン強化学習(RL)の結果によってデータカバレッジが不足している場合に確実に失敗する可能性がある。 一方、近年の一連の研究は、証明可能な保証を持つ理論上の動機付けされた選好最適化手法に焦点を当てているが、LLMアライメントのような大規模アプリケーションでは計算効率が良くない。 このギャップを埋めるために,SPACを提案する。SPACは,LLMアライメントに対する最初の証明可能かつスケーラブルなアプローチである,オフラインRL文献から平均的な悲観的手法に着想を得た,セルフプレイによる新しいオフライン優先最適化手法である。 一般関数近似設定における単一政治集中性の下での収束に関する理論的解析と、7BMistralモデルにおけるLLMアライメントの競合的実証性能の証明を行う。

This work studies the challenge of aligning large language models (LLMs) with offline preference data. We focus on alignment by Reinforcement Learning from Human Feedback (RLHF) in particular. While popular preference optimization methods exhibit good empirical performance in practice, they are not theoretically guaranteed to converge to the optimal policy and can provably fail when the data coverage is sparse by classical offline reinforcement learning (RL) results. On the other hand, a recent line of work has focused on theoretically motivated preference optimization methods with provable guarantees, but these are not computationally efficient for large-scale applications like LLM alignment. To bridge this gap, we propose SPAC, a new offline preference optimization method with self-play, inspired by the on-average pessimism technique from the offline RL literature, to be the first provable and scalable approach to LLM alignment. We both provide theoretical analysis for its convergence under single-policy concentrability for the general function approximation setting and demonstrate its competitive empirical performance for LLM alignment on a 7B Mistral model with Open LLM Leaderboard evaluations.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# 量子記憶への対面ゴッテマン・キタエフ・プレスキル量子ビット

Interfacing Gottesman-Kitaev-Preskill Qubits to Quantum Memories ( http://arxiv.org/abs/2406.04275v1 )

ライセンス: Link先を確認
Prajit Dhara, Liang Jiang, Saikat Guha, (参考訳) Gottesman-Kitaev-Preskill (GKP) 状態は、フォールトトレラントな全光連続変数量子コンピューティングやエンタングルメント分布のための量子通信リンクにおいて、大きな利点を示すことが示されている。 しかし、これらのシステムを長期間の固体量子メモリにインターフェースすることは、未解決の問題のままである。 本稿では,共振器を介する制御変位ゲートに基づく量子メモリとGKP量子ビット状態のインターフェースを提案する。 我々は,メモリ-GKP絡み合いの質を,どちらのクビット状態間の高品質な状態伝達にも最適な操作条件を示す空洞パラメータの関数として特徴付ける。 我々はさらにこのプロトコルを拡張して、Acillary optical quadrature-squeezed light の要求を回避することにより、GKPクラスター状態の生成を実証する。 GKP量子ビットに対する後絡交換操作を利用して、量子メモリ間の高速絡み合わせ生成のためのプロトコルの有用性を実証する。 提案手法の拡張とデリバティブは、メモリおよびGKPベースで符号化された量子ビットの運用トレードオフを利用することで、幅広いアプリケーションを実現することができる。

Gottesman-Kitaev-Preskill (GKP) states have been demonstrated to pose significant advantages when utilized for fault-tolerant all optical continuous-variable quantum computing as well as for quantum communications links for entanglement distribution. However interfacing these systems to long-lived solid-state quantum memories has remained an open problem. Here we propose an interface between quantum memories and GKP qubit states based on a cavity-mediated controlled displacement gate. We characterize the quality of memory-GKP entanglement as a function of cavity parameters suggesting optimal regimes of operation for high-quality state transfer between either qubit states. We further extend this protocol to demonstrate the creation of GKP cluster states by avoiding the requirement of ancillary optical quadrature-squeezed light. Utilizing post-selected entanglement swapping operations for GKP qubits, we demonstrate the utility of our protocol for high-rate entanglement generation between quantum memories. Extensions and derivatives of our proposal could enable a wide variety of applications by utilizing the operational trade-offs for qubits encoded in memory and in the GKP basis.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# ジェネレーティブAI-in-the-loop:次世代ネットワークへのLCMとGPTの統合

Generative AI-in-the-loop: Integrating LLMs and GPTs into the Next Generation Networks ( http://arxiv.org/abs/2406.04276v1 )

ライセンス: Link先を確認
Han Zhang, Akram Bin Sediq, Ali Afana, Melike Erol-Kantarci, (参考訳) 近年、機械学習(ML)技術は、インテリジェントなモバイルネットワークの多くの機会を生み出し、ネットワーク操作の自動化を加速している。 しかし、複雑なネットワークタスクには、従来のMLアルゴリズムの能力を超えた変数や考慮が伴う可能性がある。 一方,大規模言語モデル (LLM) が最近出現し,様々な分野にわたる認知タスクにおいて,ほぼ人間に近い性能を示すようになった。 しかし、幻覚に苦しむ傾向にあり、基本的なタスクでは常識に欠けることが多い。 そのため、人間の補助具とされる。 そこで本研究では,LLMの意味理解,文脈認識,推論能力を利用して,モバイル通信ネットワークにおける複雑な状況や予期せぬ状況の対処を支援する「ループ内生成AI」の概念を提案する。 LLMとMLモデルを組み合わせることで、それぞれの能力を活用し、どちらのモデルよりも優れた結果が得られると考えています。 この考え方をサポートするために、LLMの能力を解析し、従来のMLアルゴリズムと比較することから始める。 次に、次世代ネットワークの要求に応じてLLMベースの潜在的なアプリケーションについて検討する。 さらに,ML と LLM の統合について検討し,モバイルネットワークでどのように組み合わせられるかについて議論する。 既存の研究と異なり、従来のML駆動の次世代ネットワークとLLMの融合が強調され、既存のサーベイの包括的リファインメントとして機能する。 最後に,LLMによって生成された合成データを用いてMLベースのネットワーク侵入検出を強化するケーススタディを提案する。 ケーススタディは、提案したアイデアの利点をさらに実証する。

In recent years, machine learning (ML) techniques have created numerous opportunities for intelligent mobile networks and have accelerated the automation of network operations. However, complex network tasks may involve variables and considerations even beyond the capacity of traditional ML algorithms. On the other hand, large language models (LLMs) have recently emerged, demonstrating near-human-level performance in cognitive tasks across various fields. However, they remain prone to hallucinations and often lack common sense in basic tasks. Therefore, they are regarded as assistive tools for humans. In this work, we propose the concept of "generative AI-in-the-loop" and utilize the semantic understanding, context awareness, and reasoning abilities of LLMs to assist humans in handling complex or unforeseen situations in mobile communication networks. We believe that combining LLMs and ML models allows both to leverage their respective capabilities and achieve better results than either model alone. To support this idea, we begin by analyzing the capabilities of LLMs and compare them with traditional ML algorithms. We then explore potential LLM-based applications in line with the requirements of next-generation networks. We further examine the integration of ML and LLMs, discussing how they can be used together in mobile networks. Unlike existing studies, our research emphasizes the fusion of LLMs with traditional ML-driven next-generation networks and serves as a comprehensive refinement of existing surveys. Finally, we provide a case study to enhance ML-based network intrusion detection with synthesized data generated by LLMs. Our case study further demonstrates the advantages of our proposed idea.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# VideoTetris: 合成テキスト・ビデオ生成を目指して

VideoTetris: Towards Compositional Text-to-Video Generation ( http://arxiv.org/abs/2406.04277v1 )

ライセンス: Link先を確認
Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui, (参考訳) 拡散モデルは、テキスト・トゥ・ビデオ(T2V)生成において大きな成功を収めている。 しかし、既存の手法は、複数のオブジェクトを含む複雑な(長い)ビデオ生成シナリオを扱う場合や、オブジェクト番号の動的変更に直面する可能性がある。 これらの制約に対処するために,合成T2V生成を可能にする新しいフレームワークであるVideoTetrisを提案する。 具体的には,空間的・時間的に認知ネットワークの注意マップを操作・構成することにより,複雑なテクスチャ意味を正確に追従する時空間構成拡散を提案する。 さらに,モーションダイナミックスに関するトレーニングデータを強化し,自動回帰ビデオ生成の一貫性を向上させるための参照フレームアテンション機構を新たに備えた,ビデオデータ前処理の強化を提案する。 大規模な実験により, ビデオテトリスは, 合成T2V生成において, 印象的な質的, 定量的な結果が得られることが示された。 コードは、https://github.com/YangLing0818/VideoTetrisで入手できる。

Diffusion models have demonstrated great success in text-to-video (T2V) generation. However, existing methods may face challenges when handling complex (long) video generation scenarios that involve multiple objects or dynamic changes in object numbers. To address these limitations, we propose VideoTetris, a novel framework that enables compositional T2V generation. Specifically, we propose spatio-temporal compositional diffusion to precisely follow complex textual semantics by manipulating and composing the attention maps of denoising networks spatially and temporally. Moreover, we propose an enhanced video data preprocessing to enhance the training data regarding motion dynamics and prompt understanding, equipped with a new reference frame attention mechanism to improve the consistency of auto-regressive video generation. Extensive experiments demonstrate that our VideoTetris achieves impressive qualitative and quantitative results in compositional T2V generation. Code is available at: https://github.com/YangLing0818/VideoTetris
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# 人とのサンプリングによる人間とLLMの会話音の類似点と相違点の識別

Characterizing Similarities and Divergences in Conversational Tones in Humans and LLMs by Sampling with People ( http://arxiv.org/abs/2406.04278v1 )

ライセンス: Link先を確認
Dun-Ming Huang, Pol Van Rijn, Ilia Sucholutsky, Raja Marjieh, Nori Jacoby, (参考訳) 会話のトーン - 話者がコミュニケーションを行う方法や態度 - は効果的なコミュニケーションに不可欠である。 近年,Large Language Models (LLMs) の普及が進んでいる中で,人間に対する会話のトーンの相違を特徴付ける必要がある。 しかし、会話のモダリティに関する既存の研究は、実験者のバイアスに悩まされ、研究の精神言語学領域における現実世界の分布を代表していない、既存の分類学やテキストコーパスに依存している。 認知科学の手法に着想を得て,会話のトーンと文を同時に抽出する反復的手法を提案し,(1) 参加者が与えられた文のトーンを識別し,(2) 異なる参加者がそのトーンに基づいて文を生成する。 我々は、このプロセスの100回を人間の参加者とGPT-4で実行し、文のデータセットと頻繁な会話のトーンを得る。 追加の実験では、人間とGPT-4はすべての音調ですべての文に注釈を付けた。 1,339人の被験者,33,370人の人的判断,29,900人のGPT-4クエリから得られたデータを用いて,人間の会話音とGPT-4の関係を解釈可能な幾何学的表現を作成する方法を示す。 この研究は、機械学習と認知科学のアイデアを組み合わせることで、人間とコンピュータのインタラクションにおける課題にどのように対処できるかを実証する。

Conversational tones -- the manners and attitudes in which speakers communicate -- are essential to effective communication. Amidst the increasing popularization of Large Language Models (LLMs) over recent years, it becomes necessary to characterize the divergences in their conversational tones relative to humans. However, existing investigations of conversational modalities rely on pre-existing taxonomies or text corpora, which suffer from experimenter bias and may not be representative of real-world distributions for the studies' psycholinguistic domains. Inspired by methods from cognitive science, we propose an iterative method for simultaneously eliciting conversational tones and sentences, where participants alternate between two tasks: (1) one participant identifies the tone of a given sentence and (2) a different participant generates a sentence based on that tone. We run 100 iterations of this process with human participants and GPT-4, then obtain a dataset of sentences and frequent conversational tones. In an additional experiment, humans and GPT-4 annotated all sentences with all tones. With data from 1,339 human participants, 33,370 human judgments, and 29,900 GPT-4 queries, we show how our approach can be used to create an interpretable geometric representation of relations between conversational tones in humans and GPT-4. This work demonstrates how combining ideas from machine learning and cognitive science can address challenges in human-computer interactions.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# xMIL: 病理学における複数インスタンス学習のための洞察豊かな説明

xMIL: Insightful Explanations for Multiple Instance Learning in Histopathology ( http://arxiv.org/abs/2406.04280v1 )

ライセンス: Link先を確認
Julius Hense, Mina Jamshidi Idaji, Oliver Eberle, Thomas Schnake, Jonas Dippel, Laure Ciernik, Oliver Buchstab, Andreas Mock, Frederick Klauschen, Klaus-Robert Müller, (参考訳) マルチ・インスタンス・ラーニング(MIL)は、弱教師付き機械学習において効果的で広く利用されている手法である。 病理組織学では、MILモデルは腫瘍検出、バイオマーカー予測、予後予測といったタスクで顕著に成功している。 しかし、MILの説明方法は小さなバッグサイズに制限されているか、インスタンスの相互作用を無視しているため、まだ遅れている。 我々は、説明可能なAI(XAI)のレンズを通してMILを再考し、より一般的な仮定を持つ洗練されたフレームワークであるxMILを紹介した。 そこで我々は,LRP(Layer-wise Relevance propagation)を用いてMILの理解を改良し,3つの玩具設定と4つの実世界の病理組織学データセットについて広範囲な評価実験を行った。 提案手法は, バイオマーカー予測タスクにおいて, 特に忠実度が向上し, 従来の説明手法よりも優れていた。 最後に、XMILの説明によって病理学者がMILモデルから洞察を抽出し、デジタル病理学における知識発見とモデルデバッギングの大きな進歩を示す。

Multiple instance learning (MIL) is an effective and widely used approach for weakly supervised machine learning. In histopathology, MIL models have achieved remarkable success in tasks like tumor detection, biomarker prediction, and outcome prognostication. However, MIL explanation methods are still lagging behind, as they are limited to small bag sizes or disregard instance interactions. We revisit MIL through the lens of explainable AI (XAI) and introduce xMIL, a refined framework with more general assumptions. We demonstrate how to obtain improved MIL explanations using layer-wise relevance propagation (LRP) and conduct extensive evaluation experiments on three toy settings and four real-world histopathology datasets. Our approach consistently outperforms previous explanation attempts with particularly improved faithfulness scores on challenging biomarker prediction tasks. Finally, we showcase how xMIL explanations enable pathologists to extract insights from MIL models, representing a significant advance for knowledge discovery and model debugging in digital histopathology.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# データセット蒸留学習とは何か?

What is Dataset Distillation Learning? ( http://arxiv.org/abs/2406.04284v1 )

ライセンス: Link先を確認
William Yang, Ye Zhu, Zhiwei Deng, Olga Russakovsky, (参考訳) データセットの蒸留は、元のデータセットから必須情報を保持するコンパクトな合成データの集合を学習することで、大規模なデータセットに関連するハードルを克服する戦略として登場した。 蒸留したデータはハイパフォーマンスモデルのトレーニングに使用することができるが、情報の保存方法についてはほとんど理解されていない。 本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報の内容に関する3つの質問に回答する。 本研究では, データセット蒸留の標準評価設定外のトレーニングにおいて, 実データの代用として利用できない蒸留データを明らかにした。 さらに, 蒸留プロセスは, 実モデルの早期訓練力学に関する情報を圧縮することにより, 高い作業性能を維持する。 最後に, 蒸留データを解釈する枠組みを提供し, 個々の蒸留データポイントが意味のある意味情報を含んでいることを明らかにした。 この調査は、蒸留されたデータの複雑な性質に光を当て、どのように効果的に利用できるかをよりよく理解する。

Dataset distillation has emerged as a strategy to overcome the hurdles associated with large datasets by learning a compact set of synthetic data that retains essential information from the original dataset. While distilled data can be used to train high performing models, little is understood about how the information is stored. In this study, we posit and answer three questions about the behavior, representativeness, and point-wise information content of distilled data. We reveal distilled data cannot serve as a substitute for real data during training outside the standard evaluation setting for dataset distillation. Additionally, the distillation process retains high task performance by compressing information related to the early training dynamics of real models. Finally, we provide an framework for interpreting distilled data and reveal that individual distilled data points contain meaningful semantic information. This investigation sheds light on the intricate nature of distilled data, providing a better understanding on how they can be effectively utilized.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# ノイズのある想像時間進化下における基底状態相のロバストな準備

Robust preparation of ground state phases under noisy imaginary time evolution ( http://arxiv.org/abs/2406.04285v1 )

ライセンス: Link先を確認
Aleksei Khindanov, Yongxin Yao, Thomas Iadecola, (参考訳) 想像的時間進化(ITE)のような非一元的状態準備プロトコルは、特定の長距離相関状態をより効率的に作成する能力を含む一元的状態に対して大きな利点をもたらす。 ここでは,このようなプロトコルが環境との結合によって生じるノイズに対して堅牢であるかどうかを問う。 我々は、様々なノイズモデルに従属する非単体ITTの「回路」を考察し、その結果の定常状態が有限雑音強度でITEの目標状態と同じ位相に留まっているかどうかを考察する。 一次元量子イジングモデルを具体例として、ノイズの存在下で基底状態秩序と関連する相転移が持続していることを見出した。 すなわち、ノイズは弱い(あるいは平均的な)形で保護対称性を持つ必要がある。 我々の解析は、2重ヒルベルト空間における実効的ハミルトン図形への写像によって促進される。 雑音量子ハードウェア上での量子シミュレーションにおけるこれらの発見の可能性について論じる。

Non-unitary state preparation protocols such as imaginary time evolution (ITE) offer substantial advantages relative to unitary ones, including the ability to prepare certain long-range correlated states more efficiently. Here, we ask whether such protocols are also robust to noise arising due to coupling to the environment. We consider a non-unitary ITE "circuit" subjected to a variety of noise models and investigate whether the resulting steady state remains in the same phase as the target state of the ITE at finite noise strength. Taking the one-dimensional quantum Ising model as a concrete example, we find that the ground state order and associated phase transition persist in the presence of noise, provided the noise does not explicitly break the symmetry that protects the phase transition. That is, the noise must possess the protecting symmetry in a weak (or average) form. Our analysis is facilitated by a mapping to an effective Hamiltonian picture in a doubled Hilbert space. We discuss possible implications of these findings for quantum simulation on noisy quantum hardware.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# ABEX: 抽象記述の拡張による低リソースのNLUのためのデータ拡張

ABEX: Data Augmentation for Low-Resource NLU via Expanding Abstract Descriptions ( http://arxiv.org/abs/2406.04286v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Utkarsh Tyagi, Sonal Kumar, C. K. Evuru, S Ramaneswaran, S Sakshi, Dinesh Manocha, (参考訳) 本稿では,低リソース自然言語理解(NLU)タスクのための新しい効果的な生成データ拡張手法であるABEXを提案する。 ABEXはABstract-and-EXpandをベースにしており、これは入力文書の多様な形式を生成するための新しいパラダイムです。 抽象的な記述を拡大するタスクを学習するために,我々はまず,抽象文書ペアを用いた大規模合成データセット上でBARTを訓練する。 次に、文書の抽象的な記述を生成するために、AMRグラフの編集に基づいて、シンプルで、制御可能で、トレーニング不要な方法を提案する。 抽象的な表現から拡張することで、スタイルや意味といったドキュメントの本来の意味的特性を保存し、元のラベルとデータ配布との整合性を維持する。 同時に、抽象的な記述を解明する基本的なプロセスは、多様な世代を後押しする。 12のデータセットと4つの低リソース設定にまたがる4つのNLUタスクに対するABEXの有効性を示す。 ABEXは、0.04%から38.8%の改善で、我々のベースラインを質的に上回る。 定性的には、AbeXは文脈と長さの多様性の観点から、文学から全ての先行手法を上回ります。

We present ABEX, a novel and effective generative data augmentation methodology for low-resource Natural Language Understanding (NLU) tasks. ABEX is based on ABstract-and-EXpand, a novel paradigm for generating diverse forms of an input document -- we first convert a document into its concise, abstract description and then generate new documents based on expanding the resultant abstraction. To learn the task of expanding abstract descriptions, we first train BART on a large-scale synthetic dataset with abstract-document pairs. Next, to generate abstract descriptions for a document, we propose a simple, controllable, and training-free method based on editing AMR graphs. ABEX brings the best of both worlds: by expanding from abstract representations, it preserves the original semantic properties of the documents, like style and meaning, thereby maintaining alignment with the original label and data distribution. At the same time, the fundamental process of elaborating on abstract descriptions facilitates diverse generations. We demonstrate the effectiveness of ABEX on 4 NLU tasks spanning 12 datasets and 4 low-resource settings. ABEX outperforms all our baselines qualitatively with improvements of 0.04% - 38.8%. Qualitatively, ABEX outperforms all prior methods from literature in terms of context and length diversity.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# SpectralZoom: 適応型ハイパースペクトルカメラによる効率的なセグメンテーション

SpectralZoom: Efficient Segmentation with an Adaptive Hyperspectral Camera ( http://arxiv.org/abs/2406.04287v1 )

ライセンス: Link先を確認
Jackson Arnold, Sophia Rossi, Chloe Petrosino, Ethan Mitchell, Sanjeev J. Koppal, (参考訳) ハイパースペクトル画像のセグメンテーションは農業、リモートセンシング、バイオメディカルイメージング、戦場センシング、天文学など多くの分野において重要である。 しかし、ハイパースペクトルとマルチスペクトルイメージングの課題は、その大きなデータフットプリントである。 本稿では,撮影データフットプリントとハイパースペクトルセグメンテーションの計算負荷を緩和する,新しいカメラ設計とビジョントランスフォーマー(ViT)アルゴリズムを提案する。 我々のカメラは、高スペクトル立方体全体を1つの高解像度でキャプチャする代わりに、異なる解像度で画像領域やパッチを適応的にサンプリングすることができる。 我々のセグメンテーションアルゴリズムはカメラと連携して動作し、ViTベースのセグメンテーションを適応的に選択されたパッチにのみ適用する。 シミュレーションおよび実ハードウェアプラットフォーム上では,精度の高いセグメンテーション結果と計算負荷の低減の両方を示す。

Hyperspectral image segmentation is crucial for many fields such as agriculture, remote sensing, biomedical imaging, battlefield sensing and astronomy. However, the challenge of hyper and multi spectral imaging is its large data footprint. We propose both a novel camera design and a vision transformer-based (ViT) algorithm that alleviate both the captured data footprint and the computational load for hyperspectral segmentation. Our camera is able to adaptively sample image regions or patches at different resolutions, instead of capturing the entire hyperspectral cube at one high resolution. Our segmentation algorithm works in concert with the camera, applying ViT-based segmentation only to adaptively selected patches. We show results both in simulation and on a real hardware platform demonstrating both accurate segmentation results and reduced computational burden.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# 言語モデルにとって容易な言語とは何か?確率論的正規言語学習の視点から

What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages ( http://arxiv.org/abs/2406.04289v1 )

ライセンス: Link先を確認
Nadav Borenstein, Anej Svete, Robin Chan, Josef Valvoda, Franz Nowak, Isabelle Augenstein, Eleanor Chodroff, Ryan Cotterell, (参考訳) 大規模言語モデルは何を学ぶことができるのか? 定義上、言語モデル(LM)は文字列上の分布である。 したがって、上記の問題に直感的に対処する方法は、文字列上の分布のクラスを学習可能な問題として定式化することである。 この方向の先行研究は、理論的な限界を評価することに重点を置いているが、対照的に、経験的学習可能性を理解しようと試みている。 従来の経験的作業とは違って、フォーマルな言語の分類子としてではなく、自宅の芝刈り学習における確率的言語上でのニューラルLMを評価する。 特に、RNNとTransformer LMによる通常のLM(RLM)の学習可能性について検討する。 本研究では,RLMの様々な複雑性パラメータの関数として,RLMの学習可能性とニューラルLMの隠れ状態サイズを実証的に検証する。 その結果, RNN と Transformer の双方において, RLM のランクは条件分布のロジットに代表される線形空間の大きさに対応し, サンプル文字列の長さは強く, 有意な学習可能性の予測因子であることが判明した。 他にもいくつかの予測器が重要になるが、RNNとTransformerのパターンが異なる。

What can large language models learn? By definition, language models (LM) are distributions over strings. Therefore, an intuitive way of addressing the above question is to formalize it as a matter of learnability of classes of distributions over strings. While prior work in this direction focused on assessing the theoretical limits, in contrast, we seek to understand the empirical learnability. Unlike prior empirical work, we evaluate neural LMs on their home turf-learning probabilistic languages-rather than as classifiers of formal languages. In particular, we investigate the learnability of regular LMs (RLMs) by RNN and Transformer LMs. We empirically test the learnability of RLMs as a function of various complexity parameters of the RLM and the hidden state size of the neural LM. We find that the RLM rank, which corresponds to the size of linear space spanned by the logits of its conditional distributions, and the expected length of sampled strings are strong and significant predictors of learnability for both RNNs and Transformers. Several other predictors also reach significance, but with differing patterns between RNNs and Transformers.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# 暗号プログラムの逐次契約による高性能実行の提案

Providing High-Performance Execution with a Sequential Contract for Cryptographic Programs ( http://arxiv.org/abs/2406.04290v1 )

ライセンス: Link先を確認
Ali Hajiabadi, Trevor E. Carlson, (参考訳) 定時プログラミングは、サイドチャネル攻撃に対する暗号プログラムを強化するための広くデプロイされたアプローチである。 しかし、現代のプロセッサは、プログラムの意図しないパスを投機的に実行することで、定数時間ポリシーの基本的な前提に反する。 本研究では,投機的制御フローに基づく攻撃に対して,一定時間暗号コードを保護するための新しいハードウェア・ソフトウェア機構であるCassandraを提案する。 Cassandraは、分岐予測器を無効にし、プログラムのシーケンシャルな制御フローを記録再生する急進的な設計点を探っている。 この設計を可能にする2つの重要な洞察は、(1)一定時間プログラムの逐次制御フローは異なる実行時間で一定であり、(2)暗号プログラムは高ループであり、制御フローパターンは高度に圧縮可能な方法で繰り返されるということである。 これらの知見により、制御フロートレースを著しく圧縮するオフライン分岐解析を行うことができる。 典型的なプロセッサ設計であるブランチトレースユニットに小さなコンポーネントを追加し、圧縮されたトレースを格納し、プログラムのシーケンシャルモデルに従ってフェッチリダイレクトを決定する。 さらに、我々は正式なセキュリティ分析を行い、我々の方法論が設計による強力なセキュリティ契約に準拠していることを証明する。 セキュリティの保証は高いが、Cassandraはブランチの誤認を排除し、パフォーマンスを1.77%改善する。

Constant-time programming is a widely deployed approach to harden cryptographic programs against side channel attacks. However, modern processors violate the underlying assumptions of constant-time policies by speculatively executing unintended paths of the program. In this work, we propose Cassandra, a novel hardware-software mechanism to protect constant-time cryptographic code against speculative control flow based attacks. Cassandra explores the radical design point of disabling the branch predictor and recording-and-replaying sequential control flow of the program. Two key insights that enable our design are that (1) the sequential control flow of a constant-time program is constant over different runs, and (2) cryptographic programs are highly looped and their control flow patterns repeat in a highly compressible way. These insights allow us to perform an offline branch analysis that significantly compresses control flow traces. We add a small component to a typical processor design, the Branch Trace Unit, to store compressed traces and determine fetch redirections according to the sequential model of the program. Moreover, we provide a formal security analysis and prove that our methodology adheres to a strong security contract by design. Despite providing a higher security guarantee, Cassandra counter-intuitively improves performance by 1.77% by eliminating branch misprediction penalties.
翻訳日:2024-06-07 13:40:27 公開日:2024-06-06
# ハイブリッド言語モデル評価のための階層的予測駆動推論

Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation ( http://arxiv.org/abs/2406.04291v1 )

ライセンス: Link先を確認
Adam Fisch, Joshua Maynez, R. Alex Hofer, Bhuwan Dhingra, Amir Globerson, William W. Cohen, (参考訳) 予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。 PPIは、少量の人ラベルデータと、合理的に正確だがバイアスの可能性がある -- 自動システムによってラベル付けされた大量のデータを組み合わせることで、特定のパラメータに対するより厳密な信頼区間(例えば、言語モデルの平均性能)を実現する。 本稿では,Stratified Prediction-Powered Inference (StratPPI) と呼ばれる手法を提案する。 基礎となる自動ラベリングシステムやデータ分布を仮定することなく、階層化サンプリングに基づく集団パラメータ(平均など)の信頼区間を証明可能な精度で計算するアルゴリズムを導出する。 特に, 階層化と標本配置の適切な選択により, 階層化されていないアプローチよりもはるかに厳密な信頼区間を提供できることを示す。 特にStratPPIは、ターゲットデータの異なる条件分布でオートラッターの性能が変化する場合に改善されることが期待されている。

Prediction-powered inference (PPI) is a method that improves statistical estimates based on limited human-labeled data. PPI achieves this by combining small amounts of human-labeled data with larger amounts of data labeled by a reasonably accurate -- but potentially biased -- automatic system, in a way that results in tighter confidence intervals for certain parameters of interest (e.g., the mean performance of a language model). In this paper, we propose a method called Stratified Prediction-Powered Inference (StratPPI), in which we show that the basic PPI estimates can be considerably improved by employing simple data stratification strategies. Without making any assumptions on the underlying automatic labeling system or data distribution, we derive an algorithm for computing provably valid confidence intervals for population parameters (such as averages) that is based on stratified sampling. In particular, we show both theoretically and empirically that, with appropriate choices of stratification and sample allocation, our approach can provide substantially tighter confidence intervals than unstratified approaches. Specifically, StratPPI is expected to improve in cases where the performance of the autorater varies across different conditional distributions of the target data.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# VISTA:Universal Multi-Modal Retrievalのためのビジュアルテキスト埋め込み

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval ( http://arxiv.org/abs/2406.04292v1 )

ライセンス: Link先を確認
Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong, (参考訳) マルチモーダル検索は、実際はますます人気が高まっている。 しかし、既存のレトリバーはほとんどがテキスト指向であり、視覚情報を処理する能力がない。 CLIPのような視覚言語モデルが存在するにもかかわらず、現在の手法はテキストのみのデータと画像のみのデータを表現することに大きく制限されている。 本研究では,汎用マルチモーダル検索のための新しい埋め込みモデルVISTAを提案する。 私たちの仕事は3倍の技術的貢献をもたらします。 まず,視覚的トークン埋め込みを導入することで,画像理解機能を備えた強力なテキストエンコーダを拡張するフレキシブルアーキテクチャを提案する。 第2に,埋め込みモデルのトレーニングを容易にするために,高品質な合成画像テキストを提供する2つのデータ生成戦略を開発する。 第3に,大量の弱ラベル付きデータを用いたテキストエンコーダに視覚トークンを埋め込んだマルチステージトレーニングアルゴリズムを導入し,生成した画像テキストデータを用いたマルチモーダル表現機能を開発する。 我々の実験では、VISTAは、ゼロショットと教師付き設定の両方において、様々なマルチモーダル検索タスクにおいて優れた性能を達成する。 私たちのモデル、データ、ソースコードはhttps://github.com/FlagOpen/FlagEmbedding.comで公開されています。

Multi-modal retrieval becomes increasingly popular in practice. However, the existing retrievers are mostly text-oriented, which lack the capability to process visual information. Despite the presence of vision-language models like CLIP, the current methods are severely limited in representing the text-only and image-only data. In this work, we present a new embedding model VISTA for universal multi-modal retrieval. Our work brings forth threefold technical contributions. Firstly, we introduce a flexible architecture which extends a powerful text encoder with the image understanding capability by introducing visual token embeddings. Secondly, we develop two data generation strategies, which bring high-quality composed image-text to facilitate the training of the embedding model. Thirdly, we introduce a multi-stage training algorithm, which first aligns the visual token embedding with the text encoder using massive weakly labeled data, and then develops multi-modal representation capability using the generated composed image-text data. In our experiments, VISTA achieves superior performances across a variety of multi-modal retrieval tasks in both zero-shot and supervised settings. Our model, data, and source code are available at https://github.com/FlagOpen/FlagEmbedding.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# 合成へのすべて: 拡散駆動型テスト時間適応の合成-ドメインアライメント

Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment ( http://arxiv.org/abs/2406.04295v1 )

ライセンス: Link先を確認
Jiayi Guo, Junhao Zhao, Chunjiang Ge, Chaoqun Du, Zanlin Ni, Shiji Song, Humphrey Shi, Gao Huang, (参考訳) テスト時間適応(TTA)は、未知のシフト対象ドメインでテストする場合、ソースドメイン事前訓練モデルの性能を向上させることを目的としている。 従来のTTA手法は、主にターゲットデータストリームに基づいてモデルの重みを適応し、ターゲットデータの量と順序に敏感なモデル性能を実現する。 近年、拡散駆動型TTA法は、ソース領域上で訓練された非条件拡散モデルを用いて、ターゲットデータをソース領域投影として合成データに変換することにより、強い性能を示す。 これにより、ソースモデルは重量適応なしに予測できる。 本稿では,拡散駆動型TTA法におけるソースモデルと合成データの領域が一致していないことを論じる。 非条件拡散モデルの合成領域にソースモデルを適応させるために、合成データを用いてソースモデルを微調整するSDA(Synthetic-Domain Alignment)フレームワークを導入する。 具体的には、まず条件付き拡散モデルを用いてラベル付きサンプルを生成し、合成データセットを作成する。 その後、前述の非条件拡散モデルを用いて、微調整前に各サンプルにノイズを付加し、ノイズを消音する。 このプロセスは条件付きモデルと条件なしモデルの間の潜在的な領域ギャップを緩和する。 様々なモデルやベンチマークにわたる大規模な実験により、SDAは優れたドメインアライメントを実現し、既存の拡散駆動型TTA法より一貫して優れていることが示された。 私たちのコードはhttps://github.com/SHI-Labs/Diffusion-Driven-Test-Adaptation-via-Synthetic-Domain-Alignmentで利用可能です。

Test-time adaptation (TTA) aims to enhance the performance of source-domain pretrained models when tested on unknown shifted target domains. Traditional TTA methods primarily adapt model weights based on target data streams, making model performance sensitive to the amount and order of target data. Recently, diffusion-driven TTA methods have demonstrated strong performance by using an unconditional diffusion model, which is also trained on the source domain to transform target data into synthetic data as a source domain projection. This allows the source model to make predictions without weight adaptation. In this paper, we argue that the domains of the source model and the synthetic data in diffusion-driven TTA methods are not aligned. To adapt the source model to the synthetic domain of the unconditional diffusion model, we introduce a Synthetic-Domain Alignment (SDA) framework to fine-tune the source model with synthetic data. Specifically, we first employ a conditional diffusion model to generate labeled samples, creating a synthetic dataset. Subsequently, we use the aforementioned unconditional diffusion model to add noise to and denoise each sample before fine-tuning. This process mitigates the potential domain gap between the conditional and unconditional models. Extensive experiments across various models and benchmarks demonstrate that SDA achieves superior domain alignment and consistently outperforms existing diffusion-driven TTA methods. Our code is available at https://github.com/SHI-Labs/Diffusion-Driven-Test-Time-Adaptation-via-Synthetic-Domain-Alignment.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# ランダムユニタリダイナミクスによる翻訳対称性の復元

Translation symmetry restoration under random unitary dynamics ( http://arxiv.org/abs/2406.04296v1 )

ライセンス: Link先を確認
Katja Klobas, Colin Rylands, Bruno Bertini, (参考訳) 大規模で局所的に相互作用する多体系の有限部分は、最終的に平衡外の準備をする。 しかし、このプロセスの基盤となるメカニズムとその時間スケールを特徴づけるのは、観測可能な特定のものから普遍的な特徴を分離する必要があるため、特に難しい。 最近、あるサブシステムの縮小状態のレベルにおいて、初期状態によって破壊される力学の特定の対称性がどのように復元されるかを研究することによって、新たな洞察が得られた。 これは高レベルで観測不能なプローブを提供する。 これまでこの考え方は、電荷保存に関連する内部対称性、例えば U(1) 対称性の復元に応用されてきた。 ここでは、時空対称性の復元に同じ論理を適用することができ、従って完全な汎用システムの緩和を特徴付けることができることを示す。 このアイデアは、局所ランダムユニタリ回路の「汎用」多体ダイナミクスのパラダイム的な例を考えることで説明できる。 驚くべきことに、これらのシステムにおける翻訳対称性の回復は、サブシステムの体積に比例する時間スケールでのみ起こる。 実際、十分に大きなサブシステムの場合、対称性回復の時間は初期状態独立(後者が時間0で対称性を破る限り)となり、熱化時間と一致する。 しかし、中間系に対してはいわゆる「量子ムペンバ効果」(quantum Mpemba effect)が観察でき、そこでは系の状態が最初より非対称であれば対称性を高速に復元する。

The finite parts of a large, locally interacting many-body system prepared out-of-equilibrium eventually equilibrate. Characterising the underlying mechanisms of this process and its timescales, however, is particularly hard as it requires to decouple universal features from observable-specific ones. Recently, new insight came by studying how certain symmetries of the dynamics that are broken by the initial state are restored at the level of the reduced state of a given subsystem. This provides a high level, observable-independent probe. Until now this idea has been applied to the restoration of internal symmetries, e.g. U(1) symmetries related to charge conservation. Here we show that that the same logic can be applied to the restoration of space-time symmetries, and hence can be used to characterise the relaxation of fully generic systems. We illustrate this idea by considering the paradigmatic example of "generic" many-body dynamics, i.e. a local random unitary circuit. We show that, surprisingly, the restoration of translation symmetry in these systems only happens on time-scales proportional to the subsystem's volume. In fact, for large enough subsystems the time of symmetry restoration becomes initial-state independent (as long as the latter breaks the symmetry at time zero) and coincides with the thermalisation time. For intermediate subsystems, however, one can observe the so-called "quantum Mpemba effect", where the state of the system restores a symmetry faster if it is initially more asymmetric.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# 情報検索における指標バイアスの測定と対応

Measuring and Addressing Indexical Bias in Information Retrieval ( http://arxiv.org/abs/2406.04298v1 )

ライセンス: Link先を確認
Caleb Ziems, William Held, Jane Dwivedi-Yu, Diyi Yang, (参考訳) 情報検索(IR)システムは関連コンテンツを提供するように設計されているが、従来のシステムは公平性、中立性、アイデアのバランスのランク付けを最適化するものではない。 その結果、IRは文書の位置順にインデックスバイアスやバイアスを導入できる。 指標バイアスは、人々の意見、投票パターン、その他の行動に明白に影響を及ぼす可能性があるが、これらの問題は、指標バイアスを自動的に測定する信頼性のある指標や手順が欠如しているため、未検討のままである。 この目的のために、ランキングドキュメンテーションやIRシステム全体の自動バイアス監査をサポートするPAIRフレームワークを導入する。 最初の汎用的自動バイアス測定であるDUOを導入し、新たに32kの合成と4.7kの天然文書のコーパスで8つのIRシステムの広範囲な評価を行い、4kのクエリが1.4kの議論のある問題トピックにまたがった。 人間の行動学的研究は、私たちのアプローチを検証し、私たちのバイアスメトリクスが、いつ、どのように指標バイアスが読者の意見を変えるかを予測するのに役立ちます。

Information Retrieval (IR) systems are designed to deliver relevant content, but traditional systems may not optimize rankings for fairness, neutrality, or the balance of ideas. Consequently, IR can often introduce indexical biases, or biases in the positional order of documents. Although indexical bias can demonstrably affect people's opinion, voting patterns, and other behaviors, these issues remain understudied as the field lacks reliable metrics and procedures for automatically measuring indexical bias. Towards this end, we introduce the PAIR framework, which supports automatic bias audits for ranked documents or entire IR systems. After introducing DUO, the first general-purpose automatic bias metric, we run an extensive evaluation of 8 IR systems on a new corpus of 32k synthetic and 4.7k natural documents, with 4k queries spanning 1.4k controversial issue topics. A human behavioral study validates our approach, showing that our bias metric can help predict when and how indexical bias will shift a reader's opinion.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# NoisyGL: ラベルノイズ下でのグラフニューラルネットワークの総合ベンチマーク

NoisyGL: A Comprehensive Benchmark for Graph Neural Networks under Label Noise ( http://arxiv.org/abs/2406.04299v1 )

ライセンス: Link先を確認
Zhonghao Wang, Danyu Sun, Sheng Zhou, Haobo Wang, Jiapei Fan, Longtao Huang, Jiajun Bu, (参考訳) グラフニューラルネットワーク(GNN)は、メッセージパッシング機構を通じてノード分類タスクにおいて強力なポテンシャルを示す。 しかし、その性能はしばしば高品質なノードラベルに依存しており、信頼できないソースや敵の攻撃のため、現実のシナリオでは入手が困難である。 その結果、実世界のグラフデータではラベルノイズが一般的であり、トレーニング中に誤った情報を伝播することでGNNに悪影響を及ぼす。 この問題に対処するため,ラベルノイズ(GLN)下でのグラフニューラルネットワークの研究が近年,注目を集めている。 しかし、データセットの選択、データ分割、前処理のテクニックのバリエーションのため、コミュニティは現在、包括的なベンチマークを欠いているため、GLNのより深い理解とさらなる開発を妨げる。 このギャップを埋めるために,ラベルノイズ下でのグラフニューラルネットワークの総合ベンチマークであるNoisyGLを紹介する。 NoisyGLは、さまざまなデータセットにわたるノイズラベル付きグラフデータ上のGLNメソッドの公平な比較と詳細な分析を可能にする。 我々のベンチマークでは、過去の研究で見逃されたいくつかの重要な知見が明らかにされており、これらの発見は将来の研究にとって非常に有益であると信じています。 オープンソースベンチマークライブラリがこの分野のさらなる進歩を促進することを期待しています。 ベンチマークのコードはhttps://github.com/eaglelab-zju/NoisyGLにある。

Graph Neural Networks (GNNs) exhibit strong potential in node classification task through a message-passing mechanism. However, their performance often hinges on high-quality node labels, which are challenging to obtain in real-world scenarios due to unreliable sources or adversarial attacks. Consequently, label noise is common in real-world graph data, negatively impacting GNNs by propagating incorrect information during training. To address this issue, the study of Graph Neural Networks under Label Noise (GLN) has recently gained traction. However, due to variations in dataset selection, data splitting, and preprocessing techniques, the community currently lacks a comprehensive benchmark, which impedes deeper understanding and further development of GLN. To fill this gap, we introduce NoisyGL in this paper, the first comprehensive benchmark for graph neural networks under label noise. NoisyGL enables fair comparisons and detailed analyses of GLN methods on noisy labeled graph data across various datasets, with unified experimental settings and interface. Our benchmark has uncovered several important insights that were missed in previous research, and we believe these findings will be highly beneficial for future studies. We hope our open-source benchmark library will foster further advancements in this field. The code of the benchmark can be found in https://github.com/eaglelab-zju/NoisyGL.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# エピポーラ幾何学を用いたスパースビューからのニューラルサーフェス再構成

Neural Surface Reconstruction from Sparse Views Using Epipolar Geometry ( http://arxiv.org/abs/2406.04301v1 )

ライセンス: Link先を確認
Kaichen Zhou, (参考訳) 本稿では,疎視的入力から表面を再構築するという課題に対処し,情報不足による曖昧さと隠蔽が大きなハードルとなる。 再建過程にエピポーラ情報を組み込んだ新しい手法であるEpiSを提案する。 スパースビューニューラルサーフェス学習における既存の手法は主に特徴抽出のためのコストボリュームを用いた平均的および分散的考察に焦点を当てている。 対照的に,本手法では,コストボリュームから複数のソースビューから抽出したエピポーラ特徴に粗い情報を集約し,細粒度信号距離関数(SDF)を認識可能な特徴を生成する。 さらに,SDF特徴量に基づく特徴融合を容易にするために,線次元に沿ってアテンション機構を用いる。 さらに,スパース条件における情報ギャップに対処するため,大域的および局所的正規化手法を用いた単眼深度推定から深度情報を統合する。 大域正規化は三重項損失関数を使い、局所正規化は微分損失関数を用いる。 広汎な実験により,本手法は最先端の手法,特にスパースおよび一般化可能な条件において優れることが示された。

This paper addresses the challenge of reconstructing surfaces from sparse view inputs, where ambiguity and occlusions due to missing information pose significant hurdles. We present a novel approach, named EpiS, that incorporates Epipolar information into the reconstruction process. Existing methods in sparse-view neural surface learning have mainly focused on mean and variance considerations using cost volumes for feature extraction. In contrast, our method aggregates coarse information from the cost volume into Epipolar features extracted from multiple source views, enabling the generation of fine-grained Signal Distance Function (SDF)-aware features. Additionally, we employ an attention mechanism along the line dimension to facilitate feature fusion based on the SDF feature. Furthermore, to address the information gaps in sparse conditions, we integrate depth information from monocular depth estimation using global and local regularization techniques. The global regularization utilizes a triplet loss function, while the local regularization employs a derivative loss function. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods, especially in cases with sparse and generalizable conditions.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# Representational Alignmentは効果的な機械教育を支援する

Representational Alignment Supports Effective Machine Teaching ( http://arxiv.org/abs/2406.04302v1 )

ライセンス: Link先を確認
Ilia Sucholutsky, Katherine M. Collins, Maya Malaviya, Nori Jacoby, Weiyang Liu, Theodore R. Sumers, Michalis Korakakis, Umang Bhatt, Mark Ho, Joshua B. Tenenbaum, Brad Love, Zachary A. Pardos, Adrian Weller, Thomas L. Griffiths, (参考訳) 良い教師は、知識があるだけでなく、学生が世界の表現を共有できるように、コミュニケーションできるべきである。本研究では、表現力を高めるために、表現力と教師能力の関係を規定する実用曲線を特徴付けるために、機械教育と実践的コミュニケーションからの洞察を統合する。この実用曲線の特徴を探求するために、教師の精度と表現力の整合性を両立させる教師学習環境を設計する。我々は、機械を人間に教える一連の実験で補完する機械教育機を用いて、幅広い計算実験を行う。学生との表現力の向上が学生の学習結果(例えば、タスクの正確性)を改善するという知見に基づいて、学生の学習結果を改善するための教室を設計する。

A good teacher should not only be knowledgeable; but should be able to communicate in a way that the student understands -- to share the student's representation of the world. In this work, we integrate insights from machine teaching and pragmatic communication with the burgeoning literature on representational alignment to characterize a utility curve defining a relationship between representational alignment and teacher capability for promoting student learning. To explore the characteristics of this utility curve, we design a supervised learning environment that disentangles representational alignment from teacher accuracy. We conduct extensive computational experiments with machines teaching machines, complemented by a series of experiments in which machines teach humans. Drawing on our findings that improved representational alignment with a student improves student learning outcomes (i.e., task accuracy), we design a classroom matching procedure that assigns students to teachers based on the utility curve. If we are to design effective machine teachers, it is not enough to build teachers that are accurate -- we want teachers that can align, representationally, to their students too.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# Vision-LSTM: ジェネリックビジョンバックボーンとしてのxLSTM

Vision-LSTM: xLSTM as Generic Vision Backbone ( http://arxiv.org/abs/2406.04303v1 )

ライセンス: Link先を確認
Benedikt Alkin, Maximilian Beck, Korbinian Pöppel, Sepp Hochreiter, Johannes Brandstetter, (参考訳) トランスフォーマーは、自然言語処理に最初に導入されたにもかかわらず、コンピュータビジョンの一般的なバックボーンとして広く使われている。 最近、Long Short-Term Memory (LSTM) が拡張され、拡張性のあるアーキテクチャ xLSTM が拡張され、指数的ゲーティングと並列化可能な行列メモリ構造によって長期にわたるLSTMの制限を克服した。 本稿では, xLSTM ビルディングブロックをコンピュータビジョンに適用した Vision-LSTM (ViL) を紹介する。 ViLはxLSTMブロックのスタックで構成されており、奇異ブロックはパッチトークンのシーケンスを上から下へ処理し、ブロックも下から上へと処理する。 実験によると、ViLはコンピュータビジョンアーキテクチャのための新しい一般的なバックボーンとして、さらにデプロイされることを約束している。

Transformers are widely used as generic backbones in computer vision, despite initially introduced for natural language processing. Recently, the Long Short-Term Memory (LSTM) has been extended to a scalable and performant architecture - the xLSTM - which overcomes long-standing LSTM limitations via exponential gating and parallelizable matrix memory structure. In this report, we introduce Vision-LSTM (ViL), an adaption of the xLSTM building blocks to computer vision. ViL comprises a stack of xLSTM blocks where odd blocks process the sequence of patch tokens from top to bottom while even blocks go from bottom to top. Experiments show that ViL holds promise to be further deployed as new generic backbone for computer vision architectures.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# Quixer:量子トランスモデル

Quixer: A Quantum Transformer Model ( http://arxiv.org/abs/2406.04305v1 )

ライセンス: Link先を確認
Nikhil Khatri, Gabriel Matos, Luuk Coopmans, Stephen Clark, (参考訳) 信頼性の高い大規模量子コンピュータの実現の進展は、量子機械学習モデルの設計を動機付けてきた。 本稿では、単位と量子特異値変換プリミティブの線形結合をビルディングブロックとして利用した新しい量子トランスモデルQuixerを提案する。 Quixerはトークンの重ね合わせを作成し、この混合にトレーニング可能な非線形変換を適用することで機能する。 実用的な言語モデリングタスクに適用した量子トランスモデルの最初の結果を示し、等価な古典的ベースラインと競合する結果を得る。 また、量子ハードウェア上でのモデル評価のためのリソース推定や、古典シミュレーションのためのオープンソース実装も含んでいる。 我々は、Quixerの一般性を強調し、そのパラメータ化された成分が固定構造に代えて新しい量子トランスフォーマーのクラスが得られることを示した。

Progress in the realisation of reliable large-scale quantum computers has motivated research into the design of quantum machine learning models. We present Quixer: a novel quantum transformer model which utilises the Linear Combination of Unitaries and Quantum Singular Value Transform primitives as building blocks. Quixer operates by preparing a superposition of tokens and applying a trainable non-linear transformation to this mix. We present the first results for a quantum transformer model applied to a practical language modelling task, obtaining results competitive with an equivalent classical baseline. In addition, we include resource estimates for evaluating the model on quantum hardware, and provide an open-source implementation for classical simulation. We conclude by highlighting the generality of Quixer, showing that its parameterised components can be substituted with fixed structures to yield new classes of quantum transformers.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# 言語モデルにおける不確かさ推定のための意味的多言語生成

Semantically Diverse Language Generation for Uncertainty Estimation in Language Models ( http://arxiv.org/abs/2406.04306v1 )

ライセンス: Link先を確認
Lukas Aichberger, Kajetan Schweighofer, Mykyta Ielanskyi, Sepp Hochreiter, (参考訳) 大規模言語モデル(LLM)は、テキストを生成する際に幻覚に悩まされることがある。 これらの幻覚は、LSMを信頼できないものにすることで、社会や産業に様々な応用を阻害した。 現在のLLMは、テキストトークンを予測および付加することにより、自動回帰形式でテキストを生成する。 LLMが生成する次のトークンの意味について不確実な場合、幻覚を開始する可能性が高い。 したがって、幻覚は予測的不確実性に起因することが示唆されている。 LLMの予測不確実性を定量化するために,Semantically Diverse Language Generation (SDLG)を導入する。 SDLG は LLM を操り、当初生成されたテキストに対して意味的に多様だが、おそらくは代替案を生成する。 このアプローチは、初期テキストが幻覚されるかどうかを検知する、アレタリックセマンティックな不確実性を正確に測定する。 質問応答タスクの実験では、SDLGは計算効率が最も高く、既存の手法よりも一貫して優れており、LSMにおける不確実性推定の新しい標準が設定されている。

Large language models (LLMs) can suffer from hallucinations when generating text. These hallucinations impede various applications in society and industry by making LLMs untrustworthy. Current LLMs generate text in an autoregressive fashion by predicting and appending text tokens. When an LLM is uncertain about the semantic meaning of the next tokens to generate, it is likely to start hallucinating. Thus, it has been suggested that hallucinations stem from predictive uncertainty. We introduce Semantically Diverse Language Generation (SDLG) to quantify predictive uncertainty in LLMs. SDLG steers the LLM to generate semantically diverse yet likely alternatives for an initially generated text. This approach provides a precise measure of aleatoric semantic uncertainty, detecting whether the initial text is likely to be hallucinated. Experiments on question-answering tasks demonstrate that SDLG consistently outperforms existing methods while being the most computationally efficient, setting a new standard for uncertainty estimation in LLMs.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# 高精度・低深度固有状態推定:理論と資源推定

High-precision and low-depth eigenstate property estimation: theory and resource estimation ( http://arxiv.org/abs/2406.04307v1 )

ライセンス: Link先を確認
Jinzhao Sun, Pei Zeng, Tom Gur, M. S. Kim, (参考訳) 量子多体系の固有状態特性を推定することは、古典的および量子コンピューティングの双方にとって、長年にわたる、挑戦的な問題である。 固有状態の準備のために、量子信号処理(QSP)は準最適クエリ複雑性を$O( \Delta^{-1} \log(\epsilon^{-1}) )$ に設定し、ハミルトンの$H$のブロックエンコーディングをクエリすることで、$\Delta$はエネルギーギャップであり、$\epsilon$は目標精度である。 しかし、QSPは、論理量子ビット数と回路深さによって制限される、短期ノイズの多い量子コンピュータと早期フォールトトレラント量子コンピュータ(FTQC)の両方にとって困難である。 これまで、FTQCアルゴリズムは完全時間進化を$e^{-iHt}$で検索することに重点を置いてきた。 初期のFTQCアルゴリズムがゲートレベルで良好な漸近スケーリングを維持できるかどうかは不明である。 さらに、キュービット接続を考慮すると、既存のFTQCアルゴリズムの回路深さはシステムサイズに比例する。 本稿では,固有状態に対する固有値と観測可能な期待値を推定するランダムサンプリングアルゴリズムのフルスタック設計について述べる。 ゲート複雑性は、一般ハミルトン群に対する精度 $ {O}(\log^{1+o(1)} (1/\epsilon)$ に対数依存しており、QETU の$e^{-iHt}$ を実現できない。 n$-qubit 格子ハミルトニアンに対して、この手法はゲート複雑性 $O(n^{1+o(1)})$ とほぼ最適のシステムサイズに依存する。 線形近傍アーキテクチャへのキュービット接続を制限する場合、格子モデルでは$O(n^{o(1)})$、電子構造問題では$O(n^{2+o(1)})$という回路深さの利点を示す。 我々は, 相推定, QSP, QETUによる資源要求(CNOTゲート, Tゲート, 量子ビット数)を格子および分子問題で比較する。

Estimating the eigenstate properties of quantum many-body systems is a long-standing, challenging problem for both classical and quantum computing. For the task of eigenstate preparation, quantum signal processing (QSP) has established near-optimal query complexity $O( \Delta^{-1} \log(\epsilon^{-1}) )$ by querying the block encoding of the Hamiltonian $H$ where $\Delta$ is the energy gap and $\epsilon$ is the target precision. However, QSP is challenging for both near-term noisy quantum computers and early fault-tolerant quantum computers (FTQC), which are limited by the number of logical qubits and circuit depth. To date, early FTQC algorithms have focused on querying the perfect time evolution $e^{-iHt}$. It remains uncertain whether early FTQC algorithms can maintain good asymptotic scaling at the gate level. Moreover, when considering qubit connectivity, the circuit depth of existing FTQC algorithms may scale suboptimally with system size. Here, we present a full-stack design of a random sampling algorithm for estimating the eigenenergy and the observable expectations on the eigenstates, which can achieve high precision and good system size scaling. The gate complexity has a logarithmic dependence on precision $ {O}(\log^{1+o(1)} (1/\epsilon))$ for generic Hamiltonians, which cannot achieved by methods using Trottersiation to realise $e^{-iHt}$ like in QETU. For $n$-qubit lattice Hamiltonians, our method achieves near-optimal system size dependence with the gate complexity $O(n^{1+o(1)})$. When restricting the qubit connectivity to a linear nearest-neighbour architecture, The method shows advantages in circuit depth, with $O(n^{o(1)})$ for lattice models and $O(n^{2+o(1)})$ for electronic structure problems. We compare the resource requirements (CNOT gates, T gates and qubit numbers) by phase estimation, QSP, and QETU, in lattice and molecular problems.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# 近似-アウェアベイズ最適化

Approximation-Aware Bayesian Optimization ( http://arxiv.org/abs/2406.04308v1 )

ライセンス: Link先を確認
Natalie Maus, Kyurae Kim, Geoff Pleiss, David Eriksson, John P. Cunningham, Jacob R. Gardner, (参考訳) 分子設計のような高次元ベイズ最適化(BO)タスクは、意味のある結果を得る前に10,000の関数評価を必要とすることが多い。 スパース変分ガウス過程(SVGP)のような手法は、これらの設定における計算要求を減少させるが、根底にある近似は最適化の進行を遅らせる最適以下のデータ取得をもたらす。 本稿では,グローバルな後部忠実度ではなく,インフォメーションデータ取得を目標とする,BOの目標に適合するSVGPを改良する。 実用校正変分推論の枠組みを用いて,GP近似とデータ取得を共同最適化問題に統一し,限られた計算予算下での最適決定を確実にする。 提案手法は任意の決定論的獲得関数で使用することができ,TuRBOのような信頼領域法と互換性がある。 標準化とバッチBO設定の両方において、期待される改善と知識勾配獲得機能のための効率的な共同目標を導出する。 本手法は,制御および分子設計における高次元のベンチマークタスクにおいて,標準SVGPよりも優れた性能を示す。

High-dimensional Bayesian optimization (BO) tasks such as molecular design often require 10,000 function evaluations before obtaining meaningful results. While methods like sparse variational Gaussian processes (SVGPs) reduce computational requirements in these settings, the underlying approximations result in suboptimal data acquisitions that slow the progress of optimization. In this paper we modify SVGPs to better align with the goals of BO: targeting informed data acquisition rather than global posterior fidelity. Using the framework of utility-calibrated variational inference, we unify GP approximation and data acquisition into a joint optimization problem, thereby ensuring optimal decisions under a limited computational budget. Our approach can be used with any decision-theoretic acquisition function and is compatible with trust region methods like TuRBO. We derive efficient joint objectives for the expected improvement and knowledge gradient acquisition functions in both the standard and batch BO settings. Our approach outperforms standard SVGPs on high-dimensional benchmark tasks in control and molecular design.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# ReFiNe: クロスモーダルマルチシーン表現のための再帰的フィールドネットワーク

ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation ( http://arxiv.org/abs/2406.04309v1 )

ライセンス: Link先を確認
Sergey Zakharov, Katherine Liu, Adrien Gaidon, Rares Ambrus, (参考訳) マルチシェイプ表現のための最先端手法の共通のトレードオフ(複数のオブジェクトをパッケージ化する単一モデル)は、メモリやストレージに対するトレーディングモデリングの精度が伴う。 連続神経場として表現される複数の形状を、従来より高精度に符号化し、メモリ使用量を減らす方法を示す。 このアプローチの鍵となるのは、オブジェクトの自己相似性を活用する再帰的階層的な定式化であり、高度に圧縮され、効率のよいラテント空間をもたらす。 再帰的定式化により,提案手法は補助データ構造の初期化や維持を必要とせず,空間的かつグローバルな潜在機能融合をサポートし,連続的なフィールドクエリによりレイトレーシングなどのアプリケーションを実現することができる。 多様なデータセットの集合に関する実験では、説得力のある質的な結果を提供し、最先端のマルチシーン再構成と圧縮結果をデータセット毎に1つのネットワークで示す。

The common trade-offs of state-of-the-art methods for multi-shape representation (a single model "packing" multiple objects) involve trading modeling accuracy against memory and storage. We show how to encode multiple shapes represented as continuous neural fields with a higher degree of precision than previously possible and with low memory usage. Key to our approach is a recursive hierarchical formulation that exploits object self-similarity, leading to a highly compressed and efficient shape latent space. Thanks to the recursive formulation, our method supports spatial and global-to-local latent feature fusion without needing to initialize and maintain auxiliary data structures, while still allowing for continuous field queries to enable applications such as raytracing. In experiments on a set of diverse datasets, we provide compelling qualitative results and demonstrate state-of-the-art multi-scene reconstruction and compression results with a single network per dataset.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# 量子摂動理論を用いた楕円型ブラックホール溶液中の臨界成分のベイズ推定のためのニューラルネットワーク支援メトロポリス・ハスティング

Neural Networks Assisted Metropolis-Hastings for Bayesian Estimation of Critical Exponent on Elliptic Black Hole Solution in 4D Using Quantum Perturbation Theory ( http://arxiv.org/abs/2406.04310v1 )

ライセンス: Link先を確認
Armin Hatefi, Ehsan Hatefi, R. J. Lopez-Sastre, (参考訳) 臨界重力崩壊は、チョプティック臨界指数である$\gamma$を特徴とする連続自己相似解を生成することが知られている。 数値測定誤差を考慮した線形摂動方程式の完全領域内の全ての解について検討する。 具体的には、楕円型$\text{SL}(2,\mathbb{R})$変換の4次元アインシュタイン-アキション-ディラトン系の量子摂動論を研究する。 我々は,量子摂動理論に基づく新しいニューラルネットワーク支援メトロポリス・ハスティングを開発し,ベイズフレームワークの臨界指数を求める。 従来の手法とは異なり、この新しい確率論的手法は利用可能な決定論的解を識別し、数値的な測定誤差によって生じる可能性のある物理的に区別可能な臨界指数の範囲を探索する。

The critical gravitational collapse is known to produce continuous self-similar solutions characterized by the Choptuik critical exponent, $\gamma$. We examine all solutions within the complete domains of the linear perturbation equations, considering the numerical measurement errors. Specifically, we study quantum perturbation theory for the four-dimensional Einstein-axion-dilaton system of the elliptic class of $\text{SL}(2,\mathbb{R})$ transformations. We developed a novel artificial neural network-assisted Metropolis-Hastings based on quantum perturbation theory to find the critical exponent in a Bayesian framework. Unlike existing methods, this new probabilistic approach identifies the available deterministic solutions and explores the range of physically distinguishable critical exponents that may arise due to numerical measurement errors.
翻訳日:2024-06-07 13:30:41 公開日:2024-06-06
# ReNO: 逆方向雑音最適化によるワンステップテキスト・ツー・イメージモデルの実現

ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization ( http://arxiv.org/abs/2406.04312v1 )

ライセンス: Link先を確認
Luca Eyring, Shyamgopal Karthik, Karsten Roth, Alexey Dosovitskiy, Zeynep Akata, (参考訳) テキスト・トゥ・イメージ(T2I)モデルは近年大きな進歩を遂げているが、複雑な合成プロンプトで特定された複雑な詳細を正確に捉えるのに苦慮している。 報酬目標を持つ微調整のT2Iモデルは、将来性を示しているが、"逆ハック"に悩まされており、見当たらないプロンプト分布にうまく一般化できない可能性がある。 本研究では,T2Iモデルを推論時に拡張する新しい手法であるReward-based Noise Optimization (ReNO)を提案する。 注目すべきは、50イテレーションの勾配上昇によるこの最適化問題を解くことで、2つの競合ベンチマークであるT2I-CompBenchとGenEvalの4つの異なる1ステップモデルに対する印象的な結果が得られることだ。 20-50秒の計算予算の中で、ReNOによって強化されたワンステップモデルは、現在のすべてのオープンソーステキスト・トゥ・イメージ・モデルの性能を一貫して上回った。 広汎なユーザスタディにより、我々のモデルは一般的なSDXLモデルに比べて約2倍の頻度で好まれており、8Bパラメータを持つStable Diffusion 3と同等であることが示された。 さらに、同じ計算資源が与えられた場合、ReNO最適化ワンステップモデルはSDXLやPixArt-$\alpha$のような広く使われているオープンソースモデルよりも優れており、推論時のT2Iモデル性能の向上におけるReNOの有効性と有効性を強調している。 コードはhttps://github.com/ExplainableML/ReNO.comで入手できる。

Text-to-Image (T2I) models have made significant advancements in recent years, but they still struggle to accurately capture intricate details specified in complex compositional prompts. While fine-tuning T2I models with reward objectives has shown promise, it suffers from "reward hacking" and may not generalize well to unseen prompt distributions. In this work, we propose Reward-based Noise Optimization (ReNO), a novel approach that enhances T2I models at inference by optimizing the initial noise based on the signal from one or multiple human preference reward models. Remarkably, solving this optimization problem with gradient ascent for 50 iterations yields impressive results on four different one-step models across two competitive benchmarks, T2I-CompBench and GenEval. Within a computational budget of 20-50 seconds, ReNO-enhanced one-step models consistently surpass the performance of all current open-source Text-to-Image models. Extensive user studies demonstrate that our model is preferred nearly twice as often compared to the popular SDXL model and is on par with the proprietary Stable Diffusion 3 with 8B parameters. Moreover, given the same computational resources, a ReNO-optimized one-step model outperforms widely-used open-source models such as SDXL and PixArt-$\alpha$, highlighting the efficiency and effectiveness of ReNO in enhancing T2I model performance at inference time. Code is available at https://github.com/ExplainableML/ReNO.
翻訳日:2024-06-07 13:20:51 公開日:2024-06-06
# ショートサーキットによるアライメントとロバストネスの改善

Improving Alignment and Robustness with Short Circuiting ( http://arxiv.org/abs/2406.04313v1 )

ライセンス: Link先を確認
Andy Zou, Long Phan, Justin Wang, Derek Duenas, Maxwell Lin, Maksym Andriushchenko, Rowan Wang, Zico Kolter, Matt Fredrikson, Dan Hendrycks, (参考訳) AIシステムは有害な行動をとることができ、敵の攻撃に対して非常に脆弱である。 我々は,近年の表現工学の進歩に触発されて,有害な出力に対応する「短絡回路」モデルを提案する。 拒否訓練などのアライメント改善を目的とした既存の技術は、しばしばバイパスされる。 敵の訓練のような技術は、特定の攻撃に対抗して穴を塞ごうとする。 拒絶訓練や逆行訓練の代替として、ショートサーキットはそもそも有害なアウトプットの原因となる表現を直接制御する。 我々の手法はテキストのみの言語モデルとマルチモーダル言語モデルの両方に適用でき、強力な目に見えない攻撃があっても、ユーティリティを犠牲にすることなく有害なアウトプットの発生を防げます。 特に、スタンドアロン画像認識における敵対的堅牢性は依然としてオープンな課題であるが、ショートサーキットにより、有害なコンテンツを生み出すことを目的とした画像「ヒジャック」に確実に耐えられる。 最後に、我々のアプローチをAIエージェントに拡張し、攻撃されているときの有害な行動の率を大幅に低下させることを示す。 当社のアプローチは、有害な行動や敵の攻撃に対する信頼性の高い安全対策の開発において、大きな前進を示すものである。

AI systems can take harmful actions and are highly vulnerable to adversarial attacks. We present an approach, inspired by recent advances in representation engineering, that "short-circuits" models as they respond with harmful outputs. Existing techniques aimed at improving alignment, such as refusal training, are often bypassed. Techniques such as adversarial training try to plug these holes by countering specific attacks. As an alternative to refusal training and adversarial training, short-circuiting directly controls the representations that are responsible for harmful outputs in the first place. Our technique can be applied to both text-only and multimodal language models to prevent the generation of harmful outputs without sacrificing utility -- even in the presence of powerful unseen attacks. Notably, while adversarial robustness in standalone image recognition remains an open challenge, short-circuiting allows the larger multimodal system to reliably withstand image "hijacks" that aim to produce harmful content. Finally, we extend our approach to AI agents, demonstrating considerable reductions in the rate of harmful actions when they are under attack. Our approach represents a significant step forward in the development of reliable safeguards to harmful behavior and adversarial attacks.
翻訳日:2024-06-07 13:20:51 公開日:2024-06-06
# ステップ対応の優先度最適化:各ステップでパフォーマンスを判断して優先度を調整する

Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step ( http://arxiv.org/abs/2406.04314v1 )

ライセンス: Link先を確認
Zhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Ji Li, Liang Zheng, (参考訳) 近年、DPO(Direct Preference Optimization)は、大きな言語モデル(LLM)の整合化から、テキストと画像の拡散モデルと人間の嗜好の整合化まで、その成功を拡大している。 全ての拡散ステップが最終生成画像と一貫した選好順序を持つと仮定する既存のDPO法とは異なり、この仮定はステップ固有の演能性能を無視し、各ステップの寄与に合わせて選好ラベルを調整すべきであると主張する。 この制限に対処するため,ステップアウェア優先最適化 (SPO) を提案する。ステップアウェア優先モデルとステップワイズ・リサンプラーを用いて,ステップアウェア適応を独立に評価・調整し,正確なステップアウェア監視を実現する新しいポストトレーニング手法である。 具体的には、各デノイングステップにおいて、画像のプールをサンプリングし、適切なウィンローペアを見つけ、そして最も重要なことは、プールから1つのイメージをランダムに選択して次のデノージングステップを初期化することである。 このステップワイズ再サンプリングプロセスは、次のウィンロー画像対が同じ画像から来ることを保証し、ウィンロー画像対が前のステップに依存しないようにする。 各ステップの嗜好を評価するため、ノイズとクリーンな画像の両方に適用可能なステップ認識選好モデルをトレーニングする。 安定拡散v1.5およびSDXLを用いた実験により、SPOは、より複雑で詳細なプロンプトと美学の強化と、トレーニング効率の20倍以上の速さで、生成した画像の整列において、最新の拡散DPOを著しく上回っていることが示された。 コードとモデル:https://rockeycoss.github.io/spo.github.io/

Recently, Direct Preference Optimization (DPO) has extended its success from aligning large language models (LLMs) to aligning text-to-image diffusion models with human preferences. Unlike most existing DPO methods that assume all diffusion steps share a consistent preference order with the final generated images, we argue that this assumption neglects step-specific denoising performance and that preference labels should be tailored to each step's contribution. To address this limitation, we propose Step-aware Preference Optimization (SPO), a novel post-training approach that independently evaluates and adjusts the denoising performance at each step, using a step-aware preference model and a step-wise resampler to ensure accurate step-aware supervision. Specifically, at each denoising step, we sample a pool of images, find a suitable win-lose pair, and, most importantly, randomly select a single image from the pool to initialize the next denoising step. This step-wise resampler process ensures the next win-lose image pair comes from the same image, making the win-lose comparison independent of the previous step. To assess the preferences at each step, we train a separate step-aware preference model that can be applied to both noisy and clean images. Our experiments with Stable Diffusion v1.5 and SDXL demonstrate that SPO significantly outperforms the latest Diffusion-DPO in aligning generated images with complex, detailed prompts and enhancing aesthetics, while also achieving more than 20x times faster in training efficiency. Code and model: https://rockeycoss.github.io/spo.github.io/
翻訳日:2024-06-07 13:20:51 公開日:2024-06-06
# Omni6DPose:Universal 6D Object Poseの推定と追跡のためのベンチマークとモデル

Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking ( http://arxiv.org/abs/2406.04316v1 )

ライセンス: Link先を確認
Jiyao Zhang, Weiyao Huang, Bo Peng, Mingdong Wu, Fei Hu, Zijian Chen, Bo Zhao, Hao Dong, (参考訳) 6D Object Pose Estimationは、大規模なデータセットの不足に悩まされているコンピュータビジョンにおいて、決定的に難しいタスクである。 この不足は、モデル性能の包括的な評価を妨げ、研究の進歩を制限する。 さらに、利用可能なインスタンスやカテゴリの制限された数は、そのアプリケーションに要する。 これらの課題に対処するために,Omni6DPoseについて紹介する。 Omni6DPoseは3つの主要コンポーネントに分けられる: ROPE (Real 6D Object Pose Estimation Dataset) は、149のカテゴリで581のインスタンスに1.5M以上のアノテーションで注釈付けされた332Kイメージ、SOPE (Simulated 6D Object Pose Estimation Dataset) は475Kイメージで構成され、深さシミュレーションと混合現実設定で作成され、同じ149のカテゴリで4162のインスタンスで5M以上のアノテーションで注釈付けされている。 Omni6DPoseは、実質的な変異と曖昧さのために本質的に困難である。 この課題に対処するために、私たちは、SOTAカテゴリレベルのポーズ推定フレームワークの拡張バージョンであるGenPose++を導入し、セマンティックな特徴抽出とクラスタリングベースのアグリゲーションという2つの重要な改善を取り入れた。 さらに,6次元オブジェクトのポーズ推定とポーズ追跡の領域において,この大規模データセット上での過去の手法の性能を評価するための総合的なベンチマーク分析を行う。

6D Object Pose Estimation is a crucial yet challenging task in computer vision, suffering from a significant lack of large-scale datasets. This scarcity impedes comprehensive evaluation of model performance, limiting research advancements. Furthermore, the restricted number of available instances or categories curtails its applications. To address these issues, this paper introduces Omni6DPose, a substantial dataset characterized by its diversity in object categories, large scale, and variety in object materials. Omni6DPose is divided into three main components: ROPE (Real 6D Object Pose Estimation Dataset), which includes 332K images annotated with over 1.5M annotations across 581 instances in 149 categories; SOPE(Simulated 6D Object Pose Estimation Dataset), consisting of 475K images created in a mixed reality setting with depth simulation, annotated with over 5M annotations across 4162 instances in the same 149 categories; and the manually aligned real scanned objects used in both ROPE and SOPE. Omni6DPose is inherently challenging due to the substantial variations and ambiguities. To address this challenge, we introduce GenPose++, an enhanced version of the SOTA category-level pose estimation framework, incorporating two pivotal improvements: Semantic-aware feature extraction and Clustering-based aggregation. Moreover, we provide a comprehensive benchmarking analysis to evaluate the performance of previous methods on this large-scale dataset in the realms of 6D object pose estimation and pose tracking.
翻訳日:2024-06-07 13:20:51 公開日:2024-06-06
# ベイズニューラルネットワークにおける高精細関数空間変動推論のための正規化KL-Divergence

Regularized KL-Divergence for Well-Defined Function-Space Variational Inference in Bayesian neural networks ( http://arxiv.org/abs/2406.04317v1 )

ライセンス: Link先を確認
Tristan Cinquin, Robert Bamler, (参考訳) ベイズニューラルネットワーク(BNN)は、ニューラルネットワークの予測性能と、安全クリティカルなシステムや意思決定に重要な原則化された不確実性モデリングを組み合わせることを約束している。 しかし、後続の不確実性推定は事前の選択に依存しており、重み空間における情報的事前の発見は困難であることが証明されている。 これは、重みではなく、BNNが生成する関数に直接先行する変動推論(VI)手法を動機付けている。 本稿では,Burt et al (2020) が指摘したような関数空間 VI アプローチの基本的な問題に対処し,目的関数 (ELBO) がほとんどの利害関係において負の無限であることを示した。 我々の解は、一般化された VI (Knoblauch et al , 2019) と正規化された KL 分岐 (Quang, 2019) に基づいて構築されており、我々の知る限り、ガウス過程 (GP) の先行した BNN における関数空間推論のための、初めて明確に定義された変分目的である。 実験により,提案手法は, 合成および小型実世界のデータセットに先立ってGPが規定する特性を組み込んでおり, 関数および重み空間前のBNNベースラインと比較して, 回帰, 分類, 分布外検出の競合不確実性を推定する。

Bayesian neural networks (BNN) promise to combine the predictive performance of neural networks with principled uncertainty modeling important for safety-critical systems and decision making. However, posterior uncertainty estimates depend on the choice of prior, and finding informative priors in weight-space has proven difficult. This has motivated variational inference (VI) methods that pose priors directly on the function generated by the BNN rather than on weights. In this paper, we address a fundamental issue with such function-space VI approaches pointed out by Burt et al. (2020), who showed that the objective function (ELBO) is negative infinite for most priors of interest. Our solution builds on generalized VI (Knoblauch et al., 2019) with the regularized KL divergence (Quang, 2019) and is, to the best of our knowledge, the first well-defined variational objective for function-space inference in BNNs with Gaussian process (GP) priors. Experiments show that our method incorporates the properties specified by the GP prior on synthetic and small real-world data sets, and provides competitive uncertainty estimates for regression, classification and out-of-distribution detection compared to BNN baselines with both function and weight-space priors.
翻訳日:2024-06-07 13:20:50 公開日:2024-06-06
# 急速診断のための磁気共鳴におけるk空間の適応サンプリング

Adaptive Sampling of k-Space in Magnetic Resonance for Rapid Pathology Prediction ( http://arxiv.org/abs/2406.04318v1 )

ライセンス: Link先を確認
Chen-Yu Yen, Raghav Singhal, Umang Sharma, Rajesh Ranganath, Sumit Chopra, Lerrel Pinto, (参考訳) 磁気共鳴画像(MR)は、診断の有用性が証明されているにもかかわらず、人口レベルでの疾患監視にはアクセス不能な画像モダリティである。 MRをアクセシブルにレンダリングする主な要因は、長いスキャン時間である。 MRスキャナーは、基礎となるフーリエ空間(k空間としても知られる)の解剖学に関連する測定を収集する。 高忠実度画像を作成するには、そのような測定を大量に集め、スキャン時間を増やす必要がある。 伝統的にMRスキャンを加速するために、アンダーサンプリングされたk空間データからの画像再構成が選択の方法である。 しかし、近年の研究では、画像再構成をバイパスし、k空間測定のスペーサー学習サブセットから直接疾患を検出することの実現可能性を示している。 そこで本研究では,k空間サンプルを逐次選択し,対象疾患検出を最適化する適応的手法であるAdaptive Smpling for MR (ASMR)を提案する。 Knee、Brain、Prostate MRスキャンにまたがる8つの病理分類タスクのうち6つにおいて、ASMRは完全サンプリング分類器のパフォーマンスの2%以内に達し、k空間の8%しか使用せず、EMRT、LOUPE、DPSといったk空間サンプリングにおける先行技術よりも優れていた。

Magnetic Resonance (MR) imaging, despite its proven diagnostic utility, remains an inaccessible imaging modality for disease surveillance at the population level. A major factor rendering MR inaccessible is lengthy scan times. An MR scanner collects measurements associated with the underlying anatomy in the Fourier space, also known as the k-space. Creating a high-fidelity image requires collecting large quantities of such measurements, increasing the scan time. Traditionally to accelerate an MR scan, image reconstruction from under-sampled k-space data is the method of choice. However, recent works show the feasibility of bypassing image reconstruction and directly learning to detect disease directly from a sparser learned subset of the k-space measurements. In this work, we propose Adaptive Sampling for MR (ASMR), a sampling method that learns an adaptive policy to sequentially select k-space samples to optimize for target disease detection. On 6 out of 8 pathology classification tasks spanning the Knee, Brain, and Prostate MR scans, ASMR reaches within 2% of the performance of a fully sampled classifier while using only 8% of the k-space, as well as outperforming prior state-of-the-art work in k-space sampling such as EMRT, LOUPE, and DPS.
翻訳日:2024-06-07 13:20:50 公開日:2024-06-06
# Chimera: 2次元状態空間モデルによる多変量時系列を効果的にモデル化する

Chimera: Effectively Modeling Multivariate Time Series with 2-Dimensional State Space Models ( http://arxiv.org/abs/2406.04320v1 )

ライセンス: Link先を確認
Ali Behrouz, Michele Santacatterina, Ramin Zabih, (参考訳) 多変量時系列のモデリングは、医療から金融市場まで幅広いアプリケーションにおいて確立された問題である。 従来の状態空間モデル(SSM)は、線形依存を表現するための単純で表現力があるため、一変量時系列モデリングの古典的なアプローチである。 しかし、基本的には非線形依存関係をキャプチャする表現力に制限があり、実際は遅く、変数間の情報フローをモデル化できない。 近年のSSMの表現力を深層構造で改善しようとする試みにもかかわらず、既存の手法は単変量時系列に制限されるか、複雑なパターン(季節パターンなど)をモデル化できないか、変数と時間次元の依存関係を動的にモデル化できないか、入力非依存である。 本稿では、2つの入力依存型2次元SSMヘッドと異なる離散化プロセスを用いて長期進行と季節パターンを学習するチメラについて述べる。 複雑な2次元リカレンスの効率を向上させるために,新しい2次元並列選択的スキャンを用いて高速トレーニングを行う。 さらに,2次元SSMの空間的症例として,マンバとマンバ-2を提示し,考察した。 実験により,ECGおよび音声時系列分類,長期・短期時系列予測,時系列異常検出など,多種多様なベンチマークにおいて,Chimeraの優れた性能を示した。

Modeling multivariate time series is a well-established problem with a wide range of applications from healthcare to financial markets. Traditional State Space Models (SSMs) are classical approaches for univariate time series modeling due to their simplicity and expressive power to represent linear dependencies. They, however, have fundamentally limited expressive power to capture non-linear dependencies, are slow in practice, and fail to model the inter-variate information flow. Despite recent attempts to improve the expressive power of SSMs by using deep structured SSMs, the existing methods are either limited to univariate time series, fail to model complex patterns (e.g., seasonal patterns), fail to dynamically model the dependencies of variate and time dimensions, and/or are input-independent. We present Chimera that uses two input-dependent 2-D SSM heads with different discretization processes to learn long-term progression and seasonal patterns. To improve the efficiency of complex 2D recurrence, we present a fast training using a new 2-dimensional parallel selective scan. We further present and discuss 2-dimensional Mamba and Mamba-2 as the spacial cases of our 2D SSM. Our experimental evaluation shows the superior performance of Chimera on extensive and diverse benchmarks, including ECG and speech time series classification, long-term and short-term time series forecasting, and time series anomaly detection.
翻訳日:2024-06-07 13:20:50 公開日:2024-06-06
# VidMuse: 長時間モデリングによるシンプルなビデオ・音楽生成フレームワーク

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling ( http://arxiv.org/abs/2406.04321v1 )

ライセンス: Link先を確認
Zeyue Tian, Zhaoyang Liu, Ruibin Yuan, Jiahao Pan, Xiaoqiang Huang, Qifeng Liu, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo, (参考訳) 本研究では,映像のみを前提とした音楽生成を体系的に研究する。 まず,映画トレーラー,広告,ドキュメンタリーなどのジャンルを含む190Kのビデオ音楽ペアからなる大規模データセットを提案する。 さらに,ビデオ入力に整合した音楽を生成するためのシンプルなフレームワークであるVidMuseを提案する。 VidMuseは、ビデオの音響的かつ意味論的に整合した高忠実な音楽を作り出すことで際立っている。 ローカルおよびグローバルな視覚的手がかりを取り入れることで、VidMuseは、ロングショート・ターム・モデリングを通じてビデオコンテンツに一貫して一致する音楽的に一貫性のあるオーディオトラックを作成することができる。 広範な実験を通じて、VidMuseは、オーディオ品質、多様性、オーディオ視覚アライメントの点で、既存のモデルよりも優れています。 コードとデータセットはhttps://github.com/ZeyueT/VidMuse/.comで入手できる。

In this work, we systematically study music generation conditioned solely on the video. First, we present a large-scale dataset comprising 190K video-music pairs, including various genres such as movie trailers, advertisements, and documentaries. Furthermore, we propose VidMuse, a simple framework for generating music aligned with video inputs. VidMuse stands out by producing high-fidelity music that is both acoustically and semantically aligned with the video. By incorporating local and global visual cues, VidMuse enables the creation of musically coherent audio tracks that consistently match the video content through Long-Short-Term modeling. Through extensive experiments, VidMuse outperforms existing models in terms of audio quality, diversity, and audio-visual alignment. The code and datasets will be available at https://github.com/ZeyueT/VidMuse/.
翻訳日:2024-06-07 13:20:50 公開日:2024-06-06
# DIRECT-3D:大規模雑音データを用いた直接テキスト・ツー・3D生成の学習

DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data ( http://arxiv.org/abs/2406.04322v1 )

ライセンス: Link先を確認
Qihao Liu, Yi Zhang, Song Bai, Adam Kortylewski, Alan Yuille, (参考訳) DIRECT-3Dは、テキストプロンプトから高品質な3Dアセットを作成するための拡散に基づく3D生成モデルである。 クリーンで整合性の高い3Dデータに依存している最近の3D生成モデルとは異なり、我々のモデルは大規模な3D生成において重要な課題(すなわちデータ不足)を軽減し、広範囲のノイズと非整合な3Dアセットに基づいて直接訓練されている。 特に、DIRECT-3Dは2つのイノベーションを統合する三面拡散モデルである。 1) 学習過程において, ノイズの多いデータをフィルタリングし, 自動的にアライメントする新しい学習フレームワーク。 具体的には、少量のクリーンデータを用いた初期ウォームアップフェーズの後、拡散過程に反復最適化を導入し、オブジェクトの3Dポーズを明示的に推定し、条件密度に基づいて有益なデータを選択する。 2) 物体形状と色特徴を階層的に最適化した2つの異なる条件拡散モデルで切り離すことにより, 効率的な3次元表現を実現する。 迅速な入力を与えられたモデルでは、高精度で高解像度でリアルで複雑な3Dオブジェクトを生成し、正確な幾何学的詳細を数秒で生成する。 単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。 また、DreamFusionのような2次元リフト法において、よく知られたJanus問題を緩和するために、DIRECT-3Dがオブジェクトの3次元幾何として有用であることを示す。 コードとモデルは、 https://github.com/qihao067/direct3d.comで研究目的で利用可能である。

We present DIRECT-3D, a diffusion-based 3D generative model for creating high-quality 3D assets (represented by Neural Radiance Fields) from text prompts. Unlike recent 3D generative models that rely on clean and well-aligned 3D data, limiting them to single or few-class generation, our model is directly trained on extensive noisy and unaligned `in-the-wild' 3D assets, mitigating the key challenge (i.e., data scarcity) in large-scale 3D generation. In particular, DIRECT-3D is a tri-plane diffusion model that integrates two innovations: 1) A novel learning framework where noisy data are filtered and aligned automatically during the training process. Specifically, after an initial warm-up phase using a small set of clean data, an iterative optimization is introduced in the diffusion process to explicitly estimate the 3D pose of objects and select beneficial data based on conditional density. 2) An efficient 3D representation that is achieved by disentangling object geometry and color features with two separate conditional diffusion models that are optimized hierarchically. Given a prompt input, our model generates high-quality, high-resolution, realistic, and complex 3D objects with accurate geometric details in seconds. We achieve state-of-the-art performance in both single-class generation and text-to-3D generation. We also demonstrate that DIRECT-3D can serve as a useful 3D geometric prior of objects, for example to alleviate the well-known Janus problem in 2D-lifting methods such as DreamFusion. The code and models are available for research purposes at: https://github.com/qihao067/direct3d.
翻訳日:2024-06-07 13:20:50 公開日:2024-06-06
# ATraDiff: Imaginary Trajectoriesでオンライン強化学習を加速

ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories ( http://arxiv.org/abs/2406.04323v1 )

ライセンス: Link先を確認
Qianlan Yang, Yu-Xiong Wang, (参考訳) 少ない報酬で自律エージェントを訓練することは、データ効率の低いオンライン強化学習(RL)において長年の課題である。 これまでの研究では、オフラインデータから有用な知識を抽出し、オフラインデータからアクション分散を学習し、学習した分布を利用してオンラインRLを促進することが多かった。 しかし、オフラインデータは与えられたり固定されたりするため、抽出された知識は本質的に制限されており、新しいタスクに一般化することは困難である。 本稿では、オフラインデータを利用して、適応軌道ディフューザ(ATraDiffiff)と呼ばれる生成拡散モデルを学習する手法を提案する。 このモデルは、データ拡張の一形態として機能し、オンラインRL法の性能を向上させる合成軌道を生成する。 ディフューザの主な強みは、その適応性にある。これにより、様々な軌道長を効果的に処理し、オンラインデータとオフラインデータの分散シフトを軽減することができる。 その単純さから、ATraDiffは幅広いRL法とシームレスに統合される。 実証的な評価によると、ATraDiffは様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。 私たちのコードとデモビデオはhttps://atradiff.github.io.comで公開されています。

Training autonomous agents with sparse rewards is a long-standing problem in online reinforcement learning (RL), due to low data efficiency. Prior work overcomes this challenge by extracting useful knowledge from offline data, often accomplished through the learning of action distribution from offline data and utilizing the learned distribution to facilitate online RL. However, since the offline data are given and fixed, the extracted knowledge is inherently limited, making it difficult to generalize to new tasks. We propose a novel approach that leverages offline data to learn a generative diffusion model, coined as Adaptive Trajectory Diffuser (ATraDiff). This model generates synthetic trajectories, serving as a form of data augmentation and consequently enhancing the performance of online RL methods. The key strength of our diffuser lies in its adaptability, allowing it to effectively handle varying trajectory lengths and mitigate distribution shifts between online and offline data. Because of its simplicity, ATraDiff seamlessly integrates with a wide spectrum of RL methods. Empirical evaluation shows that ATraDiff consistently achieves state-of-the-art performance across a variety of environments, with particularly pronounced improvements in complicated settings. Our code and demo video are available at https://atradiff.github.io .
翻訳日:2024-06-07 13:20:50 公開日:2024-06-06
# SF-V:シングルフォワードビデオ生成モデル

SF-V: Single Forward Video Generation Model ( http://arxiv.org/abs/2406.04324v1 )

ライセンス: Link先を確認
Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren, (参考訳) 拡散に基づくビデオ生成モデルは、反復的復調過程を通じて高忠実度ビデオを得るのに顕著な成功を収めた。 しかし、これらのモデルはサンプリング中に複数の復調ステップを必要とするため、計算コストが高い。 本研究では,一段階の映像生成モデルを得るための新しい手法を提案する。 本研究では,複数段映像拡散モデル(SVD)を用いて,映像データの時間的・空間的依存関係を抽出し,高品質な映像を合成するために,単一の前方通過を訓練することができることを示す。 大規模な実験により,本手法は,デノナイズ処理の計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質(SVDに比べて約23ドル,SVDでは6ドル,より優れた生成品質では6ドル)を実現し,リアルタイムビデオ合成と編集の道を開いた。 さらなる視覚化結果はhttps://snap-research.github.io/SF-Vで公開されている。

Diffusion-based video generation models have demonstrated remarkable success in obtaining high-fidelity videos through the iterative denoising process. However, these models require multiple denoising steps during sampling, resulting in high computational costs. In this work, we propose a novel approach to obtain single-step video generation models by leveraging adversarial training to fine-tune pre-trained video diffusion models. We show that, through the adversarial training, the multi-steps video diffusion model, i.e., Stable Video Diffusion (SVD), can be trained to perform single forward pass to synthesize high-quality videos, capturing both temporal and spatial dependencies in the video data. Extensive experiments demonstrate that our method achieves competitive generation quality of synthesized videos with significantly reduced computational overhead for the denoising process (i.e., around $23\times$ speedup compared with SVD and $6\times$ speedup compared with existing works, with even better generation quality), paving the way for real-time video synthesis and editing. More visualization results are made publicly available at https://snap-research.github.io/SF-V.
翻訳日:2024-06-07 13:20:50 公開日:2024-06-06
# ShareGPT4Video: キャプションの改善によるビデオの理解と生成の改善

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions ( http://arxiv.org/abs/2406.04325v1 )

ライセンス: Link先を確認
Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang, (参考訳) 本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。 シリーズは以下の通り。 1)ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。 2)ShareCaptioner-Videoは、任意のビデオのための効率的で有能なキャプションモデルで、4.8Mの高品質な美的ビデオに注釈付けされている。 3)ShareGPT4Video-8Bは,3つのプログレッシブビデオベンチマークでSOTA性能に到達した,シンプルだが超高機能なLVLMである。 これを実現するため、費用がかからない人用アノテータを別として、GPT4Vを用いて、単純な多フレームまたはフレーム結合入力戦略で動画のキャプションを行うと、詳細性が低下し、時々時間的に強調される結果が生じる。 高品質なビデオキャプション戦略を設計する上での課題は3つの側面にある,と我々は主張する。 1)フレーム間の正確な時間的変化の理解。 2) フレーム内詳細内容説明。 3)任意長ビデオのフレーム数拡張性。 そこで我々は, 任意の解像度, アスペクト比, 長さの動画のキャプションを生成するための, 安定した, スケーラブルで, 効率的な差分キャプション戦略を慎重に設計した。 そこで我々は,多種多様なカテゴリにまたがる40Kの高品質ビデオを含むShareGPT4Videoを構築し,その結果のキャプションには,豊富な世界知識,オブジェクト属性,カメラの動き,重要な,詳細かつ正確なイベントの時間的記述が含まれている。 ShareGPT4VideoをベースとしたShareCaptioner-Videoは、任意のビデオのための高品質なキャプションを効率よく生成できる優れたキャプタだ。

We present the ShareGPT4Video series, aiming to facilitate the video understanding of large video-language models (LVLMs) and the video generation of text-to-video models (T2VMs) via dense and precise captions. The series comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with various lengths and sources, developed through carefully designed data filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that reached SOTA performance on three advancing video benchmarks. To achieve this, taking aside the non-scalable costly human annotators, we find using GPT4V to caption video with a naive multi-frame or frame-concatenation input strategy leads to less detailed and sometimes temporal-confused results. We argue the challenge of designing a high-quality video captioning strategy lies in three aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame detailed content description. 3) Frame-number scalability for arbitrary-length videos. To this end, we meticulously designed a differential video captioning strategy, which is stable, scalable, and efficient for generating captions for videos with arbitrary resolution, aspect ratios, and length. Based on it, we construct ShareGPT4Video, which contains 40K high-quality videos spanning a wide range of categories, and the resulting captions encompass rich world knowledge, object attributes, camera movements, and crucially, detailed and precise temporal descriptions of events. Based on ShareGPT4Video, we further develop ShareCaptioner-Video, a superior captioner capable of efficiently generating high-quality captions for arbitrary videos...
翻訳日:2024-06-07 13:20:49 公開日:2024-06-06
# 離散データに対する簡易かつ一般化されたマスク付き拡散

Simplified and Generalized Masked Diffusion for Discrete Data ( http://arxiv.org/abs/2406.04329v1 )

ライセンス: Link先を確認
Jiaxin Shi, Kehang Han, Zhe Wang, Arnaud Doucet, Michalis K. Titsias, (参考訳) 離散データの生成モデリングのための自己回帰モデルの代替として、マスケッド拡散(または吸収拡散)が積極的に研究されている。 しかし、この領域における既存の研究は、必要以上に複雑なモデル定式化と異なる視点間の不明瞭な関係によって妨げられ、これらの問題に対処するための最適パラメータ化、訓練目標、アドホックな調整につながった。 本研究の目的は,マスク拡散モデルの潜在能力を最大限に活用する,シンプルで汎用的なフレームワークを提供することである。 マスク拡散モデルの連続時間変動目的は、クロスエントロピー損失の単純な重み付き積分であることを示す。 また,状態依存型マスキングスケジュールを用いた一般化マスク拡散モデルの訓練も可能とした。 GPT-2スケールでは,OpenWebTextでトレーニングしたモデルが先行拡散言語モデルを上回っ,ゼロショット言語モデリングタスク5つ中4つにおいて優れた性能を示した。 さらに,2.78~(CIFAR-10)と3.42(ImageNet 64$\times$64)ビットを同じ大きさの自己回帰モデルと同等かそれ以上の次元で達成した。

Masked (or absorbing) diffusion is actively explored as an alternative to autoregressive models for generative modeling of discrete data. However, existing work in this area has been hindered by unnecessarily complex model formulations and unclear relationships between different perspectives, leading to suboptimal parameterization, training objectives, and ad hoc adjustments to counteract these issues. In this work, we aim to provide a simple and general framework that unlocks the full potential of masked diffusion models. We show that the continuous-time variational objective of masked diffusion models is a simple weighted integral of cross-entropy losses. Our framework also enables training generalized masked diffusion models with state-dependent masking schedules. When evaluated by perplexity, our models trained on OpenWebText surpass prior diffusion language models at GPT-2 scale and demonstrate superior performance on 4 out of 5 zero-shot language modeling tasks. Furthermore, our models vastly outperform previous discrete diffusion models on pixel-level image modeling, achieving 2.78~(CIFAR-10) and 3.42 (ImageNet 64$\times$64) bits per dimension that are comparable or better than autoregressive models of similar sizes.
翻訳日:2024-06-07 13:20:49 公開日:2024-06-06
# PaCE: 大規模言語モデルのための同義的な概念工学

PaCE: Parsimonious Concept Engineering for Large Language Models ( http://arxiv.org/abs/2406.04331v1 )

ライセンス: Link先を確認
Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Darshan Thaker, Aditya Chattopadhyay, Chris Callison-Burch, René Vidal, (参考訳) 大きな言語モデル(LLM)は様々なタスクに使われています。 彼らは人間のような反応を生成できるが、潜在的に有害な情報、人種差別的または性差別的な言語、幻覚などの望ましくない出力を生成できる。 アライメント法は、微調整、プロンプトエンジニアリング、表現工学といった技術を通じて、そのような望ましくない出力を減らすように設計されている。 しかし、既存の手法にはいくつかの課題がある: 全てのアライメントタスクに対してコストのかかる微調整を必要とするもの、望ましくない概念を適切に取り除かないもの、アライメントを失敗するもの、良質な概念を排除し、LLMの言語能力を低下させるものなどがある。 これらの課題に対処するため、我々は、アライメントのための新しいアクティベーションエンジニアリングフレームワークであるParsimonious Concept Engineering (PaCE)を提案する。 まず、これらの概念を十分にモデル化するために、各原子が意味論的概念に対応するような活性化空間に大規模な概念辞書を構築する。 そして、任意のアライメントタスクが与えられた場合、概念分割器に、その概念を良性または望ましくないものとして効率的に注釈付けするように指示する。 最後に,LLMのアクティベーションをスパース符号化により分解し,そのアクティベーションを良性成分と望ましくない成分の線形結合として正確に表現する。 後者をアクティベーションから取り除くことにより、LCMの動作をアライメント目標に向けて再調整する。 我々は,反応の解毒,忠実度向上,感情修正などの課題について実験を行い,言語能力を維持しつつ,PaCEが最先端のアライメント性能を達成することを示す。

Large Language Models (LLMs) are being used for a wide variety of tasks. While they are capable of generating human-like responses, they can also produce undesirable output including potentially harmful information, racist or sexist language, and hallucinations. Alignment methods are designed to reduce such undesirable output, via techniques such as fine-tuning, prompt engineering, and representation engineering. However, existing methods face several challenges: some require costly fine-tuning for every alignment task; some do not adequately remove undesirable concepts, failing alignment; some remove benign concepts, lowering the linguistic capabilities of LLMs. To address these issues, we propose Parsimonious Concept Engineering (PaCE), a novel activation engineering framework for alignment. First, to sufficiently model the concepts, we construct a large-scale concept dictionary in the activation space, in which each atom corresponds to a semantic concept. Then, given any alignment task, we instruct a concept partitioner to efficiently annotate the concepts as benign or undesirable. Finally, at inference time, we decompose the LLM activations along the concept dictionary via sparse coding, to accurately represent the activation as a linear combination of the benign and undesirable components. By removing the latter ones from the activation, we reorient the behavior of LLMs towards alignment goals. We conduct experiments on tasks such as response detoxification, faithfulness enhancement, and sentiment revising, and show that PaCE achieves state-of-the-art alignment performance while maintaining linguistic capabilities.
翻訳日:2024-06-07 13:20:49 公開日:2024-06-06
# 言語モデルによる機械学習の再検討

Verbalized Machine Learning: Revisiting Machine Learning with Language Models ( http://arxiv.org/abs/2406.04344v1 )

ライセンス: Link先を確認
Tim Z. Xiao, Robert Bamler, Bernhard Schölkopf, Weiyang Liu, (参考訳) 大規模言語モデル (LLM) による大きな進歩に触発され, 言語化機械学習 (VML) の枠組みを導入する。 連続的なパラメータ空間に最適化される従来の機械学習モデルとは対照的に、VMLはパラメータ空間を人間の解釈可能な自然言語に制約する。 このような制約は、テキストプロンプトを持つLLMを、テキストプロンプトによってパラメータ化された関数と見なすことができる関数近似の新しい視点につながる。 この観点から、回帰や分類などの古典的な機械学習問題を再検討し、LLMパラメータ化された学習者や最適化者によってこれらの問題が解決できることを見出した。 VMLの主な利点は,(1)帰納的バイアスの符号化を容易にすること,(2)問題と仮説に関する事前知識を自然言語で符号化してLLMパラメータ化学習者へ入力すること,(2)自動モデルクラス選択:データに基づいて具体的なモデルクラスを自動選択できること,(2)訓練中にモデルクラスを更新できること,(3)解釈可能な学習者更新: LLMパラメータ化学習者が,学習者の更新を行う理由を説明すること,である。 我々は,VMLの有効性を実証的に評価するためにいくつかの研究を行い,VMLがMLの解釈可能性と信頼性を高めるための足場となることを期待する。

Motivated by the large progress made by large language models (LLMs), we introduce the framework of verbalized machine learning (VML). In contrast to conventional machine learning models that are typically optimized over a continuous parameter space, VML constrains the parameter space to be human-interpretable natural language. Such a constraint leads to a new perspective of function approximation, where an LLM with a text prompt can be viewed as a function parameterized by the text prompt. Guided by this perspective, we revisit classical machine learning problems, such as regression and classification, and find that these problems can be solved by an LLM-parameterized learner and optimizer. The major advantages of VML include (1) easy encoding of inductive bias: prior knowledge about the problem and hypothesis class can be encoded in natural language and fed into the LLM-parameterized learner; (2) automatic model class selection: the optimizer can automatically select a concrete model class based on data and verbalized prior knowledge, and it can update the model class during training; and (3) interpretable learner updates: the LLM-parameterized optimizer can provide explanations for why each learner update is performed. We conduct several studies to empirically evaluate the effectiveness of VML, and hope that VML can serve as a stepping stone to stronger interpretability and trustworthiness in ML.
翻訳日:2024-06-07 13:20:49 公開日:2024-06-06
# 覚醒プロファイルの因果推定

Causal Estimation of Memorisation Profiles ( http://arxiv.org/abs/2406.04327v1 )

ライセンス: Link先を確認
Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel, (参考訳) 言語モデルにおける記憶の理解は、例えばモデルのトレーニングダイナミクスの研究や著作権侵害の防止など、実践的および社会的意味を持つ。 これまでの作業では、暗記はトレーニングの因果効果として定義されており、モデルがそのインスタンスを予測できる能力にインスタンスが与える影響である。 この定義は反事実に依存しており、何が起こったのかを観察する能力は、そのインスタンスを見ていないモデルである。 既存の手法は、計算的に効率的で正確な計算結果を提供するのに苦労している。 さらに、特定のモデルインスタンスではなく、モデルアーキテクチャの暗記をしばしば見積もる。 本論文は文献における重要なギャップを埋め,計量学からの差分差分設計に基づく,新しい,原則付き,効率的な記憶推定法を提案する。 本手法を用いて,トレーニング中の少数のインスタンスに対してのみ,その振る舞いを観察することで,トレーニング全体にわたる記憶傾向のモデル記憶プロファイルを特徴づける。 Pythia モデルスイートの実験では、暗記が見つかる。 i) より大型のモデルではより強く永続的である。 (ii)データの順序と学習率によって決定され、 (iii) はモデルサイズ全体にわたる安定した傾向を持ち、より小さなモデルから予測可能な大きなモデルでの暗記を実現する。

Understanding memorisation in language models has practical and societal implications, e.g., studying models' training dynamics or preventing copyright infringements. Prior work defines memorisation as the causal effect of training with an instance on the model's ability to predict that instance. This definition relies on a counterfactual: the ability to observe what would have happened had the model not seen that instance. Existing methods struggle to provide computationally efficient and accurate estimates of this counterfactual. Further, they often estimate memorisation for a model architecture rather than for a specific model instance. This paper fills an important gap in the literature, proposing a new, principled, and efficient method to estimate memorisation based on the difference-in-differences design from econometrics. Using this method, we characterise a model's memorisation profile--its memorisation trends across training--by only observing its behaviour on a small set of instances throughout training. In experiments with the Pythia model suite, we find that memorisation (i) is stronger and more persistent in larger models, (ii) is determined by data order and learning rate, and (iii) has stable trends across model sizes, thus making memorisation in larger models predictable from smaller ones.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# 脳の微妙な教訓:自己監督型学習による音声デコーディングのスケーリング

The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning ( http://arxiv.org/abs/2406.04328v1 )

ライセンス: Link先を確認
Dulhan Jayalath, Gilad Landau, Brendan Shillingford, Mark Woolrich, Oiwi Parker Jones, (参考訳) 過去数年間、脳の活動から発せられる音声の復号化において、目覚ましい進歩を遂げてきた。 これらの進歩のエンジンはラベル付きデータの取得であり、ますます大きなデータセットが単一の被験者から取得されるようになっている。 しかし、参加者は解剖学的および他の個人差を示し、データセットは様々なスキャナーとタスクデザインを使用する。 その結果、事前の作業では、複数の課題、複数のデータセット、複数のタスク、非競合的なデータセットからのデータを活用するのに苦労している。 逆にこの分野は、大規模データとディープラーニングを活用するオープンなニューラルネットワークレポジトリの急増による恩恵を受けていない。 これを解決するために、我々は、神経科学にインスパイアされた自己教師対象の初期のセットを、神経アーキテクチャとともに開発し、異種および非競合的な神経記録からの学習を表現する。 実験の結果、これらの目的によって学習された表現は、対象物、データセット、タスクにまたがって一般化され、ラベル付きデータよりも速く学習されることがわかった。 さらに,2つの基礎的音声復号処理のための新しいベンチマークを設定した。 まとめると、これらの手法は、膨大な量の既存のデータで音声復号モデルを訓練する可能性を解き放つ。

The past few years have produced a series of spectacular advances in the decoding of speech from brain activity. The engine of these advances has been the acquisition of labelled data, with increasingly large datasets acquired from single subjects. However, participants exhibit anatomical and other individual differences, and datasets use varied scanners and task designs. As a result, prior work has struggled to leverage data from multiple subjects, multiple datasets, multiple tasks, and unlabelled datasets. In turn, the field has not benefited from the rapidly growing number of open neural data repositories to exploit large-scale data and deep learning. To address this, we develop an initial set of neuroscience-inspired self-supervised objectives, together with a neural architecture, for representation learning from heterogeneous and unlabelled neural recordings. Experimental results show that representations learned with these objectives generalise across subjects, datasets, and tasks, and are also learned faster than using only labelled data. In addition, we set new benchmarks for two foundational speech decoding tasks. Taken together, these methods now unlock the potential for training speech decoding models with orders of magnitude more existing data.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# パラメータ反転画像ピラミッドネットワーク

Parameter-Inverted Image Pyramid Networks ( http://arxiv.org/abs/2406.04330v1 )

ライセンス: Link先を確認
Xizhou Zhu, Xue Yang, Zhaokai Wang, Hao Li, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai, (参考訳) 画像ピラミッドは、画像の正確な理解のためのマルチスケール特徴を得るために、現代のコンピュータビジョンタスクで一般的に使用される。 しかし、画像ピラミッドは同じ大規模モデルを用いて画像の多重分解能を処理し、計算コストを大幅に削減する。 本稿では,パラメータ変換画像ピラミッドネットワーク(PIIP)と呼ばれる新しいネットワークアーキテクチャを提案する。 私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理し、計算効率と性能のバランスをとることです。 具体的には、PIIPへの入力は、より小さなネットワークで高解像度の画像を処理するマルチスケールイメージの集合である。 さらに,異なる解像度の特徴が相互に補完し,異なる空間スケールからの情報を効果的に統合する機能相互作用機構を提案する。 大規模実験により、PIIPは従来の画像ピラミッド法やシングルブランチネットワークと比較して、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて、計算コストを低減しながら優れた性能を発揮することが示された。 特に,大規模ビジョンファウンデーションモデルであるInternViT-6Bに本手法を適用すると,検出とセグメンテーションにおける性能を1%-2%向上し,元の計算の40%-60%に留まった。 これらの結果はPIIPアプローチの有効性を検証し、将来のビジョンコンピューティングタスクに新たな技術的方向性を提供する。 私たちのコードとモデルはhttps://github.com/OpenGVLab/PIIPで公開されています。

Image pyramids are commonly used in modern computer vision tasks to obtain multi-scale features for precise understanding of images. However, image pyramids process multiple resolutions of images using the same large-scale model, which requires significant computational cost. To overcome this issue, we propose a novel network architecture known as the Parameter-Inverted Image Pyramid Networks (PIIP). Our core idea is to use models with different parameter sizes to process different resolution levels of the image pyramid, thereby balancing computational efficiency and performance. Specifically, the input to PIIP is a set of multi-scale images, where higher resolution images are processed by smaller networks. We further propose a feature interaction mechanism to allow features of different resolutions to complement each other and effectively integrate information from different spatial scales. Extensive experiments demonstrate that the PIIP achieves superior performance in tasks such as object detection, segmentation, and image classification, compared to traditional image pyramid methods and single-branch networks, while reducing computational cost. Notably, when applying our method on a large-scale vision foundation model InternViT-6B, we improve its performance by 1%-2% on detection and segmentation with only 40%-60% of the original computation. These results validate the effectiveness of the PIIP approach and provide a new technical direction for future vision computing tasks. Our code and models are available at https://github.com/OpenGVLab/PIIP.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# コンパクトな視覚表現のための粗対有限テンソルトレイン

Coarse-To-Fine Tensor Trains for Compact Visual Representations ( http://arxiv.org/abs/2406.04332v1 )

ライセンス: Link先を確認
Sebastian Loeschcke, Dan Wang, Christian Leth-Espensen, Serge Belongie, Michael J. Kastoryano, Sagie Benaim, (参考訳) 視覚データに対するコンパクトで高品質で、最適化が容易な表現を学習する能力は、新しいビュー合成や3D再構成といった多くの応用において最重要である。 近年の研究では、テンソルネットワークを用いて、そのようなコンパクトで高品質な表現を設計することに成功した。 しかし、テンソルベース表現を最適化する能力、特に非常にコンパクトなテンソルトレイン表現は依然として不足している。 これにより、実践者は視覚データのためのテンソルネットワークの潜在能力をフルに展開することができなくなった。 そこで本稿では, テンソルトレイン表現を粗大に学習する新しい手法であるPuTT(Prolongation Upsampling Tensor Train)を提案する。 提案手法は,学習したテンソルトレインの延長あるいは'アップサンプリング'を伴って,漸進的に洗練される'粗いテンソルトレイン'のシーケンスを生成する。 我々は3つの軸に沿った表現を評価した。 圧縮 (2) denoising (複数形 denoisings) 画像補完能力 これらの軸を評価するために,画像の嵌合,3次元の嵌合,新しいビュー合成といったタスクについて検討する。 完全な結果については、プロジェクトのWebページを参照してください。

The ability to learn compact, high-quality, and easy-to-optimize representations for visual data is paramount to many applications such as novel view synthesis and 3D reconstruction. Recent work has shown substantial success in using tensor networks to design such compact and high-quality representations. However, the ability to optimize tensor-based representations, and in particular, the highly compact tensor train representation, is still lacking. This has prevented practitioners from deploying the full potential of tensor networks for visual data. To this end, we propose 'Prolongation Upsampling Tensor Train (PuTT)', a novel method for learning tensor train representations in a coarse-to-fine manner. Our method involves the prolonging or `upsampling' of a learned tensor train representation, creating a sequence of 'coarse-to-fine' tensor trains that are incrementally refined. We evaluate our representation along three axes: (1). compression, (2). denoising capability, and (3). image completion capability. To assess these axes, we consider the tasks of image fitting, 3D fitting, and novel view synthesis, where our method shows an improved performance compared to state-of-the-art tensor-based methods. For full results see our project webpage: https://sebulo.github.io/PuTT_website/
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# BitsFusion: 1.99bits 拡散モデルの軽量量子化

BitsFusion: 1.99 bits Weight Quantization of Diffusion Model ( http://arxiv.org/abs/2406.04333v1 )

ライセンス: Link先を確認
Yang Sui, Yanyu Li, Anil Kag, Yerlan Idelbayev, Junli Cao, Ju Hu, Dhritiman Sagar, Bo Yuan, Sergey Tulyakov, Jian Ren, (参考訳) 拡散に基づく画像生成モデルは近年,高品質なコンテンツを合成する能力を示すことで大きな成功を収めている。 しかし、これらのモデルには膨大な数のパラメータが含まれており、結果としてモデルのサイズが大幅に大きくなる。 各種アプリケーション、特にリソース制約のあるデバイス上で動作しているアプリケーションにとって、それらの保存と転送は大きなボトルネックとなる。 本研究では, 安定拡散v1.5から1.99ビットまでのUNetを定量化する新しい重み量子化法を開発した。 提案手法には,各層に最適なビットを割り当てること,量子化モデルの初期化による性能向上,量子化誤差を劇的に低減するためのトレーニング戦略の改善など,いくつかの新しい手法が含まれている。 さらに、様々なベンチマークデータセットと人による評価を通じて、量子化モデルを広範囲に評価し、その優れた生成品質を実証する。

Diffusion-based image generation models have achieved great success in recent years by showing the capability of synthesizing high-quality content. However, these models contain a huge number of parameters, resulting in a significantly large model size. Saving and transferring them is a major bottleneck for various applications, especially those running on resource-constrained devices. In this work, we develop a novel weight quantization method that quantizes the UNet from Stable Diffusion v1.5 to 1.99 bits, achieving a model with 7.9X smaller size while exhibiting even better generation quality than the original one. Our approach includes several novel techniques, such as assigning optimal bits to each layer, initializing the quantized model for better performance, and improving the training strategy to dramatically reduce quantization error. Furthermore, we extensively evaluate our quantized model across various benchmark datasets and through human evaluation to demonstrate its superior generation quality.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# DeepStack: Visual Tokensのスタック化は驚くほどシンプルで、LMMに有効

DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs ( http://arxiv.org/abs/2406.04334v1 )

ライセンス: Link先を確認
Lingchen Meng, Jianwei Yang, Rui Tian, Xiyang Dai, Zuxuan Wu, Jianfeng Gao, Yu-Gang Jiang, (参考訳) ほとんどの大規模マルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。 結果のアーキテクチャは単純だが、入力層に多数のトークンを処理しなければならないため、計算とメモリコストが大幅に向上する。 本稿では,LMMのための新しいアーキテクチャであるDeepStackを提案する。 LMMの言語とヴィジュアルトランスフォーマーの$N$レイヤを考慮すると、視覚トークンを$N$グループに積み上げ、各グループをその整列トランスフォーマー層 \textit{from bottom to top} にフィードする。 驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。 We apply DeepStack to both language and vision transformer in LMMs, and whether the effective of DeepStack LMMs with extensive empirical results。 同じコンテキスト長を用いて、私たちのDeepStack 7B と 13B のパラメータは、それぞれ \textbf{2.7} と \textbf{2.9} のベンチマークでそれぞれ平均してそれを上回る。 コンテキスト長の5分の1しか使用していないDeepStackは、完全なコンテキスト長を使用するコンテクストと密接に競合する。 これらの利得は、LLaVA-1.5-7Bと比較して、TextVQA、DocVQA、InfoVQAの高分解能なタスク、例えば、 \textbf{4.2}、 \textbf{11.0}、 \textbf{4.0} で特に顕著である。 我々はさらに、DeepStackを視覚トランスフォーマー層に適用し、LLaVA-1.5-7Bと比較して、同様の量の改善を実現している。

Most large multimodal models (LMMs) are implemented by feeding visual tokens as a sequence into the first layer of a large language model (LLM). The resulting architecture is simple but significantly increases computation and memory costs, as it has to handle a large number of additional tokens in its input layer. This paper presents a new architecture DeepStack for LMMs. Considering $N$ layers in the language and vision transformer of LMMs, we stack the visual tokens into $N$ groups and feed each group to its aligned transformer layer \textit{from bottom to top}. Surprisingly, this simple method greatly enhances the power of LMMs to model interactions among visual tokens across layers but with minimal additional cost. We apply DeepStack to both language and vision transformer in LMMs, and validate the effectiveness of DeepStack LMMs with extensive empirical results. Using the same context length, our DeepStack 7B and 13B parameters surpass their counterparts by \textbf{2.7} and \textbf{2.9} on average across \textbf{9} benchmarks, respectively. Using only one-fifth of the context length, DeepStack rivals closely to the counterparts that use the full context length. These gains are particularly pronounced on high-resolution tasks, e.g., \textbf{4.2}, \textbf{11.0}, and \textbf{4.0} improvements on TextVQA, DocVQA, and InfoVQA compared to LLaVA-1.5-7B, respectively. We further apply DeepStack to vision transformer layers, which brings us a similar amount of improvements, \textbf{3.8} on average compared with LLaVA-1.5-7B.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# スペクトル不変グラフニューラルネットワークの表現力について

On the Expressive Power of Spectral Invariant Graph Neural Networks ( http://arxiv.org/abs/2406.04336v1 )

ライセンス: Link先を確認
Bohang Zhang, Lingxiao Zhao, Haggai Maron, (参考訳) グラフニューラルネットワーク(GNN)を強化するためにスペクトル情報を組み込むことは、有望な結果を示しているが、固有ベクトルの本質的な曖昧さのため、根本的な課題を提起している。 このあいまいさに対処する様々なアーキテクチャが提案され、スペクトル不変アーキテクチャと呼ばれる。 注目すべき例としては、スペクトル距離、スペクトル投影行列、その他の不変スペクトル特徴を使用するGNNやグラフ変換がある。 しかし、これらのスペクトル不変アーキテクチャの潜在的な表現力はほとんど不明である。 本研究の目的はスペクトル特徴を用いた場合の表現力の深い理論的理解を得ることである。 まず、スペクトル不変GNNを設計するための統一メッセージパッシングフレームワーク、Eigenspace Projection GNN(EPNN)を紹介する。 包括的分析により、EPNNは基本的にすべての以前のスペクトル不変アーキテクチャを統一し、それらが厳密に表現的でないかEPNNと同値であることを示している。 異なるアーキテクチャ間のきめ細かい表現性階層も確立されている。 一方、EPNN自体が最近提案されたサブグラフGNNのクラスに束縛されていることを証明し、これらのスペクトル不変アーキテクチャは3WLよりも厳密に表現できないことを示唆する。 最後に、より表現力のあるGNNと組み合わせることで、スペクトル特徴を用いることで表現性が向上するかどうかについて議論する。

Incorporating spectral information to enhance Graph Neural Networks (GNNs) has shown promising results but raises a fundamental challenge due to the inherent ambiguity of eigenvectors. Various architectures have been proposed to address this ambiguity, referred to as spectral invariant architectures. Notable examples include GNNs and Graph Transformers that use spectral distances, spectral projection matrices, or other invariant spectral features. However, the potential expressive power of these spectral invariant architectures remains largely unclear. The goal of this work is to gain a deep theoretical understanding of the expressive power obtainable when using spectral features. We first introduce a unified message-passing framework for designing spectral invariant GNNs, called Eigenspace Projection GNN (EPNN). A comprehensive analysis shows that EPNN essentially unifies all prior spectral invariant architectures, in that they are either strictly less expressive or equivalent to EPNN. A fine-grained expressiveness hierarchy among different architectures is also established. On the other hand, we prove that EPNN itself is bounded by a recently proposed class of Subgraph GNNs, implying that all these spectral invariant architectures are strictly less expressive than 3-WL. Finally, we discuss whether using spectral features can gain additional expressiveness when combined with more expressive GNNs.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# コヒーレントゼロショットビジュアルインストラクション生成

Coherent Zero-Shot Visual Instruction Generation ( http://arxiv.org/abs/2406.04337v1 )

ライセンス: Link先を確認
Quynh Phung, Songwei Ge, Jia-Bin Huang, (参考訳) テキストと画像の合成、特に拡散モデルでは進歩しているにもかかわらず、連続的なステップをまたいだオブジェクトの一貫性のある表現と滑らかな状態遷移を必要とする視覚的命令を生成することは、非常に難しい課題である。 本稿では,拡散モデルと大規模言語モデル(LLM)の進歩に乗じて,この問題に対処するためのシンプルな学習自由フレームワークを提案する。 提案手法はテキスト理解と画像生成を体系的に統合し,視覚的命令が命令シーケンスを通して視覚的にアピールし,一貫性と精度を維持する。 複数ステップの命令をテストし、テキストアライメントと一貫性をいくつかのベースラインと比較することにより、有効性を検証する。 我々の実験は、我々のアプローチがコヒーレントで視覚的に喜ばしい指示を可視化できることを示します。

Despite the advances in text-to-image synthesis, particularly with diffusion models, generating visual instructions that require consistent representation and smooth state transitions of objects across sequential steps remains a formidable challenge. This paper introduces a simple, training-free framework to tackle the issues, capitalizing on the advancements in diffusion models and large language models (LLMs). Our approach systematically integrates text comprehension and image generation to ensure visual instructions are visually appealing and maintain consistency and accuracy throughout the instruction sequence. We validate the effectiveness by testing multi-step instructions and comparing the text alignment and consistency with several baselines. Our experiments show that our approach can visualize coherent and visually pleasing instructions
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# 物理3D:ビデオ拡散による3Dガウスの物理特性の学習

Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion ( http://arxiv.org/abs/2406.04338v1 )

ライセンス: Link先を確認
Fangfu Liu, Hanyang Wang, Shunyu Yao, Shengjun Zhang, Jie Zhou, Yueqi Duan, (参考訳) 近年,3次元オブジェクトの動的動きをシミュレートしたり,動作をカスタマイズしたりといった応用の可能性が高まっている。 しかし、現在の3D生成モデルは、現実世界の物体の挙動を規定する固有の物理的特性を無視し、色や形状のような表面的特徴にのみ焦点をあてる傾向にある。 物理に整合した力学を正確にシミュレートするためには、材料の物性を予測し、それらを挙動予測プロセスに組み込むことが不可欠である。 それでも、現実世界の物体の様々な物質を予測することは、それらの物理的特性の複雑な性質のため、依然として困難である。 本稿では,映像拡散モデルを用いて3次元物体の様々な物理的特性を学習する新しい手法である「textbf{Physics3D}」を提案する。 本手法では, 粘弾性材料モデルに基づく高汎化可能な物理シミュレーションシステムを設計し, 高忠実度機能を有する幅広い材料をシミュレートする。 さらに,現実的な対象物のより深い理解を含むビデオ拡散モデルから,物理先行情報を抽出する。 本手法の有効性を, 弾性材料とプラスチック材料の両方で実証した。 物理3Dは、物理世界と仮想神経空間のギャップを埋める大きな可能性を示し、仮想環境における現実的な物理原理のより良い統合と応用を提供する。 プロジェクトページ: https://liuff19.github.io/Physics3D。

In recent years, there has been rapid development in 3D generation models, opening up new possibilities for applications such as simulating the dynamic movements of 3D objects and customizing their behaviors. However, current 3D generative models tend to focus only on surface features such as color and shape, neglecting the inherent physical properties that govern the behavior of objects in the real world. To accurately simulate physics-aligned dynamics, it is essential to predict the physical properties of materials and incorporate them into the behavior prediction process. Nonetheless, predicting the diverse materials of real-world objects is still challenging due to the complex nature of their physical attributes. In this paper, we propose \textbf{Physics3D}, a novel method for learning various physical properties of 3D objects through a video diffusion model. Our approach involves designing a highly generalizable physical simulation system based on a viscoelastic material model, which enables us to simulate a wide range of materials with high-fidelity capabilities. Moreover, we distill the physical priors from a video diffusion model that contains more understanding of realistic object materials. Extensive experiments demonstrate the effectiveness of our method with both elastic and plastic materials. Physics3D shows great potential for bridging the gap between the physical world and virtual neural space, providing a better integration and application of realistic physical principles in virtual environments. Project page: https://liuff19.github.io/Physics3D.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# RoboMamba:効率的なロボット推論と操作のためのマルチモーダル状態空間モデル

RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation ( http://arxiv.org/abs/2406.04339v1 )

ライセンス: Link先を確認
Jiaming Liu, Mengzhen Liu, Zhenyu Wang, Lily Lee, Kaichen Zhou, Pengju An, Senqiao Yang, Renrui Zhang, Yandong Guo, Shanghang Zhang, (参考訳) ロボット操作の基本的な目的は、モデルが視覚的なシーンを理解し、アクションを実行することを可能にすることである。 既存のロボットMultimodal Large Language Models(MLLM)は、さまざまな基本的なタスクを扱えるが、それでも2つの領域で課題に直面している。 1)複雑な課題に取り組むのに不十分な推論能力、及び 2) MLLMの微調整と推定には高い計算コストがかかる。 Mambaとして知られる最近提案された状態空間モデル(SSM)は、線形推論複雑性を持つ非自明なシーケンスモデリングにおいて有望な能力を示す。 このことに触発されたRoboMambaは、Mambaモデルを利用して、ロボット推論とアクション機能の両方を提供するとともに、効率的な微調整と推論を維持できるエンド・ツー・エンドのロボットMLLMである。 具体的には、視覚エンコーダをMambaと統合し、視覚データを協調学習による言語埋め込みと整合させ、視覚的常識とロボット関連推論でモデルを強化する。 アクションポーズ予測能力を備えたRoboMambaをさらに装備するために、簡単なポリシーヘッドを用いた効率的な微調整戦略を探索する。 一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータ(モデルの0.15%)と時間(20分)で操作スキルを習得できることがわかった。 実験では、RoboMambaは一般的な評価ベンチマークとロボット評価ベンチマークで優れた推論能力を示した。 一方,本モデルでは,シミュレーションと実世界の実験の両方において,印象的なポーズ予測結果を示し,既存のロボットMLLMの7倍の速度で推論を行う。 プロジェクトのWebページ: https://sites.google.com/view/robomamba-web

A fundamental objective in robot manipulation is to enable models to comprehend visual scenes and execute actions. Although existing robot Multimodal Large Language Models (MLLMs) can handle a range of basic tasks, they still face challenges in two areas: 1) inadequate reasoning ability to tackle complex tasks, and 2) high computational costs for MLLM fine-tuning and inference. The recently proposed state space model (SSM) known as Mamba demonstrates promising capabilities in non-trivial sequence modeling with linear inference complexity. Inspired by this, we introduce RoboMamba, an end-to-end robotic MLLM that leverages the Mamba model to deliver both robotic reasoning and action capabilities, while maintaining efficient fine-tuning and inference. Specifically, we first integrate the vision encoder with Mamba, aligning visual data with language embedding through co-training, empowering our model with visual common sense and robot-related reasoning. To further equip RoboMamba with action pose prediction abilities, we explore an efficient fine-tuning strategy with a simple policy head. We find that once RoboMamba possesses sufficient reasoning capability, it can acquire manipulation skills with minimal fine-tuning parameters (0.1\% of the model) and time (20 minutes). In experiments, RoboMamba demonstrates outstanding reasoning capabilities on general and robotic evaluation benchmarks. Meanwhile, our model showcases impressive pose prediction results in both simulation and real-world experiments, achieving inference speeds 7 times faster than existing robot MLLMs. Our project web page: https://sites.google.com/view/robomamba-web
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# GLACE:グローバルローカル加速コーディネートエンコーディング

GLACE: Global Local Accelerated Coordinate Encoding ( http://arxiv.org/abs/2406.04340v1 )

ライセンス: Link先を確認
Fangjinhua Wang, Xudong Jiang, Silvano Galliani, Christoph Vogel, Marc Pollefeys, (参考訳) シーン座標回帰(SCR)法は、カメラポーズ推定のために2D-3Dマッチングを直接回帰する視覚的位置決め法の一種である。 小規模なシーンでは有効だが、大規模なシーンでは重要な課題に直面する。 ここでは、モデルは再射の制約にのみ依存することができ、暗黙的にポイントを三角化する必要がある。 ネットワークは異なる視点や照明条件で同じランドマークの観測に不変でなければならないが、同時に無関係だが類似した観測を識別する必要がある。 後者は、より大きな場面でより関連性が高く、深刻になる。 本研究では,ネットワークにコビジュアビリティの概念を導入することで,この問題に対処する。 本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。 具体的には,再計画制約を協調可視性で暗黙的にグループ化し,自明な解に過度に適合しないようにする特徴拡散手法を提案する。 さらに,我々の位置デコーダは大規模シーンの出力位置をより効率的にパラメータ化する。 そこで本手法では,3次元モデルや深度マップを使わずに,地図サイズを小さくした大規模シーンで最先端の結果を得られる。 ケンブリッジのランドマークでは、1つのモデルで、最先端のSCR手法ACEのアンサンブル変種であるポーカーよりも17%低い中央値位置誤差を達成する。 コードは、https://github.com/cvg/glace.comで入手できる。

Scene coordinate regression (SCR) methods are a family of visual localization methods that directly regress 2D-3D matches for camera pose estimation. They are effective in small-scale scenes but face significant challenges in large-scale scenes that are further amplified in the absence of ground truth 3D point clouds for supervision. Here, the model can only rely on reprojection constraints and needs to implicitly triangulate the points. The challenges stem from a fundamental dilemma: The network has to be invariant to observations of the same landmark at different viewpoints and lighting conditions, etc., but at the same time discriminate unrelated but similar observations. The latter becomes more relevant and severe in larger scenes. In this work, we tackle this problem by introducing the concept of co-visibility to the network. We propose GLACE, which integrates pre-trained global and local encodings and enables SCR to scale to large scenes with only a single small-sized network. Specifically, we propose a novel feature diffusion technique that implicitly groups the reprojection constraints with co-visibility and avoids overfitting to trivial solutions. Additionally, our position decoder parameterizes the output positions for large-scale scenes more effectively. Without using 3D models or depth maps for supervision, our method achieves state-of-the-art results on large-scale scenes with a low-map-size model. On Cambridge landmarks, with a single model, we achieve 17% lower median position error than Poker, the ensemble variant of the state-of-the-art SCR method ACE. Code is available at: https://github.com/cvg/glace.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# CLIPにおけるニューロンの2次効果の解釈

Interpreting the Second-Order Effects of Neurons in CLIP ( http://arxiv.org/abs/2406.04341v1 )

ライセンス: Link先を確認
Yossi Gandelsman, Alexei A. Efros, Jacob Steinhardt, (参考訳) CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。 直接効果(ニューロンから残留する流れから出力への流れ)や間接効果(すべての寄与)を分析することは、CLIPのニューロンの機能を捉えるのに失敗する。 そこで我々は「第2次レンズ」を提案し、ニューロンから後続のアテンションヘッドに流れる影響を、出力に直接分析する。 それぞれのニューロンに対して、その効果は画像の2%に顕著である。 さらに、それぞれの効果はCLIPのテキストイメージ空間において単一の方向で近似することができる。 我々はこれらの方向をテキスト表現のスパース集合に分解することでニューロンを記述する。 各ニューロンは複数の、しばしば無関係な概念(例えば船や車)に対応する。 このニューロンポリセミーを駆使して、不正確なクラスと突発的に相関した概念を持つ画像を生成することにより、「意味的」対人的な例を大量生産する。 さらに、ゼロショットのセグメンテーションと属性発見に2階効果を用いる。 以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。

We interpret the function of individual neurons in CLIP by automatically describing them using text. Analyzing the direct effects (i.e. the flow from a neuron through the residual stream to the output) or the indirect effects (overall contribution) fails to capture the neurons' function in CLIP. Therefore, we present the "second-order lens", analyzing the effect flowing from a neuron through the later attention heads, directly to the output. We find that these effects are highly selective: for each neuron, the effect is significant for <2% of the images. Moreover, each effect can be approximated by a single direction in the text-image space of CLIP. We describe neurons by decomposing these directions into sparse sets of text representations. The sets reveal polysemantic behavior - each neuron corresponds to multiple, often unrelated, concepts (e.g. ships and cars). Exploiting this neuron polysemy, we mass-produce "semantic" adversarial examples by generating images with concepts spuriously correlated to the incorrect class. Additionally, we use the second-order effects for zero-shot segmentation and attribute discovery in images. Our results indicate that a scalable understanding of neurons can be used for model deception and for introducing new model capabilities.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# De-focus Attention Networks を用いた1次元因果視覚表現の学習

Learning 1D Causal Visual Representation with De-focus Attention Networks ( http://arxiv.org/abs/2406.04342v1 )

ライセンス: Link先を確認
Chenxin Tao, Xizhou Zhu, Shiqian Su, Lewei Lu, Changyao Tian, Xuan Luo, Gao Huang, Hongsheng Li, Yu Qiao, Jie Zhou, Jifeng Dai, (参考訳) モダリティの違いは、視覚と言語モデルのための異種アーキテクチャの開発につながった。 画像は通常2D非因果モデリングを必要とするが、テキストは1D因果モデリングを利用する。 この区別は、統合マルチモーダルモデルを構築する上で大きな課題となる。 本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。 既存の1次元因果視覚モデルでは,少数の視覚トークンに過度に注目が集中する「過剰焦点」問題を特定する。 オーバーフォーカス」の問題は、モデルが様々な視覚的特徴を抽出し、最適化のための効果的な勾配を受け取る能力を妨げている。 これを解決するために,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。 トレーニング中、大規模で計画的なドロップパスレート、グローバル理解タスクのためのグローバルプール機能への補助的な損失が導入される。 これらの2つの戦略は、モデルが幅広いトークンに対応し、ネットワーク最適化を強化することを奨励する。 広汎な実験により本手法の有効性が検証され,大域的知覚や密接な予測,マルチモーダル理解といったタスクにおいて,1次元因果的視覚表現が2次元非因果的表現と相容れないことが実証された。 コードはhttps://github.com/OpenGVLab/De-focus-Attention-Networksで公開されている。

Modality differences have led to the development of heterogeneous architectures for vision and language models. While images typically require 2D non-causal modeling, texts utilize 1D causal modeling. This distinction poses significant challenges in constructing unified multi-modal models. This paper explores the feasibility of representing images using 1D causal modeling. We identify an "over-focus" issue in existing 1D causal vision models, where attention overly concentrates on a small proportion of visual tokens. The issue of "over-focus" hinders the model's ability to extract diverse visual features and to receive effective gradients for optimization. To address this, we propose De-focus Attention Networks, which employ learnable bandpass filters to create varied attention patterns. During training, large and scheduled drop path rates, and an auxiliary loss on globally pooled features for global understanding tasks are introduced. These two strategies encourage the model to attend to a broader range of tokens and enhance network optimization. Extensive experiments validate the efficacy of our approach, demonstrating that 1D causal visual representation can perform comparably to 2D non-causal representation in tasks such as global perception, dense prediction, and multi-modal understanding. Code is released at https://github.com/OpenGVLab/De-focus-Attention-Networks.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# Flash3D:フィードフォワードの一般的な3Dシーンを1枚の画像から再現する

Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image ( http://arxiv.org/abs/2406.04343v1 )

ライセンス: Link先を確認
Stanislaw Szymanowicz, Eldar Insafutdinov, Chuanxia Zheng, Dylan Campbell, João F. Henriques, Christian Rupprecht, Andrea Vedaldi, (参考訳) 本稿では,1つの画像からシーン再構成と新しいビュー合成を行う手法であるFlash3Dを提案する。 汎用性のために、単分子深度推定のための「基礎」モデルから始まり、それを完全な3次元形状と外観再構成器に拡張する。 効率性のために、我々はこの拡張をフィードフォワードガウススプラッティングに基づける。 具体的には、予測された深さで3次元ガウスの第1層を予測し、宇宙空間にオフセットされたガウスの層を追加し、オクルージョンやトランケーションの裏でモデルが再構築を完了させる。 Flash3Dは非常に効率的で、1日に1つのGPUでトレーニングできるため、ほとんどの研究者がアクセスできる。 RealEstate10kでトレーニングとテストを行うと、最先端の結果が得られます。 NYUのような目に見えないデータセットに移行すれば、ライバルよりも大きなマージンでパフォーマンスが向上する。 さらに印象的なことに、KITTIに転送されると、Flash3Dはそのデータセットで特別に訓練されたメソッドよりも優れたPSNRを達成する。 場合によっては、複数のビューを入力として使用する最近のメソッドよりも優れています。 コード、モデル、デモ、その他の結果はhttps://www.robots.ox.ac.uk/~vgg/research/flash3d/で公開されている。

In this paper, we propose Flash3D, a method for scene reconstruction and novel view synthesis from a single image which is both very generalisable and efficient. For generalisability, we start from a "foundation" model for monocular depth estimation and extend it to a full 3D shape and appearance reconstructor. For efficiency, we base this extension on feed-forward Gaussian Splatting. Specifically, we predict a first layer of 3D Gaussians at the predicted depth, and then add additional layers of Gaussians that are offset in space, allowing the model to complete the reconstruction behind occlusions and truncations. Flash3D is very efficient, trainable on a single GPU in a day, and thus accessible to most researchers. It achieves state-of-the-art results when trained and tested on RealEstate10k. When transferred to unseen datasets like NYU it outperforms competitors by a large margin. More impressively, when transferred to KITTI, Flash3D achieves better PSNR than methods trained specifically on that dataset. In some instances, it even outperforms recent methods that use multiple views as input. Code, models, demo, and more results are available at https://www.robots.ox.ac.uk/~vgg/research/flash3d/.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# 仮想パターン投影による立体深度核融合

Stereo-Depth Fusion through Virtual Pattern Projection ( http://arxiv.org/abs/2406.04345v1 )

ライセンス: Link先を確認
Luca Bartolomei, Matteo Poggi, Fabio Tosi, Andrea Conti, Stefano Mattoccia, (参考訳) 本稿では、信頼できない物理パターンプロジェクタを深度センサに置き換えることで、アクティブステレオの原理を模倣する新しい汎用ステレオ・深度データ融合パラダイムを提案する。 仮想パターンを従来のステレオカメラで取得した左右の映像に投影し、奥行きセンサーから得られたスパースヒントを用いて視覚的対応を容易にする。 目的として、どんな深度検知装置でも我々のフレームワークにシームレスに接続することができ、仮想的なアクティブステレオ装置を任意の環境に配置し、限られた作業範囲や環境条件などの物理的なパターン投影の厳しい制限を克服することができる。 室内と屋外の両方で、未濾過深度センサから生の未濾過深度ヒントを提供するものを含む、長距離と近距離のデータセットに対する被曝実験は、コード修正も再トレーニングもせずに、アルゴリズムとディープステレオの堅牢性と精度を顕著に向上させることで、我々のアプローチの有効性を強調した。 さらに,従来のパターン投影を用いたアクティブステレオ評価データセットの性能評価を行った。 実際、これらのシナリオすべてにおいて、私たちの仮想パターンプロジェクションパラダイムは最先端のパフォーマンスを達成する。 ソースコードは、https://github.com/bartn8/vppstereo.comで入手できる。

This paper presents a novel general-purpose stereo and depth data fusion paradigm that mimics the active stereo principle by replacing the unreliable physical pattern projector with a depth sensor. It works by projecting virtual patterns consistent with the scene geometry onto the left and right images acquired by a conventional stereo camera, using the sparse hints obtained from a depth sensor, to facilitate the visual correspondence. Purposely, any depth sensing device can be seamlessly plugged into our framework, enabling the deployment of a virtual active stereo setup in any possible environment and overcoming the severe limitations of physical pattern projection, such as the limited working range and environmental conditions. Exhaustive experiments on indoor and outdoor datasets featuring both long and close range, including those providing raw, unfiltered depth hints from off-the-shelf depth sensors, highlight the effectiveness of our approach in notably boosting the robustness and accuracy of algorithms and deep stereo without any code modification and even without re-training. Additionally, we assess the performance of our strategy on active stereo evaluation datasets with conventional pattern projection. Indeed, in all these scenarios, our virtual pattern projection paradigm achieves state-of-the-art performance. The source code is available at: https://github.com/bartn8/vppstereo.
翻訳日:2024-06-07 13:11:04 公開日:2024-06-06
# グローバル教育におけるジェネレーティブAIとデジタルネオコロニアリズム : 平等なフレームワークを目指して

Generative AI and Digital Neocolonialism in Global Education: Towards an Equitable Framework ( http://arxiv.org/abs/2406.02966v2 )

ライセンス: Link先を確認
Matthew Nyaaba, Alyson Wright, Gyu Lim Choi, (参考訳) 本稿では、創造的人工知能(GenAI)が西洋社会に西洋思想を課し、その固有のバイアスを通じて教育におけるデジタル新植民地主義を持続させる方法について批判的に論じる。 さらに、地域の利害関係者や世界的な利害関係者がこれらの効果を緩和するための戦略も提案している。 我々の議論は、玄AIが西洋の学生に関係のある文化資料や事例を主に取り入れたコンテンツを作成し、西洋以外の背景から学生を遠ざけることによって、文化帝国主義を育むことができることを示した。 また、GenAIによる西洋語の主な使用は、非支配的な言語を疎外し、教育コンテンツが先住民語話者に近づきにくくし、彼らの最初の言語で学ぶ能力に影響を及ぼす可能性がある。 また、GenAIは、技術的に支配的な国家観を反映した内容やカリキュラムを多く生み出し、極端に専門化された土着の知識や実践を誇張している。 さらに、GenAIへのアクセスコストは教育の不平等を増し、GenAIデータのコントロールは、地元の学生やコミュニティに利益をもたらすことなく商業的搾取につながる可能性がある。 我々は、GenAI開発における文化的多様性と平等を優先する人間中心の改革、GenAIアプリケーション内の抑圧的構造を特定し解体する教育者や学生に権限を与える自由デザイン、将来の教育ニーズを満たすための調整可能なGenAIシステムを構築するための設計の展望、そして最後に、ネオコロニアルアウトプットの検索を効果的に促す技術を提案する。

This paper critically discusses how generative artificial intelligence (GenAI) might impose Western ideologies on non-Western societies, perpetuating digital neocolonialism in education through its inherent biases. It further suggests strategies for local and global stakeholders to mitigate these effects. Our discussions demonstrated that GenAI can foster cultural imperialism by generating content that primarily incorporates cultural references and examples relevant to Western students, thereby alienating students from non-Western backgrounds. Also, the predominant use of Western languages by GenAI can marginalize non-dominant languages, making educational content less accessible to speakers of indigenous languages and potentially impacting their ability to learn in their first language. Additionally, GenAI often generates content and curricula that reflect the perspectives of technologically dominant countries, overshadowing marginalized indigenous knowledge and practices. Moreover, the cost of access to GenAI intensifies educational inequality and the control of GenAI data could lead to commercial exploitation without benefiting local students and their communities. We propose human-centric reforms to prioritize cultural diversity and equity in GenAI development; a liberatory design to empower educators and students to identify and dismantle the oppressive structures within GenAI applications; foresight by design to create an adjustable GenAI system to meet future educational needs; and finally, effective prompting skills to reduce the retrieval of neocolonial outputs.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# Adapter-X:視覚のためのパラメータ効率の良いファインチューニングフレームワーク

Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision ( http://arxiv.org/abs/2406.03051v2 )

ライセンス: Link先を確認
Minglei Li, Peng Ye, Yongqi Huang, Lin Zhang, Tao Chen, Tong He, Jiayuan Fan, Wanli Ouyang, (参考訳) パラメータ効率細調整(PEFT)は、ファンデーションモデルが人気とサイズの両方で成長を続けるにつれ、ますます重要になっている。 アダプタは、パラメータの削減と様々なタスクへの適応性の可能性から、特によく認識されている。 しかし、タスク間の高効率性と堅牢な一般化のバランスを崩すことは、アダプタベースの手法の課題である。 既存の手法を分析し、それを見つける。 1) パラメータ共有は冗長性を低下させる鍵である。 2) よりチューニング可能なパラメータ、動的アロケーション、ブロック固有の設計がパフォーマンス向上の鍵となります。 残念ながら、これらの要因をすべて考慮した以前の研究は行われていない。 この知見に触発されて、Adapter-Xという新しいフレームワークを紹介します。 まず、トークンレベルの動的アロケーション、チューナブルパラメータの増加、ブロック間共有を同時に実現するために、Sharing Mixture of Adapters (SMoA)モジュールを提案する。 第2に、プロンプトジェネレータ(PG)のようなブロック固有の設計が導入され、適応性をさらに向上する。 2Dイメージと3Dポイントクラウドモダリティにわたる大規模な実験は、Adapter-Xが2Dイメージと3Dポイントクラウドモダリティの両方で完全な微調整を初めて上回り、2Dと3Dの分類タスクのトレーニング可能なパラメータの0.20%と1.88%に過ぎなかったことから、重要なマイルストーンであることを示している。 私たちのコードは公開されます。

Parameter-efficient fine-tuning (PEFT) has become increasingly important as foundation models continue to grow in both popularity and size. Adapter has been particularly well-received due to their potential for parameter reduction and adaptability across diverse tasks. However, striking a balance between high efficiency and robust generalization across tasks remains a challenge for adapter-based methods. We analyze existing methods and find that: 1) parameter sharing is the key to reducing redundancy; 2) more tunable parameters, dynamic allocation, and block-specific design are keys to improving performance. Unfortunately, no previous work considers all these factors. Inspired by this insight, we introduce a novel framework named Adapter-X. First, a Sharing Mixture of Adapters (SMoA) module is proposed to fulfill token-level dynamic allocation, increased tunable parameters, and inter-block sharing at the same time. Second, some block-specific designs like Prompt Generator (PG) are introduced to further enhance the ability of adaptation. Extensive experiments across 2D image and 3D point cloud modalities demonstrate that Adapter-X represents a significant milestone as it is the first to outperform full fine-tuning in both 2D image and 3D point cloud modalities with significantly fewer parameters, i.e., only 0.20% and 1.88% of original trainable parameters for 2D and 3D classification tasks. Our code will be publicly available.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# EgoSurgery-Tool: Egocentric Open Surgery Videoによる手術用ツールと手指検出のデータセット

EgoSurgery-Tool: A Dataset of Surgical Tool and Hand Detection from Egocentric Open Surgery Videos ( http://arxiv.org/abs/2406.03095v2 )

ライセンス: Link先を確認
Ryo Fujii, Hideo Saito, Hiroki Kajita, (参考訳) 外科的ツール検出は、自我中心のオープンな手術ビデオを理解するための基本的なタスクである。 しかし, 外科的ツールの検出は, 高度に不均衡なクラス分布, 類似の形状, 類似のテクスチャ, 重閉塞など, 重大な課題を呈している。 包括的な大規模データセットの欠如はこれらの課題を複雑にしている。 本稿では,EgoSurgery-Phaseデータセットの拡張であるEgoSurgery-Toolについて紹介する。 EgoSurgery-Toolは、手術用ツールに強く注釈付けされており、15のカテゴリにまたがる49K以上の手術用ツールで構成されており、大規模な手術用ツール検出データセットを構成している。 EgoSurgery-Toolはまた、46K以上のハンドバウンディングボックスで手検出のためのアノテーションを提供しており、自我中心の開腹手術における活動を理解するのに不可欠な手と物体の相互作用を捉えている。 EgoSurgery-Toolは、大規模な、より多様な手術ツール、より多くのアノテーション、より密集したシーンのために、既存のデータセットよりも優れている。 9つの一般的な物体検出器を用いてEgoSurgery-Toolの包括的解析を行い,手術器具と手指検出の両面での有効性を検証した。 データセットはhttps://github.com/Fujiry0/EgoSurgery.comでリリースされる。

Surgical tool detection is a fundamental task for understanding egocentric open surgery videos. However, detecting surgical tools presents significant challenges due to their highly imbalanced class distribution, similar shapes and similar textures, and heavy occlusion. The lack of a comprehensive large-scale dataset compounds these challenges. In this paper, we introduce EgoSurgery-Tool, an extension of the existing EgoSurgery-Phase dataset, which contains real open surgery videos captured using an egocentric camera attached to the surgeon's head, along with phase annotations. EgoSurgery-Tool has been densely annotated with surgical tools and comprises over 49K surgical tool bounding boxes across 15 categories, constituting a large-scale surgical tool detection dataset. EgoSurgery-Tool also provides annotations for hand detection with over 46K hand-bounding boxes, capturing hand-object interactions that are crucial for understanding activities in egocentric open surgery. EgoSurgery-Tool is superior to existing datasets due to its larger scale, greater variety of surgical tools, more annotations, and denser scenes. We conduct a comprehensive analysis of EgoSurgery-Tool using nine popular object detectors to assess their effectiveness in both surgical tool and hand detection. The dataset will be released at https://github.com/Fujiry0/EgoSurgery.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# グラフ畳み込み分岐と境界

Graph Convolutional Branch and Bound ( http://arxiv.org/abs/2406.03099v2 )

ライセンス: Link先を確認
Lorenzo Sciandra, Roberto Esposito, Andrea Cesare Grosso, Laura Sacerdote, Cristina Zucca, (参考訳) 本稿では,最適化パイプラインにおけるディープラーニングモデルの有効性を示す。 具体的には、NP問題に対する一般的な正確なアルゴリズムにおいて、複数のヒューリスティックな基準は、通常、すべての実現可能な解の集合内の最適解の探索を導くために用いられる。 この文脈では、ニューラルネットワークを利用して、価値ある情報を素早く取得し、この広大な空間においてより適切な経路を識別することができる。 そこで、取り組んだ旅行セールスマン問題の説明の後、実装されたブランチと古典的解決のためのバウンドについて述べる。 このアルゴリズムは、前の分岐を統合してグラフ畳み込みニューラルネットワークとバインドするグラフ畳み込み分岐とバインドと呼ばれるハイブリッドバージョンと比較される。 実験の結果、このアプローチの有効性が強調され、決定的な発見と今後の研究への潜在的方向性が示唆された。

This article demonstrates the effectiveness of employing a deep learning model in an optimization pipeline. Specifically, in a generic exact algorithm for a NP problem, multiple heuristic criteria are usually used to guide the search of the optimum within the set of all feasible solutions. In this context, neural networks can be leveraged to rapidly acquire valuable information, enabling the identification of a more expedient path in this vast space. So, after the explanation of the tackled traveling salesman problem, the implemented branch and bound for its classical resolution is described. This algorithm is then compared with its hybrid version termed "graph convolutional branch and bound" that integrates the previous branch and bound with a graph convolutional neural network. The empirical results obtained highlight the efficacy of this approach, leading to conclusive findings and suggesting potential directions for future research.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# セルネットワークを通過するE(n)同変メッセージ

E(n) Equivariant Message Passing Cellular Networks ( http://arxiv.org/abs/2406.03145v2 )

ライセンス: Link先を確認
Veljko Kovač, Erik J. Bekkers, Pietro Liò, Floor Eijkelboom, (参考訳) 本稿では、E(n)同変グラフニューラルネットワークをCW-複合体に拡張した、E(n)同変メッセージパッシングセルネットワーク(EMPCN)を紹介する。 我々のアプローチは幾何学的メッセージパッシングネットワークの2つの側面に対処する。 1)任意の細胞を組み込んで表現力を高めること 2) 切り離されたEMPCNs技術により, 計算効率が向上した。 EMPCNは、多体予測やモーションキャプチャなど、操りやすさを必要とせず、複数のタスクにおける最先端性能に近いことを実証する。 さらに, 脱結合型EMPCNは非トポロジカルに情報を得たものよりも強い一般化能力を示すことが, アブレーション研究により確認された。 これらの結果から,EMPCNは幾何学的およびトポロジ的グラフにおける高次メッセージパッシングのためのスケーラブルで表現力のあるフレームワークとして利用できることが示された。

This paper introduces E(n) Equivariant Message Passing Cellular Networks (EMPCNs), an extension of E(n) Equivariant Graph Neural Networks to CW-complexes. Our approach addresses two aspects of geometric message passing networks: 1) enhancing their expressiveness by incorporating arbitrary cells, and 2) achieving this in a computationally efficient way with a decoupled EMPCNs technique. We demonstrate that EMPCNs achieve close to state-of-the-art performance on multiple tasks without the need for steerability, including many-body predictions and motion capture. Moreover, ablation studies confirm that decoupled EMPCNs exhibit stronger generalization capabilities than their non-topologically informed counterparts. These findings show that EMPCNs can be used as a scalable and expressive framework for higher-order message passing in geometric and topological graphs
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# どちらをやっているのか? エンドツーエンドの議論の要約と評価のためのマルチタスクデータセット

Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation ( http://arxiv.org/abs/2406.03151v2 )

ライセンス: Link先を確認
Hao Li, Yuping Wu, Viktor Schlegel, Riza Batista-Navarro, Tharindu Madusanka, Iqra Zahid, Jiayan Zeng, Xiaochi Wang, Xinran He, Yizhi Li, Goran Nenadic, (参考訳) 大規模言語モデル(LLM)の最近の進歩により、人々が説得力のある議論を合成するのに役立つ自動討論システムを構築することはもはや不可能である。 以前の作業では、複数のコンポーネントを統合することでこのタスクを試みていた。 本研究では,議論のための議論的エッセイ作成の終末過程を捉えた議論マイニングデータセットを導入し,主張的エッセイ作成作業(第1章ED),証拠検証性ランキング(第2章ECR),議論的エッセイ要約と人選好ランキング(第3章ASR),および議論的エッセイの自動評価のための計量学習(第4章SQE)について述べる。 私たちのデータセットには、上記のタスクをサポートするさまざまなプロパティで完全に注釈付けされたクレームの14万の例が含まれています。 代表的LCMを含む各タスクに対して,複数の生成ベースラインを評価する。 その結果、ベンチマークでは、個々のタスクに対して有望な結果を示す一方で、自動測定と人中心評価の両方において、4つのタスクの連続的なエンドツーエンドのパフォーマンスが著しく低下していることが判明した。 提案したデータセットが示す課題は、エンド・ツー・エンドの議論マイニングと要約に関する今後の研究を動機付けている。 このプロジェクトのリポジトリはhttps://github.com/HarrywillDr/ArgSum-Datatsetで公開されている。

With the recent advances of large language models (LLMs), it is no longer infeasible to build an automated debate system that helps people to synthesise persuasive arguments. Previous work attempted this task by integrating multiple components. In our work, we introduce an argument mining dataset that captures the end-to-end process of preparing an argumentative essay for a debate, which covers the tasks of claim and evidence identification (Task 1 ED), evidence convincingness ranking (Task 2 ECR), argumentative essay summarisation and human preference ranking (Task 3 ASR) and metric learning for automated evaluation of resulting essays, based on human feedback along argument quality dimensions (Task 4 SQE). Our dataset contains 14k examples of claims that are fully annotated with the various properties supporting the aforementioned tasks. We evaluate multiple generative baselines for each of these tasks, including representative LLMs. We find, that while they show promising results on individual tasks in our benchmark, their end-to-end performance on all four tasks in succession deteriorates significantly, both in automated measures as well as in human-centred evaluation. This challenge presented by our proposed dataset motivates future research on end-to-end argument mining and summarisation. The repository of this project is available at https://github.com/HarrywillDr/ArgSum-Datatset
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# ニューラルネットワークによる償却ベイズ推論におけるモデルミス種別検出:拡張的検討

Detecting Model Misspecification in Amortized Bayesian Inference with Neural Networks: An Extended Investigation ( http://arxiv.org/abs/2406.03154v2 )

ライセンス: Link先を確認
Marvin Schmitt, Paul-Christian Bürkner, Ullrich Köthe, Stefan T. Radev, (参考訳) 確率的深層学習の最近の進歩は、確率関数がシミュレーションプログラム(シミュレーションベース推論、SBI)によって暗黙的にのみ定義される設定において、効率の良い減弱ベイズ推論を可能にする。 しかし、シミュレーションが現実を幾らか不正確に表現しているなら、そのような推論はどれほど忠実なのだろうか。 我々は,SBIにおけるそのようなモデルの誤識別のタイプを概念化し,神経後部近似器の性能が徐々に低下し,推論結果の信頼性が低下することを示した。 この問題をユーザに通知するために、教師なしの方法で訓練できる新しい不特定性尺度(すなわち、真の分布からデータをトレーニングせずに)を提案し、テスト時にモデルの不特定性を確実に検出する。 本実験は,解析的基盤構造を持つ玩具の事例と,細胞生物学,認知的意思決定,疾患発生のダイナミクス,コンピュータビジョンにおける代表的な科学的課題の両方において,新しい尺度の有用性を実証するものである。 提案手法は,不審な出力をユーザに警告し,予測が信頼できない場合に警告を発し,モデル設計者がより良いシミュレータを探索する際の指針となることを示す。

Recent advances in probabilistic deep learning enable efficient amortized Bayesian inference in settings where the likelihood function is only implicitly defined by a simulation program (simulation-based inference; SBI). But how faithful is such inference if the simulation represents reality somewhat inaccurately, that is, if the true system behavior at test time deviates from the one seen during training? We conceptualize the types of such model misspecification arising in SBI and systematically investigate how the performance of neural posterior approximators gradually deteriorates as a consequence, making inference results less and less trustworthy. To notify users about this problem, we propose a new misspecification measure that can be trained in an unsupervised fashion (i.e., without training data from the true distribution) and reliably detects model misspecification at test time. Our experiments clearly demonstrate the utility of our new measure both on toy examples with an analytical ground-truth and on representative scientific tasks in cell biology, cognitive decision making, disease outbreak dynamics, and computer vision. We show how the proposed misspecification test warns users about suspicious outputs, raises an alarm when predictions are not trustworthy, and guides model designers in their search for better simulators.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# StatBot.Swiss: 自然言語によるバイリンガルなオープンデータ探索

StatBot.Swiss: Bilingual Open Data Exploration in Natural Language ( http://arxiv.org/abs/2406.03170v2 )

ライセンス: Link先を確認
Farhad Nooralahzadeh, Yi Zhang, Ellery Smith, Sabine Maennel, Cyril Matthey-Doret, Raphaël de Fondville, Kurt Stockinger, (参考訳) Text-to-SQLシステムにおけるLarge Language Models (LLM)による改善の可能性は、主にモノリンガルな英語データセットに基づいて評価される。 しかし、他の言語に対するLLMのパフォーマンスは、いまだに明らかにされていない。 本研究では、現実世界のアプリケーションに基づいてテキストからSQLシステムを評価するための最初のバイリンガルベンチマークであるStatBot.Swissデータセットをリリースする。 StatBot.Swissデータセットには、英語とドイツ語の両方でさまざまなレベルの複雑さを持つ35以上の大きなデータベースに、455の自然言語/SQLペアが含まれている。 GPT-3.5-Turboやmixtral-8x7b-instruct for the Text-to-SQL translation task using an in-context learning approach。 我々の実験分析は、現在のLLMが、新しいバイリンガルデータセットでSQLクエリを生成するのに、うまく一般化するのに苦労していることを示している。

The potential for improvements brought by Large Language Models (LLMs) in Text-to-SQL systems is mostly assessed on monolingual English datasets. However, LLMs' performance for other languages remains vastly unexplored. In this work, we release the StatBot.Swiss dataset, the first bilingual benchmark for evaluating Text-to-SQL systems based on real-world applications. The StatBot.Swiss dataset contains 455 natural language/SQL-pairs over 35 big databases with varying level of complexity for both English and German. We evaluate the performance of state-of-the-art LLMs such as GPT-3.5-Turbo and mixtral-8x7b-instruct for the Text-to-SQL translation task using an in-context learning approach. Our experimental analysis illustrates that current LLMs struggle to generalize well in generating SQL queries on our novel bilingual dataset.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# 推薦説明のための評価器としての大規模言語モデル

Large Language Models as Evaluators for Recommendation Explanations ( http://arxiv.org/abs/2406.03248v2 )

ライセンス: Link先を確認
Xiaoyu Zhang, Yishan Li, Jiayin Wang, Bowen Sun, Weizhi Ma, Peijie Sun, Min Zhang, (参考訳) 推薦システムの説明可能性は、学術や産業において大きな注目を集めている。 説明可能なレコメンデーションのために多くの努力がなされているが、説明の質を評価することは困難で未解決の課題である。 近年,LLMを評価対象として活用することで,自然言語処理タスク(感情分類,情報抽出など)における将来性を示す。 しかしながら、推奨説明文の評価は、その基準が人間の知覚と関連し、通常主観的であるため、これらのNLGタスクとは異なる。 本稿では,LLM がレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。 質問に答えるために、我々は以前の研究から得られた説明に実際のユーザフィードバックを利用し、さらにサードパーティのアノテーションやLCM評価も収集する。 我々は,評価者ラベルとユーザが提供する真実の相関を計測するために,3段階のメタ評価戦略を設計し,適用する。 GPT4 などの LLM は,適切なプロンプトと設定で同等の評価を行うことができる。 また,評価の精度と安定性を高めるために,LLM評価プロセスとヒトラベルの組み合わせと,多種多種LLM評価器のアンサンブルの利用に関するさらなる知見を提供する。 本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。 私たちのコードはhttps://github.com/Xiaoyu-SZ/LLMasEvaluator.comで公開されています。

The explainability of recommender systems has attracted significant attention in academia and industry. Many efforts have been made for explainable recommendations, yet evaluating the quality of the explanations remains a challenging and unresolved issue. In recent years, leveraging LLMs as evaluators presents a promising avenue in Natural Language Processing tasks (e.g., sentiment classification, information extraction), as they perform strong capabilities in instruction following and common-sense reasoning. However, evaluating recommendation explanatory texts is different from these NLG tasks, as its criteria are related to human perceptions and are usually subjective. In this paper, we investigate whether LLMs can serve as evaluators of recommendation explanations. To answer the question, we utilize real user feedback on explanations given from previous work and additionally collect third-party annotations and LLM evaluations. We design and apply a 3-level meta evaluation strategy to measure the correlation between evaluator labels and the ground truth provided by users. Our experiments reveal that LLMs, such as GPT4, can provide comparable evaluations with appropriate prompts and settings. We also provide further insights into combining human labels with the LLM evaluation process and utilizing ensembles of multiple heterogeneous LLM evaluators to enhance the accuracy and stability of evaluations. Our study verifies that utilizing LLMs as evaluators can be an accurate, reproducible and cost-effective solution for evaluating recommendation explanation texts. Our code is available at https://github.com/Xiaoyu-SZ/LLMasEvaluator.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# セルラーニューラルネットワークのための説明生成

Generating Explanations for Cellular Neural Networks ( http://arxiv.org/abs/2406.03253v2 )

ライセンス: Link先を確認
Akshit Sinha, Sreeram Vennam, Charu Sharma, Ponnurangam Kumaraguru, (参考訳) グラフ学習の最近の進歩は、グラフニューラルネットワークによって生成された予測の説明に寄与した。 しかし、既存の方法論は、実世界のデータセットに適用すると、しばしば不足する。 我々は,高次関係のモデル化に長けているセルコンプレックスを用いて高次構造をキャプチャするフレームワークHOGEを紹介する。 実世界では、高次構造は分子やソーシャルネットワークのようにユビキタスであるため、我々の研究はグラフ説明の実用性を大幅に向上させる。 HOGEは従来の方法よりも明確で正確な説明をすることができる。 私たちのメソッドは既存のすべてのグラフ説明器と統合することができ、現在のフレームワークへのシームレスな統合を保証できます。 我々は、GraphXAIベンチマークデータセットを評価し、HOGEは最小の計算オーバーヘッドで改善または同等のパフォーマンスを達成する。 アブレーション研究では、観察された性能向上は、細胞複合体の導入による高次構造に起因することが示されている。

Recent advancements in graph learning contributed to explaining predictions generated by Graph Neural Networks. However, existing methodologies often fall short when applied to real-world datasets. We introduce HOGE, a framework to capture higher-order structures using cell complexes, which excel at modeling higher-order relationships. In the real world, higher-order structures are ubiquitous like in molecules or social networks, thus our work significantly enhances the practical applicability of graph explanations. HOGE produces clearer and more accurate explanations compared to prior methods. Our method can be integrated with all existing graph explainers, ensuring seamless integration into current frameworks. We evaluate on GraphXAI benchmark datasets, HOGE achieves improved or comparable performance with minimal computational overhead. Ablation studies show that the performance gain observed can be attributed to the higher-order structures that come from introducing cell complexes.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# ADer: マルチクラス視覚異常検出のための総合ベンチマーク

ADer: A Comprehensive Benchmark for Multi-class Visual Anomaly Detection ( http://arxiv.org/abs/2406.03262v2 )

ライセンス: Link先を確認
Jiangning Zhang, Haoyang He, Zhenye Gan, Qingdong He, Yuxuan Cai, Zhucun Xue, Yabiao Wang, Chengjie Wang, Lei Xie, Yong Liu, (参考訳) 視覚異常検出は、教師なし学習パラダイムを通じて画像内の異常領域を識別することを目的としており、産業検査や医学的病変検出などの分野における応用需要と価値が増大している。 近年の進歩にもかかわらず、実践的なマルチクラス設定の下で、さまざまなデータセットにわたる様々な主流メソッドのパフォーマンスを適切に評価する包括的なベンチマークが欠如している。 標準化された実験装置が存在しないことは、訓練のエポック、解決、および計量結果に潜在的なバイアスをもたらし、誤った結論をもたらす。 本稿では,新しい手法に対して高度に拡張可能なモジュラーフレームワークである,包括的視覚異常検出ベンチマークである \textbf{\textit{ADer}} を提案し,この問題に対処する。 このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。 さらに、大規模データ上での時間消費mAU-PROのようなメトリクスの遅い評価問題に対処するため、GPU支援の \href{https://pypi.org/project/ADEval}{ADEval} パッケージをオープンソース化した。 本研究では,様々な手法の長所と短所を客観的に明らかにし,マルチクラス視覚異常検出の課題と今後の方向性について考察する。 我々は, この分野の研究者や実践者にとって, より堅牢で一般化可能な異常検出システムの開発を促進する貴重な資源となることを願っている。 完全なコードは Appendix に添付され、 \url{https://github.com/zhangzjn/ader} でオープンソース化されている。

Visual anomaly detection aims to identify anomalous regions in images through unsupervised learning paradigms, with increasing application demand and value in fields such as industrial inspection and medical lesion detection. Despite significant progress in recent years, there is a lack of comprehensive benchmarks to adequately evaluate the performance of various mainstream methods across different datasets under the practical multi-class setting. The absence of standardized experimental setups can lead to potential biases in training epochs, resolution, and metric results, resulting in erroneous conclusions. This paper addresses this issue by proposing a comprehensive visual anomaly detection benchmark, \textbf{\textit{ADer}}, which is a modular framework that is highly extensible for new methods. The benchmark includes multiple datasets from industrial and medical domains, implementing fifteen state-of-the-art methods and nine comprehensive metrics. Additionally, we have open-sourced the GPU-assisted \href{https://pypi.org/project/ADEval}{ADEval} package to address the slow evaluation problem of metrics like time-consuming mAU-PRO on large-scale data, significantly reducing evaluation time by more than \textit{1000-fold}. Through extensive experimental results, we objectively reveal the strengths and weaknesses of different methods and provide insights into the challenges and future directions of multi-class visual anomaly detection. We hope that \textbf{\textit{ADer}} will become a valuable resource for researchers and practitioners in the field, promoting the development of more robust and generalizable anomaly detection systems. Full codes have been attached in Appendix and open-sourced at \url{https://github.com/zhangzjn/ader}.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# 非線型力学系における潜在状態遷移の同定

Identifying latent state transition in non-linear dynamical systems ( http://arxiv.org/abs/2406.03337v2 )

ライセンス: Link先を確認
Çağlar Hızlı, Çağatay Yıldız, Matthias Bethge, ST John, Pekka Marttinen, (参考訳) 本研究は,基礎となる低次元潜在状態とその時間進化を回復することにより,力学系の一般化と解釈可能性を向上させることを目的とする。 動的システムの領域における非交叉表現学習に関するこれまでの研究は、潜在状態(おそらく線形遷移近似)に焦点を当てていた。 そのため、それらは非線形遷移力学を識別できず、したがって複雑な将来の振る舞いを確実に予測できない。 非線形ICAの進歩にインスパイアされた状態空間モデリングフレームワークを提案する。これは、潜在状態だけでなく、過去の状態を現在の状態にマッピングする未知の遷移関数も特定できる。 変分自動エンコーダに基づく実用的なアルゴリズムを導入し、現実的な合成設定を実証的に示す。 (i)遅延状態のダイナミクスを高精度に復元する。 (二)高次予測精度を実現し、 (三)新しい環境に迅速に適応する。

This work aims to improve generalization and interpretability of dynamical systems by recovering the underlying lower-dimensional latent states and their time evolutions. Previous work on disentangled representation learning within the realm of dynamical systems focused on the latent states, possibly with linear transition approximations. As such, they cannot identify nonlinear transition dynamics, and hence fail to reliably predict complex future behavior. Inspired by the advances in nonlinear ICA, we propose a state-space modeling framework in which we can identify not just the latent states but also the unknown transition function that maps the past states to the present. We introduce a practical algorithm based on variational auto-encoders and empirically demonstrate in realistic synthetic settings that we can (i) recover latent state dynamics with high accuracy, (ii) correspondingly achieve high future prediction accuracy, and (iii) adapt fast to new environments.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# 特徴汚染:ニューラルネットワークは非相関的な特徴を学習し、一般化に失敗する

Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize ( http://arxiv.org/abs/2406.03345v2 )

ライセンス: Link先を確認
Tianren Zhang, Chujie Zhao, Guanyu Chen, Yizhou Jiang, Feng Chen, (参考訳) 分散シフトの下で一般化される学習表現は、堅牢な機械学習モデルを構築する上で重要である。 しかし、近年の多大な努力にもかかわらず、この方向のアルゴリズム的な進歩は限られている。 本研究では,ディープニューラルネットワークを用いたアウト・オブ・ディストリビューションの一般化の根本的な難しさを理解することを目的とする。 まず、ニューラルネットワークが教師ネットワークから得られる表現を明示的に適合させることさえ、学生ネットワークの一般化には不十分であることを実証的に示す。 そして、構造的特徴モデルの下で確率勾配降下(SGD)により最適化された2層ReLUネットワークの理論的研究により、ニューラルネットワークの基本的かつ未探索な特徴学習確率、特徴汚染を同定する。 特に、このメカニズムは、一般化の失敗を突発的な相関に起因した文学における一般的な物語とは本質的に異なる。 全体として、ニューラルネットワークの非線形特徴学習ダイナミクスに関する新たな知見を提供し、分布外一般化における帰納バイアスを考慮する必要性を強調した。

Learning representations that generalize under distribution shifts is critical for building robust machine learning models. However, despite significant efforts in recent years, algorithmic advances in this direction have been limited. In this work, we seek to understand the fundamental difficulty of out-of-distribution generalization with deep neural networks. We first empirically show that perhaps surprisingly, even allowing a neural network to explicitly fit the representations obtained from a teacher network that can generalize out-of-distribution is insufficient for the generalization of the student network. Then, by a theoretical study of two-layer ReLU networks optimized by stochastic gradient descent (SGD) under a structured feature model, we identify a fundamental yet unexplored feature learning proclivity of neural networks, feature contamination: neural networks can learn uncorrelated features together with predictive features, resulting in generalization failure under distribution shifts. Notably, this mechanism essentially differs from the prevailing narrative in the literature that attributes the generalization failure to spurious correlations. Overall, our results offer new insights into the non-linear feature learning dynamics of neural networks and highlight the necessity of considering inductive biases in out-of-distribution generalization.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# 潜在変数ネットワークモデルのための伝達学習

Transfer Learning for Latent Variable Network Models ( http://arxiv.org/abs/2406.03437v2 )

ライセンス: Link先を確認
Akhil Jalan, Arya Mazumdar, Soumendu Sundar Mukherjee, Purnamrita Sarkar, (参考訳) 潜在変数ネットワークモデルにおける推定のための伝達学習について検討する。 我々の設定では、潜在変数が与えられた条件付きエッジ確率行列は、ソースに対して$P$、ターゲットに対して$Q$で表される。 1)$Q$のノードの$o(1)$の分数で誘導されるサブグラフからのエッジデータと、(2)$P$のすべてのエッジデータである。 ソース$P$がターゲット$Q$とは無関係であれば、推定誤差は$\Omega(1)$でなければならない。 しかし、潜在変数が共有されている場合、エラーを解消できることを示す。 適切に定義されたグラフ距離の順序付けを利用する効率的なアルゴリズムを提案する。 我々のアルゴリズムは、$o(1)$エラーを達成し、ソースやターゲットネットワーク上でパラメトリック形式を仮定しない。 次に、確率ブロックモデルの特定の場合において、ミニマックス下界を証明し、単純なアルゴリズムがこの速度を達成することを示す。 最後に、実世界およびシミュレーショングラフ転送問題におけるアルゴリズムの使用を実証的に示す。

We study transfer learning for estimation in latent variable network models. In our setting, the conditional edge probability matrices given the latent variables are represented by $P$ for the source and $Q$ for the target. We wish to estimate $Q$ given two kinds of data: (1) edge data from a subgraph induced by an $o(1)$ fraction of the nodes of $Q$, and (2) edge data from all of $P$. If the source $P$ has no relation to the target $Q$, the estimation error must be $\Omega(1)$. However, we show that if the latent variables are shared, then vanishing error is possible. We give an efficient algorithm that utilizes the ordering of a suitably defined graph distance. Our algorithm achieves $o(1)$ error and does not assume a parametric form on the source or target networks. Next, for the specific case of Stochastic Block Models we prove a minimax lower bound and show that a simple algorithm achieves this rate. Finally, we empirically demonstrate our algorithm's use on real-world and simulated graph transfer problems.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06
# シンフォニック定義と意味的関係を用いた意味的変化の分類

Using Synchronic Definitions and Semantic Relations to Classify Semantic Change Types ( http://arxiv.org/abs/2406.03452v2 )

ライセンス: Link先を確認
Pierluigi Cassotti, Stefano De Pascale, Nina Tahmasebi, (参考訳) 言葉が意味を変える方法が、古い意味と新しい意味(一般化、特殊化、共同催眠術)の関係を強調して、異なるタイプの変化に分類できるという事実は、豊富な証拠がある。 本稿では,同期語彙関係と単語の意味定義の両方から情報を利用するモデルを構築し,このような変化を検出する手法を提案する。 具体的には,WordNet の構文定義と階層情報を用いて,Blank (1997) のセマンティックチェンジ型データセットのデジタル化バージョンでそれをテストする。 最後に,意味的関連性の人的判断の近似モデルと2値の語彙的意味的変化検出のモデルを改善する方法を示す。

There is abundant evidence of the fact that the way words change their meaning can be classified in different types of change, highlighting the relationship between the old and new meanings (among which generalization, specialization and co-hyponymy transfer). In this paper, we present a way of detecting these types of change by constructing a model that leverages information both from synchronic lexical relations and definitions of word meanings. Specifically, we use synset definitions and hierarchy information from WordNet and test it on a digitized version of Blank's (1997) dataset of semantic change types. Finally, we show how the sense relationships can improve models for both approximation of human judgments of semantic relatedness as well as binary Lexical Semantic Change Detection.
翻訳日:2024-06-07 13:01:03 公開日:2024-06-06