論文の概要: Towards a Comparative Framework for Compositional AI Models
- arxiv url: http://arxiv.org/abs/2507.02940v1
- Date: Fri, 27 Jun 2025 15:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.542882
- Title: Towards a Comparative Framework for Compositional AI Models
- Title(参考訳): 合成AIモデルの比較フレームワークを目指して
- Authors: Tiffany Duneau,
- Abstract要約: 本稿では、自然言語処理のためのDisCoCircフレームワークを用いて、モデルがどのように構成的一般化を学べるかを示す。
我々は、bAbIタスクの1つから派生したデータセット上で、量子回路ベースのモデルと古典的ニューラルネットワークを比較した。
両方のアーキテクチャは、生産性と置換性タスクにおいて、それぞれ5%以内のスコアを得ますが、システマティタスクでは、少なくとも10%の違いがあります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The DisCoCirc framework for natural language processing allows the construction of compositional models of text, by combining units for individual words together according to the grammatical structure of the text. The compositional nature of a model can give rise to two things: compositional generalisation -- the ability of a model to generalise outside its training distribution by learning compositional rules underpinning the entire data distribution -- and compositional interpretability -- making sense of how the model works by inspecting its modular components in isolation, as well as the processes through which these components are combined. We present these notions in a framework-agnostic way using the language of category theory, and adapt a series of tests for compositional generalisation to this setting. Applying this to the DisCoCirc framework, we consider how well a selection of models can learn to compositionally generalise. We compare both quantum circuit based models, as well as classical neural networks, on a dataset derived from one of the bAbI tasks, extended to test a series of aspects of compositionality. Both architectures score within 5% of one another on the productivity and substitutivity tasks, but differ by at least 10% for the systematicity task, and exhibit different trends on the overgeneralisation tasks. Overall, we find the neural models are more prone to overfitting the Train data. Additionally, we demonstrate how to interpret a compositional model on one of the trained models. By considering how the model components interact with one another, we explain how the model behaves.
- Abstract(参考訳): 自然言語処理のためのDisCoCircフレームワークは、テキストの文法構造に従って個々の単語の単位を結合することにより、テキストの合成モデルの構築を可能にする。
構成的一般化 -- データ分散全体を支える構成規則を学習することで、トレーニングディストリビューションの外でモデルを一般化する能力 -- と、構成的解釈可能性 -- は、モデルがモジュール的なコンポーネントを独立して検査することによって、どのように機能するか、そしてこれらのコンポーネントが結合されるプロセスを理解することができる。
分類論の言語を用いてこれらの概念をフレームワークに依存しない方法で提示し、この設定に合成一般化のための一連のテストを適用する。
これをDisCoCircフレームワークに適用することにより、モデルの選択がいかにして構成的一般化を学べるかを考察する。
我々は、構成性の一連の側面をテストするために拡張されたbAbIタスクの1つから導かれたデータセットにおいて、量子回路ベースのモデルと古典的ニューラルネットワークを比較した。
どちらのアーキテクチャも生産性と置換性タスクで5%以内のスコアを付けるが、体系性タスクでは少なくとも10%の違いがあり、オーバージェネレーションタスクでは異なる傾向を示す。
全体として、ニューラルネットワークはTrainのデータに過度に適合する傾向にある。
さらに、トレーニングされたモデルの1つで構成モデルを解釈する方法を示す。
モデルコンポーネントが相互にどのように相互作用するかを考慮することで、モデルがどのように振る舞うかを説明します。
関連論文リスト
- Does Data Scaling Lead to Visual Compositional Generalization? [21.242714408660508]
構成一般化は単なるデータスケールではなく,データの多様性によってもたらされる。
この構造が効率の鍵であることを証明し、ほとんど観測されていない組み合わせから完全な一般化を可能にする。
論文 参考訳(メタデータ) (2025-07-09T17:59:03Z) - How Compositional Generalization and Creativity Improve as Diffusion Models are Trained [82.08869888944324]
構成規則を学習するために生成モデルに必要なサンプルはいくつあるか?
ルールを学習するために、データのどのシグナルが利用されるのか?
ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - When does compositional structure yield compositional generalization? A kernel theory [0.0]
固定された構成的表現を持つカーネルモデルにおける合成一般化の理論を示す。
学習データのバイアスから生じる合成一般化における新しい障害モードを同定する。
本研究は, 学習データの統計的構造が構成一般化にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-05-26T00:50:11Z) - What makes Models Compositional? A Theoretical View: With Supplement [60.284698521569936]
本稿では,構成関数の一般神経-記号的定義とその構成複雑性について述べる。
既存の汎用および特殊目的のシーケンス処理モデルがこの定義にどのように適合しているかを示し、それらを用いて構成複雑性を分析する。
論文 参考訳(メタデータ) (2024-05-02T20:10:27Z) - Compositional diversity in visual concept learning [18.907108368038216]
人間は構成性を活用して、新しい概念を効率的に学習し、親しみのある部分がどのように結合して新しい物体を形成するかを理解する。
そこで本研究では,豊かな関係構造を持つ「異星人」の分類・生成方法について考察する。
我々は,候補となる視覚図を生成するための最適なプログラムを探索するベイズプログラム誘導モデルを開発した。
論文 参考訳(メタデータ) (2023-05-30T19:30:50Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Equi-Tuning: Group Equivariant Fine-Tuning of Pretrained Models [56.88106830869487]
我々は、(潜在的に非同変な)事前訓練されたモデルを群同変モデルに変換する新しい微調整法である、同調を導入する。
本稿では、画像分類、合成言語における一般化、自然言語生成における公平性という3つの異なるタスクに対する等価チューニングの応用について述べる。
論文 参考訳(メタデータ) (2022-10-13T08:45:23Z) - Compositional Generalisation with Structured Reordering and Fertility
Layers [121.37328648951993]
Seq2seqモデルは構成一般化に苦しむことが示されている。
本稿では、2つの構造演算を構成するフレキシブルなエンドツーエンドの微分可能なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-10-06T19:51:31Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。