論文の概要: Behavioural vs. Representational Systematicity in End-to-End Models: An Opinionated Survey
- arxiv url: http://arxiv.org/abs/2506.04461v1
- Date: Wed, 04 Jun 2025 21:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.431216
- Title: Behavioural vs. Representational Systematicity in End-to-End Models: An Opinionated Survey
- Title(参考訳): エンド・ツー・エンドモデルにおける行動と表現の体系性
- Authors: Ivan Vegner, Sydelle de Souza, Valentin Forch, Martha Lewis, Leonidas A. A. Doumas,
- Abstract要約: 構成性、体系性の中核的な側面は、MLモデルにおいて望ましい性質である。
既存のベンチマークとモデルは、主に振る舞いの体系性に焦点を当てている。
ハドリーの体系的一般化の分類に基づいて、行動的体系性がどのようにテストされるかを分析する。
- 参考スコア(独自算出の注目度): 0.9218181299449681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A core aspect of compositionality, systematicity is a desirable property in ML models as it enables strong generalization to novel contexts. This has led to numerous studies proposing benchmarks to assess systematic generalization, as well as models and training regimes designed to enhance it. Many of these efforts are framed as addressing the challenge posed by Fodor and Pylyshyn. However, while they argue for systematicity of representations, existing benchmarks and models primarily focus on the systematicity of behaviour. We emphasize the crucial nature of this distinction. Furthermore, building on Hadley's (1994) taxonomy of systematic generalization, we analyze the extent to which behavioural systematicity is tested by key benchmarks in the literature across language and vision. Finally, we highlight ways of assessing systematicity of representations in ML models as practiced in the field of mechanistic interpretability.
- Abstract(参考訳): 構成性の中核的な側面である体系性は、新しい文脈への強い一般化を可能にするため、MLモデルにおいて望ましい性質である。
このことが、体系的な一般化を評価するためのベンチマークや、それを強化するために設計されたモデルや訓練体制を提案する多くの研究につながった。
これらの取り組みの多くは、Fodor と Pylyshyn が提起した課題に対処するものである。
しかし、彼らは表現の体系性について議論する一方で、既存のベンチマークとモデルは行動の体系性に重点を置いている。
私たちはこの区別の重要な性質を強調します。
さらに,ハドリー(1994年)の体系的一般化の分類に基づいて,言語とビジョンをまたいだ文献における主要なベンチマークによって,行動的体系性がどのようにテストされるかを分析する。
最後に,機械的解釈可能性の分野で実施されているMLモデルにおける表現の体系性を評価する方法について述べる。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Towards Out-Of-Distribution Generalization: A Survey [46.329995334444156]
アウト・オブ・ディストリビューションの一般化は、機械学習研究の新たなトピックである。
本論文は,OODの一般化に関する総合的,体系的な最初のレビューである。
論文 参考訳(メタデータ) (2021-08-31T05:28:42Z) - Probing Linguistic Systematicity [11.690179162556353]
ニューラルモデルがしばしば非体系的に一般化する証拠が蓄積されている。
ネットワークアーキテクチャが非体系的に一般化できる方法を特定し、なぜそのような一般化が不満足なのかについて議論する。
論文 参考訳(メタデータ) (2020-05-08T23:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。