論文の概要: Both Direct and Indirect Evidence Contribute to Dative Alternation Preferences in Language Models
- arxiv url: http://arxiv.org/abs/2503.20850v2
- Date: Sat, 31 May 2025 21:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.244106
- Title: Both Direct and Indirect Evidence Contribute to Dative Alternation Preferences in Language Models
- Title(参考訳): 言語モデルにおける直接的および間接的エビデンスと傾向的交替優先度の関係
- Authors: Qing Yao, Kanishka Misra, Leonie Weissweiler, Kyle Mahowald,
- Abstract要約: 我々は、長さとアニマシー(animacy)という、交互に選択する性質に焦点を当てている。
長さとアニマシーの直接的な証拠は重要であるが、そのような証拠がなくても、簡単優先の選好は継続する。
LMの創発的な構文的嗜好は、直接的および間接的ソースの混合に由来すると結論付けている。
- 参考スコア(独自算出の注目度): 18.643297700066448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) tend to show human-like preferences on a number of syntactic phenomena, but the extent to which these are attributable to direct exposure to the phenomena or more general properties of language is unclear. We explore this with the English dative alternation (DO: "gave Y the X" vs. PO: "gave the X to Y"), using a controlled rearing paradigm wherein we iteratively train small LMs on systematically manipulated input. We focus on properties that affect the choice of alternant: length and animacy. Both properties are directly present in datives but also reflect more global tendencies for shorter elements to precede longer ones and animates to precede inanimates. First, by manipulating and ablating datives for these biases in the input, we show that direct evidence of length and animacy matters, but easy-first preferences persist even without such evidence. Then, using LMs trained on systematically perturbed datasets to manipulate global length effects (re-linearizing sentences globally while preserving dependency structure), we find that dative preferences can emerge from indirect evidence. We conclude that LMs' emergent syntactic preferences come from a mix of direct and indirect sources.
- Abstract(参考訳): 言語モデル(LM)は、多くの構文現象に対して人間のような嗜好を示す傾向にあるが、それらが直接現象や言語のより一般的な性質に触れることに起因する範囲は不明確である。
我々はこれを、制御された再配置パラダイムを用いて、体系的に操作された入力に対して、小さなLMを反復的に訓練する、英語のDative alternation(DO: "gave Y the X" vs. PO: "gave the X to Y")を用いて探索する。
我々は、長さとアニマシー(animacy)という、交互に選択する性質に焦点を当てている。
両方の性質は直接基数に存在するが、より短い元素がより長い元素に先行し、アニメートがアニメートに先行する傾向も反映している。
まず、入力中のこれらのバイアスを操作・非難することにより、長さとアニマシーの直接的な証拠が重要であるが、そのような証拠がなくても、簡単優先の嗜好は持続することを示す。
そして、体系的な摂動データセットに基づいて訓練されたLMを用いて、グローバルな長さ効果(依存構造を保ちながらグローバルに線形化する文)を制御し、間接的な証拠からDative preferencesが出現することを発見した。
LMの創発的な構文的嗜好は、直接的および間接的ソースの混合に由来すると結論付けている。
関連論文リスト
- Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts [29.864293711943038]
本研究では, 言語モデルにおいて, ステレオタイプ誘導語を検出し, ニューロンレベルのバイアスをもたらすフレームワークを提案する。
本フレームワークはまず, 集団間の比較分析により, ステレオタイプ誘導形容詞と名詞を識別する。
3つの LLM 実験により,本手法はモデル全体の性能を保ちながらバイアスを効果的に低減することを示した。
論文 参考訳(メタデータ) (2026-02-04T10:27:36Z) - Emergence of Linear Truth Encodings in Language Models [64.86571541830598]
大規模言語モデルは偽文と真を区別する線形部分空間を示すが、それらの出現のメカニズムは不明確である。
このような真理部分空間をエンドツーエンドに再現する,透明な一層トランスフォーマー玩具モデルを導入する。
本研究では,真理エンコーディングが実現可能な単純な設定について検討し,将来のトークンにおけるLM損失を減らすために,この区別を学習するようモデルに促す。
論文 参考訳(メタデータ) (2025-10-17T16:30:07Z) - Mitigating Diffusion Model Hallucinations with Dynamic Guidance [75.90458880492054]
拡散モデルはしばしば、真のデータ分布の支持外にある構造上の矛盾のある幻覚サンプルを生成する。
本稿では,事前に決められた方向に沿ってのみスコア関数を選択的に研ぎ澄まし,幻覚を緩和する動的誘導法を提案する。
私たちの知る限り、これはポストホックフィルタリングではなく、世代毎の幻覚に対処する最初のアプローチである。
論文 参考訳(メタデータ) (2025-10-06T20:31:13Z) - Positional Biases Shift as Inputs Approach Context Window Limits [57.00239097102958]
入力がモデルのコンテキストウィンドウの最大50%を占める場合、LiM効果は最強となる。
関係情報が入力の終端に近づくと,モデルの性能が向上する,距離に基づくバイアスが観測される。
論文 参考訳(メタデータ) (2025-08-10T20:40:24Z) - How Individual Traits and Language Styles Shape Preferences In Open-ended User-LLM Interaction: A Preliminary Study [32.53638485900923]
LLMの言語スタイルは確かにユーザの好みに影響を与えているが、どの言語スタイルがユーザーの好みにどのように影響するかは異なる。
我々の今後の方向性は、まずこれらの制限に対処することであり、言語スタイル、個々の特徴、嗜好の間のより包括的な共同効果分析を可能にし、さらにこれらの変数とそれ以上の因果関係について検討する。
論文 参考訳(メタデータ) (2025-04-23T20:14:03Z) - Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。
言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。
本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文 参考訳(メタデータ) (2025-02-17T20:40:01Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads [11.254305578659002]
言語モデリングヘッドの出力分布に直接影響を及ぼすことなく、補助的な報酬ヘッドを通して人間の嗜好信号を学習できる微調整フレームワークであるDirect Preference Heads (DPH)を導入する。
GLUE, RACE, および GPT4All 評価スイート上で本モデルを評価し, スーパービジョンファインチューニング (SFT) やダイレクトパラメータ最適化 (DPO) のみを用いたモデルよりも高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-05-30T13:38:52Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Preference-Conditioned Language-Guided Abstraction [24.626805570296064]
我々は、人間の振る舞いが世界を見る方法を明らかにするのを観察する。
本研究では,行動の変化が生じたという知識を前提として,言語モデル(LM)を用いてこれらの嗜好を直接クエリする手法を提案する。
本研究では,シミュレーション実験,ユーザスタディ,モバイル操作タスクを行う実際のSpotロボット上で,効果的な嗜好条件抽象化を構築するためのフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2024-02-05T15:12:15Z) - Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - Reinforcement Learning Fine-tuning of Language Models is Biased Towards
More Extractable Features [0.5937476291232802]
我々は,大規模言語モデルの教師付き微調整における帰納的バイアスを規定する原則が,強化学習を用いた微調整プロセスにおいても適用できるかどうかを考察する。
これらの仮説の強い証拠となる統計的に有意な相関関係を見いだす。
論文 参考訳(メタデータ) (2023-11-07T15:00:39Z) - Can LLMs Capture Human Preferences? [5.683832910692926]
本研究では,人間の調査回答をエミュレートし,好みを提示する上で,Large Language Models (LLMs) の生存可能性について検討する。
我々はLLMからの反応を様々な言語で比較し、それらを人間の反応と比較し、より小さく、より早く、より大きい、後の報酬の間の好みを探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示し, GPT-3.5はヒトよりも忍耐力が低いことが示唆された。
論文 参考訳(メタデータ) (2023-05-04T03:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。