論文の概要: How Instruction-Tuning Imparts Length Control: A Cross-Lingual Mechanistic Analysis
- arxiv url: http://arxiv.org/abs/2509.02075v1
- Date: Tue, 02 Sep 2025 08:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.957685
- Title: How Instruction-Tuning Imparts Length Control: A Cross-Lingual Mechanistic Analysis
- Title(参考訳): インストラクションチューニングによる長さ制御の具体化:言語間機械的解析
- Authors: Elisabetta Rocchetti, Alfio Ferrara,
- Abstract要約: 本研究は,英語とイタリア語の長長制御テキスト生成における基礎モデルと教科モデルの違いについて検討する。
この結果から,命令チューニングは,より深いモデル層におけるコンポーネントを専門化することによって,長さ制御を大幅に改善することがわかった。
イタリア語では、注意力の寄与は弱まるが、最終層はより強い肯定的な役割を示し、補償機構が示唆される。
- 参考スコア(独自算出の注目度): 2.5997274006052544
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adhering to explicit length constraints, such as generating text with a precise word count, remains a significant challenge for Large Language Models (LLMs). This study aims at investigating the differences between foundation models and their instruction-tuned counterparts, on length-controlled text generation in English and Italian. We analyze both performance and internal component contributions using Cumulative Weighted Attribution, a metric derived from Direct Logit Attribution. Our findings reveal that instruction-tuning substantially improves length control, primarily by specializing components in deeper model layers. Specifically, attention heads in later layers of IT models show increasingly positive contributions, particularly in English. In Italian, while attention contributions are more attenuated, final-layer MLPs exhibit a stronger positive role, suggesting a compensatory mechanism. These results indicate that instruction-tuning reconfigures later layers for task adherence, with component-level strategies potentially adapting to linguistic context.
- Abstract(参考訳): 正確な単語数でテキストを生成するなどの明示的な長さ制約に固執することは、Large Language Models (LLMs) にとって重要な課題である。
本研究は,英語とイタリア語における長さ制御テキスト生成における基礎モデルと教科モデルの違いについて検討することを目的とする。
直接ロジット属性から導出した数値であるCumulative Weighted Attributionを用いて、パフォーマンスと内部コンポーネントのコントリビューションを分析する。
この結果,命令チューニングは,より深いモデル層におけるコンポーネントを専門化することによって,長さ制御を大幅に改善することがわかった。
特に、後のITモデルのレイヤの注目は、特に英語において、ますます肯定的な貢献を示している。
イタリアでは、注意力の寄与は弱まるが、最終層MLPはより強い肯定的な役割を示し、補償機構が示唆される。
これらの結果から, 命令調整の再構成は, 言語文脈に適応する可能性のあるコンポーネントレベルの戦略を伴って, タスク順守のための後続のレイヤを構成することが示唆された。
関連論文リスト
- Long-Short Alignment for Effective Long-Context Modeling in LLMs [32.13785291956956]
大きな言語モデル(LLM)は、驚くべきパフォーマンスと驚くべき創発的な特性を示しています。
長さの一般化 -- トレーニング中に見られるものよりも長いシーケンスに一般化する能力 -- は、古典的で基本的な問題である。
textbflong-shortアライメント -- 長さの異なるシーケンス間の出力分布の一貫性 -- の重要な役割を強調します。
論文 参考訳(メタデータ) (2025-06-13T13:25:39Z) - Exploring Translation Mechanism of Large Language Models [27.80569331184995]
大規模言語モデル(LLM)は多言語翻訳タスクにおいて著しく成功している。
本研究では,計算成分の観点から,LLMの翻訳機構について検討する。
論文 参考訳(メタデータ) (2025-02-17T13:50:29Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Influence Paths for Characterizing Subject-Verb Number Agreement in LSTM
Language Models [22.826154706036995]
LSTMベースのリカレントニューラルネットワークは、多くの自然言語処理(NLP)タスクの最先端技術である。
この理解の欠如として、このタスクにおけるLSTM性能の一般性と、関連するタスクに対するそれらの適合性は不確かである。
本稿では, 繰り返し神経回路のゲートとニューロンを横断する経路として, 構造特性の因果的説明である*影響経路*を紹介する。
論文 参考訳(メタデータ) (2020-05-03T21:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。