論文の概要: Enhancing Instruction-Following Capabilities in Seq2Seq Models: DoLA Adaptations for T5
- arxiv url: http://arxiv.org/abs/2512.03803v1
- Date: Wed, 03 Dec 2025 13:54:11 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:06:22.569862
- Title: Enhancing Instruction-Following Capabilities in Seq2Seq Models: DoLA Adaptations for T5
- Title(参考訳): Seq2Seqモデルにおける命令追従能力の強化:T5に対するDoLA適応
- Authors: Huey Sun, Anabel Yong, Lorenzo Gilly, Felipe Jin,
- Abstract要約: この作業は、T5およびFLAN-T5モデルファミリにDoLaを適応させ、モデルの命令追従能力への影響を評価する。
この結果から,DoLaはタスクの特定のカテゴリに対するテキスト生成の忠実度を向上し,他人を傷つけることを示す。
これらの結果を理解するために、トークン出力確率に対するDoLaの影響を定量化するために、FLAN-T5モデルにおけるロジット進化の層間層間解析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Contrastive decoding is a lightweight and effective inference-time method that improves the quality of text generation in Large Language Models. However, algorithms such as DoLa (Decoding by Contrastive Layers) have only been implemented in decoder-only architectures and studied for their impact on improving factuality. This work adapts DoLa for the T5 and FLAN-T5 model families and evaluates its impact on the models' instruction following capabilities, which to our knowledge is the first implementation of a contrastive decoding strategy in an encoder-decoder architecture. Our results show that DoLa improves the faithfulness of text generation for certain categories of tasks and harms others. To understand these results, we present a layer-by-layer analysis of logit evolution in a FLAN-T5 model to quantify DoLa's impact on token output probabilities.
- Abstract(参考訳): コントラストデコーディング(Contrastive Decoding)は、大規模言語モデルにおけるテキスト生成の品質を改善する軽量かつ効果的な推論時間法である。
しかし、DoLa (Decoding by Contrastive Layers)のようなアルゴリズムはデコーダのみのアーキテクチャでのみ実装され、事実性の改善に対する影響について研究されている。
本研究は,T5 および FLAN-T5 モデルファミリに対して DoLa を適応させ,モデルの命令追従能力に与える影響を評価する。
この結果から,DoLaはタスクの特定のカテゴリに対するテキスト生成の忠実度を向上し,他人を傷つけることを示す。
これらの結果を理解するために、トークン出力確率に対するDoLaの影響を定量化するために、FLAN-T5モデルにおけるロジット進化の層間層間解析を行う。
関連論文リスト
- LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective [18.077009146950473]
プレトレーニング中にトランスフォーマーがどのようにタスクベクトルを形成し、そのタスク符号化品質がICLタスク性能を予測するかを検討する。
私たちの経験的洞察は、その表現を通じて、大きな言語モデルの成功と失敗モードの理解を深めました。
論文 参考訳(メタデータ) (2024-12-16T19:00:18Z) - Efficient Sample-Specific Encoder Perturbations [37.84914870036184]
凍結基礎モデルのエンコーダ出力のサンプル・バイ・サンプル摂動を求めるために,小さなプロキシ・ネットワークが利用できることを示す。
その結果,COMET と WER で評価した性能は一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-05-01T08:55:16Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - Evaluating the Robustness to Instructions of Large Language Models [6.947956990248856]
微調整大型言語モデル(LLM)は、新しいタスクにおけるゼロショット能力を向上することができる。
Alpaca, Vicuna, WizardLM, 従来のタスク指向モデル(Flan-T5-XL/XXL, T0++)を含む6つのモデルを評価する。
異なるスケールのFLAN-T5モデルのRE命令に対するロバスト性は、QA命令に対するロバスト性よりも劣っていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T04:57:07Z) - Controlled Text Generation using T5 based Encoder-Decoder Soft Prompt
Tuning and Analysis of the Utility of Generated Text in AI [2.381686610905853]
我々は,T5モデルにおいて,エンコーダレベルとデコーダレベルの両方でソフトプロンプトを使用する新しいソフトプロンプトチューニング手法を提案する。
また,この拡張軟性誘導型T5モデルのデコーダレベルでの出力のステアリングの可能性についても検討した。
論文 参考訳(メタデータ) (2022-12-06T12:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。