論文の概要: Causal Reasoning Favors Encoders: On The Limits of Decoder-Only Models
- arxiv url: http://arxiv.org/abs/2512.10561v1
- Date: Thu, 11 Dec 2025 11:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.344592
- Title: Causal Reasoning Favors Encoders: On The Limits of Decoder-Only Models
- Title(参考訳): 因果推論はエンコーダを好む:デコーダ専用モデルの限界について
- Authors: Amartya Roy, Elamparithy M, Kripabandhu Ghosh, Ponnurangam Kumaraguru, Adrian de Wynter,
- Abstract要約: 文脈学習(ICL)は、大規模言語モデル(LLM)の最近の進歩を支えている。
上記のアーキテクチャをすべて微調整したバージョンを、自然言語と非自然言語の両方のシナリオで0とほとんどショットICLと比較する。
ICLだけでは、信頼性の高い因果推論には不十分であり、しばしば無関係な入力特徴に重きを置いている。
- 参考スコア(独自算出の注目度): 17.565951182256097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In context learning (ICL) underpins recent advances in large language models (LLMs), although its role and performance in causal reasoning remains unclear. Causal reasoning demands multihop composition and strict conjunctive control, and reliance on spurious lexical relations of the input could provide misleading results. We hypothesize that, due to their ability to project the input into a latent space, encoder and encoder decoder architectures are better suited for said multihop conjunctive reasoning versus decoder only models. To do this, we compare fine-tuned versions of all the aforementioned architectures with zero and few shot ICL in both natural language and non natural language scenarios. We find that ICL alone is insufficient for reliable causal reasoning, often overfocusing on irrelevant input features. In particular, decoder only models are noticeably brittle to distributional shifts, while finetuned encoder and encoder decoder models can generalize more robustly across our tests, including the non natural language split. Both architectures are only matched or surpassed by decoder only architectures at large scales. We conclude by noting that for cost effective, short horizon robust causal reasoning, encoder or encoder decoder architectures with targeted finetuning are preferable.
- Abstract(参考訳): 文脈学習(ICL)では、因果推論におけるその役割と性能は未だ不明だが、大規模言語モデル(LLM)の最近の進歩を支えている。
因果推論は多重ホップ合成と厳密な接続制御を必要とし、入力の急激な語彙関係に依存することは誤解を招く可能性がある。
我々は、入力を潜在空間に投影する能力のため、エンコーダとエンコーダデコーダアーキテクチャは、上記のマルチホップ共役推論とデコーダのみのモデルに適していると仮定する。
これを実現するために、前述のすべてのアーキテクチャの微調整バージョンを、自然言語と非自然言語の両方のシナリオで0とほとんどショットICLと比較した。
ICLだけでは、信頼性の高い因果推論には不十分であり、しばしば無関係な入力特徴に重きを置いている。
特に、デコーダのみのモデルは、分散シフトに対して顕著に脆弱であり、微調整エンコーダとエンコーダデコーダモデルは、非自然言語分割を含むテスト全体でより堅牢に一般化することができる。
両方のアーキテクチャは、デコーダのみのアーキテクチャによって、大規模にマッチするか、超えるだけである。
我々は,コスト効率,短地平線性を考慮した因果推論,エンコーダ,エンコーダデコーダアーキテクチャが望ましいと結論づけた。
関連論文リスト
- Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model [30.945523139748634]
我々は、エンコーダ-デコーダ LLM (RedLLM) を再検討し、デコーダ専用 LLM (DecLLM) の最近のレシピで拡張する。
我々は、プレフィックス言語モデリング(LM)で事前訓練されたRedLLMと、因果的LMで事前訓練されたDecLLMとを、異なるモデルスケールで総合的に比較する。
プレトレーニングにRedPajama V1(1.6Tトークン)、インストラクションチューニングにFLANを用いることで、RedLLMは魅力的なスケーリング特性と驚くほど強力なパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-10-30T15:48:28Z) - Leveraging Decoder Architectures for Learned Sparse Retrieval [26.483483554222012]
Learned Sparse Retrieval (LSR) は従来,エンコーダのみの小型トランスアーキテクチャに重点を置いてきた。
本研究では,異なるトランスアーキテクチャにおけるLSRの有効性について検討した。
論文 参考訳(メタデータ) (2025-04-25T08:04:52Z) - Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - Return of the Encoder: Maximizing Parameter Efficiency for SLMs [4.246337121596753]
encoder-decoderアーキテクチャは、エッジデバイスのデコーダのみのモデルと比較して、47%のレイテンシと4.7倍のスループットを実現している。
本稿では,エンコーダ・デコーダモデルを用いた,大規模でスケーラブルなデコーダのみの教師の能力を活用した新しい知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T18:06:36Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Lego-Features: Exporting modular encoder features for streaming and
deliberation ASR [34.23347991756358]
モジュール化されたエンコーダ表現によるエンコーダの構築を探求し始めている作業の上に構築する。
私たちのフレームワークは、既存のエンコードされた表現の上に構築され、Lego-Featuresと呼ばれるモジュラー機能に変換します。
RNN-TやLASデコーダでテストすると,Lego-Featuresは強力であることがわかった。
論文 参考訳(メタデータ) (2023-03-31T23:33:21Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。