Fugu-MT 論文翻訳(概要): Insights into LLM Long-Context Failures: When Transformers Know but Don't Tell

論文の概要: Insights into LLM Long-Context Failures: When Transformers Know but Don't Tell

arxiv url: http://arxiv.org/abs/2406.14673v1
Date: Thu, 20 Jun 2024 18:50:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 18:08:45.609285
Title: Insights into LLM Long-Context Failures: When Transformers Know but Don't Tell
Title（参考訳）: LLMの長期的障害に対する洞察: トランスフォーマーが知っているが分からない
Authors: Taiming Lu, Muhan Gao, Kuai Yu, Adam Byerly, Daniel Khashabi,
Abstract要約: 大規模言語モデル(LLM)は位置バイアスを示し、長い文脈の中端からの情報を活用するのに苦労する。 LLMはターゲット情報の位置を符号化するが、正確な応答を生成するのに失敗することが多い。
参考スコア（独自算出の注目度）: 14.146413770229392
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) exhibit positional bias, struggling to utilize information from the middle or end of long contexts. Our study explores LLMs' long-context reasoning by probing their hidden representations. We find that while LLMs encode the position of target information, they often fail to leverage this in generating accurate responses. This reveals a disconnect between information retrieval and utilization, a "know but don't tell" phenomenon. We further analyze the relationship between extraction time and final accuracy, offering insights into the underlying mechanics of transformer models.
Abstract（参考訳）: 大規模言語モデル(LLM)は位置バイアスを示し、長い文脈の中端からの情報を活用するのに苦労する。本研究では,LLMの長文推論を隠蔽表現を用いて探索する。 LLMはターゲット情報の位置を符号化するが、正確な応答を生成するのに失敗することが多い。このことは、情報検索と利用の切り離し、すなわち"知識はあるが分からない"現象を明らかにしている。さらに、抽出時間と最終的な精度の関係を解析し、トランスモデルの基盤となる力学に関する洞察を提供する。

関連論文リスト

Retrieval Augmented Question Answering: When Should LLMs Admit Ignorance? [13.893751277489294]
長いコンテキストは、モデルの生成プロセスを妨げ、その性能を低下させる、より無関係な情報をもたらす。我々は,検索した情報を小さなチャンクに分割し,LCMに質問への回答を促す適応的プロンプト戦略を設計する。 3つのオープンドメイン質問応答データセットの実験結果は、適応戦略が標準プロンプトの性能と一致することを示す。
論文参考訳（メタデータ） (2025-12-29T19:59:10Z)
Positional Biases Shift as Inputs Approach Context Window Limits [57.00239097102958]
入力がモデルのコンテキストウィンドウの最大50%を占める場合、LiM効果は最強となる。関係情報が入力の終端に近づくと,モデルの性能が向上する,距離に基づくバイアスが観測される。
論文参考訳（メタデータ） (2025-08-10T20:40:24Z)
How does Misinformation Affect Large Language Model Behaviors and Preferences? [37.06385727015972]
大きな言語モデル(LLM)は、知識集約的なタスクにおいて顕著な能力を示している。我々は,LLMの行動と誤情報に対する知識嗜好を評価するための,現在最大かつ最も包括的なベンチマークであるMisBenchを紹介する。実証的な結果から、LLMは誤報を識別する能力に匹敵する能力を示すが、知識の衝突やスタイルのバリエーションの影響を受けやすいままであることが明らかとなった。
論文参考訳（メタデータ） (2025-05-27T17:57:44Z)
Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文参考訳（メタデータ） (2025-01-31T23:42:53Z)
Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs [50.40165119718928]
LongPiBenchは、複数の関連する情報を含む位置バイアスを評価するために設計されたベンチマークである。これらの実験によると、現在のほとんどのモデルは「中間の失われた」問題に対して堅牢であるが、関連する情報片の間隔に関する重大なバイアスが存在する。
論文参考訳（メタデータ） (2024-10-18T17:41:19Z)
ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文参考訳（メタデータ） (2024-10-04T08:29:12Z)
Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization [97.84156490765457]
大規模言語モデル(LLM)は、入力の中央に位置する関連する情報を取得するのに苦労する。この現象はミドル・イン・ザ・ミドル問題として知られている。また,中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級健常者を対象に,長期にわたる中級中級中級中級中級健常者を対象とした。
論文参考訳（メタデータ） (2024-06-23T04:35:42Z)
Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-05-10T15:10:20Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文参考訳（メタデータ） (2024-03-05T18:22:33Z)
Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。 (Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。 LLMはコンテキストの中央に位置する関連情報を扱う。
論文参考訳（メタデータ） (2024-03-05T04:58:37Z)
Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文参考訳（メタデータ） (2024-01-22T12:54:04Z)
Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文参考訳（メタデータ） (2023-11-14T18:57:15Z)
Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong [35.64962031447787]
大規模言語モデル(LLM)は、Web上の情報へのアクセスにますます使われています。 80人のクラウドワーカーによる実験では,事実チェックを容易にするために,言語モデルと検索エンジン(情報検索システム)を比較した。 LLMの説明を読むユーザーは、類似の精度を保ちながら、検索エンジンを使用するものよりもはるかに効率的である。
論文参考訳（メタデータ） (2023-10-19T08:09:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。