Fugu-MT 論文翻訳(概要): Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering

論文の概要: Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering

arxiv url: http://arxiv.org/abs/2311.09198v1
Date: Wed, 15 Nov 2023 18:42:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 14:25:46.779637
Title: Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering
Title（参考訳）: never lost in the middle: 注意力強化による大規模言語モデルの改善
Authors: He Junqing, Pan Kunhao, Dong Xiaoqun, Song Zhuoyang, Liu Yibo, Liang Yuxin, Wang Hao, Sun Qianguo, Zhang Songxin, Xie Zejian, Zhang Jiaxing
Abstract要約: 大規模言語モデル(LLM)は、長い文脈で正しい情報を求めるのに苦労している。本稿では,LLMの長期的コンテキストにおける情報探索と反射能力の向上を,特別に設計されたタスクを通して行うことを提案する。実験の結果、マルチドックQAやその他のベンチマークでは、シャッフル設定において、最先端モデルよりも13.7%向上した。
参考スコア（独自算出の注目度）: 0.14043931310479374
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While large language models (LLMs) are equipped with longer text input capabilities than before, they are struggling to seek correct information in long contexts. The "lost in the middle" problem challenges most LLMs, referring to the dramatic decline in accuracy when correct information is located in the middle. To overcome this crucial issue, this paper proposes to enhance the information searching and reflection ability of LLMs in long contexts via specially designed tasks called Attention Strengthening Multi-doc QA (ASM QA). Following these tasks, our model excels in focusing more precisely on the desired information. Experimental results show substantial improvement in Multi-doc QA and other benchmarks, superior to state-of-the-art models by 13.7% absolute gain in shuffled settings, by 21.5% in passage retrieval task. We release our model, Ziya-Reader to promote related research in the community.
Abstract（参考訳）: 大きな言語モデル(LLM)は、以前よりも長いテキスト入力機能を備えているが、長いコンテキストで正しい情報を求めるのに苦労している。中間のロスト」問題は、正しい情報が中央にある場合の精度の劇的な低下に言及して、ほとんどのLCMに挑戦する。この課題を克服するために,ASM QA (Atentionening Multi-doc QA) と呼ばれる特別に設計されたタスクを通じて,LLMの長期的コンテキストにおける情報探索と反射能力を向上させることを提案する。これらのタスクの後、我々のモデルはより正確に所望の情報に集中することに長けている。実験の結果、マルチドックQAやその他のベンチマークは、最先端モデルよりも13.7%、シャッフル設定では21.5%向上した。我々は,コミュニティにおける関連研究を促進するために,モデルziya-readerをリリースする。

関連論文リスト

Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。 RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文参考訳（メタデータ） (2025-04-17T16:46:11Z)
FactGuard: Leveraging Multi-Agent Systems to Generate Answerable and Unanswerable Questions for Enhanced Long-Context LLM Extraction [25.00896070082754]
抽出読解システムは、与えられたテキスト内の質問に対する正しい答えを見つけるように設計されている。永続的な課題は、これらのモデルが、答えられないクエリを確実に認識しながら、質問に答える上で高い精度を維持することである。マルチエージェント協調フレームワークを基盤とした革新的なデータ拡張手法を提案する。
論文参考訳（メタデータ） (2025-04-08T01:45:16Z)
Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文参考訳（メタデータ） (2024-11-08T19:27:42Z)
Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs [50.40165119718928]
LongPiBenchは、複数の関連する情報を含む位置バイアスを評価するために設計されたベンチマークである。これらの実験によると、現在のほとんどのモデルは「中間の失われた」問題に対して堅牢であるが、関連する情報片の間隔に関する重大なバイアスが存在する。
論文参考訳（メタデータ） (2024-10-18T17:41:19Z)
ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文参考訳（メタデータ） (2024-10-04T08:29:12Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization [97.84156490765457]
大規模言語モデル(LLM)は、入力の中央に位置する関連する情報を取得するのに苦労する。この現象はミドル・イン・ザ・ミドル問題として知られている。また,中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級健常者を対象に,長期にわたる中級中級中級中級中級健常者を対象とした。
論文参考訳（メタデータ） (2024-06-23T04:35:42Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文参考訳（メタデータ） (2024-05-07T07:39:15Z)
Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。 (Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。 LLMはコンテキストの中央に位置する関連情報を扱う。
論文参考訳（メタデータ） (2024-03-05T04:58:37Z)
Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。 LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文参考訳（メタデータ） (2023-12-18T13:40:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。