論文の概要: Never Lost in the Middle: Improving Large Language Models via Attention
Strengthening Question Answering
- arxiv url: http://arxiv.org/abs/2311.09198v1
- Date: Wed, 15 Nov 2023 18:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 14:25:46.779637
- Title: Never Lost in the Middle: Improving Large Language Models via Attention
Strengthening Question Answering
- Title(参考訳): never lost in the middle: 注意力強化による大規模言語モデルの改善
- Authors: He Junqing, Pan Kunhao, Dong Xiaoqun, Song Zhuoyang, Liu Yibo, Liang
Yuxin, Wang Hao, Sun Qianguo, Zhang Songxin, Xie Zejian, Zhang Jiaxing
- Abstract要約: 大規模言語モデル(LLM)は、長い文脈で正しい情報を求めるのに苦労している。
本稿では,LLMの長期的コンテキストにおける情報探索と反射能力の向上を,特別に設計されたタスクを通して行うことを提案する。
実験の結果、マルチドックQAやその他のベンチマークでは、シャッフル設定において、最先端モデルよりも13.7%向上した。
- 参考スコア(独自算出の注目度): 0.14043931310479374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) are equipped with longer text input
capabilities than before, they are struggling to seek correct information in
long contexts. The "lost in the middle" problem challenges most LLMs, referring
to the dramatic decline in accuracy when correct information is located in the
middle. To overcome this crucial issue, this paper proposes to enhance the
information searching and reflection ability of LLMs in long contexts via
specially designed tasks called Attention Strengthening Multi-doc QA (ASM QA).
Following these tasks, our model excels in focusing more precisely on the
desired information. Experimental results show substantial improvement in
Multi-doc QA and other benchmarks, superior to state-of-the-art models by 13.7%
absolute gain in shuffled settings, by 21.5% in passage retrieval task. We
release our model, Ziya-Reader to promote related research in the community.
- Abstract(参考訳): 大きな言語モデル(LLM)は、以前よりも長いテキスト入力機能を備えているが、長いコンテキストで正しい情報を求めるのに苦労している。
中間のロスト」問題は、正しい情報が中央にある場合の精度の劇的な低下に言及して、ほとんどのLCMに挑戦する。
この課題を克服するために,ASM QA (Atentionening Multi-doc QA) と呼ばれる特別に設計されたタスクを通じて,LLMの長期的コンテキストにおける情報探索と反射能力を向上させることを提案する。
これらのタスクの後、我々のモデルはより正確に所望の情報に集中することに長けている。
実験の結果、マルチドックQAやその他のベンチマークは、最先端モデルよりも13.7%、シャッフル設定では21.5%向上した。
我々は,コミュニティにおける関連研究を促進するために,モデルziya-readerをリリースする。
関連論文リスト
- Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Enhancing Legal Document Retrieval: A Multi-Phase Approach with Large Language Models [7.299483088092052]
本研究は,検索システムの最終段階として,プロンプトの可能性を最大化することに焦点を当てる。
COLIEE 2023データセットの実験では、LLMのプロンプト技術を検索システムに組み込むことで、検索精度が大幅に向上することが示された。
しかし、誤り解析は、まだ解決が必要な検索システムにおいて、いくつかの既存の問題を明らかにしている。
論文 参考訳(メタデータ) (2024-03-26T20:25:53Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - Factuality of Large Language Models in the Year 2024 [31.039783688574897]
我々は、主要な課題とその原因を特定することを目的として、既存の研究を批判的に分析する。
オープンエンドテキスト生成における事実自動評価の障害を解析する。
論文 参考訳(メタデータ) (2024-02-04T09:36:31Z) - Training With "Paraphrasing the Original Text'' Improves Long-Context Performance [0.0]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本稿では,これらの問題の根幹を検索能力の欠如として認識し,長いコンテキストにおけるキー情報の空間性によって悪化する。
本稿では,LLMの長文情報抽出能力を高めることを目的とした,"Paraphrasing the Original Text'"という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - Analysis of the Reasoning with Redundant Information Provided Ability of
Large Language Models [0.0]
大きな言語モデル(LLM)は、さまざまな自然言語処理タスクにまたがる印象的な機能を示している。
このギャップに対処するため,Reasoning with Redundant Information Provided (RRIP) と呼ばれる新しいQAタスクが導入された。
本研究は,LlaMA2-13B-chatとGPT-3.5 (generative pre-trained transformer 3.5)の2つのLLMを評価し,従来のQAタスクとRRIPタスクとの対比を行った。
論文 参考訳(メタデータ) (2023-10-06T06:20:06Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。