Fugu-MT 論文翻訳(概要): Attention Instruction: Amplifying Attention in the Middle via Prompting

論文の概要: Attention Instruction: Amplifying Attention in the Middle via Prompting

arxiv url: http://arxiv.org/abs/2406.17095v1
Date: Mon, 24 Jun 2024 19:35:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 18:31:07.445649
Title: Attention Instruction: Amplifying Attention in the Middle via Prompting
Title（参考訳）: 注意指示: プロンプティングによる中産階級の注意力向上
Authors: Meiru Zhang, Zaiqiao Meng, Nigel Collier,
Abstract要約: 言語モデルはいまだ位置バイアスに悩まされており、コンテキストの中央へのアクセスと使用が困難である。本研究では,LSMの相対的位置認識と,プロンプトによる不均等注意の軽減の可能性について検討した。
参考スコア（独自算出の注目度）: 35.07098912195063
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The context window of large language models has been extended to 128k tokens or more. However, language models still suffer from position bias and have difficulty in accessing and using the middle part of the context due to the lack of attention. We examine the relative position awareness of LLMs and the feasibility of mitigating disproportional attention through prompting. We augment the original task instruction with $\texttt{attention instructions}$ that direct language models to allocate more attention towards a selected segment of the context. We conduct a comprehensive investigation on multi-document question answering task with both position-based and index-based instructions. We find that language models do not have relative position awareness of the context. Nevertheless, they demonstrate the capacity to adapt attention to a specific segment using matching indexes. Our analysis contributes to a deeper understanding of position bias in LLMs and provides a pathway to mitigate this bias by instruction, thus benefiting LLMs in locating and utilizing relevant information from retrieved documents in RAG applications.
Abstract（参考訳）: 大きな言語モデルのコンテキストウィンドウは128k以上のトークンに拡張されている。しかし、言語モデルはいまだ位置バイアスに悩まされており、注意の欠如により、コンテキストの中央へのアクセスと使用が困難である。本研究では,LSMの相対的位置認識と,プロンプトによる不均等注意の軽減の可能性について検討した。元のタスク命令を$\texttt{attention instructions}$で拡張します。我々は、位置ベースとインデックスベースの両方の指示を用いて、多文書質問応答タスクを包括的に調査する。言語モデルには文脈に対する相対的な位置認識がないことがわかった。それでも、マッチングインデックスを使用して特定のセグメントに注意を向ける能力を示す。我々の分析は、LLMにおける位置バイアスのより深い理解に寄与し、このバイアスを命令によって緩和する経路を提供する。

関連論文リスト

How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation [7.478369203246005]
大規模言語モデル(LLM)を用いた検索言語拡張生成(RAG)は,多言語質問応答タスクにおいて高い性能を示した。多言語RAGでは、検索されたパスは、ユーザが入力したクエリ以外の言語で書くことができる。
論文参考訳（メタデータ） (2025-04-01T09:55:23Z)
Focus Directions Make Your Language Models Pay More Attention to Relevant Contexts [13.459944861140261]
長文大言語モデル(LLM)は、無関係な文脈によって邪魔される傾向がある。本稿では,コンテキストヘッドが関連するコンテキストに十分な注意を払っていない場合に,注意散らしが発生することを示す。我々は、これらのヘッドのキーとクエリのアクティベーションに位置するフォーカス方向を特定し、関連するコンテキストにより多くの注意を割り当てることを可能にする。
論文参考訳（メタデータ） (2025-03-30T04:18:28Z)
Enhancing Entertainment Translation for Indian Languages using Adaptive Context, Style and LLMs [3.55026004901472]
本稿では,現在のセッションの文脈とスタイルを推定するアルゴリズムを導入し,これらの推定値を用いてLLM(Large Language Model)を誘導し,高品質な翻訳を生成するプロンプトを生成する。本手法はLLMに依存しない言語であり,汎用ツールである。
論文参考訳（メタデータ） (2024-12-29T11:33:51Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文参考訳（メタデータ） (2024-11-08T19:27:42Z)
On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文参考訳（メタデータ） (2024-11-05T00:16:01Z)
Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models [41.233879429714925]
本研究は,フレーズ意味論を理解するためのAPIベースの大規模言語モデルの能力について批判的に考察する。自然言語命令で指示されたフレーズ意味推論タスクの実行におけるLLMの性能を評価する。句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。
論文参考訳（メタデータ） (2024-10-03T08:44:17Z)
Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。 AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文参考訳（メタデータ） (2024-05-02T17:32:59Z)
Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。 (Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。 LLMはコンテキストの中央に位置する関連情報を扱う。
論文参考訳（メタデータ） (2024-03-05T04:58:37Z)
Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文参考訳（メタデータ） (2024-01-22T12:54:04Z)
Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文参考訳（メタデータ） (2023-12-15T15:46:02Z)
Lenna: Language Enhanced Reasoning Detection Assistant [22.105472753701076]
大規模な言語モデルに埋め込まれた推論能力と世界知識は、画像認識タスクにおいて、はるかに少ない研究と活用がなされている。 MLLMの頑健なマルチモーダル特徴表現を利用した言語強化推論検出アシスタントLennaを提案する。 LennaはReasonDetで優れたパフォーマンスを示しており、トレーニングコストはかなり低い。
論文参考訳（メタデータ） (2023-12-05T02:19:35Z)
Attention Sorting Combats Recency Bias In Long Context Language Models [69.06809365227504]
現在の言語モデルは、世代間の長いコンテキストを効率的に組み込むことができないことが多い。この問題に対する主要なコントリビュータは,事前トレーニング中に学んだと思われる注意点である。我々は、この事実を活用して注意ソートを導入する:1ステップのデコードを実行し、それらが受け取った注意によって文書をソートし、プロセスを繰り返し、新しくソートされたコンテキストで回答を生成する。
論文参考訳（メタデータ） (2023-09-28T05:19:06Z)
IERL: Interpretable Ensemble Representation Learning -- Combining CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文参考訳（メタデータ） (2023-06-24T05:02:34Z)
Contextual information integration for stance detection via cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。文脈情報をテキストとして統合する手法を提案する。
論文参考訳（メタデータ） (2022-11-03T15:04:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。