論文の概要: System 2 Attention (is something you might need too)
- arxiv url: http://arxiv.org/abs/2311.11829v1
- Date: Mon, 20 Nov 2023 15:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 18:29:37.995471
- Title: System 2 Attention (is something you might need too)
- Title(参考訳): システム2 注意(必要かもしれないもの)
- Authors: Jason Weston and Sainbayar Sukhbaatar
- Abstract要約: Transformer-based Large Language Models (LLMs) のソフト・アテンションは、文脈から無関係な情報をその潜在表現に組み込むことに影響を受けやすい。
入力コンテキストを再生して関連する部分のみを含むシステム2アテンション(S2A)を導入する。
実験では、S2Aは意見情報や無関係な情報、QA、数学語問題、長文生成を含む3つのタスクにおいて、標準的な注意に基づくLCMよりも優れる。
- 参考スコア(独自算出の注目度): 40.590451919139795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft attention in Transformer-based Large Language Models (LLMs) is
susceptible to incorporating irrelevant information from the context into its
latent representations, which adversely affects next token generations. To help
rectify these issues, we introduce System 2 Attention (S2A), which leverages
the ability of LLMs to reason in natural language and follow instructions in
order to decide what to attend to. S2A regenerates the input context to only
include the relevant portions, before attending to the regenerated context to
elicit the final response. In experiments, S2A outperforms standard
attention-based LLMs on three tasks containing opinion or irrelevant
information, QA, math word problems and longform generation, where S2A
increases factuality and objectivity, and decreases sycophancy.
- Abstract(参考訳): Transformer-based Large Language Models (LLMs) のソフトな注意は、コンテキストからの無関係な情報をその潜在表現に組み込むことによって、次のトークン世代に悪影響を及ぼす可能性がある。
これらの問題を是正するために,LLMが自然言語で推論し,何に参加するかを決定するための指示に従う能力を活用したシステム2注意(S2A)を導入する。
s2aは入力コンテキストを再生し、関連する部分だけを含むようにする。
実験において、s2aは、意見や無関係な情報、qa、数学の単語問題、ロングフォーム生成を含む3つのタスクにおいて、標準的な注意に基づくllmよりも優れており、s2aは事実性と客観性を高め、統合を減少させる。
関連論文リスト
- On the loss of context-awareness in general instruction fine-tuning [101.03941308894191]
命令応答対における教師付き微調整(SFT)のようなポストトレーニング手法は、事前トレーニング中に学習した既存の能力を損なう可能性がある。
そこで本研究では,ユーザプロンプトに配慮したポストホックアテンション・ステアリングと,コンテキスト依存度指標を用いた条件付きインストラクションの微調整という,インストラクションモデルにおけるコンテキスト認識の損失を軽減する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Characterizing Context Influence and Hallucination in Summarization [10.597854898147313]
要約における文脈情報の影響と幻覚について検討する。
文脈の影響は,CIDの私的情報漏洩を低く抑えることを示す。
論文 参考訳(メタデータ) (2024-10-03T22:19:28Z) - How Easily do Irrelevant Inputs Skew the Responses of Large Language Models? [35.78256134989427]
大きな言語モデル(LLM)は多くの知識集約的なタスクを達成するための拡張された能力を示す。
現在の検索システムに固有の欠陥があるため、検索する上位のパスには無関係な情報が存在する可能性がある。
我々は,意味的に無関係で,部分的に関連があり,質問に関連するような,高品質な無関係な情報を構築するための枠組みを導入する。
論文 参考訳(メタデータ) (2024-04-04T08:52:30Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - GreaseLM: Graph REASoning Enhanced Language Models for Question
Answering [159.9645181522436]
GreaseLMは、事前訓練されたLMとグラフニューラルネットワークの符号化された表現を、複数の層にわたるモダリティ相互作用操作で融合する新しいモデルである。
GreaseLMは、状況制約と構造化知識の両方の推論を必要とする問題に、より確実に答えることができる。
論文 参考訳(メタデータ) (2022-01-21T19:00:05Z) - A bifurcation threshold for contact-induced language change [0.0]
本稿では,強化学習と非線形力学に基づく,そのような状況の数学的モデルを提案する。
このモデルは、アフリカーンのモルフォロジーレベルリングと、アフロ・ペルー・スペイン語におけるヌル人の浸食という2つのケーススタディの助けを借りて評価された。
論文 参考訳(メタデータ) (2021-11-23T18:21:12Z) - Understand me, if you refer to Aspect Knowledge: Knowledge-aware Gated
Recurrent Memory Network [54.735400754548635]
アスペクトレベルの感情分類(ASC)は、レビューで言及された特定の側面に対する微粒な感情極性を予測することを目的としている。
最近のASCの進歩にもかかわらず、マシンが重要な側面の感情を推測できるようにすることは依然として困難である。
本稿では,(1)アスペクト知識の欠如によるアスペクト表現がアスペクトの正確な意味と特性情報を表現するのに不十分であること,(2)先行研究は局所的な構文情報とグローバルな関係情報のみを捉えること,という2つの課題に対処する。
論文 参考訳(メタデータ) (2021-08-05T03:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。