論文の概要: System 2 Attention (is something you might need too)
- arxiv url: http://arxiv.org/abs/2311.11829v1
- Date: Mon, 20 Nov 2023 15:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 18:29:37.995471
- Title: System 2 Attention (is something you might need too)
- Title(参考訳): システム2 注意(必要かもしれないもの)
- Authors: Jason Weston and Sainbayar Sukhbaatar
- Abstract要約: Transformer-based Large Language Models (LLMs) のソフト・アテンションは、文脈から無関係な情報をその潜在表現に組み込むことに影響を受けやすい。
入力コンテキストを再生して関連する部分のみを含むシステム2アテンション(S2A)を導入する。
実験では、S2Aは意見情報や無関係な情報、QA、数学語問題、長文生成を含む3つのタスクにおいて、標準的な注意に基づくLCMよりも優れる。
- 参考スコア(独自算出の注目度): 40.590451919139795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft attention in Transformer-based Large Language Models (LLMs) is
susceptible to incorporating irrelevant information from the context into its
latent representations, which adversely affects next token generations. To help
rectify these issues, we introduce System 2 Attention (S2A), which leverages
the ability of LLMs to reason in natural language and follow instructions in
order to decide what to attend to. S2A regenerates the input context to only
include the relevant portions, before attending to the regenerated context to
elicit the final response. In experiments, S2A outperforms standard
attention-based LLMs on three tasks containing opinion or irrelevant
information, QA, math word problems and longform generation, where S2A
increases factuality and objectivity, and decreases sycophancy.
- Abstract(参考訳): Transformer-based Large Language Models (LLMs) のソフトな注意は、コンテキストからの無関係な情報をその潜在表現に組み込むことによって、次のトークン世代に悪影響を及ぼす可能性がある。
これらの問題を是正するために,LLMが自然言語で推論し,何に参加するかを決定するための指示に従う能力を活用したシステム2注意(S2A)を導入する。
s2aは入力コンテキストを再生し、関連する部分だけを含むようにする。
実験において、s2aは、意見や無関係な情報、qa、数学の単語問題、ロングフォーム生成を含む3つのタスクにおいて、標準的な注意に基づくllmよりも優れており、s2aは事実性と客観性を高め、統合を減少させる。
関連論文リスト
- Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Unveiling the Ignorance of MLLMs: Seeing Clearly, Answering Incorrectly [44.31985939516153]
MLLM(Multimodal Large Language Models)は、マルチモーダルタスクにおいて顕著な性能を示す。
MLLMは、視覚的内容を理解した場合でも、誤った回答をしばしば生成することを示す。
テキストと視覚的プロンプトを精細化し,デコード中の視覚的コンテンツに焦点を当てることを提案する。
論文 参考訳(メタデータ) (2024-06-15T13:58:26Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - GreaseLM: Graph REASoning Enhanced Language Models for Question
Answering [159.9645181522436]
GreaseLMは、事前訓練されたLMとグラフニューラルネットワークの符号化された表現を、複数の層にわたるモダリティ相互作用操作で融合する新しいモデルである。
GreaseLMは、状況制約と構造化知識の両方の推論を必要とする問題に、より確実に答えることができる。
論文 参考訳(メタデータ) (2022-01-21T19:00:05Z) - A bifurcation threshold for contact-induced language change [0.0]
本稿では,強化学習と非線形力学に基づく,そのような状況の数学的モデルを提案する。
このモデルは、アフリカーンのモルフォロジーレベルリングと、アフロ・ペルー・スペイン語におけるヌル人の浸食という2つのケーススタディの助けを借りて評価された。
論文 参考訳(メタデータ) (2021-11-23T18:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。