Fugu-MT 論文翻訳(概要): System 2 Attention (is something you might need too)

論文の概要: System 2 Attention (is something you might need too)

arxiv url: http://arxiv.org/abs/2311.11829v1
Date: Mon, 20 Nov 2023 15:04:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 18:29:37.995471
Title: System 2 Attention (is something you might need too)
Title（参考訳）: システム2 注意(必要かもしれないもの)
Authors: Jason Weston and Sainbayar Sukhbaatar
Abstract要約: Transformer-based Large Language Models (LLMs) のソフト・アテンションは、文脈から無関係な情報をその潜在表現に組み込むことに影響を受けやすい。入力コンテキストを再生して関連する部分のみを含むシステム2アテンション(S2A)を導入する。実験では、S2Aは意見情報や無関係な情報、QA、数学語問題、長文生成を含む3つのタスクにおいて、標準的な注意に基づくLCMよりも優れる。
参考スコア（独自算出の注目度）: 40.590451919139795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.
Abstract（参考訳）: Transformer-based Large Language Models (LLMs) のソフトな注意は、コンテキストからの無関係な情報をその潜在表現に組み込むことによって、次のトークン世代に悪影響を及ぼす可能性がある。これらの問題を是正するために,LLMが自然言語で推論し,何に参加するかを決定するための指示に従う能力を活用したシステム2注意(S2A)を導入する。 s2aは入力コンテキストを再生し、関連する部分だけを含むようにする。実験において、s2aは、意見や無関係な情報、qa、数学の単語問題、ロングフォーム生成を含む3つのタスクにおいて、標準的な注意に基づくllmよりも優れており、s2aは事実性と客観性を高め、統合を減少させる。

関連論文リスト

Two Causally Related Needles in a Video Haystack [4.1753350239906295]
本稿では,長期ビデオ中の2つの場所から情報を抽出し,共同で理解する能力を評価するベンチマークを提案する。 Caul2Needles氏は、長いビデオの中で、原因と影響の両方から情報を抽出する必要がある2-needleの質問を紹介している。実験の結果,既存のベンチマークで優れているモデルでは,2-needleの視覚的接地が困難であることが判明した。
論文参考訳（メタデータ） (2025-05-26T11:37:34Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。 CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
On the loss of context-awareness in general instruction fine-tuning [101.03941308894191]
命令応答対における教師付き微調整(SFT)のようなポストトレーニング手法は、事前トレーニング中に学習した既存の能力を損なう可能性がある。そこで本研究では,ユーザプロンプトに配慮したポストホックアテンション・ステアリングと,コンテキスト依存度指標を用いた条件付きインストラクションの微調整という,インストラクションモデルにおけるコンテキスト認識の損失を軽減する2つの方法を提案する。
論文参考訳（メタデータ） (2024-11-05T00:16:01Z)
Characterizing Context Influence and Hallucination in Summarization [10.597854898147313]
要約における文脈情報の影響と幻覚について検討する。文脈の影響は,CIDの私的情報漏洩を低く抑えることを示す。
論文参考訳（メタデータ） (2024-10-03T22:19:28Z)
Unveiling the Ignorance of MLLMs: Seeing Clearly, Answering Incorrectly [44.31985939516153]
MLLM(Multimodal Large Language Models)は、マルチモーダルタスクにおいて顕著な性能を示す。 MLLMは、視覚的内容を理解した場合でも、誤った回答をしばしば生成することを示す。テキストと視覚的プロンプトを精細化し,デコード中の視覚的コンテンツに焦点を当てることを提案する。
論文参考訳（メタデータ） (2024-06-15T13:58:26Z)
How Easily do Irrelevant Inputs Skew the Responses of Large Language Models? [35.78256134989427]
大きな言語モデル(LLM)は多くの知識集約的なタスクを達成するための拡張された能力を示す。現在の検索システムに固有の欠陥があるため、検索する上位のパスには無関係な情報が存在する可能性がある。我々は,意味的に無関係で,部分的に関連があり,質問に関連するような,高品質な無関係な情報を構築するための枠組みを導入する。
論文参考訳（メタデータ） (2024-04-04T08:52:30Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文参考訳（メタデータ） (2023-07-03T22:17:16Z)
Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。コンテキスト関連属性と関係知識を知識ベースから取得する。また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文参考訳（メタデータ） (2023-05-17T06:33:26Z)
GreaseLM: Graph REASoning Enhanced Language Models for Question Answering [159.9645181522436]
GreaseLMは、事前訓練されたLMとグラフニューラルネットワークの符号化された表現を、複数の層にわたるモダリティ相互作用操作で融合する新しいモデルである。 GreaseLMは、状況制約と構造化知識の両方の推論を必要とする問題に、より確実に答えることができる。
論文参考訳（メタデータ） (2022-01-21T19:00:05Z)
A bifurcation threshold for contact-induced language change [0.0]
本稿では,強化学習と非線形力学に基づく,そのような状況の数学的モデルを提案する。このモデルは、アフリカーンのモルフォロジーレベルリングと、アフロ・ペルー・スペイン語におけるヌル人の浸食という2つのケーススタディの助けを借りて評価された。
論文参考訳（メタデータ） (2021-11-23T18:21:12Z)
Understand me, if you refer to Aspect Knowledge: Knowledge-aware Gated Recurrent Memory Network [54.735400754548635]
アスペクトレベルの感情分類(ASC)は、レビューで言及された特定の側面に対する微粒な感情極性を予測することを目的としている。最近のASCの進歩にもかかわらず、マシンが重要な側面の感情を推測できるようにすることは依然として困難である。本稿では,(1)アスペクト知識の欠如によるアスペクト表現がアスペクトの正確な意味と特性情報を表現するのに不十分であること,(2)先行研究は局所的な構文情報とグローバルな関係情報のみを捉えること,という2つの課題に対処する。
論文参考訳（メタデータ） (2021-08-05T03:39:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。