Fugu-MT 論文翻訳(概要): Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models

論文の概要: Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models

arxiv url: http://arxiv.org/abs/2312.10091v1
Date: Wed, 13 Dec 2023 18:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-31 03:55:52.701905
Title: Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models
Title（参考訳）: look before you leap: 言語モデルにおける検索タスクの普遍的な創発的分解
Authors: Alexandre Variengien and Eric Winsor
Abstract要約: 本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。 ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。 LMは内部的にモジュール方式で検索タスクを分解する。
参考スコア（独自算出の注目度）: 58.57279229066477
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When solving challenging problems, language models (LMs) are able to identify relevant information from long and complicated contexts. To study how LMs solve retrieval tasks in diverse situations, we introduce ORION, a collection of structured retrieval tasks spanning six domains, from text understanding to coding. Each task in ORION can be represented abstractly by a request (e.g. a question) that retrieves an attribute (e.g. the character name) from a context (e.g. a story). We apply causal analysis on 18 open-source language models with sizes ranging from 125 million to 70 billion parameters. We find that LMs internally decompose retrieval tasks in a modular way: middle layers at the last token position process the request, while late layers retrieve the correct entity from the context. After causally enforcing this decomposition, models are still able to solve the original task, preserving 70% of the original correct token probability in 98 of the 106 studied model-task pairs. We connect our macroscopic decomposition with a microscopic description by performing a fine-grained case study of a question-answering task on Pythia-2.8b. Building on our high-level understanding, we demonstrate a proof of concept application for scalable internal oversight of LMs to mitigate prompt-injection while requiring human supervision on only a single input. Our solution improves accuracy drastically (from 15.5% to 97.5% on Pythia-12b). This work presents evidence of a universal emergent modular processing of tasks across varied domains and models and is a pioneering effort in applying interpretability for scalable internal oversight of LMs.
Abstract（参考訳）: 難しい問題を解決するとき、言語モデル(LM)は、長く複雑なコンテキストから関連する情報を識別することができる。そこで本研究では,テキスト理解からコーディングまで,6つの領域にまたがる構造化検索タスクの集合であるORIONを導入する。 ORIONの各タスクは、コンテキスト(例えば、ストーリー)から属性(例えば、文字名)を検索するリクエスト(例えば、質問)によって抽象的に表現することができる。 1億2500万から7千億のパラメータを持つ18のオープンソース言語モデルに因果分析を適用する。最後のトークン位置にある中間層はリクエストを処理し、後期層はコンテキストから正しいエンティティを検索する。この分解を因果的に実施した後、モデルはまだ元のタスクを解決でき、106のモデル-タスクペアのうち98で元の正しいトークン確率の70%を保存できる。我々はpythia-2.8b上の質問応答タスクの詳細なケーススタディを行い,マクロ分解と微視的記述を結びつけた。高レベルの理解に基づいて,1回の入力のみを人間に監督させることなく,プロンプト注入を緩和するために,LMのスケーラブルな内部監視のための概念実証を行った。ソリューションは精度を大幅に向上させる(pythia-12bでは15.5%から97.5%)。この研究は、様々な領域やモデルにまたがるタスクの普遍的創発的モジュラー処理の証拠を示し、LMのスケーラブルな内部監視に解釈可能性を適用するための先駆的な取り組みである。

関連論文リスト

LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery [45.87124064438554]
複雑なリモートセンシングシーンを記述した視覚言語モデルであるLISAtを紹介する。我々は、9,205枚の画像に27,615個のアノテーションを付加した新しいジオ空間推論・セグメンテーションデータセット、GRESでLISAtをトレーニングした。 LISAtは、セグメンテーションタスクを143.36%(gIoU)の精度で、最先端のオープンドメインモデルより優れている
論文参考訳（メタデータ） (2025-05-05T17:56:25Z)
Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文参考訳（メタデータ） (2025-05-01T18:12:30Z)
Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer [37.81465564673498]
大規模言語モデル(LLM)は、数学的推論タスクを解く上で有望な能力を示した。メタプロブレムのリコールとリフレクションを LLM に明示的に促すフレームワークである textbfMetaLadder を提案する。我々のMetaLadderはLLMの問題解決精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-19T04:36:35Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
Probing the Robustness of Theory of Mind in Large Language Models [6.7932860553262415]
LLMにおけるToM探索のための68タスクの新しいデータセットを提案する。データセットとデータセットを用いた4つのSotAオープンソースLLMのToM性能の評価(Kosinski, 2023)。エージェントが環境における自動状態変化の知識を持っているという認識を必要とするタスクにおいて、全てのLLMが不整合性を示す傾向がみられた。
論文参考訳（メタデータ） (2024-10-08T18:13:27Z)
Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。 AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文参考訳（メタデータ） (2024-05-02T17:32:59Z)
Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文参考訳（メタデータ） (2024-03-04T19:12:48Z)
Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文参考訳（メタデータ） (2023-05-25T15:04:01Z)
ZEROTOP: Zero-Shot Task-Oriented Semantic Parsing using Large Language Models [6.13621607944513]
本稿では,ゼロショットタスク指向構文解析法であるZEROTOPを提案する。 MTOPデータセットの発話の16%を,注釈付きデータを必要とすることなく正確に解析できることを示す。
論文参考訳（メタデータ） (2022-12-21T07:06:55Z)
Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文参考訳（メタデータ） (2022-12-08T06:03:38Z)
Is a Question Decomposition Unit All We Need? [20.66688303609522]
モデルを解くのが比較的容易な、より単純な質問の集合に、人間が難解な質問を分解できるかどうかを検討する。我々は、様々な推論形式を含むデータセットを解析し、モデルの性能を大幅に改善することは実際に可能であることを発見した。以上の結果から,Human-in-the-loop Question Decomposition (HQD) が大規模LM構築の代替となる可能性が示唆された。
論文参考訳（メタデータ） (2022-05-25T07:24:09Z)
Text Modular Networks: Learning to Decompose Tasks in the Language of Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文参考訳（メタデータ） (2020-09-01T23:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。