論文の概要: Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models
- arxiv url: http://arxiv.org/abs/2312.10091v1
- Date: Wed, 13 Dec 2023 18:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-31 03:55:52.701905
- Title: Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models
- Title(参考訳): look before you leap: 言語モデルにおける検索タスクの普遍的な創発的分解
- Authors: Alexandre Variengien and Eric Winsor
- Abstract要約: 本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
- 参考スコア(独自算出の注目度): 58.57279229066477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When solving challenging problems, language models (LMs) are able to identify
relevant information from long and complicated contexts. To study how LMs solve
retrieval tasks in diverse situations, we introduce ORION, a collection of
structured retrieval tasks spanning six domains, from text understanding to
coding. Each task in ORION can be represented abstractly by a request (e.g. a
question) that retrieves an attribute (e.g. the character name) from a context
(e.g. a story). We apply causal analysis on 18 open-source language models with
sizes ranging from 125 million to 70 billion parameters. We find that LMs
internally decompose retrieval tasks in a modular way: middle layers at the
last token position process the request, while late layers retrieve the correct
entity from the context. After causally enforcing this decomposition, models
are still able to solve the original task, preserving 70% of the original
correct token probability in 98 of the 106 studied model-task pairs. We connect
our macroscopic decomposition with a microscopic description by performing a
fine-grained case study of a question-answering task on Pythia-2.8b. Building
on our high-level understanding, we demonstrate a proof of concept application
for scalable internal oversight of LMs to mitigate prompt-injection while
requiring human supervision on only a single input. Our solution improves
accuracy drastically (from 15.5% to 97.5% on Pythia-12b). This work presents
evidence of a universal emergent modular processing of tasks across varied
domains and models and is a pioneering effort in applying interpretability for
scalable internal oversight of LMs.
- Abstract(参考訳): 難しい問題を解決するとき、言語モデル(LM)は、長く複雑なコンテキストから関連する情報を識別することができる。
そこで本研究では,テキスト理解からコーディングまで,6つの領域にまたがる構造化検索タスクの集合であるORIONを導入する。
ORIONの各タスクは、コンテキスト(例えば、ストーリー)から属性(例えば、文字名)を検索するリクエスト(例えば、質問)によって抽象的に表現することができる。
1億2500万から7千億のパラメータを持つ18のオープンソース言語モデルに因果分析を適用する。
最後のトークン位置にある中間層はリクエストを処理し、後期層はコンテキストから正しいエンティティを検索する。
この分解を因果的に実施した後、モデルはまだ元のタスクを解決でき、106のモデル-タスクペアのうち98で元の正しいトークン確率の70%を保存できる。
我々はpythia-2.8b上の質問応答タスクの詳細なケーススタディを行い,マクロ分解と微視的記述を結びつけた。
高レベルの理解に基づいて,1回の入力のみを人間に監督させることなく,プロンプト注入を緩和するために,LMのスケーラブルな内部監視のための概念実証を行った。
ソリューションは精度を大幅に向上させる(pythia-12bでは15.5%から97.5%)。
この研究は、様々な領域やモデルにまたがるタスクの普遍的創発的モジュラー処理の証拠を示し、LMのスケーラブルな内部監視に解釈可能性を適用するための先駆的な取り組みである。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Probing the Robustness of Theory of Mind in Large Language Models [6.7932860553262415]
LLMにおけるToM探索のための68タスクの新しいデータセットを提案する。
データセットとデータセットを用いた4つのSotAオープンソースLLMのToM性能の評価(Kosinski, 2023)。
エージェントが環境における自動状態変化の知識を持っているという認識を必要とするタスクにおいて、全てのLLMが不整合性を示す傾向がみられた。
論文 参考訳(メタデータ) (2024-10-08T18:13:27Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - ZEROTOP: Zero-Shot Task-Oriented Semantic Parsing using Large Language
Models [6.13621607944513]
本稿では,ゼロショットタスク指向構文解析法であるZEROTOPを提案する。
MTOPデータセットの発話の16%を,注釈付きデータを必要とすることなく正確に解析できることを示す。
論文 参考訳(メタデータ) (2022-12-21T07:06:55Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Is a Question Decomposition Unit All We Need? [20.66688303609522]
モデルを解くのが比較的容易な、より単純な質問の集合に、人間が難解な質問を分解できるかどうかを検討する。
我々は、様々な推論形式を含むデータセットを解析し、モデルの性能を大幅に改善することは実際に可能であることを発見した。
以上の結果から,Human-in-the-loop Question Decomposition (HQD) が大規模LM構築の代替となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-25T07:24:09Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。