論文の概要: Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models
- arxiv url: http://arxiv.org/abs/2312.10091v1
- Date: Wed, 13 Dec 2023 18:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-31 03:55:52.701905
- Title: Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models
- Title(参考訳): look before you leap: 言語モデルにおける検索タスクの普遍的な創発的分解
- Authors: Alexandre Variengien and Eric Winsor
- Abstract要約: 本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
- 参考スコア(独自算出の注目度): 58.57279229066477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When solving challenging problems, language models (LMs) are able to identify
relevant information from long and complicated contexts. To study how LMs solve
retrieval tasks in diverse situations, we introduce ORION, a collection of
structured retrieval tasks spanning six domains, from text understanding to
coding. Each task in ORION can be represented abstractly by a request (e.g. a
question) that retrieves an attribute (e.g. the character name) from a context
(e.g. a story). We apply causal analysis on 18 open-source language models with
sizes ranging from 125 million to 70 billion parameters. We find that LMs
internally decompose retrieval tasks in a modular way: middle layers at the
last token position process the request, while late layers retrieve the correct
entity from the context. After causally enforcing this decomposition, models
are still able to solve the original task, preserving 70% of the original
correct token probability in 98 of the 106 studied model-task pairs. We connect
our macroscopic decomposition with a microscopic description by performing a
fine-grained case study of a question-answering task on Pythia-2.8b. Building
on our high-level understanding, we demonstrate a proof of concept application
for scalable internal oversight of LMs to mitigate prompt-injection while
requiring human supervision on only a single input. Our solution improves
accuracy drastically (from 15.5% to 97.5% on Pythia-12b). This work presents
evidence of a universal emergent modular processing of tasks across varied
domains and models and is a pioneering effort in applying interpretability for
scalable internal oversight of LMs.
- Abstract(参考訳): 難しい問題を解決するとき、言語モデル(LM)は、長く複雑なコンテキストから関連する情報を識別することができる。
そこで本研究では,テキスト理解からコーディングまで,6つの領域にまたがる構造化検索タスクの集合であるORIONを導入する。
ORIONの各タスクは、コンテキスト(例えば、ストーリー)から属性(例えば、文字名)を検索するリクエスト(例えば、質問)によって抽象的に表現することができる。
1億2500万から7千億のパラメータを持つ18のオープンソース言語モデルに因果分析を適用する。
最後のトークン位置にある中間層はリクエストを処理し、後期層はコンテキストから正しいエンティティを検索する。
この分解を因果的に実施した後、モデルはまだ元のタスクを解決でき、106のモデル-タスクペアのうち98で元の正しいトークン確率の70%を保存できる。
我々はpythia-2.8b上の質問応答タスクの詳細なケーススタディを行い,マクロ分解と微視的記述を結びつけた。
高レベルの理解に基づいて,1回の入力のみを人間に監督させることなく,プロンプト注入を緩和するために,LMのスケーラブルな内部監視のための概念実証を行った。
ソリューションは精度を大幅に向上させる(pythia-12bでは15.5%から97.5%)。
この研究は、様々な領域やモデルにまたがるタスクの普遍的創発的モジュラー処理の証拠を示し、LMのスケーラブルな内部監視に解釈可能性を適用するための先駆的な取り組みである。
関連論文リスト
- Divide and Conquer for Large Language Models Reasoning [53.27384085738965]
本稿では,大言語モデルにDivide and Conquer戦略を適用することを提案する。
まず、統計的信頼度スコアに基づいて、質問を異なるサブセットに分割する。
そして、ほぼ解決された集合を修正し、精巧に設計された手法で要求されるニュアンス処理を克服します。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - A Mechanism for Solving Relational Tasks in Transformer Language Models [36.29933464955979]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスクを解くための単純な計算機構を利用する場合があることを示す。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - ZEROTOP: Zero-Shot Task-Oriented Semantic Parsing using Large Language
Models [6.13621607944513]
本稿では,ゼロショットタスク指向構文解析法であるZEROTOPを提案する。
MTOPデータセットの発話の16%を,注釈付きデータを必要とすることなく正確に解析できることを示す。
論文 参考訳(メタデータ) (2022-12-21T07:06:55Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Is a Question Decomposition Unit All We Need? [20.66688303609522]
モデルを解くのが比較的容易な、より単純な質問の集合に、人間が難解な質問を分解できるかどうかを検討する。
我々は、様々な推論形式を含むデータセットを解析し、モデルの性能を大幅に改善することは実際に可能であることを発見した。
以上の結果から,Human-in-the-loop Question Decomposition (HQD) が大規模LM構築の代替となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-25T07:24:09Z) - Selection-Inference: Exploiting Large Language Models for Interpretable
Logical Reasoning [14.663216851932646]
言語モデルは1ステップの推論タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップをチェーン化するのに苦労している。
本稿では,事前学習したLLMを汎用処理モジュールとして活用する選択推論(SI)フレームワークを提案する。
5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM が微調整なしで,100% 以上の性能向上が得られることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:25:28Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。