論文の概要: RELIC: Evaluating Compositional Instruction Following via Language Recognition
- arxiv url: http://arxiv.org/abs/2506.05205v1
- Date: Thu, 05 Jun 2025 16:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.814592
- Title: RELIC: Evaluating Compositional Instruction Following via Language Recognition
- Title(参考訳): Relic: 言語認識による作曲指導の評価
- Authors: Jackson Petty, Michael Y. Hu, Wentao Wang, Shauli Ravfogel, William Merrill, Tal Linzen,
- Abstract要約: 大規模言語モデル(LLM)は、コンテキストで提供されるタスクの仕様に基づいてのみタスクを実行することがますます期待されている。
本稿では,言語認識を用いたインコンテキスト認識(RELIC)フレームワークについて紹介する。
- 参考スコア(独自算出の注目度): 37.49115450182637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly expected to perform tasks based only on a specification of the task provided in context, without examples of inputs and outputs; this ability is referred to as instruction following. We introduce the Recognition of Languages In-Context (RELIC) framework to evaluate instruction following using language recognition: the task of determining if a string is generated by formal grammar. Unlike many standard evaluations of LLMs' ability to use their context, this task requires composing together a large number of instructions (grammar productions) retrieved from the context. Because the languages are synthetic, the task can be increased in complexity as LLMs' skills improve, and new instances can be automatically generated, mitigating data contamination. We evaluate state-of-the-art LLMs on RELIC and find that their accuracy can be reliably predicted from the complexity of the grammar and the individual example strings, and that even the most advanced LLMs currently available show near-chance performance on more complex grammars and samples, in line with theoretical expectations. We also use RELIC to diagnose how LLMs attempt to solve increasingly difficult reasoning tasks, finding that as the complexity of the language recognition task increases, models switch to relying on shallow heuristics instead of following complex instructions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、入力や出力の例を使わずに、文脈で提供されるタスクの仕様に基づいてタスクを実行することがますます期待されている。
本稿では,文字列が形式文法によって生成されるかどうかを判断する作業として,言語認識を用いた指示に従うための言語内文脈(RELIC)フレームワークを提案する。
LLMがコンテキストを使用する能力の標準的な評価とは異なり、このタスクはコンテキストから取得した多数の命令(文法生成)を組み立てる必要がある。
言語が合成されているため、LSMのスキルが向上するにつれてタスクは複雑になり、新しいインスタンスが自動生成され、データの汚染が軽減される。
我々は,Relic 上での最先端 LLM の評価を行い,それらの精度が文法と個々のサンプル文字列の複雑さから確実に予測可能であること,そして現在利用可能な最も高度な LLM でさえ,より複雑な文法やサンプルに対して,理論上の期待に応えて,ほぼ簡潔な性能を示すことを確認した。
言語認識タスクの複雑さが増加するにつれて、モデルは複雑な命令に従うのではなく、浅いヒューリスティックスに依存するようになる。
関連論文リスト
- Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。