論文の概要: From Templates to Natural Language: Generalization Challenges in Instruction-Tuned LLMs for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2505.14425v1
- Date: Tue, 20 May 2025 14:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.364691
- Title: From Templates to Natural Language: Generalization Challenges in Instruction-Tuned LLMs for Spatial Reasoning
- Title(参考訳): テンプレートから自然言語へ:空間推論のための指導型LLMの一般化課題
- Authors: Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen,
- Abstract要約: 本稿では,2.5ドルの格子上にオブジェクト配置を構築するための命令をモデルで解釈し,翻訳する空間接地作業における一般化課題について検討する。
合成命令のみを用いてLCMを微調整し、合成命令と人文命令の両方を含むベンチマークデータセット上でその性能を評価する。
その結果,単純なタスクではモデルがよく一般化されるが,より複雑なタスクでは性能が著しく低下することがわかった。
- 参考スコア(独自算出の注目度): 18.256529559741075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned large language models (LLMs) have shown strong performance on a variety of tasks; however, generalizing from synthetic to human-authored instructions in grounded environments remains a challenge for them. In this work, we study generalization challenges in spatial grounding tasks where models interpret and translate instructions for building object arrangements on a $2.5$D grid. We fine-tune LLMs using only synthetic instructions and evaluate their performance on a benchmark dataset containing both synthetic and human-written instructions. Our results reveal that while models generalize well on simple tasks, their performance degrades significantly on more complex tasks. We present a detailed error analysis of the gaps in instruction generalization.
- Abstract(参考訳): 命令調整型大規模言語モデル (LLM) は, 様々なタスクにおいて高い性能を示したが, 地上環境における人工的命令から人為的命令への一般化は依然として課題である。
本研究では,2.5ドルのグリッド上にオブジェクト配置を構築するための命令をモデルで解釈し,翻訳する空間接地作業における一般化課題について検討する。
合成命令のみを用いてLCMを微調整し、合成命令と人文命令の両方を含むベンチマークデータセット上でその性能を評価する。
その結果,単純なタスクではモデルがよく一般化されるが,より複雑なタスクでは性能が著しく低下することがわかった。
本稿では,命令一般化におけるギャップの詳細な誤差解析を行う。
関連論文リスト
- Code Simulation as a Proxy for High-order Tasks in Large Language Models [6.71786454125056]
我々は、Large Language Models (LLM) の能力を評価するために、自然主義的および合成的推論タスクのペアを収集する。
我々は、プログラミングにおける共通構造を、自然主義的推論タスクの構成要素の1つとして活用する。
我々の貢献は、手作りの人間注記問題に対するスケーラブルな補完として、LLMの推論能力を総合的にテストすることの上に成り立っている。
論文 参考訳(メタデータ) (2025-02-05T19:30:28Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。