論文の概要: Can LLM find the green circle? Investigation and Human-guided tool
manipulation for compositional generalization
- arxiv url: http://arxiv.org/abs/2312.07763v1
- Date: Tue, 12 Dec 2023 22:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 17:23:31.068177
- Title: Can LLM find the green circle? Investigation and Human-guided tool
manipulation for compositional generalization
- Title(参考訳): llmは緑の円を見つけられるか?
構成一般化のためのヒューマンガイドツール操作の検討
- Authors: Min Zhang, Jianfeng He, Shuo Lei, Murong Yue, Linhang Wang, Chang-Tien
Lu
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて、多くのタスクにおいて印象的な一般化能力を示す
サブクエストのためのツールを生成し,複数のツールを統合するヒューマンガイドツール操作フレームワーク(HTM)を提案する。
実験の結果,提案手法は2つの構成一般化ベンチマークの最先端性能を達成し,既存の手法よりも70%高い性能を示した。
- 参考スコア(独自算出の注目度): 28.069928613367978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The meaning of complex phrases in natural language is composed of their
individual components. The task of compositional generalization evaluates a
model's ability to understand new combinations of components. Previous studies
trained smaller, task-specific models, which exhibited poor generalization.
While large language models (LLMs) exhibit impressive generalization abilities
on many tasks through in-context learning (ICL), their potential for
compositional generalization remains unexplored. In this paper, we first
empirically investigate prevailing ICL methods in compositional generalization.
We find that they struggle with complex compositional questions due to
cumulative errors in long reasoning steps and intricate logic required for
tool-making. Consequently, we propose a human-guided tool manipulation
framework (HTM) that generates tools for sub-questions and integrates multiple
tools. Our method enhances the effectiveness of tool creation and usage with
minimal human effort. Experiments show that our method achieves
state-of-the-art performance on two compositional generalization benchmarks and
outperforms existing methods on the most challenging test split by 70%.
- Abstract(参考訳): 自然言語における複雑な句の意味は、それぞれの構成要素から成り立っている。
構成一般化のタスクは、モデルのコンポーネントの新しい組み合わせを理解する能力を評価する。
以前の研究では、より小さなタスク固有のモデルを訓練し、一般化が不十分であった。
大規模言語モデル (LLMs) は、文脈内学習 (ICL) を通じて多くのタスクにおいて顕著な一般化能力を示すが、構成的一般化の可能性は未解明のままである。
本稿では,合成一般化におけるICL手法を実証的に検討する。
長い推論ステップの累積誤差とツール作成に必要な複雑なロジックによって、複雑な構成問題に苦しむことが分かりました。
その結果、サブクエストのためのツールを生成し、複数のツールを統合するヒューマンガイドツール操作フレームワーク(HTM)を提案する。
本手法は,最小限の労力でツール作成と使用の有効性を高める。
実験の結果,提案手法は2つの構成一般化ベンチマークの最先端性能を達成し,既存の手法よりも70%高い性能を示した。
関連論文リスト
- Towards Compositionally Generalizable Semantic Parsing in Large Language Models: A Survey [0.0]
本稿では, 合成一般化のための分析, 方法, 評価手法の最近の進歩をめざした文献調査を行う。
この種の一般化は、タスク指向対話のようなアプリケーションに対する意味解析のコミュニティに特に関係している。
論文 参考訳(メタデータ) (2024-04-15T10:44:58Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool
Utilization in Real-World Complex Scenarios [95.97781233780357]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。
本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文 参考訳(メタデータ) (2023-07-26T01:07:52Z) - Compositional Generalization and Decomposition in Neural Program
Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。
まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。
2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文 参考訳(メタデータ) (2022-04-07T22:16:05Z) - Meta-Learning to Compositionally Generalize [34.656819307701156]
教師あり学習のメタラーニング拡張版を実装した。
既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。
COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。
論文 参考訳(メタデータ) (2021-06-08T11:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。