Fugu-MT 論文翻訳(概要): Can LLM find the green circle? Investigation and Human-guided tool manipulation for compositional generalization

論文の概要: Can LLM find the green circle? Investigation and Human-guided tool manipulation for compositional generalization

arxiv url: http://arxiv.org/abs/2312.07763v1
Date: Tue, 12 Dec 2023 22:11:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 17:23:31.068177
Title: Can LLM find the green circle? Investigation and Human-guided tool manipulation for compositional generalization
Title（参考訳）: llmは緑の円を見つけられるか? 構成一般化のためのヒューマンガイドツール操作の検討
Authors: Min Zhang, Jianfeng He, Shuo Lei, Murong Yue, Linhang Wang, Chang-Tien Lu
Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて、多くのタスクにおいて印象的な一般化能力を示すサブクエストのためのツールを生成し,複数のツールを統合するヒューマンガイドツール操作フレームワーク(HTM)を提案する。実験の結果,提案手法は2つの構成一般化ベンチマークの最先端性能を達成し,既存の手法よりも70%高い性能を示した。
参考スコア（独自算出の注目度）: 28.069928613367978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The meaning of complex phrases in natural language is composed of their individual components. The task of compositional generalization evaluates a model's ability to understand new combinations of components. Previous studies trained smaller, task-specific models, which exhibited poor generalization. While large language models (LLMs) exhibit impressive generalization abilities on many tasks through in-context learning (ICL), their potential for compositional generalization remains unexplored. In this paper, we first empirically investigate prevailing ICL methods in compositional generalization. We find that they struggle with complex compositional questions due to cumulative errors in long reasoning steps and intricate logic required for tool-making. Consequently, we propose a human-guided tool manipulation framework (HTM) that generates tools for sub-questions and integrates multiple tools. Our method enhances the effectiveness of tool creation and usage with minimal human effort. Experiments show that our method achieves state-of-the-art performance on two compositional generalization benchmarks and outperforms existing methods on the most challenging test split by 70%.
Abstract（参考訳）: 自然言語における複雑な句の意味は、それぞれの構成要素から成り立っている。構成一般化のタスクは、モデルのコンポーネントの新しい組み合わせを理解する能力を評価する。以前の研究では、より小さなタスク固有のモデルを訓練し、一般化が不十分であった。大規模言語モデル (LLMs) は、文脈内学習 (ICL) を通じて多くのタスクにおいて顕著な一般化能力を示すが、構成的一般化の可能性は未解明のままである。本稿では,合成一般化におけるICL手法を実証的に検討する。長い推論ステップの累積誤差とツール作成に必要な複雑なロジックによって、複雑な構成問題に苦しむことが分かりました。その結果、サブクエストのためのツールを生成し、複数のツールを統合するヒューマンガイドツール操作フレームワーク(HTM)を提案する。本手法は,最小限の労力でツール作成と使用の有効性を高める。実験の結果,提案手法は2つの構成一般化ベンチマークの最先端性能を達成し,既存の手法よりも70%高い性能を示した。

関連論文リスト

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。 Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文参考訳（メタデータ） (2025-05-22T09:00:19Z)
Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。また、ICL(In-context Learning)機能も備えている。複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文参考訳（メタデータ） (2024-07-22T15:22:34Z)
MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-15T10:15:41Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
Towards Compositionally Generalizable Semantic Parsing in Large Language Models: A Survey [0.0]
本稿では, 合成一般化のための分析, 方法, 評価手法の最近の進歩をめざした文献調査を行う。この種の一般化は、タスク指向対話のようなアプリケーションに対する意味解析のコミュニティに特に関係している。
論文参考訳（メタデータ） (2024-04-15T10:44:58Z)
From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。 ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-02-28T08:42:23Z)
MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。 LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。 LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文参考訳（メタデータ） (2023-09-19T15:25:42Z)
Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。 SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文参考訳（メタデータ） (2023-08-01T05:54:12Z)
ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文参考訳（メタデータ） (2023-07-26T01:07:52Z)
Compositional Generalization and Decomposition in Neural Program Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。 2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文参考訳（メタデータ） (2022-04-07T22:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。