Fugu-MT 論文翻訳(概要): CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update

論文の概要: CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update

arxiv url: http://arxiv.org/abs/2312.10908v1
Date: Mon, 18 Dec 2023 03:34:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 21:26:30.302980
Title: CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update
Title（参考訳）: CLOVA:ツール使用とアップデートを備えたクローズドループビジュアルアシスタント
Authors: Zhi Gao, Yuntao Du, Xintong Zhang, Xiaojian Ma, Wenjuan Han, Song-Chun Zhu, Qing Li
Abstract要約: この制限に対処するクローズドループビジュアルアシスタントであるCLOVAを提案する。推論中、LLMはプログラムを生成し、与えられたタスクを達成するための対応するツールを実行する。リフレクションフェーズではマルチモーダルなグローバルローカルリフレクション方式を導入し、どのツールを更新する必要があるかを分析する。学習フェーズは3つのフレキシブルな方法でトレーニングデータをリアルタイムで収集し、ツールを更新するための新しいプロンプトチューニングスキームを導入する。
参考スコア（独自算出の注目度）: 73.08470271514605
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Leveraging large language models (LLMs) to integrate off-the-shelf tools (e.g., visual models and image processing functions) is a promising research direction to build powerful visual assistants for solving diverse visual tasks. However, the learning capability is rarely explored in existing methods, as they freeze the used tools after deployment, thereby limiting the generalization to new environments requiring specific knowledge. In this paper, we propose CLOVA, a Closed-LOop Visual Assistant to address this limitation, which encompasses inference, reflection, and learning phases in a closed-loop framework. During inference, LLMs generate programs and execute corresponding tools to accomplish given tasks. The reflection phase introduces a multimodal global-local reflection scheme to analyze whether and which tool needs to be updated based on environmental feedback. Lastly, the learning phase uses three flexible manners to collect training data in real-time and introduces a novel prompt tuning scheme to update the tools, enabling CLOVA to efficiently learn specific knowledge for new environments without human involvement. Experiments show that CLOVA outperforms tool-usage methods by 5% in visual question answering and multiple-image reasoning tasks, by 10% in knowledge tagging tasks, and by 20% in image editing tasks, highlighting the significance of the learning capability for general visual assistants.
Abstract（参考訳）: 大型言語モデル(LLM)を活用して市販のツール(例えば、ビジュアルモデルや画像処理機能)を統合することは、多様な視覚的タスクを解決する強力なビジュアルアシスタントを構築するための有望な研究方向である。しかし、デプロイ後に使用するツールを凍結し、特定の知識を必要とする新しい環境への一般化を制限するため、既存の方法では学習能力が探求されることは滅多にない。本稿では,この制限に対処するクローズドループビジュアルアシスタントであるCLOVAを提案し,クローズドループフレームワークにおける推論,リフレクション,学習の各フェーズを包含する。推論中、LLMはプログラムを生成し、与えられたタスクを達成するための対応するツールを実行する。リフレクションフェーズでは、環境フィードバックに基づいてどのツールを更新する必要があるかを分析するために、マルチモーダルグローバルローカルリフレクションスキームが導入されている。最後に、学習フェーズは3つのフレキシブルな方法でトレーニングデータをリアルタイムで収集し、ツールを更新するための新しいプロンプトチューニングスキームを導入し、CLOVAが人間の関与なしに新しい環境に関する特定の知識を効率的に学習できるようにする。実験の結果,CLOVAは視覚的質問応答や複数画像推論タスクで5%,知識タグ付けタスクで10%,画像編集タスクで20%,一般的な視覚アシスタントにおける学習能力の意義を強調してツール利用方法よりも優れていた。

関連論文リスト

Automated Feedback on Student-Generated UML and ER Diagrams Using Large Language Models [39.58317527488534]
LLMツールのプロトタイプであるDUET(Diamatic & ER Tutor)を紹介する。参照ダイアグラムと学生が提出したダイアグラムをテキスト表現に変換し、違いに基づいて構造化されたフィードバックを提供する。多段階のLCMパイプラインを使用して図を比較し、反射フィードバックを生成する。自己指導型学習を奨励し、指導戦略を伝えることを目的として、教育者の分析的な洞察を可能にする。
論文参考訳（メタデータ） (2025-07-31T11:49:01Z)
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection [47.259066449806866]
VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
論文参考訳（メタデータ） (2025-05-26T17:59:17Z)
LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文参考訳（メタデータ） (2024-09-24T14:08:11Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Tool Learning with Large Language Models: A Survey [60.733557487886635]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文参考訳（メタデータ） (2024-05-28T08:01:26Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文参考訳（メタデータ） (2024-02-26T16:11:03Z)
Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum [42.36892453363961]
本研究では,大規模言語モデル(LLM)を学習し,現実のシナリオで複雑なツールを使用するための新しいツール学習フレームワークを提案する。まず,多段階の学習手法を提案する。次に、イントロスペクティブフィードバックからの反復自己インストラクションを提案し、データセットを動的に構築し、複雑なツールを使用する能力を改善する。
論文参考訳（メタデータ） (2023-08-27T07:53:00Z)
Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。 VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文参考訳（メタデータ） (2023-05-30T17:59:32Z)
Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文参考訳（メタデータ） (2023-04-10T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。