Fugu-MT 論文翻訳(概要): De-fine: Decomposing and Refining Visual Programs with Auto-Feedback

論文の概要: De-fine: Decomposing and Refining Visual Programs with Auto-Feedback

arxiv url: http://arxiv.org/abs/2311.12890v1
Date: Tue, 21 Nov 2023 06:24:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 17:35:50.928995
Title: De-fine: Decomposing and Refining Visual Programs with Auto-Feedback
Title（参考訳）: de-fine:自動フィードバックによるビジュアルプログラムの分解とリファイン
Authors: Minghe Gao, Juncheng Li, Hao Fei, Wei Ji, Guoming Wang, Wenqiao Zhang, Siliang Tang, Yueting Zhuang
Abstract要約: De-fineは複雑なタスクを単純なサブタスクに分解し、自動フィードバックによってプログラムを洗練するフレームワークである。様々な視覚的タスクを対象とした実験により、De-fineはより正確で堅牢なプログラムを作成し、新しいベンチマークをフィールドに設定した。
参考スコア（独自算出の注目度）: 73.25590178180103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual programming, a modular and generalizable paradigm, integrates different modules and Python operators to solve various vision-language tasks. Unlike end-to-end models that need task-specific data, it advances in performing visual processing and reasoning in an unsupervised manner. Current visual programming methods generate programs in a single pass for each task where the ability to evaluate and optimize based on feedback, unfortunately, is lacking, which consequentially limits their effectiveness for complex, multi-step problems. Drawing inspiration from benders decomposition, we introduce De-fine, a general framework that automatically decomposes complex tasks into simpler subtasks and refines programs through auto-feedback. This model-agnostic approach can improve logical reasoning performance by integrating the strengths of multiple models. Our experiments across various visual tasks show that De-fine creates more accurate and robust programs, setting new benchmarks in the field.
Abstract（参考訳）: モジュール化可能なパラダイムであるビジュアルプログラミングは、様々なモジュールとPython演算子を統合し、様々な視覚言語タスクを解決する。タスク固有のデータを必要とするエンドツーエンドモデルとは異なり、教師なしの方法で視覚処理と推論を行う。現在のビジュアルプログラミング手法では,フィードバックに基づいて評価と最適化を行う能力が不足しているタスク毎に,ひとつのパスでプログラムを生成する。複雑なタスクを自動的に単純なサブタスクに分解し、自動フィードバックによってプログラムを洗練する一般的なフレームワークであるde-fineを紹介する。このモデルに依存しないアプローチは、複数のモデルの強みを統合することで論理的推論性能を向上させることができる。様々なビジュアルタスクで実験した結果、de-fineはより正確で堅牢なプログラムを作成し、フィールドに新しいベンチマークを設定しました。

関連論文リスト

Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文参考訳（メタデータ） (2025-11-11T06:25:30Z)
Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文参考訳（メタデータ） (2025-10-01T09:20:51Z)
Exploring Scalable Unified Modeling for General Low-Level Vision [39.89755374452788]
低レベルの視覚は、画像復元、強化、スタイリゼーション、特徴抽出を含む幅広いタスクを含む。このような多様なタスクにまたがる統合モデリングの課題に対処するため、我々はVisual Task Promptベースの画像処理フレームワークを提案する。我々は、統一された低レベル視覚モデルGenLVを開発し、その性能を複数の代表タスクで評価する。
論文参考訳（メタデータ） (2025-07-20T03:22:52Z)
Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models [26.14137626882127]
大規模マルチモーダルモデル(LMM)は、視覚言語と視覚中心のタスクの両方において、目覚しい視覚的理解性能を示す。本稿では,LMMが複雑な構成問題を解くための統一的な視覚推論機構を提案する。トレーニングされたモデルであるGriffon-Rには、エンドツーエンドの自動理解、自己思考、推論の回答能力があります。
論文参考訳（メタデータ） (2025-05-27T05:50:25Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文参考訳（メタデータ） (2024-05-31T13:56:55Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
Modeling Output-Level Task Relatedness in Multi-Task Learning with Feedback Mechanism [7.479892725446205]
マルチタスク学習(MTL)は、異なるレベルで情報を共有することで複数のタスクを同時に学習するパラダイムである。異なるタスクが相互に影響のある相関出力を生成する可能性があることを考慮し、後続情報をモデルに導入する。我々は,MTLモデルにフィードバック機構を組み込むことで,あるタスクの出力が他のタスクの隠れ機能として機能する。
論文参考訳（メタデータ） (2024-04-01T03:27:34Z)
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-06T18:43:48Z)
SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文参考訳（メタデータ） (2023-06-19T04:33:44Z)
Visual Programming: Compositional visual reasoning without training [24.729624386851388]
VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
論文参考訳（メタデータ） (2022-11-18T18:50:09Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)
How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文参考訳（メタデータ） (2021-03-22T01:48:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。