論文の概要: De-fine: Decomposing and Refining Visual Programs with Auto-Feedback
- arxiv url: http://arxiv.org/abs/2311.12890v1
- Date: Tue, 21 Nov 2023 06:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 17:35:50.928995
- Title: De-fine: Decomposing and Refining Visual Programs with Auto-Feedback
- Title(参考訳): de-fine:自動フィードバックによるビジュアルプログラムの分解とリファイン
- Authors: Minghe Gao, Juncheng Li, Hao Fei, Wei Ji, Guoming Wang, Wenqiao Zhang,
Siliang Tang, Yueting Zhuang
- Abstract要約: De-fineは複雑なタスクを単純なサブタスクに分解し、自動フィードバックによってプログラムを洗練するフレームワークである。
様々な視覚的タスクを対象とした実験により、De-fineはより正確で堅牢なプログラムを作成し、新しいベンチマークをフィールドに設定した。
- 参考スコア(独自算出の注目度): 73.25590178180103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual programming, a modular and generalizable paradigm, integrates
different modules and Python operators to solve various vision-language tasks.
Unlike end-to-end models that need task-specific data, it advances in
performing visual processing and reasoning in an unsupervised manner. Current
visual programming methods generate programs in a single pass for each task
where the ability to evaluate and optimize based on feedback, unfortunately, is
lacking, which consequentially limits their effectiveness for complex,
multi-step problems. Drawing inspiration from benders decomposition, we
introduce De-fine, a general framework that automatically decomposes complex
tasks into simpler subtasks and refines programs through auto-feedback. This
model-agnostic approach can improve logical reasoning performance by
integrating the strengths of multiple models. Our experiments across various
visual tasks show that De-fine creates more accurate and robust programs,
setting new benchmarks in the field.
- Abstract(参考訳): モジュール化可能なパラダイムであるビジュアルプログラミングは、様々なモジュールとPython演算子を統合し、様々な視覚言語タスクを解決する。
タスク固有のデータを必要とするエンドツーエンドモデルとは異なり、教師なしの方法で視覚処理と推論を行う。
現在のビジュアルプログラミング手法では,フィードバックに基づいて評価と最適化を行う能力が不足しているタスク毎に,ひとつのパスでプログラムを生成する。
複雑なタスクを自動的に単純なサブタスクに分解し、自動フィードバックによってプログラムを洗練する一般的なフレームワークであるde-fineを紹介する。
このモデルに依存しないアプローチは、複数のモデルの強みを統合することで論理的推論性能を向上させることができる。
様々なビジュアルタスクで実験した結果、de-fineはより正確で堅牢なプログラムを作成し、フィールドに新しいベンチマークを設定しました。
関連論文リスト
- Modeling Output-Level Task Relatedness in Multi-Task Learning with Feedback Mechanism [7.479892725446205]
マルチタスク学習(MTL)は、異なるレベルで情報を共有することで複数のタスクを同時に学習するパラダイムである。
異なるタスクが相互に影響のある相関出力を生成する可能性があることを考慮し、後続情報をモデルに導入する。
我々は,MTLモデルにフィードバック機構を組み込むことで,あるタスクの出力が他のタスクの隠れ機能として機能する。
論文 参考訳(メタデータ) (2024-04-01T03:27:34Z) - SymbolicAI: A framework for logic-based approaches combining generative
models and solvers [10.558183419341514]
SymbolicAIは、生成プロセスにおける概念学習とフロー管理に論理ベースのアプローチを採用する、汎用的でモジュール化されたフレームワークである。
我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文 参考訳(メタデータ) (2024-02-01T18:50:50Z) - Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as
Programmers [61.37260856941595]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T20:48:47Z) - Jack of All Tasks, Master of Many: Designing General-purpose
Coarse-to-Fine Vision-Language Model [87.01213887685952]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models [84.6451394629312]
実世界のシナリオにおけるマルチモーダル言語モデル(MLLM)の具体的タスクプランナとしての可能性について定量的に検討する。
我々のベンチマークは、現実世界のビデオから得られた現実的なタスク、何百もの異なるオブジェクトとのインタラクションを含む多様なアクションセット、そして様々なシーンからの複雑な視覚的観察によって区別されている。
本研究では,複雑な実世界の状況下での高度タスク計画の学習を容易にするために,インストラクションチューニングデータセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Visual Programming: Compositional visual reasoning without training [24.729624386851388]
VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。
大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
論文 参考訳(メタデータ) (2022-11-18T18:50:09Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。