Fugu-MT 論文翻訳(概要): Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

論文の概要: Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

arxiv url: http://arxiv.org/abs/2401.01974v1
Date: Wed, 3 Jan 2024 20:48:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 16:17:58.247747
Title: Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
Title（参考訳）: LLMをプログラマとした完全ゼロショット合成視覚推論に向けて
Authors: Aleksandar Stani\'c, Sergi Caelles, Michael Tschannen
Abstract要約: 最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
参考スコア（独自算出の注目度）: 61.37260856941595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual reasoning is dominated by end-to-end neural networks scaled to billions of model parameters and training examples. However, even the largest models struggle with compositional reasoning, generalization, fine-grained spatial and temporal reasoning, and counting. Visual reasoning with large language models (LLMs) as controllers can, in principle, address these limitations by decomposing the task and solving subtasks by orchestrating a set of (visual) tools. Recently, these models achieved great performance on tasks such as compositional visual question answering, visual grounding, and video temporal reasoning. Nevertheless, in their current form, these models heavily rely on human engineering of in-context examples in the prompt, which are often dataset- and task-specific and require significant labor by highly skilled programmers. In this work, we present a framework that mitigates these issues by introducing spatially and temporally abstract routines and by leveraging a small number of labeled examples to automatically generate in-context examples, thereby avoiding human-created in-context examples. On a number of visual reasoning tasks, we show that our framework leads to consistent gains in performance, makes LLMs as controllers setup more robust, and removes the need for human engineering of in-context examples.
Abstract（参考訳）: 視覚推論は、数十億のモデルパラメータとトレーニング例にスケールしたエンドツーエンドニューラルネットワークによって支配されている。しかし、最も大きなモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。コントローラとしての大規模言語モデル(llm)によるビジュアル推論は、タスクを分解し、一連の(ビジュアル)ツールのオーケストレーションによってサブタスクを解決することで、これらの制限に対処することができる。近年,これらのモデルは,構成的視覚的質問応答,視覚的接地,映像的時間的推論といったタスクにおいて,優れた性能を発揮している。しかしながら、現在の形式では、これらのモデルはプロンプト内のコンテキスト内サンプルのヒューマンエンジニアリングに大きく依存しており、しばしばデータセットとタスク固有であり、高度に熟練したプログラマが多大な労力を必要とする。本研究では、空間的・時間的に抽象的なルーチンを導入し、少数のラベル付き例を活用してインコンテキストの例を自動的に生成することにより、これらの問題を緩和するフレームワークを提案する。多くの視覚的推論タスクにおいて、我々のフレームワークはパフォーマンスの一貫して向上し、コントローラとしてのLCMをより堅牢にし、コンテキスト内サンプルのヒューマンエンジニアリングの必要性を排除している。

関連論文リスト

Reinforcing VLMs to Use Tools for Detailed Visual Reasoning Under Resource Constraints [8.411630512737887]
我々は、視覚言語モデル(VLM)のためのDeepseek-r1のような手法からインスピレーションを得て、グループ相対ポリシー最適化(GRPO)を用いて小規模モデルを訓練し、ズームのような外部ツールを使用する。最大のメリットは、GRPO学習、単純な報酬構造、シンプルなツール呼び出しインターフェース、そして視覚的に難しい例を過剰に表現するトレーニングデータミックスを組み合わせることで得られる。同様に大規模なベースラインモデルと比較して,外部ツールから収集した詳細な視覚情報により,視覚的質問応答(VQA)タスクの性能が向上する。
論文参考訳（メタデータ） (2025-06-10T20:11:44Z)
Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models [26.14137626882127]
大規模マルチモーダルモデル(LMM)は、視覚言語と視覚中心のタスクの両方において、目覚しい視覚的理解性能を示す。本稿では,LMMが複雑な構成問題を解くための統一的な視覚推論機構を提案する。トレーニングされたモデルであるGriffon-Rには、エンドツーエンドの自動理解、自己思考、推論の回答能力があります。
論文参考訳（メタデータ） (2025-05-27T05:50:25Z)
Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文参考訳（メタデータ） (2025-01-18T17:43:05Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。特定の論理的および数学的推論タスクに焦点を当てている。このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文参考訳（メタデータ） (2024-10-24T16:27:35Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
UniFS: Universal Few-shot Instance Perception with Point Representations [36.943019984075065]
そこで我々は,UniFSを提案する。UniFSは多種多様なインスタンス認識タスクを統一する汎用のインスタンス認識モデルである。提案手法は,タスクについて最小限の仮定を行うが,高度に専門的で最適化されたスペシャリストモデルと比較して,競争力のある結果が得られる。
論文参考訳（メタデータ） (2024-04-30T09:47:44Z)
De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文参考訳（メタデータ） (2023-11-21T06:24:09Z)
Auto-ICL: In-Context Learning without Human Supervision [93.05202223767463]
本稿では,モデルが問題解決のための例と指示を自律的に生成できる自動文脈学習フレームワークを提案する。さまざまなモデルやデータセットにわたる実験により、結果は、モデル生成コンテキストが人間の注釈付きコンテキストより優れていることを示している。
論文参考訳（メタデータ） (2023-11-15T07:37:28Z)
Evaluating the Capabilities of Multi-modal Reasoning Models with Synthetic Task Data [0.0]
我々は高解像度テキスト・画像生成の進歩を活用し、マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。このフレームワークを用いて、コンテキスト依存の異常データを生成し、困難なタスクに合成データセットを作成する。我々は,タスクが抽出可能である一方で,標準的なVQAタスクよりもコンテキスト依存型異常検出タスクでは,モデルが大幅に悪化することを示した。
論文参考訳（メタデータ） (2023-06-01T20:56:34Z)
RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。 RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文参考訳（メタデータ） (2023-05-23T20:15:56Z)
Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。 DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。 DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文参考訳（メタデータ） (2023-05-18T17:58:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。