論文の概要: Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as
Programmers
- arxiv url: http://arxiv.org/abs/2401.01974v1
- Date: Wed, 3 Jan 2024 20:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:17:58.247747
- Title: Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as
Programmers
- Title(参考訳): LLMをプログラマとした完全ゼロショット合成視覚推論に向けて
- Authors: Aleksandar Stani\'c, Sergi Caelles, Michael Tschannen
- Abstract要約: 最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 61.37260856941595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning is dominated by end-to-end neural networks scaled to
billions of model parameters and training examples. However, even the largest
models struggle with compositional reasoning, generalization, fine-grained
spatial and temporal reasoning, and counting. Visual reasoning with large
language models (LLMs) as controllers can, in principle, address these
limitations by decomposing the task and solving subtasks by orchestrating a set
of (visual) tools. Recently, these models achieved great performance on tasks
such as compositional visual question answering, visual grounding, and video
temporal reasoning. Nevertheless, in their current form, these models heavily
rely on human engineering of in-context examples in the prompt, which are often
dataset- and task-specific and require significant labor by highly skilled
programmers. In this work, we present a framework that mitigates these issues
by introducing spatially and temporally abstract routines and by leveraging a
small number of labeled examples to automatically generate in-context examples,
thereby avoiding human-created in-context examples. On a number of visual
reasoning tasks, we show that our framework leads to consistent gains in
performance, makes LLMs as controllers setup more robust, and removes the need
for human engineering of in-context examples.
- Abstract(参考訳): 視覚推論は、数十億のモデルパラメータとトレーニング例にスケールしたエンドツーエンドニューラルネットワークによって支配されている。
しかし、最も大きなモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大規模言語モデル(llm)によるビジュアル推論は、タスクを分解し、一連の(ビジュアル)ツールのオーケストレーションによってサブタスクを解決することで、これらの制限に対処することができる。
近年,これらのモデルは,構成的視覚的質問応答,視覚的接地,映像的時間的推論といったタスクにおいて,優れた性能を発揮している。
しかしながら、現在の形式では、これらのモデルはプロンプト内のコンテキスト内サンプルのヒューマンエンジニアリングに大きく依存しており、しばしばデータセットとタスク固有であり、高度に熟練したプログラマが多大な労力を必要とする。
本研究では、空間的・時間的に抽象的なルーチンを導入し、少数のラベル付き例を活用してインコンテキストの例を自動的に生成することにより、これらの問題を緩和するフレームワークを提案する。
多くの視覚的推論タスクにおいて、我々のフレームワークはパフォーマンスの一貫して向上し、コントローラとしてのLCMをより堅牢にし、コンテキスト内サンプルのヒューマンエンジニアリングの必要性を排除している。
関連論文リスト
- Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [81.08213203440634]
De-fineは複雑なタスクを単純なサブタスクに分解し、自動フィードバックによってプログラムを洗練するフレームワークである。
様々な視覚的タスクを対象とした実験により、De-fineはより正確で堅牢なプログラムを作成し、新しいベンチマークをフィールドに設定した。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Evaluating the Capabilities of Multi-modal Reasoning Models with
Synthetic Task Data [0.0]
我々は高解像度テキスト・画像生成の進歩を活用し、マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。
このフレームワークを用いて、コンテキスト依存の異常データを生成し、困難なタスクに合成データセットを作成する。
我々は,タスクが抽出可能である一方で,標準的なVQAタスクよりもコンテキスト依存型異常検出タスクでは,モデルが大幅に悪化することを示した。
論文 参考訳(メタデータ) (2023-06-01T20:56:34Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement
Learning [77.34726150561087]
In-Context Learning (RetICL) のための検索式を提案する。
我々は、マルコフ決定プロセスとして逐次サンプル選択の問題を定義し、LSTMを用いてサンプルレトリバーモデルを設計し、近似ポリシー最適化を用いてそれを訓練する。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。
DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。
DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文 参考訳(メタデータ) (2023-05-18T17:58:31Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。