論文の概要: Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as
Programmers
- arxiv url: http://arxiv.org/abs/2401.01974v1
- Date: Wed, 3 Jan 2024 20:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:17:58.247747
- Title: Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as
Programmers
- Title(参考訳): LLMをプログラマとした完全ゼロショット合成視覚推論に向けて
- Authors: Aleksandar Stani\'c, Sergi Caelles, Michael Tschannen
- Abstract要約: 最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 61.37260856941595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning is dominated by end-to-end neural networks scaled to
billions of model parameters and training examples. However, even the largest
models struggle with compositional reasoning, generalization, fine-grained
spatial and temporal reasoning, and counting. Visual reasoning with large
language models (LLMs) as controllers can, in principle, address these
limitations by decomposing the task and solving subtasks by orchestrating a set
of (visual) tools. Recently, these models achieved great performance on tasks
such as compositional visual question answering, visual grounding, and video
temporal reasoning. Nevertheless, in their current form, these models heavily
rely on human engineering of in-context examples in the prompt, which are often
dataset- and task-specific and require significant labor by highly skilled
programmers. In this work, we present a framework that mitigates these issues
by introducing spatially and temporally abstract routines and by leveraging a
small number of labeled examples to automatically generate in-context examples,
thereby avoiding human-created in-context examples. On a number of visual
reasoning tasks, we show that our framework leads to consistent gains in
performance, makes LLMs as controllers setup more robust, and removes the need
for human engineering of in-context examples.
- Abstract(参考訳): 視覚推論は、数十億のモデルパラメータとトレーニング例にスケールしたエンドツーエンドニューラルネットワークによって支配されている。
しかし、最も大きなモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大規模言語モデル(llm)によるビジュアル推論は、タスクを分解し、一連の(ビジュアル)ツールのオーケストレーションによってサブタスクを解決することで、これらの制限に対処することができる。
近年,これらのモデルは,構成的視覚的質問応答,視覚的接地,映像的時間的推論といったタスクにおいて,優れた性能を発揮している。
しかしながら、現在の形式では、これらのモデルはプロンプト内のコンテキスト内サンプルのヒューマンエンジニアリングに大きく依存しており、しばしばデータセットとタスク固有であり、高度に熟練したプログラマが多大な労力を必要とする。
本研究では、空間的・時間的に抽象的なルーチンを導入し、少数のラベル付き例を活用してインコンテキストの例を自動的に生成することにより、これらの問題を緩和するフレームワークを提案する。
多くの視覚的推論タスクにおいて、我々のフレームワークはパフォーマンスの一貫して向上し、コントローラとしてのLCMをより堅牢にし、コンテキスト内サンプルのヒューマンエンジニアリングの必要性を排除している。
関連論文リスト
- Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - UniFS: Universal Few-shot Instance Perception with Point Representations [36.943019984075065]
そこで我々は,UniFSを提案する。UniFSは多種多様なインスタンス認識タスクを統一する汎用のインスタンス認識モデルである。
提案手法は,タスクについて最小限の仮定を行うが,高度に専門的で最適化されたスペシャリストモデルと比較して,競争力のある結果が得られる。
論文 参考訳(メタデータ) (2024-04-30T09:47:44Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Auto-ICL: In-Context Learning without Human Supervision [93.05202223767463]
本稿では,モデルが問題解決のための例と指示を自律的に生成できる自動文脈学習フレームワークを提案する。
さまざまなモデルやデータセットにわたる実験により、結果は、モデル生成コンテキストが人間の注釈付きコンテキストより優れていることを示している。
論文 参考訳(メタデータ) (2023-11-15T07:37:28Z) - Evaluating the Capabilities of Multi-modal Reasoning Models with
Synthetic Task Data [0.0]
我々は高解像度テキスト・画像生成の進歩を活用し、マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。
このフレームワークを用いて、コンテキスト依存の異常データを生成し、困難なタスクに合成データセットを作成する。
我々は,タスクが抽出可能である一方で,標準的なVQAタスクよりもコンテキスト依存型異常検出タスクでは,モデルが大幅に悪化することを示した。
論文 参考訳(メタデータ) (2023-06-01T20:56:34Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。
DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。
DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文 参考訳(メタデータ) (2023-05-18T17:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。