論文の概要: Towards In-context Scene Understanding
- arxiv url: http://arxiv.org/abs/2306.01667v1
- Date: Fri, 2 Jun 2023 16:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 14:11:53.683126
- Title: Towards In-context Scene Understanding
- Title(参考訳): 文脈内シーン理解に向けて
- Authors: Ivana Bala\v{z}evi\'c, David Steiner, Nikhil Parthasarathy, Relja
Arandjelovi\'c, Olivier J. H\'enaff
- Abstract要約: In-contextx$hasは、異なるタスクに対して異なるプロンプトでモデルの振る舞いを設定する機能を持つ。
Hummingbirdは、微調整されたモデルよりも効率的にタスクを実行するように構成できる。
- 参考スコア(独自算出の注目度): 15.022463819577721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning$\unicode{x2013}$the ability to configure a model's
behavior with different prompts$\unicode{x2013}$has revolutionized the field of
natural language processing, alleviating the need for task-specific models and
paving the way for generalist models capable of assisting with any query.
Computer vision, in contrast, has largely stayed in the former regime:
specialized decoders and finetuning protocols are generally required to perform
dense tasks such as semantic segmentation and depth estimation. In this work we
explore a simple mechanism for in-context learning of such scene understanding
tasks: nearest neighbor retrieval from a prompt of annotated features. We
propose a new pretraining protocol$\unicode{x2013}$leveraging attention within
and across images$\unicode{x2013}$which yields representations particularly
useful in this regime. The resulting Hummingbird model, suitably prompted,
performs various scene understanding tasks without modification while
approaching the performance of specialists that have been finetuned for each
task. Moreover, Hummingbird can be configured to perform new tasks much more
efficiently than finetuned models, raising the possibility of scene
understanding in the interactive assistant regime.
- Abstract(参考訳): in-context learning$\unicode{x2013}$has 異なるプロンプトでモデルの動作を設定する能力は、自然言語処理の分野に革命をもたらし、タスク固有のモデルの必要性を緩和し、任意のクエリを補助できるジェネラリストモデルへの道を開く。
対照的にコンピュータビジョンは、主に前政権に留まっており、特殊デコーダと微調整プロトコルは、一般的に、セマンティックセグメンテーションや深さ推定のような密集したタスクを実行するために必要である。
本研究では,このような場面理解タスクの文脈内学習のための簡単なメカニズムについて検討する。
我々は,新しい事前学習プロトコル$\unicode{x2013}$leveraging attention in and across images$\unicode{x2013}$を提案する。
結果として得られたHummingbirdモデルは、各タスクに精巧に調整された専門家のパフォーマンスにアプローチしながら、変更せずに様々なシーン理解タスクを実行する。
さらに、hummingbirdは、微調整されたモデルよりもずっと効率的に新しいタスクを実行するように構成でき、対話型アシスタントシステムにおけるシーン理解の可能性を高めることができる。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - VLM: Task-agnostic Video-Language Model Pre-training for Video
Understanding [78.28397557433544]
本稿では,タスクに依存しないマルチモーダル事前学習手法を提案する。
実験の結果,従来の手法よりも広い範囲のタスクに対して強い性能を示し,タスク固有の事前学習よりも優れていた。
論文 参考訳(メタデータ) (2021-05-20T19:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。