論文の概要: An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set
- arxiv url: http://arxiv.org/abs/2408.05772v1
- Date: Sun, 11 Aug 2024 13:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:37:52.224115
- Title: An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set
- Title(参考訳): HOIの分析 : テストセットのみ使用可能なマルチモーダル視覚基盤モデルを用いたトレーニングフリー手法
- Authors: Chaoyi Ai,
- Abstract要約: デフォルト設定では、Human-Object Interaction(HOI)のパフォーマンスはほぼ飽和している。
本研究は、真理とランダムな任意の組み合わせの2つの実験的な設定を用いる。
マルチモーダル視覚基盤モデルのオープン語彙能力は,まだ完全には実現されていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) aims to identify the pairs of humans and objects in images and to recognize their relationships, ultimately forming $\langle human, object, verb \rangle$ triplets. Under default settings, HOI performance is nearly saturated, with many studies focusing on long-tail distribution and zero-shot/few-shot scenarios. Let us consider an intriguing problem:``What if there is only test dataset without training dataset, using multimodal visual foundation model in a training-free manner? '' This study uses two experimental settings: grounding truth and random arbitrary combinations. We get some interesting conclusion and find that the open vocabulary capabilities of the multimodal visual foundation model are not yet fully realized. Additionally, replacing the feature extraction with grounding DINO further confirms these findings.
- Abstract(参考訳): Human-Object Interaction (HOI)は、画像中の人間とオブジェクトのペアを特定し、それらの関係を認識し、最終的に$\langle human, object, verb \rangle$ triletsを形成することを目的としている。
デフォルト設定下では、HOIパフォーマンスはほぼ飽和しており、長い尾の分布とゼロショット/フェーショットシナリオに多くの研究が焦点を当てている。
トレーニングなしでテストデータセットだけがあれば、マルチモーダルなビジュアルファンデーションモデルをトレーニングなしで利用できますか?
この研究では、真理とランダムな任意の組み合わせの2つの実験的な設定を使用します。
興味深い結論が得られ、マルチモーダル視覚基盤モデルのオープン語彙能力はまだ完全には実現されていない。
さらに、特徴抽出を接地DINOに置き換えることにより、これらの発見がさらに確認される。
関連論文リスト
- Exploring Curriculum Learning for Vision-Language Tasks: A Study on Small-Scale Multimodal Training [4.062463195973711]
本研究では,BabyLMチャレンジの一環として,限られたデータ構造における3つのプライマリ変数の役割について検討する。
カリキュラム学習は,非カリキュラム学習モデルよりもマルチモーダルな評価に有効であることがわかった。
論文 参考訳(メタデータ) (2024-10-20T21:03:51Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models [69.31424345583537]
人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
犬について読んだり、バークを聴いたりすることで、より優れた$bfビジュアルの犬分類器を構築できることを示す。
我々は、最初の(知識のために)オーディオヴィジュアルな数ショットのベンチマークを構築し、画像分類と音声分類の両方の性能を向上させるために、クロスモーダルトレーニングを使用する。
論文 参考訳(メタデータ) (2023-01-16T05:40:42Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Assisting Scene Graph Generation with Self-Supervision [21.89909688056478]
本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。
比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-08-08T16:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。