論文の概要: The Solution for the 5th GCAIAC Zero-shot Referring Expression Comprehension Challenge
- arxiv url: http://arxiv.org/abs/2407.04998v1
- Date: Sat, 6 Jul 2024 08:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:28:00.716131
- Title: The Solution for the 5th GCAIAC Zero-shot Referring Expression Comprehension Challenge
- Title(参考訳): 第5回GCAIACゼロショット参照表現理解チャレンジの解法
- Authors: Longfei Huang, Feng Yu, Zhihao Guan, Zhonghua Wan, Yang Yang,
- Abstract要約: 本稿では,ゼロショット参照表現理解タスクの解法を提案する。
提案手法は,Aリーダーボードで84.825,Bリーダーボードで71.460,第1位を確保した。
- 参考スコア(独自算出の注目度): 3.92894296845466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents a solution for the zero-shot referring expression comprehension task. Visual-language multimodal base models (such as CLIP, SAM) have gained significant attention in recent years as a cornerstone of mainstream research. One of the key applications of multimodal base models lies in their ability to generalize to zero-shot downstream tasks. Unlike traditional referring expression comprehension, zero-shot referring expression comprehension aims to apply pre-trained visual-language models directly to the task without specific training. Recent studies have enhanced the zero-shot performance of multimodal base models in referring expression comprehension tasks by introducing visual prompts. To address the zero-shot referring expression comprehension challenge, we introduced a combination of visual prompts and considered the influence of textual prompts, employing joint prediction tailored to the data characteristics. Ultimately, our approach achieved accuracy rates of 84.825 on the A leaderboard and 71.460 on the B leaderboard, securing the first position.
- Abstract(参考訳): 本稿では,ゼロショット参照表現理解タスクの解法を提案する。
ビジュアル言語によるマルチモーダルベースモデル(CLIP、SAMなど)は、近年主流研究の基盤として注目されている。
マルチモーダルベースモデルのキーとなる応用の1つは、ゼロショットダウンストリームタスクに一般化する能力にある。
従来の参照表現理解とは異なり、ゼロショット参照表現理解は、特定の訓練をすることなく、事前学習された視覚言語モデルをタスクに直接適用することを目的としている。
近年,視覚的プロンプトの導入による表現理解タスクの参照において,マルチモーダルベースモデルのゼロショット性能が向上している。
ゼロショット参照表現理解の課題に対処するために、視覚的プロンプトの組み合わせを導入し、データ特性に合わせた共同予測を用いてテキスト的プロンプトの影響を検討した。
最終的に、我々のアプローチはAリーダーボードで84.825、Bリーダーボードで71.460の精度を達成し、第1位を確保しました。
関連論文リスト
- Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization [77.36122979882649]
コンピュータビジョン(CV)は自然言語処理(NLP)で観測されるゼロショットタスクの一般化をまだ完全に達成していない
本稿では,ゼロショットタスクの一般化において重要な障壁となる離散的・用語的タスク定義をCVが採用するという考えを考察する。
我々の仮説は、これらの用語的定義により、以前に見いだされたタスクを真に理解せずに、ディープモデルは新しいタスクに一般化するのに苦労する、というものである。
論文 参考訳(メタデータ) (2024-12-24T16:08:25Z) - Language-Independent Representations Improve Zero-Shot Summarization [18.46817967804773]
下流生成タスクで事前訓練されたモデルを微調整すると、ゼロショット条件で大惨事に陥ることが多い。
本研究では,要約に焦点をあて,言語に依存しない表現のレンズを用いてこの問題に対処する。
まず, 出力挙動と内部表現の両面において, 微調整モデルが非常に言語固有であることが示され, その結果, ゼロショット性能は低下した。
論文 参考訳(メタデータ) (2024-04-08T17:56:43Z) - Zero-shot Compound Expression Recognition with Visual Language Model at the 6th ABAW Challenge [11.49671335206114]
従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現の認識のためのゼロショットアプローチを提案する。
本研究では,従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現認識のためのゼロショットアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:59:24Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Enhancing Zero-shot Counting via Language-guided Exemplar Learning [17.479926342093677]
CAC(Class-Agnostic Counting)問題はその興味深い一般化と優れた効率のために注目を集めている。
本稿では,言語指導による模範学習を深く掘り下げることで,ゼロショットオブジェクトのカウントを向上する新しいExpressCountを提案する。
ExpressCountは革新的な言語指向のExemplar Perceptronと、下流のZero-shot Countingパイプラインで構成されている。
論文 参考訳(メタデータ) (2024-02-08T04:07:38Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。