Fugu-MT 論文翻訳(概要): ET tu, CLIP? Addressing Common Object Errors for Unseen Environments

論文の概要: ET tu, CLIP? Addressing Common Object Errors for Unseen Environments

arxiv url: http://arxiv.org/abs/2406.17876v1
Date: Tue, 25 Jun 2024 18:35:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 15:37:10.241137
Title: ET tu, CLIP? Addressing Common Object Errors for Unseen Environments
Title（参考訳）: ET tu, CLIP? 見えない環境における共通オブジェクトエラーに対処する
Authors: Ye Won Byun, Cathy Jiao, Shahriar Noroozizadeh, Jimin Sun, Rosa Vitiello,
Abstract要約: ALFREDタスクにおけるモデル一般化を強化するために、事前訓練されたCLIPエンコーダを使用する簡単な方法を提案する。 CLIPがビジュアルエンコーダを置き換える以前の文献とは対照的に、補助オブジェクト検出の目的を通じて追加モジュールとしてCLIPを使用することを提案する。
参考スコア（独自算出の注目度）: 0.2714641498775158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a simple method that employs pre-trained CLIP encoders to enhance model generalization in the ALFRED task. In contrast to previous literature where CLIP replaces the visual encoder, we suggest using CLIP as an additional module through an auxiliary object detection objective. We validate our method on the recently proposed Episodic Transformer architecture and demonstrate that incorporating CLIP improves task performance on the unseen validation set. Additionally, our analysis results support that CLIP especially helps with leveraging object descriptions, detecting small objects, and interpreting rare words.
Abstract（参考訳）: ALFREDタスクにおけるモデル一般化を強化するために、事前訓練されたCLIPエンコーダを使用する簡単な方法を提案する。 CLIPがビジュアルエンコーダを置き換える以前の文献とは対照的に、補助オブジェクト検出の目的を通じて追加モジュールとしてCLIPを使用することを提案する。提案手法を最近提案したEpsodic Transformerアーキテクチャ上で検証し、CLIPを組み込むことで、未確認の検証セット上でのタスク性能が向上することを示す。さらに,この分析結果は,CLIPが特にオブジェクト記述の活用,小さなオブジェクトの検出,稀な単語の解釈に有効であることを示す。

関連論文リスト

Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文参考訳（メタデータ） (2025-04-09T17:59:05Z)
DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-09T14:04:09Z)
CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation [3.1667055223489786]
対照的な言語-画像事前学習モデルはゼロショット分類では優れているが、複雑な多目的シナリオでは課題に直面している。この研究は、特別なデータセットであるComCOを使用して、これらのコンテキストにおけるCLIPの制限を包括的に分析する。テキストエンコーダは初期オブジェクトを優先し,画像エンコーダはより大きなオブジェクトを優先する。
論文参考訳（メタデータ） (2025-02-27T07:34:42Z)
Analyzing CLIP's Performance Limitations in Multi-Object Scenarios: A Controlled High-Resolution Study [3.1667055223489786]
コントラスト言語-画像事前学習(CLIP)モデルは,ゼロショット分類タスクにおいて顕著な性能を示した。本研究では,制御実験による多目的コンテキストにおけるCLIPの性能限界の包括的解析を行う。
論文参考訳（メタデータ） (2025-02-27T07:03:10Z)
Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition [1.2499537119440243]
本稿では,視覚言語モデル(VLM)がオブジェクトのクラス名を除いた記述的属性のみに基づいてオブジェクトを分類する能力を評価する新しいタスクである記述によるゼロショットの「リアル」分類に取り組む。我々は、オブジェクト名を省略し、真にゼロショット学習を促進する6つの人気のあるきめ細かいベンチマークに関する記述データをリリースする。修正されたCLIPアーキテクチャを導入し、複数の解像度を活用し、きめ細かい部分属性の検出を改善する。
論文参考訳（メタデータ） (2024-12-18T15:28:08Z)
Quantifying and Enabling the Interpretability of CLIP-like Models [19.459369149558405]
本稿では,OpenAIとOpenCLIPの6種類のCLIPモデルについて検討する。我々のアプローチは、TEXTSPANアルゴリズムとコンテキスト内学習を用いて、個々の注意を特定の特性に分解することから始まります。以上の結果から,より大型のCLIPモデルはより小型のCLIPモデルよりも一般的に解釈可能であることが明らかとなった。
論文参考訳（メタデータ） (2024-09-10T15:19:40Z)
C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文参考訳（メタデータ） (2024-08-19T02:14:25Z)
Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文参考訳（メタデータ） (2023-10-26T08:12:53Z)
Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文参考訳（メタデータ） (2023-08-30T10:35:36Z)
DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文参考訳（メタデータ） (2023-05-30T15:13:17Z)
Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する本稿では,情報フローレンズを用いたICLの動作機構について検討する。本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T15:26:20Z)
HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-28T07:54:54Z)
CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文参考訳（メタデータ） (2023-03-06T09:17:47Z)
DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。 DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文参考訳（メタデータ） (2021-12-02T09:23:01Z)
End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文参考訳（メタデータ） (2020-05-26T17:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。