Fugu-MT 論文翻訳(概要): What Goes beyond Multi-modal Fusion in One-stage Referring Expression Comprehension: An Empirical Study

論文の概要: What Goes beyond Multi-modal Fusion in One-stage Referring Expression Comprehension: An Empirical Study

arxiv url: http://arxiv.org/abs/2204.07913v1
Date: Sun, 17 Apr 2022 03:04:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-19 15:11:48.579480
Title: What Goes beyond Multi-modal Fusion in One-stage Referring Expression Comprehension: An Empirical Study
Title（参考訳）: 一段階参照表現理解におけるマルチモーダル融合を超えるもの:実証的研究
Authors: Gen Luo, Yiyi Zhou, Jiamu Sun, Shubin Huang, Xiaoshuai Sun, Qixiang Ye, Yongjian Wu, Rongrong Ji
Abstract要約: 我々はSimRECと呼ばれる一段階参照表現理解ネットワークを構築した。我々は,RECの3つのベンチマークデータセットに対して100以上の実験を行った。トレーニングのオーバーヘッドとパラメータがはるかに少ないため、SimRECは大規模な事前訓練モデルのセットよりもパフォーマンスが向上する。
参考スコア（独自算出の注目度）: 112.72579084154452
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Most of the existing work in one-stage referring expression comprehension (REC) mainly focuses on multi-modal fusion and reasoning, while the influence of other factors in this task lacks in-depth exploration. To fill this gap, we conduct an empirical study in this paper. Concretely, we first build a very simple REC network called SimREC, and ablate 42 candidate designs/settings, which covers the entire process of one-stage REC from network design to model training. Afterwards, we conduct over 100 experimental trials on three benchmark datasets of REC. The extensive experimental results not only show the key factors that affect REC performance in addition to multi-modal fusion, e.g., multi-scale features and data augmentation, but also yield some findings that run counter to conventional understanding. For example, as a vision and language (V&L) task, REC does is less impacted by language prior. In addition, with a proper combination of these findings, we can improve the performance of SimREC by a large margin, e.g., +27.12% on RefCOCO+, which outperforms all existing REC methods. But the most encouraging finding is that with much less training overhead and parameters, SimREC can still achieve better performance than a set of large-scale pre-trained models, e.g., UNITER and VILLA, portraying the special role of REC in existing V&L research.
Abstract（参考訳）: 1段階参照表現理解(REC)における既存の研究のほとんどは、主にマルチモーダル融合と推論に焦点を当てているが、このタスクにおける他の要因の影響は、深層探査に欠けている。このギャップを埋めるため,本論文では経験的研究を行う。具体的には、まずSimRECと呼ばれる非常に単純なRECネットワークを構築し、42の候補設計/設定を廃止し、ネットワーク設計からモデルトレーニングまでの1段階RECの全プロセスをカバーする。その後、RECの3つのベンチマークデータセットに対して100以上の実験を行った。広範な実験結果から, マルチモーダル融合に加えて, マルチスケール機能やデータ拡張など, rec性能に影響を与える重要な要因を示すだけでなく, 従来の理解と相反する知見も得られた。例えば、ビジョンと言語(V&L)タスクとして、RECは以前の言語の影響を受けない。さらに、これらの知見を適切に組み合わせることで、既存のREC法よりも優れたRefCOCO+の+27.12%という大きなマージンでSimRECの性能を向上させることができる。しかし、最も推奨される発見は、トレーニングのオーバーヘッドとパラメータがはるかに少ない場合、SimRECは既存のV&L研究におけるRECの特別な役割を描きながら、UNITERやVILLAのような大規模な事前訓練モデルよりもパフォーマンスが良いことである。

関連論文リスト

Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval [28.986143611245836]
本稿では,マルチモーダルユニバーサル検索に特化したR1スタイルMLLMであるRetrv-R1を紹介する。検索タスクにDeepSeek-R1のメソッドを直接適用することは不可能である。これらの問題に対処するため、Retrv-R1は詳細検査機構を備えた情報圧縮モジュールを導入した。
論文参考訳（メタデータ） (2025-10-03T06:16:58Z)
Zero-Shot Referring Expression Comprehension via Vison-Language True/False Verification [1.5777959896871054]
ゼロショットワークフローは、REC固有のトレーニングを使わずに、競争力や優れたパフォーマンスを達成することができることを示す。我々の手法は、RECをボックスワイドな視覚言語検証として再構成する。タスク固有の事前学習ではなく,ワークフロー設計が強力なゼロショットREC性能を実現することを示す。
論文参考訳（メタデータ） (2025-09-12T04:32:52Z)
Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-09T14:00:57Z)
Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文参考訳（メタデータ） (2025-05-23T05:50:14Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
V-RECS, a Low-Cost LLM4VIS Recommender with Explanations, Captioning and Suggestions [3.3235895997314726]
本稿では,説明文(E),キャプション(C),提案文(S)を付加した初のビジュアルレコメンダであるV-RECSについて述べる。 V-RECSの視覚化は、専門家でないユーザによる応答検証とデータ探索の両方を容易にする。
論文参考訳（メタデータ） (2024-06-21T15:50:10Z)
Recall, Retrieve and Reason: Towards Better In-Context Relation Extraction [11.535892987373947]
関係抽出(RE)は、テキストで言及されたエンティティ間の関係を特定することを目的としている。大規模言語モデル(LLM)は、様々なタスクにおいて、コンテキスト内学習能力を印象的に示している。 LLMは、ほとんどの教師付き細調整RE法と比較して性能が劣る。
論文参考訳（メタデータ） (2024-04-27T07:12:52Z)
Meta In-Context Learning Makes Large Language Models Better Zero and Few-Shot Relation Extractors [9.881102419679673]
textscMicre (textbfMeta textbfIn-textbfContext learning of LLMs for textbfRelation textbfExtraction)は、ゼロおよび少数ショット関係抽出のための新しいメタトレーニングフレームワークである。 textscMicreは、ターゲットREデータセットの推論中に関係ラベル名を介して関係意味知識を転送可能であることを示す。
論文参考訳（メタデータ） (2024-04-27T07:06:39Z)
Continual Referring Expression Comprehension via Dual Modular Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文参考訳（メタデータ） (2023-11-25T02:58:51Z)
Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文参考訳（メタデータ） (2023-11-16T10:42:58Z)
Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-10-04T00:49:20Z)
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。 MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文参考訳（メタデータ） (2020-03-19T14:25:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。