論文の概要: A Better Loss for Visual-Textual Grounding
- arxiv url: http://arxiv.org/abs/2108.05308v1
- Date: Wed, 11 Aug 2021 16:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:37:26.013013
- Title: A Better Loss for Visual-Textual Grounding
- Title(参考訳): 視覚的テキストグラウンドの損失改善
- Authors: Davide Rigoni, Luciano Serafini, Alessandro Sperduti
- Abstract要約: テキスト句と画像とが与えられた場合、視覚的接地問題は、文によって参照された画像の内容を特定するタスクとして定義される。
ヒューマン・コンピュータ・インタラクション、画像・テキスト・リファレンス・レゾリューション、ビデオ・テキスト・リファレンス・レゾリューションなどにおける現実的な応用がいくつかある課題である。
本稿では,より効率的な損失関数の導入により,最先端モデルよりも高い精度が得られるモデルを提案する。
- 参考スコア(独自算出の注目度): 74.81353762517979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a textual phrase and an image, the visual grounding problem is defined
as the task of locating the content of the image referenced by the sentence. It
is a challenging task that has several real-world applications in
human-computer interaction, image-text reference resolution, and video-text
reference resolution. In the last years, several works have addressed this
problem with heavy and complex models that try to capture visual-textual
dependencies better than before. These models are typically constituted by two
main components that focus on how to learn useful multi-modal features for
grounding and how to improve the predicted bounding box of the visual mention,
respectively. Finding the right learning balance between these two sub-tasks is
not easy, and the current models are not necessarily optimal with respect to
this issue. In this work, we propose a model that, although using a simple
multi-modal feature fusion component, is able to achieve a higher accuracy than
state-of-the-art models thanks to the adoption of a more effective loss
function, based on the classes probabilities, that reach, in the considered
datasets, a better learning balance between the two sub-tasks mentioned above.
- Abstract(参考訳): テキスト句と画像が与えられると、視覚の接地問題は、文章によって参照される画像の内容を特定するタスクとして定義される。
これは、人間とコンピュータの相互作用、画像-テキストの参照解像度、ビデオ-テキストの参照解像度において、いくつかの現実世界のアプリケーションを持つ困難なタスクである。
過去数年間、重くて複雑なモデルによってこの問題に対処してきたいくつかの作業は、以前よりも視覚的な依存関係をよりよく捉えようとするものである。
これらのモデルは典型的には、グラウンド化に有用なマルチモーダル特徴の学習方法と、視覚的言及の予測バウンディングボックスの改善方法に焦点を当てた2つの主要コンポーネントで構成されている。
これら2つのサブタスク間の適切な学習バランスを見つけるのは簡単ではなく、現在のモデルはこの問題に関して必ずしも最適ではない。
本稿では,単純なマルチモーダル機能融合コンポーネントを用いて,上述の2つのサブタスク間の学習バランスが向上するクラス確率に基づいて,より効果的な損失関数を導入することにより,最先端モデルよりも高い精度を実現することができるモデルを提案する。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Weakly-Supervised Visual-Textual Grounding with Semantic Prior
Refinement [52.80968034977751]
画像-文ペアのみを用いて、弱い教師付き視覚-テクスチュアルグラウンドは、各エンティティの言及の領域-フレーズ対応を学習することを目的としている。
本稿では,2つの主モジュールの出力を組み合わせて予測を行うセマンティック・プライオリファインメント・モデル(SPRM)を提案する。
このアプローチでは、Flickr30k EntitiesとReferItの2つの一般的なデータセットに対する最先端の結果が9.6%の絶対的な改善で示されている。
論文 参考訳(メタデータ) (2023-05-18T12:25:07Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。