論文の概要: Whether you can locate or not? Interactive Referring Expression
Generation
- arxiv url: http://arxiv.org/abs/2308.09977v1
- Date: Sat, 19 Aug 2023 10:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:39:22.799433
- Title: Whether you can locate or not? Interactive Referring Expression
Generation
- Title(参考訳): 見つけられるかどうか?
対話型参照表現生成
- Authors: Fulong Ye, Yuxing Long, Fangxiang Feng, Xiaojie Wang
- Abstract要約: 本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。
IREGは、一般的な評価指標において、過去の最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 12.148963878497243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Generation (REG) aims to generate unambiguous Referring
Expressions (REs) for objects in a visual scene, with a dual task of Referring
Expression Comprehension (REC) to locate the referred object. Existing methods
construct REG models independently by using only the REs as ground truth for
model training, without considering the potential interaction between REG and
REC models. In this paper, we propose an Interactive REG (IREG) model that can
interact with a real REC model, utilizing signals indicating whether the object
is located and the visual region located by the REC model to gradually modify
REs. Our experimental results on three RE benchmark datasets, RefCOCO,
RefCOCO+, and RefCOCOg show that IREG outperforms previous state-of-the-art
methods on popular evaluation metrics. Furthermore, a human evaluation shows
that IREG generates better REs with the capability of interaction.
- Abstract(参考訳): Referring Expression Generation(REG)は、参照されたオブジェクトを特定するためのReferring Expression Comprehension(REC)という2つのタスクを用いて、視覚シーンにおけるオブジェクトに対する不明瞭なReferring Expression(REs)を生成することを目的としている。
既存の手法では,REGモデルとRECモデル間の潜在的な相互作用を考慮せずに,REsのみをモデルトレーニングの基礎的真理として用いることで,REGモデルを独立に構築する。
本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。
RefCOCO、RefCOCO+、RefCOCOgの3つのREベンチマークデータセットに対する実験結果から、IREGは一般的な評価指標における従来の最先端手法よりも優れていることが示された。
さらに、人間による評価では、IREGは相互作用の能力でより良いREを生成する。
関連論文リスト
- Referring Expression Generation in Visually Grounded Dialogue with Discourse-aware Comprehension Guiding [3.8673630752805446]
本稿では,差別的かつ言論に適さない参照表現(REs)を生成するための参照表現生成(REG)手法を提案する。
人体評価の結果,提案する2段階のアプローチが差別的REの創出に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-09T15:33:07Z) - Make Graph-based Referring Expression Comprehension Great Again through Expression-guided Dynamic Gating and Regression [44.36417883611282]
そこで我々は,動的ゲート制約 (DGC) と呼ばれる部分表現で導かれるプラグ・アンド・アダプティブ・モジュールを導入し,推論中に無関係な提案を適応的に無効にすることができる。
また、位置予測を洗練させるために、式誘導回帰戦略(EGR)を導入する。
提案したグラフベースの手法は,保持を伴わずに,最新技術(SOTA)変換方式よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-05T09:44:43Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - GenRES: Rethinking Evaluation for Generative Relation Extraction in the
Era of Large Language Models [48.56814147033251]
我々は、GRE結果の類似性、特異性、粒度、事実性、完全性の観点から、多次元評価のためのGenRESを紹介する。
GenRESでは、精度/リコールがGREメソッドの性能を正当化できないことを実証的に確認した。
次に、GRE手法のヒト評価を行い、GenRESがRE品質に対するヒトの嗜好と一致していることを示す。
論文 参考訳(メタデータ) (2024-02-16T15:01:24Z) - Intrinsic Task-based Evaluation for Referring Expression Generation [9.322715583523928]
最先端のニューラルモデルによって生成されたReferring Expressions(REs)は、textscwebnlgのREsと区別できないだけでなく、単純なルールベースシステムによって生成されたREsからも区別できない。
ここでは、この制限は、純粋に評価に基づく人間評価の使用に起因する可能性があると論じる。
本稿では,REGモデルに対する本質的なタスクベース評価を提案し,REsの品質の評価に加えて,2つのメタレベルタスクの達成が求められた。
論文 参考訳(メタデータ) (2024-02-12T06:21:35Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - GREC: Generalized Referring Expression Comprehension [52.83101289813662]
本研究は、GREC(Generalized Referring Expression)と呼ばれる新しいベンチマークを導入する。
このベンチマークは、任意の数のターゲットオブジェクトを記述する式を許可することで、古典的なRECを拡張している。
この目標を達成するため、私たちはgRefCOCOと呼ばれる最初の大規模GRECデータセットを構築しました。
論文 参考訳(メタデータ) (2023-08-30T17:58:50Z) - Towards Unifying Reference Expression Generation and Comprehension [22.72363956296498]
我々は、UniRefという名前のREGとRECの統一モデルを提案する。
画像クロスアテンションと領域クロスアテンションを介して画像、領域、テキストを融合するIRTF(Image-Region-Text Fusion Layer)によって、これら2つのタスクを統一する。
さらに,マルチグラニュラコーパス上でのUniRefモデルの事前学習に対して,VMLM(Vision- Conditioned Masked Language Modeling)とTRP(Text-Conditioned Region Prediction)を提案する。
論文 参考訳(メタデータ) (2022-10-24T09:53:41Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。