論文の概要: One for All: One-stage Referring Expression Comprehension with Dynamic
Reasoning
- arxiv url: http://arxiv.org/abs/2208.00361v1
- Date: Sun, 31 Jul 2022 04:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:47:22.193999
- Title: One for All: One-stage Referring Expression Comprehension with Dynamic
Reasoning
- Title(参考訳): ひとつ:動的推論による1段階参照表現の理解
- Authors: Zhipeng Zhang, Zhimin Wei, Zhongzhen Huang, Rui Niu, Peng Wang
- Abstract要約: 推論状態と表現の複雑さに基づいて推論ステップを動的に調整できる動的多段階推論ネットワークを提案する。
この作業は、いくつかのRECデータセットの最先端のパフォーマンスや大幅な改善を実現する。
- 参考スコア(独自算出の注目度): 11.141645707535599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Expression Comprehension (REC) is one of the most important tasks
in visual reasoning that requires a model to detect the target object referred
by a natural language expression. Among the proposed pipelines, the one-stage
Referring Expression Comprehension (OSREC) has become the dominant trend since
it merges the region proposal and selection stages. Many state-of-the-art OSREC
models adopt a multi-hop reasoning strategy because a sequence of objects is
frequently mentioned in a single expression which needs multi-hop reasoning to
analyze the semantic relation. However, one unsolved issue of these models is
that the number of reasoning steps needs to be pre-defined and fixed before
inference, ignoring the varying complexity of expressions. In this paper, we
propose a Dynamic Multi-step Reasoning Network, which allows the reasoning
steps to be dynamically adjusted based on the reasoning state and expression
complexity. Specifically, we adopt a Transformer module to memorize & process
the reasoning state and a Reinforcement Learning strategy to dynamically infer
the reasoning steps. The work achieves the state-of-the-art performance or
significant improvements on several REC datasets, ranging from RefCOCO (+, g)
with short expressions, to Ref-Reasoning, a dataset with long and complex
compositional expressions.
- Abstract(参考訳): Referring Expression Comprehension (REC)は、自然言語表現によって参照される対象物を検出するモデルを必要とする視覚推論において最も重要なタスクの1つである。
提案したパイプラインの中では,1段階参照式理解(OSREC)が地域提案と選択段階の融合によって主流となっている。
多くの最先端osrecモデルは、オブジェクトのシーケンスが、意味関係を分析するためにマルチホップ推論を必要とする単一の式で頻繁に言及されるため、マルチホップ推論戦略を採用している。
しかしながら、これらのモデルの未解決の問題は、推論の前に推論ステップの数を事前に定義し、固定する必要があることである。
本稿では,推論状態と表現複雑性に基づいて,推論ステップを動的に調整できる動的多段階推論ネットワークを提案する。
具体的には,推論状態を記憶し処理するためのトランスフォーマーモジュールと,推論ステップを動的に推論するための強化学習戦略を採用する。
この研究は、短い表現を持つRefCOCO(+, g)から、長く複雑な構成表現を持つデータセットであるRef-Reasoningまで、いくつかのRECデータセットの最先端のパフォーマンスや大幅な改善を実現している。
関連論文リスト
- Leveraging Structured Information for Explainable Multi-hop Question
Answering and Reasoning [14.219239732584368]
本研究では,マルチホップ質問応答のための抽出された意味構造(グラフ)の構築と活用について検討する。
実験結果と人的評価の結果から、我々のフレームワークはより忠実な推論連鎖を生成し、2つのベンチマークデータセットのQA性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-07T05:32:39Z) - Empirical Study of Zero-Shot NER with ChatGPT [19.534329209433626]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて強力な能力を示した。
本研究はゼロショット情報抽出におけるLLM性能の探索に焦点をあてる。
記号的推論と算術的推論におけるLLMの顕著な推論能力に着想を得て, 代表的な推論手法をNERに適用する。
論文 参考訳(メタデータ) (2023-10-16T03:40:03Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Referring Expression Comprehension Using Language Adaptive Inference [15.09309604460633]
本稿では,動的推論のための表現モデルとRECモデルの適応性について検討する。
本稿では,参照表現に条件付きRECモデルから言語適応を抽出できるLanguage Adaptive Subnets (LADS) というフレームワークを提案する。
RefCOCO, RefCO+, RefCOCOg, Referit の実験により, 提案手法はより高速な推論速度と最先端手法に対する高精度な精度を実現することを示した。
論文 参考訳(メタデータ) (2023-06-06T07:58:59Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - IRRGN: An Implicit Relational Reasoning Graph Network for Multi-turn
Response Selection [4.471148909362883]
Graph Networkへのインプシット推論は、発話間の暗黙的な抽出と、発話とオプションの抽出を目的としている。
モデルは、初めて MuTual データセットで人のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-12-01T13:17:25Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。
中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。
多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文 参考訳(メタデータ) (2022-10-03T05:33:27Z) - Dialogue Meaning Representation for Task-Oriented Dialogue Systems [51.91615150842267]
タスク指向対話のための柔軟かつ容易に拡張可能な表現である対話意味表現(DMR)を提案する。
我々の表現は、合成意味論とタスク固有の概念のためのリッチな意味論を表現するために、継承階層を持つノードとエッジのセットを含んでいる。
異なる機械学習ベースの対話モデルを評価するための2つの評価タスクを提案し、さらにグラフベースのコア参照解決タスクのための新しいコア参照解決モデルGNNCorefを提案する。
論文 参考訳(メタデータ) (2022-04-23T04:17:55Z) - Referring Expression Comprehension: A Survey of Methods and Datasets [20.42495629501261]
Referring Expression comprehension (REC) は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。
まず,問題に対する近代的アプローチを比較検討する。
構造化グラフ表現と相互作用するモジュラーアーキテクチャとグラフベースモデルについて論じる。
論文 参考訳(メタデータ) (2020-07-19T01:45:02Z) - Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。
本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-04-30T06:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。