Fugu-MT 論文翻訳(概要): One for All: One-stage Referring Expression Comprehension with Dynamic Reasoning

論文の概要: One for All: One-stage Referring Expression Comprehension with Dynamic Reasoning

arxiv url: http://arxiv.org/abs/2208.00361v1
Date: Sun, 31 Jul 2022 04:51:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-02 13:47:22.193999
Title: One for All: One-stage Referring Expression Comprehension with Dynamic Reasoning
Title（参考訳）: ひとつ:動的推論による1段階参照表現の理解
Authors: Zhipeng Zhang, Zhimin Wei, Zhongzhen Huang, Rui Niu, Peng Wang
Abstract要約: 推論状態と表現の複雑さに基づいて推論ステップを動的に調整できる動的多段階推論ネットワークを提案する。この作業は、いくつかのRECデータセットの最先端のパフォーマンスや大幅な改善を実現する。
参考スコア（独自算出の注目度）: 11.141645707535599
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Referring Expression Comprehension (REC) is one of the most important tasks in visual reasoning that requires a model to detect the target object referred by a natural language expression. Among the proposed pipelines, the one-stage Referring Expression Comprehension (OSREC) has become the dominant trend since it merges the region proposal and selection stages. Many state-of-the-art OSREC models adopt a multi-hop reasoning strategy because a sequence of objects is frequently mentioned in a single expression which needs multi-hop reasoning to analyze the semantic relation. However, one unsolved issue of these models is that the number of reasoning steps needs to be pre-defined and fixed before inference, ignoring the varying complexity of expressions. In this paper, we propose a Dynamic Multi-step Reasoning Network, which allows the reasoning steps to be dynamically adjusted based on the reasoning state and expression complexity. Specifically, we adopt a Transformer module to memorize & process the reasoning state and a Reinforcement Learning strategy to dynamically infer the reasoning steps. The work achieves the state-of-the-art performance or significant improvements on several REC datasets, ranging from RefCOCO (+, g) with short expressions, to Ref-Reasoning, a dataset with long and complex compositional expressions.
Abstract（参考訳）: Referring Expression Comprehension (REC)は、自然言語表現によって参照される対象物を検出するモデルを必要とする視覚推論において最も重要なタスクの1つである。提案したパイプラインの中では,1段階参照式理解(OSREC)が地域提案と選択段階の融合によって主流となっている。多くの最先端osrecモデルは、オブジェクトのシーケンスが、意味関係を分析するためにマルチホップ推論を必要とする単一の式で頻繁に言及されるため、マルチホップ推論戦略を採用している。しかしながら、これらのモデルの未解決の問題は、推論の前に推論ステップの数を事前に定義し、固定する必要があることである。本稿では,推論状態と表現複雑性に基づいて,推論ステップを動的に調整できる動的多段階推論ネットワークを提案する。具体的には,推論状態を記憶し処理するためのトランスフォーマーモジュールと,推論ステップを動的に推論するための強化学習戦略を採用する。この研究は、短い表現を持つRefCOCO(+, g)から、長く複雑な構成表現を持つデータセットであるRef-Reasoningまで、いくつかのRECデータセットの最先端のパフォーマンスや大幅な改善を実現している。

関連論文リスト

Resource-Friendly Dynamic Enhancement Chain for Multi-Hop Question Answering [21.077964610022313]
この研究はDEC(Dynamic Enhancement Chain)と呼ばれる新しいフレームワークを提案する。 DECはまず複雑な質問を論理的に一貫性のあるサブクエストに分解し、幻覚のない推論連鎖を形成する。その後、コンテキスト対応の書き換えによってこれらのサブクエストを反復的に洗練し、効率的なクエリの定式化を生成する。
論文参考訳（メタデータ） (2025-06-21T11:55:27Z)
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文参考訳（メタデータ） (2025-06-05T02:28:07Z)
SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models [4.328173053224842]
本稿では、自己干渉パラダイムによる推論を改善するために設計された新しいプロンプト技術であるSQuAREを紹介する。 CoTフレームワーク上に構築されているSQuAREでは,メインクエリに対処する前に,複数の補助的な質問の生成と解決をモデルに促している。 Llama 3 と GPT-4o モデルを用いて複数の質問応答データセットを用いて評価を行った結果,SQuARE が従来の CoT プロンプトや既存のrephrase-and- corresponding 手法をはるかに上回っていることが示された。
論文参考訳（メタデータ） (2025-02-13T15:07:20Z)
Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures [0.0]
本稿では,動的グラフベースの推論フレームワークであるAdaptive Graph of Thoughts (AGoT)を紹介する。 AGoTはテスト時間のみでのLarge Language Models (LLM)推論を強化する。マルチホップ検索,科学的推論,数学的問題解決にまたがる多様なベンチマークに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-02-07T16:54:19Z)
PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文参考訳（メタデータ） (2024-10-16T08:46:26Z)
Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning [0.0]
反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。思考の反復(IoT)フレームワークを提案する。静的アプローチや半静的アプローチとは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適応する。
論文参考訳（メタデータ） (2024-09-19T09:44:17Z)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。このアプローチは、正しい答えが少数派である場合に失敗する。階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文参考訳（メタデータ） (2024-05-21T17:12:19Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
Leveraging Structured Information for Explainable Multi-hop Question Answering and Reasoning [14.219239732584368]
本研究では,マルチホップ質問応答のための抽出された意味構造(グラフ)の構築と活用について検討する。実験結果と人的評価の結果から、我々のフレームワークはより忠実な推論連鎖を生成し、2つのベンチマークデータセットのQA性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-11-07T05:32:39Z)
Modeling Hierarchical Reasoning Chains by Linking Discourse Units and Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文参考訳（メタデータ） (2023-06-21T07:34:27Z)
Referring Expression Comprehension Using Language Adaptive Inference [15.09309604460633]
本稿では,動的推論のための表現モデルとRECモデルの適応性について検討する。本稿では,参照表現に条件付きRECモデルから言語適応を抽出できるLanguage Adaptive Subnets (LADS) というフレームワークを提案する。 RefCOCO, RefCO+, RefCOCOg, Referit の実験により, 提案手法はより高速な推論速度と最先端手法に対する高精度な精度を実現することを示した。
論文参考訳（メタデータ） (2023-06-06T07:58:59Z)
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。比較すると,本手法はより汎用的で有効である。
論文参考訳（メタデータ） (2023-03-11T08:42:40Z)
Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文参考訳（メタデータ） (2022-10-06T00:27:50Z)
Dialogue Meaning Representation for Task-Oriented Dialogue Systems [51.91615150842267]
タスク指向対話のための柔軟かつ容易に拡張可能な表現である対話意味表現(DMR)を提案する。我々の表現は、合成意味論とタスク固有の概念のためのリッチな意味論を表現するために、継承階層を持つノードとエッジのセットを含んでいる。異なる機械学習ベースの対話モデルを評価するための2つの評価タスクを提案し、さらにグラフベースのコア参照解決タスクのための新しいコア参照解決モデルGNNCorefを提案する。
論文参考訳（メタデータ） (2022-04-23T04:17:55Z)
Referring Expression Comprehension: A Survey of Methods and Datasets [20.42495629501261]
Referring Expression comprehension (REC) は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。まず,問題に対する近代的アプローチを比較検討する。構造化グラフ表現と相互作用するモジュラーアーキテクチャとグラフベースモデルについて論じる。
論文参考訳（メタデータ） (2020-07-19T01:45:02Z)
Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2020-04-30T06:26:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。