Fugu-MT 論文翻訳(概要): One-shot Visual Reasoning on RPMs with an Application to Video Frame Prediction

論文の概要: One-shot Visual Reasoning on RPMs with an Application to Video Frame Prediction

arxiv url: http://arxiv.org/abs/2111.12301v1
Date: Wed, 24 Nov 2021 06:51:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-25 15:37:16.595044
Title: One-shot Visual Reasoning on RPMs with an Application to Video Frame Prediction
Title（参考訳）: RPM上のワンショットビジュアル推論とビデオフレーム予測への応用
Authors: Wentao He, Jianfeng Ren, Ruibin Bai
Abstract要約: Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。本稿では,現実の視覚認識とそれに続く論理的推論タスクの課題に対処するために,ワンショットの人間理解可能なReaSoner(Os-HURS)を提案する。
参考スコア（独自算出の注目度）: 1.0932251830449902
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Raven's Progressive Matrices (RPMs) are frequently used in evaluating human's visual reasoning ability. Researchers have made considerable effort in developing a system which could automatically solve the RPM problem, often through a black-box end-to-end Convolutional Neural Network (CNN) for both visual recognition and logical reasoning tasks. Towards the objective of developing a highly explainable solution, we propose a One-shot Human-Understandable ReaSoner (Os-HURS), which is a two-step framework including a perception module and a reasoning module, to tackle the challenges of real-world visual recognition and subsequent logical reasoning tasks, respectively. For the reasoning module, we propose a "2+1" formulation that can be better understood by humans and significantly reduces the model complexity. As a result, a precise reasoning rule can be deduced from one RPM sample only, which is not feasible for existing solution methods. The proposed reasoning module is also capable of yielding a set of reasoning rules, precisely modeling the human knowledge in solving the RPM problem. To validate the proposed method on real-world applications, an RPM-like One-shot Frame-prediction (ROF) dataset is constructed, where visual reasoning is conducted on RPMs constructed using real-world video frames instead of synthetic images. Experimental results on various RPM-like datasets demonstrate that the proposed Os-HURS achieves a significant and consistent performance gain compared with the state-of-the-art models.
Abstract（参考訳）: Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。研究者は、視覚認識と論理的推論タスクの両方のために、しばしばブラックボックスのエンドツーエンド畳み込みニューラルネットワーク(cnn)を介して、rpm問題を自動で解決するシステムの開発に多大な努力を払った。高度に説明可能な解法を開発するために,知覚モジュールと推論モジュールを含む2段階のフレームワークである1発の人間理解可能な推論器(os-hurs)を提案し,実世界の視覚認識とそれに続く論理推論タスクの課題に取り組む。推論モジュールのために、人間により理解され、モデルの複雑さを大幅に低減できる「2+1」定式化を提案する。その結果、1つのRPMサンプルのみから正確な推論規則を導出することができ、既存の解法では不可能である。提案する推論モジュールは、rpm問題を解決する際に人間の知識を正確にモデル化する一連の推論ルールも得ることができる。提案手法を実世界のアプリケーションに適用するために,合成画像の代わりに実世界のビデオフレームを用いて構築したRPM上で視覚的推論を行うROFデータセットを構築した。種々のRPM様データセットの実験結果から,提案したOs-HURSは,最先端モデルと比較して有意かつ一貫した性能向上を達成した。

関連論文リスト

Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
DMWM: Dual-Mind World Model with Long-Term Imagination [53.98633183204453]
本稿では、論理的推論を統合し、論理的一貫性で想像力を発揮できる新しいデュアルミンド世界モデル(DMWM)を提案する。提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
論文参考訳（メタデータ） (2025-02-11T14:40:57Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection [52.107043437362556]
Raven's Progressive Matrix (RPM) は、マシンインテリジェンスにおける抽象的な視覚的推論を探索するために広く使われている。 RPMテストの参加者は、属性変更ルールを推論し、組み合わせることで、強力な推論能力を示すことができる。本稿では,ルール AbstractIon と Selection を用いて,回答生成問題に対する潜時変数モデルを提案する。
論文参考訳（メタデータ） (2024-01-18T13:28:44Z)
Faster Video Moment Retrieval with Point-Level Supervision [70.51822333023145]
Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。既存のVMRメソッドには2つの欠陥がある。 CFMR(Cheaper and Faster Moment Retrieval)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-05-23T12:53:50Z)
Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文参考訳（メタデータ） (2023-05-11T02:02:53Z)
Learning to reason over visual objects [6.835410768769661]
対象物の観点から視覚シーンを処理するための汎用メカニズムが,抽象的な視覚的推論を促進するのにどの程度役立つかを検討する。我々は、オブジェクト中心処理の帰納バイアスが抽象的な視覚的推論の鍵となることを発見した。
論文参考訳（メタデータ） (2023-03-03T23:19:42Z)
DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。 GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文参考訳（メタデータ） (2021-09-27T16:10:30Z)
Unsupervised Abstract Reasoning for Raven's Problem Matrices [9.278113063631643]
Raven's Progressive Matrices (RPM) は人間の知能と非常に相関している。本稿では,RPM問題の解法として,教師なし学習法を提案する。我々の手法は教師付きアプローチよりも優れています。
論文参考訳（メタデータ） (2021-09-21T07:44:58Z)
A Data Augmentation Method by Mixing Up Negative Candidate Answers for Solving Raven's Progressive Matrices [0.829949723558878]
Raven's Progressive Matrices (RPM) は人間の視覚的推論能力をテストするために頻繁に使用される。最近開発されたRPMライクなデータセットとソリューションモデルは、この種の問題を認知科学からコンピュータ科学に転送します。本稿では,様々な多重選択問題に一般化可能な画像混合によるデータ拡張戦略を提案する。
論文参考訳（メタデータ） (2021-03-09T04:50:32Z)
Multi-Label Contrastive Learning for Abstract Visual Reasoning [0.0]
Ravenのプログレッシブマトリクスを解く最先端のシステムは、大量のパターンベースのトレーニングとデータセットのバイアスを利用する。人間は、解決すべきRPM(または一般的には視覚的推論タスク)の根底にあるルールや概念の識別に集中する。本稿では,新しいトレーニングアルゴリズムに加えて,最先端性能に寄与する重要な要因であるRPMのスパースルール符号化方式を提案する。
論文参考訳（メタデータ） (2020-12-03T14:18:15Z)
DynaVSR: Dynamic Adaptive Blind Video Super-Resolution [60.154204107453914]
DynaVSRは、現実世界のビデオSRのための新しいメタラーニングベースのフレームワークである。様々な種類の合成ボケカーネルを備えたマルチフレームダウンスケーリングモジュールをトレーニングし、入力認識適応のためのビデオSRネットワークとシームレスに結合する。実験結果から,DynaVSRは最先端のビデオSRモデルの性能を一定に向上することがわかった。
論文参考訳（メタデータ） (2020-11-09T15:07:32Z)
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。 VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文参考訳（メタデータ） (2020-07-23T05:41:27Z)
Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文参考訳（メタデータ） (2020-02-15T13:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。