論文の概要: One-shot Visual Reasoning on RPMs with an Application to Video Frame
Prediction
- arxiv url: http://arxiv.org/abs/2111.12301v1
- Date: Wed, 24 Nov 2021 06:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:37:16.595044
- Title: One-shot Visual Reasoning on RPMs with an Application to Video Frame
Prediction
- Title(参考訳): RPM上のワンショットビジュアル推論とビデオフレーム予測への応用
- Authors: Wentao He, Jianfeng Ren, Ruibin Bai
- Abstract要約: Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。
本稿では,現実の視覚認識とそれに続く論理的推論タスクの課題に対処するために,ワンショットの人間理解可能なReaSoner(Os-HURS)を提案する。
- 参考スコア(独自算出の注目度): 1.0932251830449902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Raven's Progressive Matrices (RPMs) are frequently used in evaluating human's
visual reasoning ability. Researchers have made considerable effort in
developing a system which could automatically solve the RPM problem, often
through a black-box end-to-end Convolutional Neural Network (CNN) for both
visual recognition and logical reasoning tasks. Towards the objective of
developing a highly explainable solution, we propose a One-shot
Human-Understandable ReaSoner (Os-HURS), which is a two-step framework
including a perception module and a reasoning module, to tackle the challenges
of real-world visual recognition and subsequent logical reasoning tasks,
respectively. For the reasoning module, we propose a "2+1" formulation that can
be better understood by humans and significantly reduces the model complexity.
As a result, a precise reasoning rule can be deduced from one RPM sample only,
which is not feasible for existing solution methods. The proposed reasoning
module is also capable of yielding a set of reasoning rules, precisely modeling
the human knowledge in solving the RPM problem. To validate the proposed method
on real-world applications, an RPM-like One-shot Frame-prediction (ROF) dataset
is constructed, where visual reasoning is conducted on RPMs constructed using
real-world video frames instead of synthetic images. Experimental results on
various RPM-like datasets demonstrate that the proposed Os-HURS achieves a
significant and consistent performance gain compared with the state-of-the-art
models.
- Abstract(参考訳): Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。
研究者は、視覚認識と論理的推論タスクの両方のために、しばしばブラックボックスのエンドツーエンド畳み込みニューラルネットワーク(cnn)を介して、rpm問題を自動で解決するシステムの開発に多大な努力を払った。
高度に説明可能な解法を開発するために,知覚モジュールと推論モジュールを含む2段階のフレームワークである1発の人間理解可能な推論器(os-hurs)を提案し,実世界の視覚認識とそれに続く論理推論タスクの課題に取り組む。
推論モジュールのために、人間により理解され、モデルの複雑さを大幅に低減できる「2+1」定式化を提案する。
その結果、1つのRPMサンプルのみから正確な推論規則を導出することができ、既存の解法では不可能である。
提案する推論モジュールは、rpm問題を解決する際に人間の知識を正確にモデル化する一連の推論ルールも得ることができる。
提案手法を実世界のアプリケーションに適用するために,合成画像の代わりに実世界のビデオフレームを用いて構築したRPM上で視覚的推論を行うROFデータセットを構築した。
種々のRPM様データセットの実験結果から,提案したOs-HURSは,最先端モデルと比較して有意かつ一貫した性能向上を達成した。
関連論文リスト
- Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection [52.107043437362556]
Raven's Progressive Matrix (RPM) は、マシンインテリジェンスにおける抽象的な視覚的推論を探索するために広く使われている。
RPMテストの参加者は、属性変更ルールを推論し、組み合わせることで、強力な推論能力を示すことができる。
本稿では,ルール AbstractIon と Selection を用いて,回答生成問題に対する潜時変数モデルを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:28:44Z) - Faster Video Moment Retrieval with Point-Level Supervision [70.51822333023145]
Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。
既存のVMRメソッドには2つの欠陥がある。
CFMR(Cheaper and Faster Moment Retrieval)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:53:50Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Learning to reason over visual objects [6.835410768769661]
対象物の観点から視覚シーンを処理するための汎用メカニズムが,抽象的な視覚的推論を促進するのにどの程度役立つかを検討する。
我々は、オブジェクト中心処理の帰納バイアスが抽象的な視覚的推論の鍵となることを発見した。
論文 参考訳(メタデータ) (2023-03-03T23:19:42Z) - DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。
GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文 参考訳(メタデータ) (2021-09-27T16:10:30Z) - Unsupervised Abstract Reasoning for Raven's Problem Matrices [9.278113063631643]
Raven's Progressive Matrices (RPM) は人間の知能と非常に相関している。
本稿では,RPM問題の解法として,教師なし学習法を提案する。
我々の手法は教師付きアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-09-21T07:44:58Z) - A Data Augmentation Method by Mixing Up Negative Candidate Answers for
Solving Raven's Progressive Matrices [0.829949723558878]
Raven's Progressive Matrices (RPM) は人間の視覚的推論能力をテストするために頻繁に使用される。
最近開発されたRPMライクなデータセットとソリューションモデルは、この種の問題を認知科学からコンピュータ科学に転送します。
本稿では,様々な多重選択問題に一般化可能な画像混合によるデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2021-03-09T04:50:32Z) - Multi-Label Contrastive Learning for Abstract Visual Reasoning [0.0]
Ravenのプログレッシブマトリクスを解く最先端のシステムは、大量のパターンベースのトレーニングとデータセットのバイアスを利用する。
人間は、解決すべきRPM(または一般的には視覚的推論タスク)の根底にあるルールや概念の識別に集中する。
本稿では,新しいトレーニングアルゴリズムに加えて,最先端性能に寄与する重要な要因であるRPMのスパースルール符号化方式を提案する。
論文 参考訳(メタデータ) (2020-12-03T14:18:15Z) - DynaVSR: Dynamic Adaptive Blind Video Super-Resolution [60.154204107453914]
DynaVSRは、現実世界のビデオSRのための新しいメタラーニングベースのフレームワークである。
様々な種類の合成ボケカーネルを備えたマルチフレームダウンスケーリングモジュールをトレーニングし、入力認識適応のためのビデオSRネットワークとシームレスに結合する。
実験結果から,DynaVSRは最先端のビデオSRモデルの性能を一定に向上することがわかった。
論文 参考訳(メタデータ) (2020-11-09T15:07:32Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。