論文の概要: Scale-Localized Abstract Reasoning
- arxiv url: http://arxiv.org/abs/2009.09405v2
- Date: Mon, 26 Jul 2021 20:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:34:46.047599
- Title: Scale-Localized Abstract Reasoning
- Title(参考訳): スケールローカライズされた抽象推論
- Authors: Yaniv Benny, Niv Pekar, and Lior Wolf
- Abstract要約: 本稿では,インテリジェンステストとしてよく用いられる抽象的関係推論タスクについて考察する。
いくつかのパターンは空間的有理性を持っているが、他のパターンは意味論に過ぎないため、各クエリを複数の解像度で処理するマルチスケールアーキテクチャを提案する。
異なる解法によって実際に異なるルールが解かれることを示し、組み合わせたマルチスケールアプローチは、全てのベンチマークにおいて、このタスクにおける既存の技術の状態を5~54%上回っていることを示す。
- 参考スコア(独自算出の注目度): 79.00011351374869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the abstract relational reasoning task, which is commonly used as
an intelligence test. Since some patterns have spatial rationales, while others
are only semantic, we propose a multi-scale architecture that processes each
query in multiple resolutions. We show that indeed different rules are solved
by different resolutions and a combined multi-scale approach outperforms the
existing state of the art in this task on all benchmarks by 5-54%. The success
of our method is shown to arise from multiple novelties. First, it searches for
relational patterns in multiple resolutions, which allows it to readily detect
visual relations, such as location, in higher resolution, while allowing the
lower resolution module to focus on semantic relations, such as shape type.
Second, we optimize the reasoning network of each resolution proportionally to
its performance, hereby we motivate each resolution to specialize on the rules
for which it performs better than the others and ignore cases that are already
solved by the other resolutions. Third, we propose a new way to pool
information along the rows and the columns of the illustration-grid of the
query. Our work also analyses the existing benchmarks, demonstrating that the
RAVEN dataset selects the negative examples in a way that is easily exploited.
We, therefore, propose a modified version of the RAVEN dataset, named
RAVEN-FAIR. Our code and pretrained models are available at
https://github.com/yanivbenny/MRNet.
- Abstract(参考訳): 我々は,知性テストとして一般的に用いられる抽象的関係推論タスクについて考察する。
あるパターンには空間的合理性があるが、他のパターンは意味的ではないため、各クエリを複数の解像度で処理するマルチスケールアーキテクチャを提案する。
異なる解法によって実際に異なるルールが解かれることを示し、組み合わせたマルチスケールアプローチは、すべてのベンチマークにおいて、このタスクにおける既存の技術の状態を5~54%向上させる。
この手法の成功は複数の新奇性から生じることが示されている。
まず、複数の解像度でリレーショナルパターンを検索することで、位置などの視覚的な関係を高分解能で容易に検出できると同時に、低解像度モジュールがシェイプタイプのような意味的関係に集中できる。
第2に、各解像度の推論ネットワークを性能に比例して最適化し、各解像度を動機付け、他の解像度よりも優れた性能のルールを専門化し、他の解像度で既に解決されているケースを無視する。
第3に、クエリの行とイラストグリッドの列に沿って情報をプールする新しい方法を提案する。
我々の研究は既存のベンチマークも分析し、RAVENデータセットが悪用されやすい方法でネガティブな例を選択することを示した。
そこで我々は,RAVENデータセットの修正版であるRAVEN-FAIRを提案する。
私たちのコードと事前トレーニングされたモデルは、https://github.com/yanivbenny/mrnetで利用可能です。
関連論文リスト
- Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - FlexER: Flexible Entity Resolution for Multiple Intents [0.0]
本稿では,多目的エンティティ解決(MIER)の課題について紹介する。
汎用エンティティ解決タスクの現代的ソリューションを利用して、複数のインテントエンティティ解決を解くFlexERを提案する。
大規模な経験的評価は、新しいベンチマークを導入し、2つのよく知られたベンチマークを使用して、FlexERがMIERの問題を効果的に解決し、普遍的なエンティティ解決のための最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-23T15:52:52Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Resolution based Feature Distillation for Cross Resolution Person
Re-Identification [17.86505685442293]
人物の再識別(re-id)は、異なるカメラビューで同一人物の画像を取得することを目的としている。
解像度のミスマッチは、興味のある人とカメラの間の距離が異なるため起こる。
本稿では,複数の解像度の問題を克服するために,分解能に基づく特徴蒸留(RFD)アプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T11:07:59Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z) - MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-19T09:16:39Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。