Fugu-MT 論文翻訳(概要): What Makes RAFT Better Than PWC-Net?

論文の概要: What Makes RAFT Better Than PWC-Net?

arxiv url: http://arxiv.org/abs/2203.10712v1
Date: Mon, 21 Mar 2022 03:15:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-23 04:30:04.333576
Title: What Makes RAFT Better Than PWC-Net?
Title（参考訳）: RAFTがPWC-Netより優れている理由
Authors: Deqing Sun, Charles Herrmann, Fitsum Reda, Michael Rubinstein, David Fleet, William T. Freeman
Abstract要約: 我々は、PWC-Net、IRR-PWC、RAFTの3つの著名なモデルを再検討する。新たにトレーニングしたPWC-NetとIRR-PWCモデルは、SintelとKITTI 2015ベンチマークで発表された結果に比べて30%も大きく改善されている。
参考スコア（独自算出の注目度）: 42.05993438897019
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How important are training details and datasets to recent optical flow models like RAFT? And do they generalize? To explore these questions, rather than develop a new model, we revisit three prominent models, PWC-Net, IRR-PWC and RAFT, with a common set of modern training techniques and datasets, and observe significant performance gains, demonstrating the importance and generality of these training details. Our newly trained PWC-Net and IRR-PWC models show surprisingly large improvements, up to 30% versus original published results on Sintel and KITTI 2015 benchmarks. They outperform the more recent Flow1D on KITTI 2015 while being 3x faster during inference. Our newly trained RAFT achieves an Fl-all score of 4.31% on KITTI 2015, more accurate than all published optical flow methods at the time of writing. Our results demonstrate the benefits of separating the contributions of models, training techniques and datasets when analyzing performance gains of optical flow methods. Our source code will be publicly available.
Abstract（参考訳）: RAFTのような最近の光学フローモデルに対するトレーニングの詳細とデータセットはどの程度重要か? 一般化するのか? 新たなモデルを開発する代わりに,PWC-Net,IRR-PWC,RAFTの3つの著名なモデルを,現代的なトレーニング手法とデータセットの共通セットで再検討し,これらのトレーニングの詳細の重要性と汎用性を実証した。新たにトレーニングしたPWC-NetとIRR-PWCモデルは、SintelとKITTI 2015ベンチマークで発表された結果に比べて30%も大きく改善されている。彼らは最新のFlow1DをKITTI 2015で上回り、推論では3倍高速になった。新たにトレーニングしたRAFTは、KITTI 2015でFl-allスコアが4.31%に達した。本結果は,光学フロー法の性能向上を解析する際に,モデル,トレーニング手法,データセットの寄与を分離する利点を示す。ソースコードは公開される予定だ。

関連論文リスト

Towards foundational LiDAR world models with efficient latent flow matching [9.86884512471034]
既存のLiDARワールドモデルは狭義に訓練されており、それぞれのモデルは構築されたドメインに限られる。 3つの要求シナリオにまたがる最初の体系的ドメイン転送研究を行う。微調整データの量が異なるため,実験の結果,1つの事前学習モデルで最大11%の絶対的改善が達成できることがわかった。
論文参考訳（メタデータ） (2025-06-30T00:16:55Z)
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。 T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文参考訳（メタデータ） (2024-11-22T18:44:04Z)
TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文参考訳（メタデータ） (2024-10-23T18:00:00Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文参考訳（メタデータ） (2024-04-04T17:58:02Z)
A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文参考訳（メタデータ） (2024-02-19T18:53:54Z)
Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文参考訳（メタデータ） (2024-01-29T18:27:52Z)
Correlated Time Series Self-Supervised Representation Learning via Spatiotemporal Bootstrapping [13.988624652592259]
時系列分析は多くの実業界で重要な役割を担っている。本稿では,個別インスタンスを対象とした時間段階表現学習フレームワークを提案する。学習した表現の上に訓練された線形回帰モデルにより、ほとんどの場合、我々のモデルは最高のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-06-12T09:42:16Z)
Predicting Software Performance with Divide-and-Learn [3.635696352780227]
本稿では,DALと呼ばれる「分枝学習」の概念に基づくアプローチを提案する。実世界の8つのシステムと5つのトレーニングデータによる実験結果から、DaLは40件中33件で最高のシステムよりもパフォーマンスが劣っていることが判明した。
論文参考訳（メタデータ） (2023-06-11T11:16:27Z)
Foundational Models for Continual Learning: An Empirical Study of Latent Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文参考訳（メタデータ） (2022-04-30T19:11:37Z)
Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文参考訳（メタデータ） (2020-07-13T16:56:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。