Fugu-MT 論文翻訳(概要): Causal Image Modeling for Efficient Visual Understanding

論文の概要: Causal Image Modeling for Efficient Visual Understanding

arxiv url: http://arxiv.org/abs/2410.07599v1
Date: Thu, 10 Oct 2024 04:14:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 16:06:31.010506
Title: Causal Image Modeling for Efficient Visual Understanding
Title（参考訳）: 効率的な視覚理解のための因果画像モデリング
Authors: Feng Wang, Timing Yang, Yaodong Yu, Sucheng Ren, Guoyizhe Wei, Angtian Wang, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie,
Abstract要約: 本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
参考スコア（独自算出の注目度）: 41.87857129429512
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we present a comprehensive analysis of causal image modeling and introduce the Adventurer series models where we treat images as sequences of patch tokens and employ uni-directional language models to learn visual representations. This modeling paradigm allows us to process images in a recurrent formulation with linear complexity relative to the sequence length, which can effectively address the memory and computation explosion issues posed by high-resolution and fine-grained images. In detail, we introduce two simple designs that seamlessly integrate image inputs into the causal inference framework: a global pooling token placed at the beginning of the sequence and a flipping operation between every two layers. Extensive empirical studies demonstrate the significant efficiency and effectiveness of this causal image modeling paradigm. For example, our base-sized Adventurer model attains a competitive test accuracy of 84.0% on the standard ImageNet-1k benchmark with 216 images/s training throughput, which is 5.3 times more efficient than vision transformers to achieve the same result.
Abstract（参考訳）: 本稿では、因果画像モデリングの包括的分析と、パッチトークンのシーケンスとしてイメージを扱い、一方向言語モデルを用いて視覚表現を学習するアドベンチャーシリーズモデルを提案する。このモデリングパラダイムにより,高解像度で微細な画像によって引き起こされるメモリと計算の爆発問題に効果的に対処することができる。本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を紹介した。この因果画像モデリングパラダイムの有効性と有効性について、広範囲にわたる実証的研究を行った。例えば、私たちのベースサイズのアドベンチャーモデルは、216イメージ/秒のトレーニングスループットを持つ標準のImageNet-1kベンチマークで84.0%の競合テスト精度を実現しています。

関連論文リスト

Iterative Refinement Improves Compositional Image Generation [47.116050084875106]
Text-to-image (T2I)モデルは、複数のオブジェクト、リレーション、属性を同時に扱う必要がある複雑なプロンプトと競合する。本稿では,T2Iモデルを複数のステップで段階的に改良する反復的テストタイム戦略を提案する。われわれのアプローチは単純で、外部ツールや事前は必要とせず、幅広い画像生成器や視覚言語モデルに柔軟に適用できる。
論文参考訳（メタデータ） (2026-01-21T18:59:40Z)
Image Complexity-Aware Adaptive Retrieval for Efficient Vision-Language Models [0.17188280334580197]
視覚言語モデルにおける視覚変換器は、175.33 GFLOP(ViT-L/14)を出力する全画像にわたって一様計算処理を適用する単純な画像に対して,視覚変換器が少ない計算量で使用できるICAR(Image Complexity-Aware Retrieval)を提案する。
論文参考訳（メタデータ） (2025-12-17T12:19:54Z)
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。 546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文参考訳（メタデータ） (2025-11-04T18:00:51Z)
Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。 Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文参考訳（メタデータ） (2025-06-24T17:58:02Z)
CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文参考訳（メタデータ） (2025-05-16T12:23:58Z)
Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文参考訳（メタデータ） (2025-04-03T07:51:20Z)
Generalized and Efficient 2D Gaussian Splatting for Arbitrary-scale Super-Resolution [10.074968164380314]
Inlicit Neural Representations (INR) は任意スケール超解法 (ASR) に成功しているしかし、INRベースのモデルは多層パーセプトロンモジュールを何度もクエリし、各クエリにピクセルを描画する必要がある。 GSは、3Dタスクの視覚的品質とレンダリング速度の両方においてINRよりも利点を示しており、GSがASRタスクに使えるかどうかを探求する動機となっている。
論文参考訳（メタデータ） (2025-01-12T15:14:58Z)
Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文参考訳（メタデータ） (2024-12-04T06:46:55Z)
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文参考訳（メタデータ） (2024-11-15T18:54:42Z)
Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文参考訳（メタデータ） (2024-08-01T17:57:12Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)
Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文参考訳（メタデータ） (2023-12-07T18:59:59Z)
Zero-Shot Image Harmonization with Generative Model Prior [22.984119094424056]
画像調和のためのゼロショットアプローチを提案し, 大量の合成合成画像への依存を克服することを目的とした。人間の振る舞いにインスパイアされた、完全にモジュール化されたフレームワークを導入します。さまざまなシーンやオブジェクトにまたがる説得力のある視覚的結果と、アプローチを検証するユーザスタディを提示します。
論文参考訳（メタデータ） (2023-07-17T00:56:21Z)
T-ADAF: Adaptive Data Augmentation Framework for Image Classification Network based on Tensor T-product Operator [0.0]
本稿ではテンソルT-Product Operatorに基づくAdaptive Data Augmentation Frameworkを提案する。 1つの画像データを3倍にし、これら3つの画像から結果を得る。数値実験により、我々のデータ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させることができることが示された。
論文参考訳（メタデータ） (2023-06-07T08:30:44Z)
IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-17T17:07:36Z)
Exploring Stochastic Autoregressive Image Modeling for Visual Representation [24.582376834198403]
本稿では,2つの簡単な設計による自己回帰画像モデリング(SAIM)を提案する。予測と並列エンコーダデコーダの導入により,SAIMは自己回帰画像モデリングの性能を著しく向上させる。提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
論文参考訳（メタデータ） (2022-12-03T13:04:29Z)
S2-Net: Self-supervision Guided Feature Representation Learning for Cross-Modality Images [0.0]
モダリティ間の画像ペアは、通信の特徴表現を可能な限り近いものにするのに失敗することが多い。本稿では,最近成功した検出・記述パイプラインに基づいて,モーダリティ間特徴表現学習ネットワークであるS2-Netを設計する。本稿では,自己教師型学習とよく設計された損失関数を導入し,本来の利点を捨てることなくトレーニングを指導する。
論文参考訳（メタデータ） (2022-03-28T08:47:49Z)
Towards Bidirectional Arbitrary Image Rescaling: Joint Optimization and Cycle Idempotence [76.93002743194974]
本稿では、任意の再スケーリング(アップスケーリングとダウンスケーリングの両方)を統一プロセスとして扱う方法を提案する。提案モデルでは、アップスケーリングとダウンスケーリングを同時に学習し、双方向の任意のイメージ再スケーリングを実現する。繰り返しにダウンスケーリング・アップスケーリング・サイクルが適用された場合, 復元精度が著しく低下することなく, サイクルイデオポテンス試験において堅牢であることが確認された。
論文参考訳（メタデータ） (2022-03-02T07:42:15Z)
A Simple and efficient deep Scanpath Prediction [6.294759639481189]
我々は、単純な完全な畳み込み回帰的な方法で、共通のディープラーニングアーキテクチャーを使用することの効率について検討する。これらのモデルが2つのデータセットのスキャンパスをいかに予測できるかを実験する。また、実験におけるパフォーマンスに基づいて、異なるレバレッジされたバックボーンアーキテクチャを比較して、どのアーキテクチャがタスクに最も適しているかを推定する。
論文参考訳（メタデータ） (2021-12-08T22:43:45Z)
Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文参考訳（メタデータ） (2021-10-06T16:27:38Z)
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。デュアルエンコーダは検索スケールとして魅力的です視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文参考訳（メタデータ） (2021-03-30T17:57:08Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。