論文の概要: Vision Bridge Transformer at Scale
- arxiv url: http://arxiv.org/abs/2511.23199v1
- Date: Fri, 28 Nov 2025 14:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.918262
- Title: Vision Bridge Transformer at Scale
- Title(参考訳): ビジョンブリッジ変圧器の大規模化
- Authors: Zhenxiong Tan, Zeqing Wang, Xingyi Yang, Songhua Liu, Xinchao Wang,
- Abstract要約: 条件生成用に設計されたBrownian Bridge Modelsの大規模インスタンス化であるViBT(Vision Bridge Transformer)を導入する。
これらのモデルを20Bおよび1.3Bパラメータに拡張することにより、画像およびビデオ翻訳タスクの有効性を実証する。
- 参考スコア(独自算出の注目度): 95.43389602737254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for conditional generation. Unlike traditional diffusion models that transform noise into data, Bridge Models directly model the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. By scaling these models to 20B and 1.3B parameters, we demonstrate their effectiveness for image and video translation tasks. To support this scale, we adopt a Transformer architecture and propose a variance-stabilized velocity-matching objective for robust training. Together, these advances highlight the power of scaling Bridge Models for instruction-based image editing and complex video translation.
- Abstract(参考訳): 条件生成用に設計されたBrownian Bridge Modelsの大規模インスタンス化であるViBT(Vision Bridge Transformer)を導入する。
ノイズをデータに変換する従来の拡散モデルとは異なり、ブリッジモデルは入力と出力の間の軌道を直接モデル化し、効率的なデータからデータへの変換パラダイムを作成する。
これらのモデルを20Bおよび1.3Bパラメータに拡張することにより、画像およびビデオ翻訳タスクの有効性を実証する。
このスケールをサポートするために、我々はTransformerアーキテクチャを採用し、ロバストトレーニングのための分散安定化ベロシティマッチングの目的を提案する。
これらの進歩は、命令ベースの画像編集と複雑なビデオ翻訳のためのBridge Modelsのスケーリング力を強調している。
関連論文リスト
- NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers [10.84639914909133]
フローベースのトランスフォーマーモデルは、最先端の画像生成性能を達成しているが、しばしば高い推論遅延と計算コストに悩まされている。
本稿では, 時間的, 空間的, 建築的次元にわたって生成過程を分解するBridged Progressive Rectified Flow Transformers (NAMI)を提案する。
論文 参考訳(メタデータ) (2025-03-12T10:38:58Z) - FrameBridge: Improving Image-to-Video Generation with Bridge Models [21.888786343816875]
拡散モデルは画像間(I2V)生成において顕著な進歩を遂げた。
彼らのノイズ・ツー・データ生成プロセスは、本質的にこのタスクと一致していないため、最適下合成の品質につながる可能性がある。
フレーム・ツー・フレーム生成過程をブリッジモデルに基づくデータ・ツー・データ生成プロセスでモデル化することにより、与えられた画像に含まれる情報を完全に活用することができる。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - Demystifying the Communication Characteristics for Distributed Transformer Models [2.849208476795592]
本稿ではトランスモデルの通信挙動について検討する。
我々はGPTに基づく言語モデルをトランスフォーマーアーキテクチャの汎用性によるケーススタディとして用いている。
高いレベルでは、我々の分析により、より小さなメッセージポイントツーポイント通信を最適化する必要性が明らかになる。
論文 参考訳(メタデータ) (2024-08-19T17:54:29Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。