論文の概要: Exploring Primitive Visual Measurement Understanding and the Role of Output Format in Learning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.15144v1
- Date: Sat, 25 Jan 2025 09:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:42.719927
- Title: Exploring Primitive Visual Measurement Understanding and the Role of Output Format in Learning in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける初期視覚計測の探索と学習における出力フォーマットの役割
- Authors: Ankit Yadav, Lingqiao Liu, Yuankai Qi,
- Abstract要約: 本研究では視覚四分法モデル(VLM)の視覚的理解と原始形状の測定能力について検討する。
ローランド適応(LoRA)を用いて最先端のVLMを微調整し、複数のオフ・オブ・ドメイン(OD)シナリオで検証する。
- 参考スコア(独自算出の注目度): 33.62883713703891
- License:
- Abstract: This work investigates the capabilities of current vision-language models (VLMs) in visual understanding and attribute measurement of primitive shapes using a benchmark focused on controlled 2D shape configurations with variations in spatial positioning, occlusion, rotation, size, and shape attributes such as type, quadrant, center-coordinates, rotation, occlusion status, and color as shown in Figure 1 and supplementary Figures S3-S81. We fine-tune state-of-the-art VLMs (2B-8B parameters) using Low-Rank Adaptation (LoRA) and validate them on multiple out-of-domain (OD) scenarios from our proposed benchmark. Our findings reveal that coherent sentence-based outputs outperform tuple formats, particularly in OD scenarios with large domain gaps. Additionally, we demonstrate that scaling numeric tokens during loss computation enhances numerical approximation capabilities, further improving performance on spatial and measurement tasks. These results highlight the importance of output format design, loss scaling strategies, and robust generalization techniques in enhancing the training and fine-tuning of VLMs, particularly for tasks requiring precise spatial approximations and strong OD generalization.
- Abstract(参考訳): 本研究は, 空間的位置, 咬合, 回転, 大きさ, 形状属性, タイプ, 四角形, 中心座標, 回転, 咬合状態, 色など, 制御された2次元形状構成に焦点をあてたベンチマークを用いて, 原始形状の視覚的理解と属性測定における現在の視覚言語モデル(VLM)の能力について検討する。
我々はローランド適応(LoRA)を用いて最先端のVLM(2B-8Bパラメータ)を微調整し、提案したベンチマークから複数のドメイン外(OD)シナリオで検証する。
その結果,コヒーレント文に基づくアウトプットは,特にドメインギャップが大きいODシナリオにおいて,タプル形式よりも優れていた。
さらに,損失計算における数値トークンのスケーリングにより,数値近似能力が向上し,空間および計測タスクの性能が向上することが実証された。
これらの結果は、特に正確な空間近似と強いOD一般化を必要とするタスクにおいて、VLMの訓練と微調整の強化における出力形式設計、損失スケーリング戦略、堅牢な一般化技術の重要性を強調している。
関連論文リスト
- HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - ReF -- Rotation Equivariant Features for Local Feature Matching [30.459559206664427]
本稿では,モデルアーキテクチャ自体に偏りを生じさせ,回転特異な特徴を生じさせる代替的補完的手法を提案する。
我々は, ステアブルCNNの高性能, 回転特異的カバレッジを全回転角に拡張できることを実証した。
本稿では,アンサンブル,ロバストな推定,ネットワークアーキテクチャのバリエーション,回転前処理の効果について詳細に分析する。
論文 参考訳(メタデータ) (2022-03-10T07:36:09Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Consistent Representation Learning for High Dimensional Data Analysis [30.122549443821974]
高次元データ分析には、次元削減、クラスタリング、可視化の3つの基本的なタスクが含まれる。
3つの関連するタスクが別々に実行されると、矛盾が生じます。
本稿では,3つのタスクをエンドツーエンドに実行するために,Consistent Representation Learningと呼ばれるニューラルネットワークに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-01T13:39:50Z) - Improving the generalization of network based relative pose regression:
dimension reduction as a regularizer [16.63174637692875]
最先端のビジュアルローカライゼーション手法は、RANSACフレームワーク内の幾何に基づく解法を用いてポーズ推定を行う。
エンドツーエンドの学習に基づく回帰ネットワークは、正確なピクセルレベルの対応の要求を回避するためのソリューションを提供する。
本稿では,絶対像特徴値からポーズ回帰解法を分離するために,ネットワーク内に学習可能なマッチング層を明示的に追加する。
我々はこの次元正規化戦略を2層ピラミッドベースのフレームワークで実装し、局所化結果を粗いものから細かいものへと回帰する。
論文 参考訳(メタデータ) (2020-10-24T06:20:46Z) - MetaSDF: Meta-learning Signed Distance Functions [85.81290552559817]
ニューラルな暗示表現で形状を一般化することは、各関数空間上の学習先行値に比例する。
形状空間の学習をメタラーニング問題として定式化し、勾配に基づくメタラーニングアルゴリズムを利用してこの課題を解決する。
論文 参考訳(メタデータ) (2020-06-17T05:14:53Z) - Spatial-Scale Aligned Network for Fine-Grained Recognition [42.71878867504503]
精密な視覚認識のための既存のアプローチは、境界領域に基づく表現の学習に重点を置いている。
本稿では,空間スケールアライメントネットワーク(SSANET)を提案する。
論文 参考訳(メタデータ) (2020-01-05T11:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。