論文の概要: SITUATE -- Synthetic Object Counting Dataset for VLM training
- arxiv url: http://arxiv.org/abs/2602.00108v1
- Date: Mon, 26 Jan 2026 16:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.942134
- Title: SITUATE -- Synthetic Object Counting Dataset for VLM training
- Title(参考訳): SITUATE -- VLMトレーニングのための合成オブジェクトカウントデータセット
- Authors: René Peinl, Vincent Tischler, Patrick Schröder, Christian Groth,
- Abstract要約: 本稿では,視覚言語モデルの訓練と評価を目的とした新しいデータセットであるSITUATEを提案する。
このデータセットは、VLMCountBenchのような単純な2Dデータセットと、TallyQAのようなあいまいな実生活データセットとのギャップを埋める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SITUATE, a novel dataset designed for training and evaluating Vision Language Models on counting tasks with spatial constraints. The dataset bridges the gap between simple 2D datasets like VLMCountBench and often ambiguous real-life datasets like TallyQA, which lack control over occlusions and spatial composition. Experiments show that our dataset helps to improve generalization for out-of-distribution images, since a finetune of Qwen VL 2.5 7B on SITUATE improves accuracy on the Pixmo count test data, but not vice versa. We cross validate this by comparing the model performance across established other counting benchmarks and against an equally sized fine-tuning set derived from Pixmo count.
- Abstract(参考訳): 本稿では,空間的制約のあるタスクを数えるためのビジョン言語モデルの訓練と評価を目的とした,新しいデータセットであるSITUATEを提案する。
このデータセットは、VLMCountBenchのような単純な2Dデータセットと、オクルージョンや空間構成を制御できないTallyQAのような曖昧な実生活データセットとのギャップを埋める。
実験の結果,SITUATE上のQwen VL 2.5 7Bの微細構造はPixmo数検定データの精度を向上するが,その逆ではない。
我々は、確立された他のカウントベンチマーク間でモデル性能を比較し、Pixmoカウントから派生した等サイズの微調整セットと比較することにより、これを横断的に検証する。
関連論文リスト
- Wireless Dataset Similarity: Measuring Distances in Supervised and Unsupervised Machine Learning [15.036550722400085]
本稿では,無線データセット間の類似度を測定するためのタスク・アンド・モデル対応フレームワークを提案する。
データセットの選択/拡張、シミュレーション・トゥ・リアル(sim2real)比較、新しいデプロイメントへのモデルトレーニング/適応に関する決定などのアプリケーションを可能にする。
論文 参考訳(メタデータ) (2026-01-03T01:15:27Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - A Bag-of-Prototypes Representation for Dataset-Level Applications [24.629132557336312]
本研究では,データセットレベルの2つのタスクに対するデータセットベクトル化について検討する。
本稿では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,Bop-of-prototypes(BoP)データセット表現を提案する。
BoPは、2つのデータセットレベルのタスクに対する一連のベンチマークにおいて、既存の表現に対する優位性を一貫して示している。
論文 参考訳(メタデータ) (2023-03-23T13:33:58Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating
Visio-Linguistic Reasoning [25.520406167426135]
本稿では,4つの視覚言語的推論タスクからなる合成データセットであるTraVLRについて述べる。
TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。
我々は、4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送では失敗することを示した。
論文 参考訳(メタデータ) (2021-11-21T07:22:44Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。