論文の概要: O3SLM: Open Weight, Open Data, and Open Vocabulary Sketch-Language Model
- arxiv url: http://arxiv.org/abs/2511.14368v1
- Date: Tue, 18 Nov 2025 11:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.077924
- Title: O3SLM: Open Weight, Open Data, and Open Vocabulary Sketch-Language Model
- Title(参考訳): O3SLM: オープンウェイト、オープンデータ、オープン語彙スケッチ言語モデル
- Authors: Rishi Gupta, Mukilan Karuppasamy, Shyam Marjit, Aditay Tripathi, Anirban Chakraborty,
- Abstract要約: 大規模視覚言語モデル(LVLM)は手描きのスケッチを理解するのに苦労する。
O3SLMは最先端のパフォーマンスを実現し、スケッチの理解と推論において既存のLVLMよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 8.709325936957347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Vision Language Models (LVLMs) are increasingly deployed in real-world applications, their ability to interpret abstract visual inputs remains limited. Specifically, they struggle to comprehend hand-drawn sketches, a modality that offers an intuitive means of expressing concepts that are difficult to describe textually. We identify the primary bottleneck as the absence of a large-scale dataset that jointly models sketches, photorealistic images, and corresponding natural language instructions. To address this, we present two key contributions: (1) a new, large-scale dataset of image-sketch-instruction triplets designed to facilitate both pretraining and instruction tuning, and (2) O3SLM, an LVLM trained on this dataset. Comprehensive evaluations on multiple sketch-based tasks: (a) object localization, (b) counting, (c) image retrieval i.e., (SBIR and fine-grained SBIR), and (d) visual question answering (VQA); while incorporating the three existing sketch datasets, namely QuickDraw!, Sketchy, and Tu Berlin, along with our generated SketchVCL dataset, show that O3SLM achieves state-of-the-art performance, substantially outperforming existing LVLMs in sketch comprehension and reasoning.
- Abstract(参考訳): LVLM(Large Vision Language Models)は、現実世界のアプリケーションにますます導入されているが、抽象的な視覚入力を解釈する能力は依然として限られている。
具体的には、手描きのスケッチを理解するのに苦労し、テキストで表すのが難しい概念を直感的に表現する手段を提供するモダリティである。
我々は、スケッチ、フォトリアリスティック画像、およびそれに対応する自然言語命令を共同でモデル化する大規模なデータセットがないこととして、主要なボトルネックを特定した。
そこで本研究では,(1)事前学習と指導訓練の両方を容易にするために設計された画像スケッチ・インストラクション三重項の大規模データセットと,(2)このデータセットで訓練されたLVLMであるO3SLMを提案する。
複数のスケッチベースタスクに関する総合的評価
a) オブジェクトのローカライゼーション
(b)数えて
(c)画像検索(SBIR、きめ細かいSBIR)、
(d) 視覚的質問応答(VQA) 既存の3つのスケッチデータセット、すなわちQuickDraw!
SketchyとTu Berlinは、生成したSketchVCLデータセットとともに、O3SLMが最先端のパフォーマンスを実現し、スケッチの理解と推論において既存のLVLMを大幅に上回っていることを示している。
関連論文リスト
- LOC: A General Language-Guided Framework for Open-Set 3D Occupancy Prediction [9.311605679381529]
我々は,様々な占有ネットワークに適用可能な汎用言語誘導フレームワークLOCを提案する。
自己教師型タスクには,動的/静的シーンに多フレームLiDAR点を融合する戦略,ポアソン再構成を用いて空白を埋める手法,K-Nearest Neighbor (KNN) を介してボクセルに意味を割り当てる手法を用いる。
我々のモデルは,CLIP機能空間に埋め込まれた高密度なボクセル特徴を予測し,テキストと画像の画素情報を統合し,テキストとセマンティックの類似性に基づいて分類する。
論文 参考訳(メタデータ) (2025-10-25T03:27:19Z) - VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in
Context [112.07988211268612]
フリーハンドシーンスケッチの最初のデータセットであるFS-COCOを用いてスケッチ研究を進めた。
本データセットは,100名の非専門家による1点あたりの時空間情報付きフリーハンドシーンベクトルスケッチからなる。
フリーハンドシーンのスケッチやスケッチのキャプションからきめ細かい画像検索の問題が初めて研究された。
論文 参考訳(メタデータ) (2022-03-04T03:00:51Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。