論文の概要: PLaMo 2.1-VL Technical Report
- arxiv url: http://arxiv.org/abs/2604.19324v1
- Date: Tue, 21 Apr 2026 10:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.729006
- Title: PLaMo 2.1-VL Technical Report
- Title(参考訳): PLaMo 2.1-VL技術報告
- Authors: Tommi Kerola, Yuya Masuda, Takashi Masuko, Toshiki Nakanishi, Daisuke Nishino, Kuniyuki Takahashi, Hanqin Wang, Yoshihiro Yamada,
- Abstract要約: PLaMo 2.1-VLは、自律型デバイスのための軽量ビジョン言語モデル(VLM)である。
VQA(Visual Question Answering)とVisual Groundingを中心的機能として取り上げる。
PLaMo 2.1-VLは、日本語と英語のベンチマークで同等のオープンモデルより優れている。
- 参考スコア(独自算出の注目度): 3.2884323672632028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PLaMo 2.1-VL, a lightweight Vision Language Model (VLM) for autonomous devices, available in 8B and 2B variants and designed for local and edge deployment with Japanese-language operation. Focusing on Visual Question Answering (VQA) and Visual Grounding as its core capabilities, we develop and evaluate the models for two real-world application scenarios: factory task analysis via tool recognition, and infrastructure anomaly detection. We also develop a large-scale synthetic data generation pipeline and comprehensive Japanese training and evaluation resources. PLaMo 2.1-VL outperforms comparable open models on Japanese and English benchmarks, achieving 61.5 ROUGE-L on JA-VG-VQA-500 and 85.2% accuracy on Japanese Ref-L4. For the two application scenarios, it achieves 53.9% zero-shot accuracy on factory task analysis, and fine-tuning on power plant data improves anomaly detection bbox + label F1-score from 39.7 to 64.9.
- Abstract(参考訳): 自律型デバイスのための軽量ビジョン言語モデル(VLM)であるPLaMo 2.1-VLを導入する。
VQA(Visual Question Answering)とVisual Grounding(Visual Grounding)を中心的機能として,実世界のアプリケーションシナリオとして,ツール認識によるファクトリタスク分析とインフラストラクチャ異常検出という2つのモデルを開発し,評価する。
また,大規模合成データ生成パイプラインを開発し,総合的な日本語学習・評価資源を構築した。
PLaMo 2.1-VLは、日本語と英語のベンチマークで、JA-VG-VQA-500で61.5 ROUGE-L、日本語のRef-L4で85.2%の精度で、同等のオープンモデルを上回っている。
2つのアプリケーションシナリオでは、工場のタスク分析において53.9%のゼロショット精度を実現し、発電所データの微調整により異常検出bbox + label F1スコアが39.7から64.9に改善された。
関連論文リスト
- A Pragmatic VLA Foundation Model [66.76609538850478]
我々はLingBot-VLAを開発し、9つの人気のデュアルアームロボット構成から約2万時間のリアルタイムデータを収集した。
我々のモデルは競争相手よりも明らかな優位性を実現し、その強靭な性能と広範な一般化性を示している。
ロボット学習の分野を前進させるために、コード、ベースモデル、ベンチマークデータへのオープンアクセスを提供する。
論文 参考訳(メタデータ) (2026-01-26T17:08:04Z) - Identifying Imaging Follow-Up in Radiology Reports: A Comparative Analysis of Traditional ML and LLM Approaches [8.864020712680976]
586例から6,393例の注釈付きコーパスを報告した。
我々は、ロジスティック回帰(LR)、サポートベクタマシン(SVM)、Longformer、そして完全に微調整されたLlama3-8B-インストラクトを含む従来の機械学習分類器を比較した。
GPT-4oとオープンソースのGPT-OSS-20Bを2つの構成で評価した。
論文 参考訳(メタデータ) (2025-11-14T20:55:44Z) - MiMo-VL Technical Report [73.47820531501678]
我々は、2つの強力なビジョン言語モデルであるMiMo-VL-7B-SFTとMiMo-VL-7B-RLをオープンソース化した。
MiMo-VL-7B-RLは40タスク中35タスクでQwen2.5-VL-7Bを上回っ、OlympiadBenchでは59.4得点を記録した。
GUIグラウンディングアプリケーションでは、OSWorld-G上で56.1の新しい標準を設定する。
論文 参考訳(メタデータ) (2025-06-04T04:32:54Z) - SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。
我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。
ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - LingoQA: Visual Question Answering for Autonomous Driving [14.620546951115328]
本稿では,自律運転における視覚的質問応答のための新しいデータセットとベンチマークであるLingoQAを紹介する。
データセットには28Kのユニークなショートビデオシナリオと419Kアノテーションが含まれている。
私たちのベンチマークでは、視覚言語モデルは、質問の59.6%に対して、人間の96.6%に対して真に反応する。
論文 参考訳(メタデータ) (2023-12-21T18:40:34Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。