論文の概要: Do LLMs Understand Romanian Driving Laws? A Study on Multimodal and Fine-Tuned Question Answering
- arxiv url: http://arxiv.org/abs/2509.23715v1
- Date: Sun, 28 Sep 2025 07:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.393893
- Title: Do LLMs Understand Romanian Driving Laws? A Study on Multimodal and Fine-Tuned Question Answering
- Title(参考訳): LLMはルーマニアの運転法に従わないか? : マルチモーダルおよび微調整による質問応答の検討
- Authors: Eduard Barbu, Adrian Marius Dumitran,
- Abstract要約: 本稿では,ルーマニアの運転法QAにおけるLarge Language Models (LLMs) について解説した。
我々は1,208件の検索データセット(387件のマルチモーダル)を公開し、テキストのみのSOTAシステムとマルチモーダルのSOTAシステムを比較した。
Llama 3.1-8B-InstructとRoLlama 3.1-8B-Instructのドメイン特異的微調整の影響を測定した。
- 参考スコア(独自算出の注目度): 0.7243632426715941
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring that both new and experienced drivers master current traffic rules is critical to road safety. This paper evaluates Large Language Models (LLMs) on Romanian driving-law QA with explanation generation. We release a 1{,}208-question dataset (387 multimodal) and compare text-only and multimodal SOTA systems, then measure the impact of domain-specific fine-tuning for Llama 3.1-8B-Instruct and RoLlama 3.1-8B-Instruct. SOTA models perform well, but fine-tuned 8B models are competitive. Textual descriptions of images outperform direct visual input. Finally, an LLM-as-a-Judge assesses explanation quality, revealing self-preference bias. The study informs explainable QA for less-resourced languages.
- Abstract(参考訳): 新たなドライバーと経験豊富なドライバーの両方が現在の交通ルールをマスターすることを保証することは、道路の安全に不可欠である。
本稿では,ルーマニアの運転法QAにおけるLarge Language Models (LLMs) と説明生成について述べる。
Llama 3.1-8B-InstructとRoLlama 3.1-8B-Instructのドメイン固有の微調整の影響を測定する。
SOTAモデルはよく機能するが、微調整の8Bモデルは競争力がある。
画像のテキスト記述は直接視覚入力よりも優れている。
最後に、LCM-as-a-Judgeは説明品質を評価し、自己参照バイアスを明らかにします。
この研究は、低リソース言語に対する説明可能なQAを通知する。
関連論文リスト
- RoD-TAL: A Benchmark for Answering Questions in Romanian Driving License Exams [1.7500335853294604]
我々は,ルーマニアの運転法則の理解と推論において,Large Language Models (LLMs) とVision-Language Models (VLMs) の能力を評価することを目的とする。
これを容易にするために,ルーマニアの運転試験質問,テキストベース,画像ベースからなる新しいマルチモーダルデータセットであるRoD-TALを紹介した。
我々は、情報検索(IR)、質問回答(QA)、ビジュアルIR、ビジュアルQAを含むタスクにまたがって、検索拡張生成(RAG)パイプライン、高密度検索、推論最適化モデルを実装し、評価する。
論文 参考訳(メタデータ) (2025-07-25T20:40:39Z) - A Survey on Vision-Language-Action Models for Autonomous Driving [26.407082158880204]
VLA(Vision-Language-Action)パラダイムは、視覚知覚、自然言語理解、制御を単一のポリシーに統合する。
自動運転車の研究者たちは、これらの方法を車の領域に積極的に適応させている。
この調査は、VLA for Autonomous Drivingの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-06-30T16:50:02Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs [10.812418229495506]
本稿では,基本的運転模倣学習と大規模言語モデルを組み合わせることで,自律運転のためのハイブリッドエンド・ツー・エンド学習フレームワークを提案する。
提案手法は、CARLAによるオフライン評価において、49.21%の運転スコアと91.34%のルート完了率を得ることができる。
論文 参考訳(メタデータ) (2024-04-07T08:31:12Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。