Fugu-MT 論文翻訳(概要): LoCar: Localization-Aware Evaluation of In-Vehicle Assistants through Fine-Grained Sociolinguistic Control

論文の概要: LoCar: Localization-Aware Evaluation of In-Vehicle Assistants through Fine-Grained Sociolinguistic Control

arxiv url: http://arxiv.org/abs/2605.21086v1
Date: Wed, 20 May 2026 12:21:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.661433
Title: LoCar: Localization-Aware Evaluation of In-Vehicle Assistants through Fine-Grained Sociolinguistic Control
Title（参考訳）: LoCar:微粒化社会言語制御による車載アシスタントのローカライズ・アウェア評価
Authors: Seogyeong Jeong, Kiwoong Park, Seyoung Song, Eunsu Kim, Ken E. Friedl, Jaeho Kim, Alice Oh,
Abstract要約: 本稿では,車内アシスタントのための新しい評価枠組みを提案し,特に韓国語によるローカライゼーションに着目した。我々の知見は、自動車AIは、言語的調整と信頼性の高い安全指向のインタラクション管理に向けて、一般的な能力を超えて進まなければならないことを示している。
参考スコア（独自算出の注目度）: 24.26396405280779
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Large Language Models (LLMs) are increasingly integrated into in-vehicle conversational systems, identifying the optimal model remains challenging due to the lack of domain-specific evaluation standards tailored to real-world deployment requirements. In this paper, we propose a novel evaluation framework for in-vehicle assistants, with a particular focus on Korean-language localization. Our empirical analysis reveals notable patterns in model behavior. First, fine-grained Korean honorific control remains unstable in current LLMs, indicating that precise speech-level realization must be explicitly evaluated in localization settings. Second, models exhibit weaker performance in strategic conversational metrics like clarification and proactivity. Our analysis suggests this stems from the inherent subjective complexity of these tasks, where our framework adopts a conservative evaluation stance to prioritize reliability. Together, our findings underscore that automotive AI must move beyond general competence toward precise linguistic tailoring and reliable, safety-oriented interaction management.
Abstract（参考訳）: 大規模言語モデル(LLM)は車内対話システムにますます統合されているが、ドメイン固有の評価基準が存在しないため、最適なモデルを特定することは依然として困難である。本稿では,車内アシスタントのための新しい評価フレームワークを提案する。私たちの経験的分析は、モデル行動の顕著なパターンを明らかにします。第一に、現在のLLMでは、微粒な韓国の名誉制御は不安定であり、正確な音声レベルの実現は、ローカライズ設定で明示的に評価されなければならないことを示す。第二に、モデルは明確化や積極性といった戦略的会話の指標において、より弱いパフォーマンスを示す。分析の結果、これはこれらのタスクの主観的複雑さに起因し、我々のフレームワークは信頼性を優先するために保守的な評価スタンスを採用することが示唆された。我々の研究結果は、AIが言語的調整と信頼性の高い安全指向のインタラクション管理に向けて、一般的な能力を超えて進まなければならないことを裏付けている。

関連論文リスト

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities [75.10343190811592]
大規模言語モデル(LLM)は、社会的に敏感なドメインにますますデプロイされる。私たちのベンチマークでは、安全で制御可能な振る舞いのための原則的で解釈可能なフレームワークを提供しています。
論文参考訳（メタデータ） (2026-03-03T03:50:13Z)
Claim Automation using Large Language Model [0.0]
LLM(Large Language Models)は汎用言語タスクにおいて高いパフォーマンスを達成しているが、規制やデータに敏感なドメインへの展開は依然として限られている。本稿では,非構造化クレームの物語から構造化された修正-アクションレコメンデーションを生成する,ガバナンス対応言語モデリングコンポーネントを提案する。我々は,Low-Rank Adaptation (LoRA) を用いて事前学習LLMを微調整し,クレーム処理パイプライン内の初期決定モジュールにモデルをスコーピングし,クレーム調整者の判断を高速化する。
論文参考訳（メタデータ） (2026-02-18T20:01:12Z)
Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models [122.58252919699122]
機械的解釈可能性 (MI) は、大規模言語モデル (LLM) の意思決定を決定づける重要なアプローチとして登場した。 Awesomeinterventionable-MI-Survey" というパイプラインを中心に構築された実践的調査を提案する。
論文参考訳（メタデータ） (2026-01-20T14:23:23Z)
On the Entity-Level Alignment in Crosslingual Consistency [62.33186691736433]
SubSubとSubInjは、主題の英語翻訳を言語間のプロンプトに統合し、実際のリコール精度と一貫性を大きく向上させた。これらの介入はモデルの内部ピボット言語処理を通じて概念空間における実体表現のアライメントを強化する。
論文参考訳（メタデータ） (2025-10-11T16:26:50Z)
CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文参考訳（メタデータ） (2025-08-05T12:06:16Z)
Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-10-16T06:06:06Z)
Establishing Trustworthiness: Rethinking Tasks and Model Evaluation [36.329415036660535]
我々は、NLPにおけるタスクとモデル評価を構成するものを再考する時が来たと論じる。本稿では,モデルの機能的能力の起源を理解するために,既存のコンパートナライズドアプローチについてレビューする。
論文参考訳（メタデータ） (2023-10-09T06:32:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。