論文の概要: Domain-Grounded Evaluation of LLMs in International Student Knowledge
- arxiv url: http://arxiv.org/abs/2511.20653v1
- Date: Tue, 07 Oct 2025 15:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.305583
- Title: Domain-Grounded Evaluation of LLMs in International Student Knowledge
- Title(参考訳): 国際学生知識におけるLLMの領域別評価
- Authors: Claudinei Daitx, Haitham Amar,
- Abstract要約: 大規模言語モデル (LLMs) は、ハイテイクな研究対象の質問に答えるためにますます使われている。
学生のアドバイスを確実に行うか、あるいはどんなに役に立つ回答が、支持できない主張に流れ込むかは、まだ不明だ。
この作業は、現在のLLMがこの環境でどのように振る舞うかを明確にした、ドメインベースの概要を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used to answer high-stakes study-abroad questions about admissions, visas, scholarships, and eligibility. Yet it remains unclear how reliably they advise students, and how often otherwise helpful answers drift into unsupported claims (``hallucinations''). This work provides a clear, domain-grounded overview of how current LLMs behave in this setting. Using realistic questions set drawn from ApplyBoard's advising workflows -- an EdTech platform that supports students from discovery to enrolment -- we evaluate two essentials side by side: accuracy (is the information correct and complete?) and hallucination (does the model add content not supported by the question or domain evidence). These questions are categorized by domain scope which can be a single-domain or multi-domain -- when it must integrate evidence across areas such as admissions, visas, and scholarships. To reflect real advising quality, we grade answers with a simple rubric which is correct, partial, or wrong. The rubric is domain-coverage-aware: an answer can be partial if it addresses only a subset of the required domains, and it can be over-scoped if it introduces extra, unnecessary domains; both patterns are captured in our scoring as under-coverage or reduced relevance/hallucination. We also report measures of faithfulness and answer relevance, alongside an aggregate hallucination score, to capture relevance and usefulness. All models are tested with the same questions for a fair, head-to-head comparison. Our goals are to: (1) give a clear picture of which models are most dependable for study-abroad advising, (2) surface common failure modes -- where answers are incomplete, off-topic, or unsupported, and (3) offer a practical, reusable protocol for auditing LLMs before deployment in education and advising contexts.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、入学、ビザ、奨学金、資格に関する高度な研究課題に答えるために、ますます使われてきている。
しかし、学生がいかに確実に助言するか、どのようにして役に立つ答えが不当な主張(『幻覚』)に流れ込むかは、いまだに不明である。
この作業は、現在のLLMがこの環境でどのように振る舞うかを明確にした、ドメインベースの概要を提供する。
ApplyBoardのアドバイスワークフロー(EdTechプラットフォームで、学生の発見からエントロメントまでをサポートする)から得られた現実的な質問を使って、2つの必須事項を並べて評価する:正確さ(正確で完全な情報)と幻覚(このモデルは、質問やドメインエビデンスでサポートされていないコンテンツを追加します)。
これらの質問はドメインの範囲によって分類されるが、それは単一のドメインまたは複数のドメインであり、入試、ビザ、奨学金などの分野にまたがって証拠を統合する必要がある。
実際の助言品質を反映するために、我々は、正しい、部分的である、または間違っている単純なルーリックで回答を格付けする。
答えは、必要なドメインのサブセットだけに対処すれば部分的であり、余分な不要なドメインを導入すればオーバースコープされる。
また,総括幻覚スコアとともに,忠実度と回答妥当性の尺度を報告し,その妥当性と有用性を把握した。
すべてのモデルは、公平で真っ向から比較するために、同じ質問でテストされます。
目的は,(1)どのモデルが最も信頼できるのか,(2) 表向きの共通障害モード – 回答が不完全で,オフトピー的,あるいはサポートされていない – を明確にした上で,(3) 教育や助言の文脈に展開する前に,LCMを監査するための実用的,再利用可能なプロトコルを提供する。
関連論文リスト
- Exploring How LLMs Capture and Represent Domain-Specific Knowledge [16.84031546207366]
本研究では,Large Language Models (LLM) が本質的に自然言語のドメイン固有ニュアンスをキャプチャするかどうかを検討する。
実験では,LLMの領域感度を,異なる領域からクエリを識別する能力について検討した。
本稿では,クエリドメインの内部認識を示す潜在ドメイン関連トラジェクトリを明らかにする。
論文 参考訳(メタデータ) (2025-04-23T16:46:06Z) - Open Domain Question Answering with Conflicting Contexts [55.739842087655774]
あいまいでオープンなドメインの質問の25%は、Google Searchを使って検索すると、コンフリクトのあるコンテキストにつながります。
我々はアノテータに正しい回答の選択についての説明を依頼する。
論文 参考訳(メタデータ) (2024-10-16T07:24:28Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Backtracing: Retrieving the Cause of the Query [7.715089044732362]
本稿では,ユーザクエリを最も引き起こす可能性のあるテキストセグメントをシステムで検索する,バックトラシングのタスクを紹介する。
人気情報検索手法と言語モデリング手法のゼロショット性能を評価する。
以上の結果から,後方追跡には改善の余地があり,新たな検索手法が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-06T18:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。