論文の概要: Multilingual Cognitive Impairment Detection in the Era of Foundation Models
- arxiv url: http://arxiv.org/abs/2604.06758v1
- Date: Wed, 08 Apr 2026 07:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.394932
- Title: Multilingual Cognitive Impairment Detection in the Era of Foundation Models
- Title(参考訳): 基礎モデルにおける多言語認知障害検出
- Authors: Damar Hoogland, Boshko Koloski, Jaya Caporusso, Tine Kolenik, Ana Zwitter Vitez, Senja Pollak, Christina Manouilidou, Matthew Purver,
- Abstract要約: 英語,スロベニア語,韓国語における音声の書き起こしから認知障害(CI)分類を評価する。
直接分類器として用いられるゼロショット大言語モデル(LLM)を3つの入力条件下で比較する。
- 参考スコア(独自算出の注目度): 6.141505279958125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We evaluate cognitive impairment (CI) classification from transcripts of speech in English, Slovene, and Korean. We compare zero-shot large language models (LLMs) used as direct classifiers under three input settings -- transcript-only, linguistic-features-only, and combined -- with supervised tabular approaches trained under a leave-one-out protocol. The tabular models operate on engineered linguistic features, transcript embeddings, and early or late fusion of both modalities. Across languages, zero-shot LLMs provide competitive no-training baselines, but supervised tabular models generally perform better, particularly when engineered linguistic features are included and combined with embeddings. Few-shot experiments focusing on embeddings indicate that the value of limited supervision is language-dependent, with some languages benefiting substantially from additional labelled examples while others remain constrained without richer feature representations. Overall, the results suggest that, in small-data CI detection, structured linguistic signals and simple fusion-based classifiers remain strong and reliable signals.
- Abstract(参考訳): 英語,スロベニア語,韓国語における音声の書き起こしから認知障害(CI)分類を評価する。
ゼロショット大言語モデル (LLM) を3つの入力設定(トランスクリプトのみ、言語のみ、複合化)で直接分類する。
表形式モデルは、エンジニアリングされた言語的特徴、書き起こしの埋め込み、および両方のモダリティの早期または後期の融合で機能する。
言語全体にわたって、ゼロショットLLMは、競争力のないベースラインを提供するが、教師付き表形式モデルは一般的に、特に工学的な言語的特徴が組み込まれ、埋め込みと組み合わせられる場合、より良く機能する。
埋め込みに焦点をあてた実験は、限定的な監督の価値が言語に依存していることを示している。
全体としては、小型データCI検出においては、構造化された言語信号と単純な融合に基づく分類器は、強く信頼性の高い信号であり続けることが示唆されている。
関連論文リスト
- LLM Probe: Evaluating LLMs for Low-Resource Languages [6.177998679139308]
本稿では,低リソース言語における大規模言語モデル (LLM) の言語能力を評価するための語彙ベースアセスメントフレームワークを提案する。
このフレームワークは、語彙アライメント、音声認識、モルフォシンタクティック・プロービング、翻訳精度の4つの領域にわたるモデルを分析する。
論文 参考訳(メタデータ) (2026-03-31T10:03:38Z) - What Language is This? Ask Your Tokenizer [32.28976119949841]
言語識別(LID)は多くの多言語自然言語処理パイプラインの重要なコンポーネントである。
我々は,UnigramLMトークン化アルゴリズムに基づくシンプルで効率的なLID手法UniLIDを紹介する。
我々の定式化は、データと計算効率が良く、既存のモデルを再訓練することなく、新しい言語の漸進的な追加をサポートしています。
論文 参考訳(メタデータ) (2026-02-19T18:58:39Z) - Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。
我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文 参考訳(メタデータ) (2025-07-28T12:01:59Z) - Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。