論文の概要: MedInjection-FR: Exploring the Role of Native, Synthetic, and Translated Data in Biomedical Instruction Tuning
- arxiv url: http://arxiv.org/abs/2603.06905v1
- Date: Fri, 06 Mar 2026 21:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.392058
- Title: MedInjection-FR: Exploring the Role of Native, Synthetic, and Translated Data in Biomedical Instruction Tuning
- Title(参考訳): MedInjection-FR:生物医学教育におけるネイティブ,シンセティック,翻訳データの役割を探る
- Authors: Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils, Benoit Favre, Richard Dufour,
- Abstract要約: 医学では、高品質なフランス語教育データの不足は効果的な監督を制限している。
本稿では,フランスの大規模バイオメディカルインストラクションデータセットであるMedInjection-FRを紹介する。
ネイティブデータが最もパフォーマンスが高いのに対して、特にネイティブと翻訳の混在は相補的なメリットをもたらします。
- 参考スコア(独自算出の注目度): 5.328379818938021
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instruction tuning has become essential for adapting large language models (LLMs) to follow domain-specific prompts. Yet, in specialized fields such as medicine, the scarcity of high-quality French instruction data limits effective supervision. To address this gap, we introduce MedInjection-FR, a large-scale French biomedical instruction dataset comprising 571K instruction-response pairs drawn from three complementary sources: native, synthetic, and translated data. We design a controlled experimental framework to systematically assess how data provenance affects instruction tuning, using Qwen-4B-Instruct fine-tuned across seven configurations combining these sources. Results show that native data yield the strongest performance, while mixed setups, particularly native and translated, provide complementary benefits. Synthetic data alone remains less effective but contributes positively when balanced with native supervision. Evaluation on open-ended QA combines automatic metrics, LLM-as-a-judge assessment, and human expert review; although LLM-based judgments correlate best with human ratings, they show sensitivity to verbosity. These findings highlight that data authenticity and diversity jointly shape downstream adaptation and that heterogeneous supervision can mitigate the scarcity of native French medical instructions.
- Abstract(参考訳): 命令チューニングは、大きな言語モデル(LLM)をドメイン固有のプロンプトに従うのに欠かせないものとなっている。
しかし、医学などの専門分野において、高品質なフランス語教育データの不足は効果的な監督を制限している。
MedInjection-FRは,3つの相補的データ(ネイティブデータ,合成データ,翻訳データ)から引き出された571Kの命令応答対からなる大規模フランスのバイオメディカル・インストラクション・データセットである。
本研究では,これらの情報源を組み合わせた7つの構成からなるQwen-4B-Instruct を用いて,データプロファイランスが命令チューニングにどう影響するかを体系的に評価するための制御された実験フレームワークを設計する。
結果は、特にネイティブと翻訳の混在が相補的な利点をもたらす一方で、ネイティブデータが最大のパフォーマンスをもたらすことを示している。
合成データだけでは効果は低いが、ネイティブの監督とバランスをとれば、肯定的な貢献が期待できる。
オープンエンドQAの評価には, 自動評価, LLM-as-a-judge評価, および人間の専門家による評価が組み合わさっている。
これらの知見は、データ真正性と多様性が下流適応を共同で形成し、異質な監督がネイティブなフランスの医療指導の欠如を軽減できることを浮き彫りにした。
関連論文リスト
- Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics [69.2321983942375]
本研究では,n-gram-based metricであるBLEUと,文字-based metricであるChrF++を比較して,EMRL設定におけるMT評価を行う。
本研究は,3つのELRL(Magahi,Bhojpuri,Chhattisgarhi)にまたがる幻覚,反復,原文複写,ダイアクリティック(textitmatra)の変化など,各指標が翻訳物にどう反応するかを検討する。
最近の研究はChrF++にのみ依存することが多いが、BLEUは絶対スコアが低いにもかかわらず、解釈可能性を改善するための補完的な語彙精度の洞察を提供する。
論文 参考訳(メタデータ) (2026-02-19T14:56:42Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Balancing Natural Language Processing Accuracy and Normalisation in Extracting Medical Insights [2.654416335526196]
本研究は,電子カルテからの情報抽出のためのNLP低スループットルールベース手法とLarge Language Models(LLMs)の比較分析を行った。
本研究は, テキスト正規化の欠如と翻訳による情報損失の影響について検討しながら, 患者集団, 臨床所見, 処方薬を抽出し, 双方のアプローチを評価した。
その結果、ルールに基づく手法は、特に年齢や性別の抽出において、情報検索タスクにおいて高い精度を提供することが示された。
LLMは、薬名認識に優れた適応性とスケーラビリティを提供する。
論文 参考訳(メタデータ) (2025-11-19T18:51:45Z) - Classification of Radiological Text in Small and Imbalanced Datasets in a Non-English Language [8.93554009307115]
自然言語処理は、非英語の小さなデータセットを含む現実世界のアプリケーションでは性能が劣る可能性がある。
BERT-like transformer, few-shot learning with sentence transformer (SetFit) などのNLPモデルのセットを評価し,大規模言語モデル (LLM) を誘導した。
以上の結果から,放射線学報告の対象領域で事前訓練されたBERT様モデルでは,このシナリオに最適な性能が得られることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T09:52:28Z) - Fairness-Aware Data Augmentation for Cardiac MRI using Text-Conditioned Diffusion Models [1.6581402323174208]
本稿では,データセットに固有の不均衡を,合成データの生成によって緩和する手法を提案する。
我々は,患者メタデータと心臓の形状から合成したテキストを条件に,拡散確率モデルに基づく制御ネットを採用する。
本実験は,データセットの不均衡を緩和する手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-28T15:41:43Z) - Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。