論文の概要: Towards Explainable Khmer Polarity Classification
- arxiv url: http://arxiv.org/abs/2511.09313v1
- Date: Thu, 13 Nov 2025 01:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.512125
- Title: Towards Explainable Khmer Polarity Classification
- Title(参考訳): 説明可能なクメール極性分類に向けて
- Authors: Marry Kong, Rina Buoy, Sovisal Chenda, Nguonly Taing,
- Abstract要約: 本稿では,命令ベース推論Qwen-3モデルの微調整による説明可能なKhmer極性を提案する。
実験結果から, 微調整モデルではラベルの正確な予測だけでなく, 極性関連キーワードの同定による推論も可能であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Khmer polarity classification is a fundamental natural language processing task that assigns a positive, negative, or neutral label to a given Khmer text input. Existing Khmer models typically predict the label without explaining the rationale behind the prediction. This paper proposes an explainable Khmer polarity classifier by fine-tuning an instruction-based reasoning Qwen-3 model. The notion of explainability in this paper is limited to self-explanations, which the model uses to rationalize its predictions. Experimental results show that the fine-tuned model not only predicts labels accurately but also provides reasoning by identifying polarity-related keywords or phrases to support its predictions. In addition, we contribute a new Khmer polarity dataset consisting of short- to medium-length casual, romanized, and mixed-code Khmer expressions. This dataset was constructed using both heuristic rules and human curation and is publicly available through a gated Hugging Face repository (rinabuoy/khmerpolarity_nonreasoning). The fine-tuned Qwen-3 models are also made available in the same Hugging Face account.
- Abstract(参考訳): クメール極性分類は、与えられたクメールテキスト入力に正、負、中性ラベルを割り当てる基本自然言語処理タスクである。
既存のKhmerモデルは、通常、予測の背後にある理論的根拠を説明することなく、ラベルを予測します。
本稿では,命令ベース推論Qwen-3モデルの微調整による説明可能なKhmer極性分類器を提案する。
本論文における説明可能性の概念は、モデルが予測を合理化するために使用する自己説明に限られる。
実験結果から,微調整モデルはラベルを正確に予測するだけでなく,その予測を支援するために,極性関連キーワードやフレーズを識別して推論する。
さらに,短長から中長のカジュアル,ローマン化,混合符号のKhmer表現からなる新しいKhmer極性データセットをコントリビュートする。
このデータセットはヒューリスティックなルールと人間のキュレーションの両方を使用して構築され、Hugging Faceリポジトリ(rinabuoy/khmerpolarity_nonreasoning)を通じて公開されています。
微調整されたQwen-3は、同じHugging Faceアカウントでも利用可能である。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - LinkLogic: A New Method and Benchmark for Explainable Knowledge Graph Predictions [0.5999777817331317]
本稿では、LinkLogicと呼ばれる単純なリンク予測説明法について詳細に検討する。
FB13データセットに存在する家族構造に基づいて,最初のリンク予測説明ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-06-02T20:22:22Z) - Hashmarks: Privacy-Preserving Benchmarks for High-Stakes AI Evaluation [0.0]
本稿では,適切な回答を開示することなく,オープンな言語モデルを評価するためのプロトコルであるハッシュマーキングを提案する。
最も単純な形式では、ハッシュマークは参照ソリューションが公開前に暗号的にハッシュ化されているベンチマークである。
論文 参考訳(メタデータ) (2023-12-01T15:16:00Z) - Rationalizing Predictions by Adversarial Information Calibration [65.19407304154177]
我々は2つのモデルを共同で訓練する: 1つは、正確だがブラックボックスな方法でタスクを解く典型的なニューラルモデルであり、もう1つは、予測の理論的根拠を付加するセレクタ・予測モデルである。
我々は,2つのモデルから抽出した情報を,それらの違いが欠落した特徴や過度に選択された特徴の指標であるように校正するために,敵対的手法を用いる。
論文 参考訳(メタデータ) (2023-01-15T03:13:09Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Using Natural Sentences for Understanding Biases in Language Models [10.604991889372092]
ウィキペディアの現実世界の自然文から収集した職業に関する素早いデータセットを作成する。
バイアス評価はテンプレートプロンプトの設計選択に非常に敏感である。
本研究では, 自然文のプロンプトを体系的な評価に用いて, 観察に偏見をもたらす可能性のある設計選択から脱却することを提案する。
論文 参考訳(メタデータ) (2022-05-12T18:36:33Z) - Locally Typical Sampling [84.62530743899025]
我々は、今日の確率的言語ジェネレータが、一貫性と流動性のあるテキストを生成する際に不足していることを示します。
本稿では,確率モデルから生成する際の,この基準を強制するための簡易かつ効率的な手順を提案する。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - You Can Do Better! If You Elaborate the Reason When Making Prediction [13.658942796267015]
本論文では,大きな学習済み言語モデルと組み合わせた新しいニューラル予測フレームワークを提案し,予測を行い,それに対応する説明を同時に生成する。
中国の医学的複数選択質問応答, 英語自然言語推論, 常識質問回答タスクに関する予備的実証的研究を行った。
また,提案手法は,3つのデータセットに対する予測精度の向上も達成し,意思決定プロセスにおける説明の生成による予測のメリットが示唆された。
論文 参考訳(メタデータ) (2021-03-27T14:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。