論文の概要: PerCoR: Evaluating Commonsense Reasoning in Persian via Multiple-Choice Sentence Completion
- arxiv url: http://arxiv.org/abs/2510.22616v1
- Date: Sun, 26 Oct 2025 10:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.297599
- Title: PerCoR: Evaluating Commonsense Reasoning in Persian via Multiple-Choice Sentence Completion
- Title(参考訳): PerCoR: ペルシャにおけるコモンセンス推論の評価
- Authors: Morteza Alikhani, Mohammadtaha Bagherifard, Erfan Zinvandi, Mehran Sarmadi,
- Abstract要約: PerCoRは、コモンセンス推論のための最初の大規模なペルシア語のベンチマークである。
PerCoRには、40以上のニュース、文化、その他のWebソースから引き出された106Kの多重選択文補完問題が含まれている。
本稿では,コヒーレントな文補完ペアを生成するための協調型セグメンテーション手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduced PerCoR (Persian Commonsense Reasoning), the first large-scale Persian benchmark for commonsense reasoning. PerCoR contains 106K multiple-choice sentence-completion problems drawn from more than forty news, cultural, and other web sources. We introduce a novel conjunction-based segmentation strategy to generate coherent sentence-completion pairs, enabling broad topical and structural diversity. To create challenging distractors, we propose DRESS-AF (Distractor Ranking via Embedding Similarity Scoring and Adversarial Filtering), a generation-free adversarial filtering method that selects distractors from the pool of gold continuations while maximising model confusion. Human annotators score 89% on PerCoR, while OpenAI-o3 achieves the highest performance at 92.18%, followed closely by Claude-Sonnet-3.7 (91.17%). The strongest open-source model, DeepSeek-R1, reaches 82.51%, underscoring both the dataset's difficulty and the remaining performance gap in Persian commonsense reasoning. We further show that DRESS-AF transfers to the English HellaSwag benchmark, increasing its difficulty without hurting human solvability. The dataset is available at https://huggingface.co/datasets/MCINext/PerCoR.
- Abstract(参考訳): 私たちはPerCoR(Persian Commonsense Reasoning)を導入した。
PerCoRには、40以上のニュース、文化、その他のWebソースから引き出された106Kの多重選択文補完問題が含まれている。
本稿では,コヒーレントな文補完ペアを生成するための協調型セグメンテーション手法を提案する。
モデル混乱を最大化しつつ,金のプールからイントラクタを抽出する生成不要な逆フィルタリング手法であるDRESS-AF(Distractor Ranking via Embedding similarity Scoring and Adversarial Filtering)を提案する。
人間のアノテーションはPerCoRで89%、OpenAI-o3は92.18%、Claude-Sonnet-3.7(91.17%)が続く。
最も強力なオープンソースモデルであるDeepSeek-R1が82.51%に達した。
さらに、DRESS-AFがHellaSwagベンチマークに移行し、人間の溶解性を損なうことなくその難しさを増すことを示す。
データセットはhttps://huggingface.co/datasets/MCINext/PerCoRで公開されている。
関連論文リスト
- Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Automated Knowledge Graph Construction using Large Language Models and Sentence Complexity Modelling [0.39089069256361736]
文レベルの知識グラフを抽出するエンドツーエンドパイプラインであるCoDe-KGを導入する。
オープンソースである15万以上のナレッジトリプルのデータセットをコントリビュートしています。
提案手法は, 文章の簡潔化において, 正解精度が99.8%まで向上することが示唆された。
論文 参考訳(メタデータ) (2025-09-22T00:01:50Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - ProgRoCC: A Progressive Approach to Rough Crowd Counting [66.09510514180593]
私たちはRough Crowd Countingというラベルを付け、取得が容易なトレーニングデータに基づいて精度を向上します。
本稿では,ProgRoCCと呼ばれるCLIPに基づく大群カウント問題に対するアプローチを提案する。
具体的には、粗大なアプローチによってオブジェクト数を決定するプログレッシブな推定学習戦略を導入する。
論文 参考訳(メタデータ) (2025-04-18T01:57:42Z) - CoKe: Customizable Fine-Grained Story Evaluation via Chain-of-Keyword Rationalization [90.15027447565427]
思考の連鎖(CoT)は、モデルの予測を導くのに役立つ自由テキストの説明を生成する。
自己一貫性(SC: Self-Consistency)は、複数の生成された説明に対する予測を疎外する。
我々は、$textbfC$hain-$textbfo$f-$textbfKe$ywords (CoKe)を提案する。
論文 参考訳(メタデータ) (2025-03-21T13:37:46Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。