論文の概要: ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2603.02676v1
- Date: Tue, 03 Mar 2026 07:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.68074
- Title: ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs
- Title(参考訳): SemEval-2026 Task 11のITLC: LLMにおける形式推論のための正規化と決定論的解析
- Authors: Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong, Muhammad Ravi Shulthan Habibi, Samuel Cahyawijaya,
- Abstract要約: 大規模言語モデルは推論タスク、特に多言語文脈における内容効果に悩まされる。
本稿では,これらのバイアスを明示的な構造的抽象化によって低減する新しい手法を提案する。
提案手法は,全サブタスクにまたがるトップ5のランキングを達成し,コンテンツ効果を大幅に低減する。
- 参考スコア(独自算出の注目度): 9.363838558599863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models suffer from content effects in reasoning tasks, particularly in multi-lingual contexts. We introduce a novel method that reduces these biases through explicit structural abstraction that transforms syllogisms into canonical logical representations and applies deterministic parsing to determine validity. Evaluated on the SemEval-2026 Task 11 multilingual benchmark, our approach achieves top-5 rankings across all subtasks while substantially reducing content effects and offering a competitive alternative to complex fine-tuning or activation-level interventions.
- Abstract(参考訳): 大規模言語モデルは推論タスク、特に多言語文脈における内容効果に悩まされる。
本稿では、これらのバイアスを、シロジズムを正準論理表現に変換する明示的な構造抽象を通じて低減し、決定論的解析を用いて妥当性を判定する手法を提案する。
提案手法は,SemEval-2026 Task 11マルチリンガル・ベンチマークに基づいて,全サブタスクの上位5位を達成し,コンテンツ効果を大幅に低減し,複雑な微調整やアクティベーションレベルの介入に代わる競合的な代替手段を提供する。
関連論文リスト
- What Really Counts? Examining Step and Token Level Attribution in Multilingual CoT Reasoning [0.03499870393443267]
本研究では,多言語LLMにおけるChain-of-Thought(CoT)推論の帰属パターンについて検討した。
ステップレベルの属性に対するContextCiteとトークンレベルの属性に対するInseqの2つの補完属性手法をQwen2.5 1.5B-Instructモデルに適用する。
実験結果から,(1)帰属スコアは最終推論ステップ,特に不正確な世代において過度に強調され,(2)構造化CoTは高解像度ラテン文字言語の精度を著しく向上させ,(3)否定文や散逸文による制御摂動はモデル精度と帰属コヒーレンスを低下させる,といった重要な結果が得られた。
論文 参考訳(メタデータ) (2025-11-19T21:23:58Z) - On the Entity-Level Alignment in Crosslingual Consistency [62.33186691736433]
SubSubとSubInjは、主題の英語翻訳を言語間のプロンプトに統合し、実際のリコール精度と一貫性を大きく向上させた。
これらの介入はモデルの内部ピボット言語処理を通じて概念空間における実体表現のアライメントを強化する。
論文 参考訳(メタデータ) (2025-10-11T16:26:50Z) - Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis [54.53152524778821]
言語モデル(LLM)への音声の統合は、その能力を大幅に拡張したが、多くの場合、中核となるテキスト能力の弱さを犠牲にしている。
本稿では,パラメータ重要度推定に基づく分析フレームワークを提案する。
レイヤワイズ学習率スケジューリングとローランド適応(LoRA)の2つの緩和戦略について検討する。
実験結果から,両手法は完全な微調整よりもテキスト能力の維持が良好であるとともに,下流の質問応答性能も向上していることがわかった。
論文 参考訳(メタデータ) (2025-09-28T09:04:40Z) - From Language to Logic: A Bi-Level Framework for Structured Reasoning [6.075080928704587]
自然言語入力に対する構造化推論は、人工知能における中核的な課題である。
本稿では,ハイレベルなタスク抽象化と低レベルなロジック生成という2段階のプロセスを通じて,言語を論理にマッピングする新しいフレームワークを提案する。
提案手法は既存のベースラインの精度を著しく上回り,精度は最大40%向上した。
論文 参考訳(メタデータ) (2025-07-11T11:24:09Z) - Fane at SemEval-2025 Task 10: Zero-Shot Entity Framing with Large Language Models [25.283401945003277]
我々は,大規模言語モデル (LLM) のゼロショット機能の評価を行い,フレーミングの役割を分類する。
以上の結果から,まず広い役割ときめ細かな役割を同定する階層的アプローチが,単一段階の分類より優れていることが示唆された。
論文 参考訳(メタデータ) (2025-04-29T07:10:53Z) - Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks [71.19560970717495]
最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。
これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか?
本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-05T17:50:42Z) - UCAS-IIE-NLP at SemEval-2023 Task 12: Enhancing Generalization of
Multilingual BERT for Low-resource Sentiment Analysis [24.542445315345464]
本稿では,SemEval-2023 Task 12: Sentiment Analysis for African Languageについて述べる。
具体的には,語彙に基づく多言語BERTを設計し,言語適応と感情認識表現学習を容易にする。
提案システムは,多言語およびゼロショットの感情分類サブタスクにおいて,ベースラインをほぼ上回り,競争的な結果を得た。
論文 参考訳(メタデータ) (2023-06-01T19:10:09Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - PALI-NLP at SemEval-2022 Task 4: Discriminative Fine-tuning of Deep
Transformers for Patronizing and Condescending Language Detection [4.883341580669763]
そこで我々は,PCL検出のための新しいトランスフォーマーモデルとそのアンサンブルを提案する。
PCLの微妙で主観的な性質の理解を容易にするために,2つの微調整戦略を適用した。
このシステムは公式ランキングにおいて顕著な結果、すなわちSubtask 1で1位、Subtask 2で5位となる。
論文 参考訳(メタデータ) (2022-03-09T10:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。