論文の概要: How Order-Sensitive Are LLMs? OrderProbe for Deterministic Structural Reconstruction
- arxiv url: http://arxiv.org/abs/2601.08626v1
- Date: Tue, 13 Jan 2026 15:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.250015
- Title: How Order-Sensitive Are LLMs? OrderProbe for Deterministic Structural Reconstruction
- Title(参考訳): LLMはどの位高感度か? 決定論的構造再構築のためのオーダープローブ
- Authors: Yingjie He, Zhaolu Kang, Kehan Jiang, Qianyuan Zhang, Jiachen Qian, Chunlei Meng, Yujie Feng, Yuan Wang, Jiabao Dou, Aming Wu, Leqi Zheng, Pengxiang Zhao, Jiaxin Liu, Zeyu Zhang, Lei Wang, Guansu Wang, Qishi Zhan, Xiaomin He, Meisheng Zhang, Jianyuan Ni,
- Abstract要約: 大言語モデル(LLM)はセマンティック理解に優れるが、スクランブルされた入力から内部構造を再構築する能力は未解明のままである。
中国語,日本語,韓国語で固定された4文字表現を用いた構造復元のための決定論的ベンチマークであるOrderProbeを紹介する。
回復精度を超えるモデルを評価するための診断枠組みを提案し,その内容は意味的忠実度,論理的妥当性,堅牢性,感度,情報密度などである。
- 参考スコア(独自算出の注目度): 26.53848099802812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at semantic understanding, yet their ability to reconstruct internal structure from scrambled inputs remains underexplored. Sentence-level restoration is ill-posed for automated evaluation because multiple valid word orders often exist. We introduce OrderProbe, a deterministic benchmark for structural reconstruction using fixed four-character expressions in Chinese, Japanese, and Korean, which have a unique canonical order and thus support exact-match scoring. We further propose a diagnostic framework that evaluates models beyond recovery accuracy, including semantic fidelity, logical validity, consistency, robustness sensitivity, and information density. Experiments on twelve widely used LLMs show that structural reconstruction remains difficult even for frontier systems: zero-shot recovery frequently falls below 35%. We also observe a consistent dissociation between semantic recall and structural planning, suggesting that structural robustness is not an automatic byproduct of semantic competence.
- Abstract(参考訳): 大言語モデル(LLM)はセマンティック理解に優れるが、スクランブルされた入力から内部構造を再構築する能力は未解明のままである。
複数の有効な単語順序が存在するため、文レベルの復元は自動評価に不適当である。
そこで我々は,中国語,日本語,韓国語で固定された4文字表現を用いた構造復元のための決定論的ベンチマークであるOrderProbeを紹介した。
さらに,意味的忠実度,論理的妥当性,一貫性,堅牢性感度,情報密度など,回復精度以上のモデルを評価する診断フレームワークを提案する。
12基のLLM実験により、フロンティア系においても構造復元は困難であり、ゼロショット回復は35%以下であることがわかった。
また,意味的リコールと構造的プランニングの間に一貫した解離が観察され,構造的ロバスト性は意味的能力の自動的副産物ではないことが示唆された。
関連論文リスト
- ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization [73.0780809974414]
本稿では,意味的整合性評価を自己形式化プロセスに統合する反射的自己形式化手法を提案する。
これにより、モデルが形式的なステートメントを反復的に生成し、セマンティックな忠実さを評価し、自己修正された特定エラーを発生させることができる。
実験の結果、ReFormは最強のベースラインに対して平均22.6ポイントの改善を達成した。
論文 参考訳(メタデータ) (2025-10-28T16:22:54Z) - Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - Effects of structure on reasoning in instance-level Self-Discover [0.0]
本稿では、Self-Discoverフレームワークのインスタンスレベルの適応であるiSelf-Discoverを紹介し、それを用いて動的に生成された構造化推論と非構造化推論との比較を行う。
最先端のオープンソースモデルを用いた多種多様なベンチマークによる実証的評価は、非構造化推論に対する一貫した優位性を支持している。
論文 参考訳(メタデータ) (2025-07-04T07:28:42Z) - Beyond Surface Similarity: Evaluating LLM-Based Test Refactorings with Structural and Semantic Awareness [15.677544288705883]
大きな言語モデル(LLM)は、振る舞いを保ちながら可読性と構造を改善するためにますます使われています。
我々は,LCMの人為的アライメント評価に向けた第一歩として,CTSESを提案する。
CTSESは、CodeBLEU、METEOR、ROUGE-Lを合成スコアに結合し、意味論、語彙的明瞭さ、構造的アライメントのバランスをとる。
論文 参考訳(メタデータ) (2025-06-07T11:18:17Z) - How Far Are We from Generating Missing Modalities with Foundation Models? [49.425856207329524]
欠落したモダリティの再構築に適したエージェントフレームワークを提案する。
本手法は, 画像再構成に要するFIDを少なくとも14%, MERを少なくとも10%削減する。
論文 参考訳(メタデータ) (2025-06-04T03:22:44Z) - Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures [21.390740746718947]
DSR-Benchは,大規模言語モデルの構造的推論を体系的に評価する最初のベンチマークである。
ベンチマークは、20のデータ構造、35の操作、および、最小限の汚染で合成生成された4,140の問題インスタンスにまたがる。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - Large Language Models as Quasi-crystals: Coherence Without Repetition in Generative Text [0.0]
エッセイは大規模言語モデル(LLM)と準結晶の類似性を提案し、局所的な制約によって生成される周期的反復を伴わないグローバルコヒーレンスを示すシステムである。
準結晶の歴史に基づいて、生成言語における代替的なコヒーレンスモード、すなわち反復や象徴的意図を伴わない制約に基づく組織を強調している。
このエッセイは、既存のメソッドを拒絶するのではなく、意味論よりも構造に根ざした解釈の新たな軸を提案することによって、大きな言語モデルに関する現在の議論を再考することを目的としている。
論文 参考訳(メタデータ) (2025-04-16T11:27:47Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。