論文の概要: Preference Elicitation for Step-Wise Explanations in Logic Puzzles
- arxiv url: http://arxiv.org/abs/2511.10436v1
- Date: Fri, 14 Nov 2025 01:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.870125
- Title: Preference Elicitation for Step-Wise Explanations in Logic Puzzles
- Title(参考訳): 論理パズルにおけるステップワイズ説明の優先的解法
- Authors: Marco Foschini, Marianne Defresne, Emilio Gamba, Bart Bogaerts, Tias Guns,
- Abstract要約: 我々は,非支配制約と高信頼な境界ベースの多様化を統合する新しいクエリ生成戦略であるMACHOPを紹介する。
本研究では,スドクパズルと論理グリッドパズルの解法を人工ユーザを用いて評価し,実ユーザによる評価を行った。
- 参考スコア(独自算出の注目度): 8.709533062679714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Step-wise explanations can explain logic puzzles and other satisfaction problems by showing how to derive decisions step by step. Each step consists of a set of constraints that derive an assignment to one or more decision variables. However, many candidate explanation steps exist, with different sets of constraints and different decisions they derive. To identify the most comprehensible one, a user-defined objective function is required to quantify the quality of each step. However, defining a good objective function is challenging. Here, interactive preference elicitation methods from the wider machine learning community can offer a way to learn user preferences from pairwise comparisons. We investigate the feasibility of this approach for step-wise explanations and address several limitations that distinguish it from elicitation for standard combinatorial problems. First, because the explanation quality is measured using multiple sub-objectives that can vary a lot in scale, we propose two dynamic normalization techniques to rescale these features and stabilize the learning process. We also observed that many generated comparisons involve similar explanations. For this reason, we introduce MACHOP (Multi-Armed CHOice Perceptron), a novel query generation strategy that integrates non-domination constraints with upper confidence bound-based diversification. We evaluate the elicitation techniques on Sudokus and Logic-Grid puzzles using artificial users, and validate them with a real-user evaluation. In both settings, MACHOP consistently produces higher-quality explanations than the standard approach.
- Abstract(参考訳): ステップワイズの説明は、ステップごとに決定を導出する方法を示すことによって、論理パズルやその他の満足度問題を説明することができる。
各ステップは1つ以上の決定変数への割り当てを導出する一連の制約から構成される。
しかし、様々な制約セットとそれらが引き起こす異なる決定によって、多くの候補説明ステップが存在する。
最も理解しやすいものを特定するには、各ステップの品質を定量化するために、ユーザ定義の客観的関数が必要である。
しかし、よい目的関数を定義することは難しい。
ここでは、より広い機械学習コミュニティからのインタラクティブな選好推論手法により、ペア比較からユーザの選好を学習する方法を提供する。
ステップワイズな説明のためのこのアプローチの実現可能性について検討し、標準的な組合せ問題と区別するいくつかの制限に対処する。
まず,複数のサブオブジェクトを用いて説明品質を測定することにより,これらの特徴を再スケールし,学習過程を安定化させる2つの動的正規化手法を提案する。
また、多くの生成した比較が同様の説明を含むことも見いだした。
そこで本稿では,MACHOP(Multi-Armed CHOice Perceptron)を導入した。
本研究では,スドクパズルと論理グリッドパズルの解法を人工ユーザを用いて評価し,実ユーザによる評価を行った。
どちらの設定でも、MACHOPは標準アプローチよりも高品質な説明を一貫して生成する。
関連論文リスト
- Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - FERERO: A Flexible Framework for Preference-Guided Multi-Objective Learning [41.95837632934815]
pREfeRence-guided Multi-Objective Learning (FERERO) のためのフレキシブルフラムワークを提案する。
この問題を解決するために、収束アルゴリズムは単一ループと原始変種の両方で開発される。
複数のベンチマーク実験により、提案手法は優先誘導最適解の探索に非常に適していることが示された。
論文 参考訳(メタデータ) (2024-12-02T18:21:16Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - PMGDA: A Preference-based Multiple Gradient Descent Algorithm [12.600588000788214]
マルチタスク学習のような、多くの多目的機械学習アプリケーションにおいて、意思決定者の所定の好みに合ったソリューションを見つけることが望ましい。
本稿では,意思決定者の好みに合ったソリューションを見つけるための,新しい予測と修正のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T11:27:31Z) - Hyper Meta-Path Contrastive Learning for Multi-Behavior Recommendation [61.114580368455236]
マルチビヘイビア情報によるユーザ購入予測は、現在のレコメンデーションシステムでは難しい問題である。
本稿では,ハイパーメタパスやハイパーメタグラフを構築するためのハイパーメタパスの概念を提案する。
最近のグラフコントラスト学習の成功により、異なる振る舞い間の依存関係を理解するために固定されたスキームを割り当てるのではなく、ユーザ行動パターンの埋め込みを適応的に学習する。
論文 参考訳(メタデータ) (2021-09-07T04:28:09Z) - Multi-Objective Counterfactual Explanations [0.7349727826230864]
本稿では, 対物探索を多目的最適化問題に変換する多目的対物法 (MOC) を提案する。
我々のアプローチは、提案する目的間のトレードオフの異なる多様な対策セットを返却するだけでなく、特徴空間における多様性も維持する。
論文 参考訳(メタデータ) (2020-04-23T13:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。