論文の概要: UTS at PsyDefDetect: Multi-Agent Councils and Absence-Based Reasoning for Defense Mechanism Classification
- arxiv url: http://arxiv.org/abs/2605.09769v2
- Date: Tue, 12 May 2026 15:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.040518
- Title: UTS at PsyDefDetect: Multi-Agent Councils and Absence-Based Reasoning for Defense Mechanism Classification
- Title(参考訳): UTS at PsyDefDetect:マルチエージェント・カウンシルとAbsence-based Reasoning for Defense Mechanism Classification
- Authors: Dima Galat, Marian-Andrei Rizoiu,
- Abstract要約: 本稿では,感情支援対話における心理的防衛機構の分類システムについて述べる。
中心的な洞察は、防御メカニズムが欠落しているものによって定義されることである。
我々はこれを、最も大きな単一利得を考慮に入れた、即効レベルの臨床規則における感情認知統合スペクトルとしてエンコードする。
- 参考スコア(独自算出の注目度): 1.348563827917271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our system for classifying psychological defense mechanisms in emotional support dialogues using the Defense Mechanism Rating Scales (DMRS), placing second (F1 0.406) among 64 teams. A central insight is that defense mechanisms are defined by what is absent: missing affect, blocked cognition, denied reality. We encode this as an affect-cognition integration spectrum in prompt-level clinical rules, which account for the largest single gain (+11.4pp F1). Our architecture is a multi-phase deliberative council of Gemini 2.5 agents where class-specific advocates rate evidence strength rather than voting, achieving F1 0.382 with no fine-tuning - a top-5 result on its own. We find, however, that the council is confidently wrong about minority classes: 59-80% of stable minority predictions are incorrect, driven by a systematic "L7 attractor" in which emotional content defaults to the majority class. A targeted override ensemble from three fine-tuned Qwen3.5 models applies 16 overrides (+2.4pp), selected by a structured multi-agent system (builder, critic, regression guard) that produced a larger F1 gain in one iteration than 8 prior attempts combined.
- Abstract(参考訳): 本稿では,64チーム中2位(F1 0.406)の防衛メカニズム評価尺度(DMRS)を用いて,感情支援対話における心理的防衛メカニズムを分類するシステムについて述べる。
中心的な洞察は、防御メカニズムが欠落しているものによって定義されることである。
我々はこれを、最も大きなシングルゲイン(+11.4pp F1)を考慮に入れた、即効レベルの臨床規則における感情認知統合スペクトルとしてエンコードする。
我々のアーキテクチャはGemini 2.5エージェントの多段階協議会であり、クラス固有の支持者は投票よりも証拠の強さを評価し、細調整なしでF1 0.382を達成します。
59-80%の安定なマイノリティ予測は、多数派に感情的コンテンツをデフォルトとする体系的な「L7誘惑者」によって、誤ったものである。
3つの細調整されたQwen3.5モデルの目標オーバーライドアンサンブルは、16個のオーバーライド(+2.4pp)を適用し、構成されたマルチエージェントシステム(ビルダー、批評家、レグレッションガード)によって選択され、合計8回の試行より1回大きなF1ゲインを生み出した。
関連論文リスト
- GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives [48.545980031973556]
GAMBITは、インポスタ検出器を評価するための3つの評価モードと2つの独立したスコアを持つベンチマークである。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
論文 参考訳(メタデータ) (2026-05-09T16:07:23Z) - Nürnberg NLP at PsyDefDetect: Multi-Axis Voter Ensembles for Psychological Defence Mechanism Classification [0.0]
PsyDefDetectでは8つの正の防衛カテゴリーが表面言語を共有しており、実用的機能だけが異なる。
この知見を3つの軸にまたがる9声のアンサンブルに変換する。
システムは隠れたテストセットで$Ftest=.420$に達し、21の登録チームの中で第1位となる。
論文 参考訳(メタデータ) (2026-05-08T11:32:31Z) - TRUST: A Framework for Decentralized AI Service v.0.1 [47.384270414446604]
大規模推論モデル (LRM) とマルチエージェントシステム (MAS) は, 信頼性の高い検証を必要とする。
TRUST(Transparent, Robust, and Unified Services for Trustworthy AI)は,3つのイノベーションを備えた分散フレームワークである。
我々は、悪質な俳優が損失を被っている間、正直な監査人の利益を確実に確保する安全利益理論を証明する。
論文 参考訳(メタデータ) (2026-04-29T19:32:58Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Umwelt Engineering: Designing the Cognitive Worlds of Linguistic Agents [0.0]
スタック・スタック・エンジニアリングにおける第3層として言語認知環境の設計を提案する。
2つの実験は、推論の媒質を変えることがそれ自体を変えるという仮説を検証した。
論文 参考訳(メタデータ) (2026-03-29T10:49:50Z) - Multi-Agent Dialectical Refinement for Enhanced Argument Classification [0.0]
分類の不確実性を解決するために弁証的改善を利用したMAD-ACC(Multi-Agent Debate for Argument Component Classification)を導入する。
UKP Students Essays corpus の評価では、MAD-ACC が Macro F1 スコア85.7% を達成し、シングルエージェント推論ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-29T00:03:48Z) - Hierarchical Pedagogical Oversight: A Multi-Agent Adversarial Framework for Reliable AI Tutoring [0.0]
本稿では,構造化された対人合成を教育評価に適用する枠組みである階層的教育監督(HPO)を紹介する。
表面的なコンセンサスに向かって漂う協調的なマルチエージェントシステムとは異なり、HPOは関心事の弁証的分離を強制する。
1,214の中学校数学対話のMRBenchデータセットを用いて,この枠組みを評価する。
論文 参考訳(メタデータ) (2025-12-27T06:42:07Z) - RecGPT-V2 Technical Report [41.57739441038769]
大規模言語モデル(LLM)は、暗黙の行動パターンマッチングから明示的な意図推論へ、レコメンデータシステムを変換する大きな可能性を示している。
提案するRecGPT-V2には,暗黙的な行動パターンマッチングから明示的な意図推論へ,レコメンデータシステムを変換する4つの重要なイノベーションがある。
タオバオのオンラインA/Bテストでは、+2.98% CTR、+3.71% IPV、+2.19% TV、+11.46% NERが大幅に改善された。
論文 参考訳(メタデータ) (2025-12-16T15:40:44Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Adversarial Attack and Defense in Deep Ranking [100.17641539999055]
本稿では,敵対的摂動によって選抜された候補者のランクを引き上げたり下げたりできる,ディープランキングシステムに対する2つの攻撃を提案する。
逆に、全ての攻撃に対するランキングモデルロバスト性を改善するために、反崩壊三重項防御法が提案されている。
MNIST, Fashion-MNIST, CUB200-2011, CARS196およびStanford Online Productsデータセットを用いて, 敵のランク付け攻撃と防御を評価した。
論文 参考訳(メタデータ) (2021-06-07T13:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。