論文の概要: Umwelt Engineering: Designing the Cognitive Worlds of Linguistic Agents
- arxiv url: http://arxiv.org/abs/2603.27626v1
- Date: Sun, 29 Mar 2026 10:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.045889
- Title: Umwelt Engineering: Designing the Cognitive Worlds of Linguistic Agents
- Title(参考訳): Umwelt Engineering:言語エージェントの認知世界を設計する
- Authors: Rodney Jehu-Appiah,
- Abstract要約: スタック・スタック・エンジニアリングにおける第3層として言語認知環境の設計を提案する。
2つの実験は、推論の媒質を変えることがそれ自体を変えるという仮説を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: I propose Umwelt engineering -- the deliberate design of the linguistic cognitive environment -- as a third layer in the agent design stack, upstream of both prompt and context engineering. Two experiments test the thesis that altering the medium of reasoning alters cognition itself. In Experiment 1, three language models reason under two vocabulary constraints -- No-Have (eliminating possessive "to have") and E-Prime (eliminating "to be") -- across seven tasks (N=4,470 trials). No-Have improves ethical reasoning by 19.1 pp (p < 0.001), classification by 6.5 pp (p < 0.001), and epistemic calibration by 7.4 pp, while achieving 92.8% constraint compliance. E-Prime shows dramatic but model-dependent effects: cross-model correlations reach r = -0.75. In Experiment 2, 16 linguistically constrained agents tackle 17 debugging problems. No constrained agent outperforms the control individually, yet a 3-agent ensemble achieves 100% ground-truth coverage versus 88.2% for the control. A permutation test confirms only 8% of random 3-agent subsets achieve full coverage, and every successful subset contains the counterfactual agent. Two mechanisms emerge: cognitive restructuring and cognitive diversification. The primary limitation is the absence of an active control matching constraint prompt elaborateness.
- Abstract(参考訳): エージェント設計スタックの3番目のレイヤとして,言語認知環境の意図的な設計であるUmwelt Engineeringを提案します。
2つの実験は、推論の媒体を変えることは認知そのものを変えるという仮説をテストする。
実験1では、3つの言語モデルが7つのタスク(N=4,470のトライアル)で、No-Have(所有する)とE-Prime(所有する)という2つの語彙制約の下で推論する。
No-Haveは倫理的推論を19.1 pp (p < 0.001)、分類を6.5 pp (p < 0.001)、疫学的校正を7.4 pp、制約コンプライアンスを92.8%改善している。
E-Primeは劇的だがモデルに依存した効果を示す: クロスモデル相関は r = -0.75 に達する。
実験2では、言語的に制約された16のエージェントが17のデバッグ問題に取り組む。
拘束されたエージェントは個別に制御を上回り、しかし3つのエージェントのアンサンブルは、制御に対して88.2%に対して100%の地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対
置換テストでは、ランダムな3つのエージェントサブセットのわずか8%が完全なカバレッジを達成しており、成功したサブセットはすべての反ファクト的エージェントを含む。
認知的再構成と認知的多様化という2つのメカニズムが生まれる。
主な制限は、アクティブな制御マッチング制約の欠如である。
関連論文リスト
- Semantic Invariance in Agentic AI [2.7821684674538347]
大規模言語モデルは、意思決定支援、科学的問題解決、マルチエージェント調整システムにおいて、自律的推論エージェントとしての役割をますます高めている。
LLMエージェントを連続的なアプリケーションにデプロイするには、それらの推論が意味論的に等価な入力変動の下で安定であることを保証する必要がある。
標準ベンチマーク評価は、固定された正準問題定式化の精度を評価するが、この重要な信頼性の次元を捉えることができない。
論文 参考訳(メタデータ) (2026-03-13T17:08:44Z) - Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems [0.0]
加害者治療では、犯罪者は反省するが、行動の変化は従わない。
我々は、アライメントの介入が構造的に類似した現象を生じさせ、表面の安全性は、集合的な病理や内部の解離を覆い隠すか、あるいは発生させることを示した。
これらの所見は, リスクホメオスタシスと子宮新生にともなう行動介入としてのアライメントを再構成した。
論文 参考訳(メタデータ) (2026-03-05T07:46:59Z) - Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem [0.0]
本研究では,生産システムのアーキテクチャ層が正しい推論を可能にする方法を検討する。
STAR(Situation-Task-Action-Result)推論フレームワークだけでは精度が0%から85%に向上することがわかった。
論文 参考訳(メタデータ) (2026-02-25T11:40:15Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。