論文の概要: An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation
- arxiv url: http://arxiv.org/abs/2603.09701v1
- Date: Tue, 10 Mar 2026 14:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.369791
- Title: An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation
- Title(参考訳): マルチターンHuman-LLM協調符号生成におけるインタラクションスメルの実証的研究
- Authors: Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida Ye,
- Abstract要約: 大規模言語モデル(LLM)はコード生成に革命をもたらし、静的ツールから動的対話インターフェースへと進化した。
LLMはスタンドアロンのコードスニペットを生成するのに非常に優れているが、拡張された相互作用の間はコンテキスト整合性を維持するのに苦労している。
既存のベンチマークでは、インタラクション・スメル(Interaction Smells)と呼ばれるインタラクション・プロセス自体に潜む品質の問題を見越して、最終的な出力の関数的正しさを強調している。
- 参考スコア(独自算出の注目度): 10.568269273364448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have revolutionized code generation, evolving from static tools into dynamic conversational interfaces that facilitate complex, multi-turn collaborative programming. While LLMs exhibit remarkable proficiency in generating standalone code snippets, they often struggle to maintain contextual consistency during extended interactions, creating significant obstacles in the collaboration process. Existing benchmarks primarily emphasize the functional correctness of the final output, overlooking latent quality issues within the interaction process itself, which we term Interaction Smells. In this paper, we conduct an empirical study on sampled real-word user-LLM interactions from WildChat and LMSYS-Chat-1M datasets to systematically investigate Interaction Smells in human-LLM code generation tasks from the perspectives of phenomena, distribution, and mitigation. First, we establish the first taxonomy of Interaction Smells by manually performing open card sorting on real-world interaction logs. This taxonomy categorizes Interaction Smells into three primary categories, i.e., User Intent Quality, Historical Instruction Compliance, and Historical Response Violation, comprising nine specific subcategories. Next, we quantitatively evaluate six mainstream LLMs (i.e., GPT-4o, DeepSeek-Chat, Gemini 2.5, Qwen2.5-32B, Qwen2.5-72B, and Qwen3-235B-a22b) to analyze the distribution of Interaction Smells across different models. Finally, we propose Invariant-aware Constraint Evolution (InCE), a multi-agent framework designed to improve multi-turn interaction quality through explicit extraction of global invariants and pre-generation quality audits. Experimental results on the extended WildBench benchmark demonstrate that this lightweight mitigation approach significantly improves the Task Success Rate and effectively suppresses the occurrence of Interaction Smells.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成に革命をもたらし、静的ツールから動的対話インタフェースへと進化し、複雑なマルチターン協調プログラミングを促進する。
LLMはスタンドアロンのコードスニペットを生成するのに顕著な習熟度を示すが、拡張されたインタラクションの間、コンテキスト整合性を維持するのに苦慮し、コラボレーションプロセスに重大な障害を生じさせる。
既存のベンチマークでは、インタラクション・スメル(Interaction Smells)と呼ばれるインタラクション・プロセス自体に潜む品質の問題を見越して、最終的な出力の関数的正しさを強調している。
本稿では,WildChatとLMSYS-Chat-1Mデータセットを用いた実単語ユーザ-LLMインタラクションのサンプル実験を行い,現象,分布,緩和の観点から人間-LLMコード生成タスクにおけるインタラクション・スメルを系統的に検討する。
まず,実世界の対話ログを手動でソートすることで,対話スメルの最初の分類法を確立する。
この分類法は、インタラクション・スメルを3つの主要なカテゴリ、すなわちユーザ・インテント・クオリティ、歴史的インストラクション・コンプライアンス、そして9つの特定のサブカテゴリからなるヒストリカル・レスポンス・ヴァイオレーションに分類する。
次に、6つの主要なLCM(GPT-4o, DeepSeek-Chat, Gemini 2.5, Qwen2.5-32B, Qwen2.5-72B, Qwen3-235B-a22b)を定量的に評価し、異なるモデル間でのインタラクション・スメルの分布を分析した。
Invariant-aware Constraint Evolution (InCE) は,グローバルな不変量や前世代品質監査を明示的に抽出することで,マルチターンインタラクション品質の向上を目的としたマルチエージェントフレームワークである。
拡張WildBenchベンチマーク実験の結果、この軽量化手法はタスク成功率を大幅に改善し、インタラクション・スメルの発生を効果的に抑制することが示された。
関連論文リスト
- Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning [39.4394389642761]
本稿では,対話型対話を対話型プロトタイプに切り離すための新しい対話型On Pattern DisenTangling (OPT) 手法を提案する。
OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。
単一タスク,マルチタスク,ゼロショットのベンチマーク実験により,提案手法が最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-08T13:42:54Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。