このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240623となっている論文です。

PDF登録状況(公開日: 20240623)

TitleAuthorsAbstract論文公表日・翻訳日
# 品質改善と患者安全のための生成人工知能の可能性と課題

The Potential and Perils of Generative Artificial Intelligence for Quality Improvement and Patient Safety ( http://arxiv.org/abs/2407.16902v1 )

ライセンス: Link先を確認
Laleh Jalilian, Daniel McDuff, Achuta Kadambi, (参考訳) ジェネレーティブ人工知能(GenAI)は、患者の医療の質と安全性を高める自動化を通じて、医療を改善する可能性がある。 GenAIは、事前にトレーニングされ、複雑なコンテンツを生成することができる基礎モデルによって支えられている。 我々は、医療におけるGenAIの差し迫った応用は、より小さな基礎モデルを使用して医療ワークフローを自動化する、明確に定義された、低いリスク、高い価値、狭いアプリケーションを通じて行われると仮定する。 これらのモデルは、さまざまな機能やアプリケーション固有のシナリオに対して微調整され、医学的な説明や、検索拡張フレームワーク内の証拠の参照、外部ツールの利用が可能になる。 これは、安全クリティカルな診断タスクを含む臨床成績を改善する、エンドツーエンドの臨床意思決定のための汎用AIモデルと対比する。 ジェネレーティブAIは、日常的なタスクを自動化することで、医療の質と安全性を向上させることができる。 医療チームが受け入れる'エンド・トゥ・エンド'なGenAIシステムを統合するためには、実装科学の原則を使用することが重要です。

Generative artificial intelligence (GenAI) has the potential to improve healthcare through automation that enhances the quality and safety of patient care. Powered by foundation models that have been pretrained and can generate complex content, GenAI represents a paradigm shift away from the more traditional focus on task-specific classifiers that have dominated the AI landscape thus far. We posit that the imminent application of GenAI in healthcare will be through well-defined, low risk, high value, and narrow applications that automate healthcare workflows at the point of care using smaller foundation models. These models will be finetuned for different capabilities and application specific scenarios and will have the ability to provide medical explanations, reference evidence within a retrieval augmented framework and utilizing external tools. We contrast this with a general, all-purpose AI model for end-to-end clinical decision making that improves clinician performance, including safety-critical diagnostic tasks, which will require greater research prior to implementation. We consider areas where 'human in the loop' Generative AI can improve healthcare quality and safety by automating mundane tasks. Using the principles of implementation science will be critical for integrating 'end to end' GenAI systems that will be accepted by healthcare teams.
翻訳日:2024-07-28 18:19:29 公開日:2024-06-23
# 極度のAIリスクとグローバルガバナンスに関する米中関係の見解

US-China perspectives on extreme AI risks and global governance ( http://arxiv.org/abs/2407.16903v1 )

ライセンス: Link先を確認
Akash Wasil, Tim Durgin, (参考訳) 米国と中国は、高度な人工知能に関する安全とセキュリティの課題をナビゲートする上で重要な役割を果たす。 私たちは、先進的な人工知能による安全とセキュリティの脅威、AIからの極端なリスク、そして国際協力の可能性について、各国の専門家がどのように説明しているかをよりよく理解しようとしました。 具体的には、米国と中国の主要技術・政策指導者の公開声明をまとめました。 我々は、AI(Artificial General Intelligence, AGI)のような先進的な人工知能に焦点をあてた。 両国の専門家は、AGIからのリスク、諜報機関の爆発によるリスク、そして人間のコントロールから逃れるAIシステムからのリスクについて懸念を表明した。 両国は、安全基準やリスクマネジメントプラクティスに関する国際協力を促進するために、早期の取り組みも開始している。 特に、我々の発見は一般に公開されている情報源の情報のみを反映している。 それでも私たちの発見は、米国と中国のAI談話の状況について、政策立案者や研究者に知らせることができます。 こうした取り組みが、先進的なAI、そのグローバルなセキュリティ脅威、そしてそのような脅威を軽減するための潜在的な国際対話や合意に関する政策議論に貢献できることを願っている。

The United States and China will play an important role in navigating safety and security challenges relating to advanced artificial intelligence. We sought to better understand how experts in each country describe safety and security threats from advanced artificial intelligence, extreme risks from AI, and the potential for international cooperation. Specifically, we compiled publicly-available statements from major technical and policy leaders in both the United States and China. We focused our analysis on advanced forms of artificial intelligence, such as artificial general intelligence (AGI), that may have the most significant impacts on national and global security. Experts in both countries expressed concern about risks from AGI, risks from intelligence explosions, and risks from AI systems that escape human control. Both countries have also launched early efforts designed to promote international cooperation around safety standards and risk management practices. Notably, our findings only reflect information from publicly available sources. Nonetheless, our findings can inform policymakers and researchers about the state of AI discourse in the US and China. We hope such work can contribute to policy discussions around advanced AI, its global security threats, and potential international dialogues or agreements to mitigate such threats.
翻訳日:2024-07-28 18:19:29 公開日:2024-06-23
# 反応性酸素種に対する電気通信周波数効果を説明できないラジカルペア機構

The Radical Pair Mechanism Cannot Explain Telecommunication Frequency Effects on Reactive Oxygen Species ( http://arxiv.org/abs/2407.03358v1 )

ライセンス: Link先を確認
Owaiss Talbi, Hadi Zadeh-Haghighi, Christoph Simon, (参考訳) ラジカル対機構 (RPM) が活性酸素種生成に及ぼす影響を解明するために, 振動磁場がラジカル対系に及ぼす影響をモデル化した。 実験装置で使用した低振幅条件下での無視的効果により, 遠隔通信周波数に曝露した場合の生物学的影響は, RPMでは説明できないことが示唆された。 これらの周波数におけるラジカル対に対する観測可能な効果は、生物学的システムの中で自然に存在するものよりもはるかに大きな値に正確に微調整された超微細結合定数を必要とする。 我々は、他のメカニズムが生物学的システムにおける通信周波数場の影響に責任を負う必要があると結論づける。

In order to investigate whether the radical pair mechanism (RPM) can explain the effects of telecommunication frequency radiation on reactive oxygen species production, we modelled the effects of oscillating magnetic fields on radical pair systems. Our analysis indicates that the RPM cannot account for the biological effects observed under exposure to telecommunication frequencies due to negligible effects under low-amplitude conditions used in experimental setups. Observable effects on radical pairs at these frequencies would require hyperfine coupling constants that are precisely fine-tuned to large values that far exceed those naturally occurring within biological systems. We conclude that some other mechanism must be responsible for the effects of telecommunication frequency fields in biological systems.
翻訳日:2024-07-22 22:09:04 公開日:2024-06-23
# 多波長系のMIMO学習ボルテラ非線形等化におけるフィールド強化フィルタ

Field-Enhanced Filtering in MIMO Learned Volterra Nonlinear Equalisation of Multi-Wavelength Systems ( http://arxiv.org/abs/2407.07705v1 )

ライセンス: Link先を確認
Nelson Castro, Sonia Boscolo, Andrew D. Ellis, Stylianos Sygletos, (参考訳) 本稿では,MIMO-WDMボルテラを用いた非線形等化手法を提案する。 このアプローチは各ステップにおける分散と非線形の相互作用を効果的に捉え、9ドルで9$-MIMO演算の複雑性を4,6\%削減する。

We propose a novel MIMO-WDM Volterra-based nonlinear-equalisation scheme with adaptive time-domain nonlinear stages enhanced by filtering in both the power and optical signal waveforms. This approach efficiently captures the interplay between dispersion and non-linearity in each step, leading to $46\%$ complexity reduction for $9\times 9$-MIMO operation.
翻訳日:2024-07-22 13:58:01 公開日:2024-06-23
# 信頼情報に基づく大規模MIMOシステムのディープチャネル推定

Belief Information based Deep Channel Estimation for Massive MIMO Systems ( http://arxiv.org/abs/2407.07744v1 )

ライセンス: Link先を確認
Jialong Xu, Liu Liu, Xin Wang, Lan Chen, (参考訳) 次世代無線通信システムでは、送信レートが上昇し続け、例えば没入型通信など、新たなシナリオをサポートする必要がある。 通信システムの進化の観点からは、マルチインプット・マルチアウトプット(MIMO)技術は伝送速度の向上に重要な役割を担っている。 しかし、現在のMIMOシステムは正確なチャネル推定を実現するためにパイロット信号の挿入に依存している。 送信ストリームの増加に伴い、パイロットは送信リソースの大部分を消費し、スペクトル効率を著しく低下させる。 本稿では,信念情報に基づくメカニズムを提案する。 プラグアンドプレイの信条情報モジュールを導入することで、既存の単一アンテナチャネル推定ネットワークをマルチアンテナチャネル推定にシームレスに適用し、複数のアンテナ間の空間相関を完全に活用することができる。 実験結果から,提案手法は1~2dBチャネル推定性能を向上させるか,特に悪いチャネル条件下でのパイロットオーバーヘッドを1/3〜1/2削減できることがわかった。

In the next generation wireless communication system, transmission rates should continue to rise to support emerging scenarios, e.g., the immersive communications. From the perspective of communication system evolution, multiple-input multiple-output (MIMO) technology remains pivotal for enhancing transmission rates. However, current MIMO systems rely on inserting pilot signals to achieve accurate channel estimation. As the increase of transmit stream, the pilots consume a significant portion of transmission resources, severely reducing the spectral efficiency. In this correspondence, we propose a belief information based mechanism. By introducing a plug-and-play belief information module, existing single-antenna channel estimation networks could be seamlessly adapted to multi-antenna channel estimation and fully exploit the spatial correlation among multiple antennas. Experimental results demonstrate that the proposed method can either improve 1 ~ 2 dB channel estimation performance or reduce 1/3 ~ 1/2 pilot overhead, particularly in bad channel conditions.
翻訳日:2024-07-22 13:58:01 公開日:2024-06-23
# UQE: 構造化されていないデータベースのためのクエリエンジン

UQE: A Query Engine for Unstructured Databases ( http://arxiv.org/abs/2407.09522v1 )

ライセンス: Link先を確認
Hanjun Dai, Bethany Yixin Wang, Xingchen Wan, Bo Dai, Sherry Yang, Azade Nova, Pengcheng Yin, Phitchaya Mangpo Phothilimthana, Charles Sutton, Dale Schuurmans, (参考訳) 構造化データの分析は多くの手法が成功した成熟した分野である。 しかし、現実世界のほとんどのデータは、画像や会話のような構造化されていない形で存在する。 構造化されていないデータ分析を可能にするために,Large Language Models (LLMs) の可能性を検討する。 特に,非構造化データコレクションからのインサイトを直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。 このエンジンはSQLの方言であるUniversal Query Language (UQL)でクエリを受け取り、条件や演算子を指定する際に自然言語の柔軟性を完全に提供する。 新しいエンジンは、LLMが非構造化データの解析を行う能力を活用するとともに、サンプリングおよび最適化技術の進歩を活用して、効率的かつ正確なクエリ実行を実現する。 さらに,従来のコンパイラ理論の手法を借りて,サンプリング手法とファンデーションモデル呼び出しのワークフローを整理する。 条件付きアグリゲーション,セマンティック検索,抽象化アグリゲーションなど,さまざまなモダリティにわたるデータ分析におけるUQEの効率性を示す。

Analytics on structured data is a mature field with many successful methods. However, most real world data exists in unstructured form, such as images and conversations. We investigate the potential of Large Language Models (LLMs) to enable unstructured data analytics. In particular, we propose a new Universal Query Engine (UQE) that directly interrogates and draws insights from unstructured data collections. This engine accepts queries in a Universal Query Language (UQL), a dialect of SQL that provides full natural language flexibility in specifying conditions and operators. The new engine leverages the ability of LLMs to conduct analysis of unstructured data, while also allowing us to exploit advances in sampling and optimization techniques to achieve efficient and accurate query execution. In addition, we borrow techniques from classical compiler theory to better orchestrate the workflow between sampling methods and foundation model calls. We demonstrate the efficiency of UQE on data analytics across different modalities, including images, dialogs and reviews, across a range of useful query types, including conditional aggregation, semantic retrieval and abstraction aggregation.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-23
# MuseCL:マルチセマンティックコントラスト学習による都市社会経済指標の予測

MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning ( http://arxiv.org/abs/2407.09523v1 )

ライセンス: Link先を確認
Xixian Yong, Xiao Zhou, (参考訳) 都市部における社会経済指標の予測は、都市や人の居住地における傾向、レジリエンス、持続可能性の向上に不可欠である。 先駆的な研究は、社会経済予測にマルチモーダルデータを活用しようと試みてきたが、その基盤となるセマンティクスを共同で探求することは大きな課題である。 このギャップに対処するために,都市域の詳細なプロファイリングと社会経済予測のためのマルチセマンティック・コントラスト学習(MuseCL)フレームワークを提案する。 この枠組みでは,街路ビューとリモートセンシング画像のコントラスト的なサンプルペアを構築し,人間のモビリティとPOI(Point of Interest)分布の類似性を活かし,視覚的モダリティから意味的特徴を導出することでプロセスを開始する。 さらに,これらの領域に埋め込まれたPOIテキストから,事前学習したテキストエンコーダを用いて意味的洞察を抽出する。 得られた視覚的特徴とテキスト的特徴をマージするため,我々は,統合のためのコントラスト機構を活用する,革新的な相互モダリティに基づく注意融合モジュールを考案した。 複数の都市における実験結果と指標は、MuseCLの優位性を一貫して強調し、様々な競争ベースラインモデルと比較して、R^2$の平均的な10%の改善を示した。 この作業のコードはhttps://github.com/XixianYong/MuseCLで公開されている。

Predicting socioeconomic indicators within urban regions is crucial for fostering inclusivity, resilience, and sustainability in cities and human settlements. While pioneering studies have attempted to leverage multi-modal data for socioeconomic prediction, jointly exploring their underlying semantics remains a significant challenge. To address the gap, this paper introduces a Multi-Semantic Contrastive Learning (MuseCL) framework for fine-grained urban region profiling and socioeconomic prediction. Within this framework, we initiate the process by constructing contrastive sample pairs for street view and remote sensing images, capitalizing on the similarities in human mobility and Point of Interest (POI) distribution to derive semantic features from the visual modality. Additionally, we extract semantic insights from POI texts embedded within these regions, employing a pre-trained text encoder. To merge the acquired visual and textual features, we devise an innovative cross-modality-based attentional fusion module, which leverages a contrastive mechanism for integration. Experimental results across multiple cities and indicators consistently highlight the superiority of MuseCL, demonstrating an average improvement of 10% in $R^2$ compared to various competitive baseline models. The code of this work is publicly available at https://github.com/XixianYong/MuseCL.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-23
# 残留再サンプリングに基づく中性子拡散方程式の物理インフォームニューラルネットワーク

Residual resampling-based physics-informed neural network for neutron diffusion equations ( http://arxiv.org/abs/2407.10988v1 )

ライセンス: Link先を確認
Heng Zhang, Yun-Ling He, Dong Liu, Qin Hang, He-Min Yao, Di Xiang, (参考訳) 中性子拡散方程式は原子炉の解析において重要な役割を果たす。 それでも、その解に物理情報ニューラルネットワーク(PINN)法を用いると、一定の限界が生じる。 従来のPINNアプローチでは、ネットワークの深さが増加するにつれて過度に適合し、不安定さを訓練し、グラデーションを消失する可能性がある完全接続ネットワーク(FCN)アーキテクチャを利用することが多い。 これらの課題は、ソリューションの精度のボトルネックをもたらす。 これらの問題に対応するために,Residual-based Resample Physics-Informed Neural Network (R2-PINN) が提案され,ネットワーク層間の勾配伝播を容易にするスキップ接続を取り入れた,FCNを畳み込みニューラルネットワーク(S-CNN)に置き換えた改良型PINNアーキテクチャが提案されている。 さらに、Residual Adaptive Resampling (RAR) 機構の導入によりサンプリングポイントが動的に増加し、空間表現能力が向上し、モデル全体の予測精度が向上する。 実験結果から,本手法はモデルの収束能力を大幅に向上し,物理場の高精度な予測が可能となった。 従来のFCNベースのPINN法と比較して、R2-PINNは現在の方法に固有の制限を効果的に克服し、中性子拡散方程式のより正確で堅牢な解を提供する。

The neutron diffusion equation plays a pivotal role in the analysis of nuclear reactors. Nevertheless, employing the Physics-Informed Neural Network (PINN) method for its solution entails certain limitations. Traditional PINN approaches often utilize fully connected network (FCN) architecture, which is susceptible to overfitting, training instability, and gradient vanishing issues as the network depth increases. These challenges result in accuracy bottlenecks in the solution. In response to these issues, the Residual-based Resample Physics-Informed Neural Network(R2-PINN) is proposed, which proposes an improved PINN architecture that replaces the FCN with a Convolutional Neural Network with a shortcut(S-CNN), incorporating skip connections to facilitate gradient propagation between network layers. Additionally, the incorporation of the Residual Adaptive Resampling (RAR) mechanism dynamically increases sampling points, enhancing the spatial representation capabilities and overall predictive accuracy of the model. The experimental results illustrate that our approach significantly improves the model's convergence capability, achieving high-precision predictions of physical fields. In comparison to traditional FCN-based PINN methods, R2-PINN effectively overcomes the limitations inherent in current methods, providing more accurate and robust solutions for neutron diffusion equations.
翻訳日:2024-07-22 12:39:32 公開日:2024-06-23
# 大規模言語モデルはロマン主義的誘引の言語指標を理解するか?

Do Large Language Models Understand Verbal Indicators of Romantic Attraction? ( http://arxiv.org/abs/2407.10989v1 )

ライセンス: Link先を確認
Sandra C. Matz, Heinrich Peters, Paul W. Eastwick, Moran Cerf, Eli J. Finkel, (参考訳) 初日に「クリック」してお互いに惹きつけるのはなぜか。 人間の判断に排他的であったロマンチックな相互作用のダイナミクスを理解し,予測する一方で,Large Language Models (LLMs) は,短時間の会話において,ロマンチックなアトラクションを検出することができることを示す。 964速日データから、ChatGPT(およびClaude 3)は、速度推定成功の客観的および主観的な指標の両方を予測することができる(r=0.12-0.23)。 ChatGPTの実際のマッチング(連絡先情報の交換)の予測は、同じ情報にアクセスできただけでなく、スピードタイマー自身の予測と同等であった。 ChatGPTの予測のばらつきは、共通の内容次元(会話の価数など)によって説明できるが、説明されていない分散のかなりの割合が残っているという事実は、ChatGPTが会話のダイナミクスを取り上げていることを示唆している。 加えて、ChatGPTの判断は人間の観察者(平均 r=0.29)と大きく重なり、部分的には精度によらないロマンチックなアトラクションの表現における類似性を強調した。

What makes people 'click' on a first date and become mutually attracted to one another? While understanding and predicting the dynamics of romantic interactions used to be exclusive to human judgment, we show that Large Language Models (LLMs) can detect romantic attraction during brief getting-to-know-you interactions. Examining data from 964 speed dates, we show that ChatGPT (and Claude 3) can predict both objective and subjective indicators of speed dating success (r=0.12-0.23). ChatGPT's predictions of actual matching (i.e., the exchange of contact information) were not only on par with those of human judges who had access to the same information but incremental to speed daters' own predictions. While some of the variance in ChatGPT's predictions can be explained by common content dimensions (such as the valence of the conversations) the fact that there remains a substantial proportion of unexplained variance suggests that ChatGPT also picks up on conversational dynamics. In addition, ChatGPT's judgments showed substantial overlap with those made by the human observers (mean r=0.29), highlighting similarities in their representation of romantic attraction that is, partially, independent of accuracy.
翻訳日:2024-07-22 12:39:32 公開日:2024-06-23
# 国際貿易フロー予測と二国間貿易規定

International Trade Flow Prediction with Bilateral Trade Provisions ( http://arxiv.org/abs/2407.13698v1 )

ライセンス: Link先を確認
Zijie Pan, Stepan Gordeev, Jiahui Zhao, Ziyi Meng, Caiwen Ding, Sandro Steinbach, Dongjin Song, (参考訳) 本稿では、国際貿易環境における優先貿易協定(PTA)の重要性の高まりを強調し、国際貿易フローを予測するための新たな手法を提案する。 この研究は、グラビティ・モデル・オブ・トレードのような伝統的なモデルの限界を認識し、説明可能な機械学習と分解モデルを組み合わせた2段階のアプローチを導入している。 第1段階では、有効変数選択のためにSHAP Explainerを使用し、PTAの主要な規定を識別し、第2段階ではファクトリゼーションマシンモデルを使用して、これらの規定の貿易フローに対する相互相互作用効果を分析する。 包括的データセットを解析することにより,本手法の有効性を実証する。 この結果は、貿易フローモデルの予測精度を高めるだけでなく、特定の二国間貿易規定の影響を受けて、国際貿易の複雑なダイナミクスに関する深い洞察を与える。

This paper presents a novel methodology for predicting international bilateral trade flows, emphasizing the growing importance of Preferential Trade Agreements (PTAs) in the global trade landscape. Acknowledging the limitations of traditional models like the Gravity Model of Trade, this study introduces a two-stage approach combining explainable machine learning and factorization models. The first stage employs SHAP Explainer for effective variable selection, identifying key provisions in PTAs, while the second stage utilizes Factorization Machine models to analyze the pairwise interaction effects of these provisions on trade flows. By analyzing comprehensive datasets, the paper demonstrates the efficacy of this approach. The findings not only enhance the predictive accuracy of trade flow models but also offer deeper insights into the complex dynamics of international trade, influenced by specific bilateral trade provisions.
翻訳日:2024-07-22 08:07:30 公開日:2024-06-23
# EditFollower: カスタマイズ可能な適応型クルーズ制御システムのための可変車追従モデル

EditFollower: Tunable Car Following Models for Customizable Adaptive Cruise Control Systems ( http://arxiv.org/abs/2407.02516v1 )

ライセンス: Link先を確認
Xianda Chen, Xu Han, Meixin Zhu, Xiaowen Chu, PakHin Tiu, Xinhu Zheng, Yinhai Wang, (参考訳) 運転技術の分野では、完全自動運転車はまだ広く採用されておらず、運転体験の向上に高度運転支援システム(ADAS)が不可欠である。 アダプティブ・クルーズ・コントロール(ACC)はADASの重要な構成要素である。 しかし、現在のACCシステムは、しばしば固定された設定を採用しており、ドライバーの社会的嗜好を直感的に捉えることができず、機能停止につながる可能性がある。 これらの制約を克服するために,データ駆動型自動車追従モデルであるEBGモデルを提案する。 このフレームワークは様々な定型的な計算手法を長期メモリ(LSTM)とTransformerアーキテクチャに統合し、ニュアンスドライビングのダイナミクスを捉えるための包括的なアプローチを提供する。 トレーニングプロセス中に様々な不便な値を統合することで,車追従行動において,異なるレベルの礼儀正しく現実的なエージェントトラジェクトリを生成する。 HighDとWaymoのデータセットの実験結果は、ベースラインに比べてスペーシングの平均正方形誤差(MSE)と速度のMSEが減少し、スタイル制御性が確立されたことを示している。 我々の知る限りでは、この研究は不適切なレベルを動的に調整できる、データ駆動の自動車追従モデルとして最初のものである。 本モデルは,運転者の社会的嗜好を考慮に入れたACCシステムの開発に有用な知見を提供する。

In the realm of driving technologies, fully autonomous vehicles have not been widely adopted yet, making advanced driver assistance systems (ADAS) crucial for enhancing driving experiences. Adaptive Cruise Control (ACC) emerges as a pivotal component of ADAS. However, current ACC systems often employ fixed settings, failing to intuitively capture drivers' social preferences and leading to potential function disengagement. To overcome these limitations, we propose the Editable Behavior Generation (EBG) model, a data-driven car-following model that allows for adjusting driving discourtesy levels. The framework integrates diverse courtesy calculation methods into long short-term memory (LSTM) and Transformer architectures, offering a comprehensive approach to capture nuanced driving dynamics. By integrating various discourtesy values during the training process, our model generates realistic agent trajectories with different levels of courtesy in car-following behavior. Experimental results on the HighD and Waymo datasets showcase a reduction in Mean Squared Error (MSE) of spacing and MSE of speed compared to baselines, establishing style controllability. To the best of our knowledge, this work represents the first data-driven car-following model capable of dynamically adjusting discourtesy levels. Our model provides valuable insights for the development of ACC systems that take into account drivers' social preferences.
翻訳日:2024-07-07 13:14:55 公開日:2024-06-23
# CAV-AHDV-CAV:新しい自動車追従構造と強化学習によるCAVの交通振動緩和

CAV-AHDV-CAV: Mitigating Traffic Oscillations for CAVs through a Novel Car-Following Structure and Reinforcement Learning ( http://arxiv.org/abs/2407.02517v1 )

ライセンス: Link先を確認
Xianda Chen, PakHin Tiu, Yihuai Zhang, Xinhu Zheng, Meixin Zhu, (参考訳) Connected and Automated Vehicles (CAVs)は、CAVとHuman-Driven Vehicles (HDVs)の両方との混在という課題に対して、有望な解決策を提供する。 このようなシナリオにおける大きなハードルは、車の追従状況下での交通振動("stop-and-go"パターン)である。 HDVは限られた情報に依存しているが、CAVは意思決定を改善するために他のCAVのデータを利用することができる。 これにより、CAVは、トラフィックフローを悪化させる減速波の拡散を予測し、緩和することができる。 本稿では2つのCAV間のHDVのシーケンスを1つのエンティティとして扱い、個々のドライバの動作からノイズを除去する「CAV-AHDV-CAV」カー追従フレームワークを提案する。 この深層強化学習アプローチは車両平衡状態を分析し、状態融合戦略を用いる。 さまざまなデータセット(HighD, NGSIM, SPMD, Waymo, Lyft)でトレーニングおよびテストを行い,70,000以上の自動車追跡インスタンスを対象とする。 これらの結果から,混合交通に対するロバストなCAV制御戦略の開発において,本手法の有効性が示された。 我々のモデルは、交通振動を緩和し、交通流効率を向上し、全体的な安全性を高める可能性を持っている。

Connected and Automated Vehicles (CAVs) offer a promising solution to the challenges of mixed traffic with both CAVs and Human-Driven Vehicles (HDVs). A significant hurdle in such scenarios is traffic oscillation, or the "stop-and-go" pattern, during car-following situations. While HDVs rely on limited information, CAVs can leverage data from other CAVs for better decision-making. This allows CAVs to anticipate and mitigate the spread of deceleration waves that worsen traffic flow. We propose a novel "CAV-AHDV-CAV" car-following framework that treats the sequence of HDVs between two CAVs as a single entity, eliminating noise from individual driver behaviors. This deep reinforcement learning approach analyzes vehicle equilibrium states and employs a state fusion strategy. Trained and tested on diverse datasets (HighD, NGSIM, SPMD, Waymo, Lyft) encompassing over 70,000 car-following instances, our model outperforms baselines in collision avoidance, maintaining equilibrium with both preceding and leading vehicles and achieving the lowest standard deviation of time headway. These results demonstrate the effectiveness of our approach in developing robust CAV control strategies for mixed traffic. Our model has the potential to mitigate traffic oscillation, improve traffic flow efficiency, and enhance overall safety.
翻訳日:2024-07-07 13:14:55 公開日:2024-06-23
# INDICT:セキュリティとヘルパーネスの両面に対する批評の内部対話によるコード生成

INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness ( http://arxiv.org/abs/2407.02518v1 )

ライセンス: Link先を確認
Hung Le, Yingbo Zhou, Caiming Xiong, Silvio Savarese, Doyen Sahoo, (参考訳) コードのための大規模言語モデル(LLM)は、通常、意図や要求に忠実に従うために自然言語命令と整合するように訓練される。 しかし、多くの実践シナリオにおいて、これらのモデルが、特に非常に複雑で悪意のある命令に対して、有用性と安全性の間の複雑な境界をナビゲートすることはますます困難になっている。 本研究は,批判内対話によるLLMの安全性と有用性向上のための新しいフレームワークであるINDICTを紹介する。 内部対話は、安全主導の批評家と役に立つ主導の批評家の二重協調システムである。 各批評家は、関連するコードスニペットやWeb検索やコードインタプリタといったツールを通じてクエリされた外部知識を備えた、与えられたタスクとそれに対応する生成されたレスポンスに対して分析を行う。 我々は、コード生成段階とコード実行段階の両方において二重批判システムに従事し、それぞれ LLM に対してプリエンプティブとポストホックのガイダンスを提供する。 我々は,7Bから70Bパラメータの LLM を用いて,8つのプログラム言語に対して,INDICT を5つのベンチマークから8つの多様なタスクで評価した。 提案手法は,安全性と有用性解析の両面での高度な批判を提供するとともに,出力コードの品質を著しく向上させる(+10\%$ 絶対的改善)。

Large language models (LLMs) for code are typically trained to align with natural language instructions to closely follow their intentions and requirements. However, in many practical scenarios, it becomes increasingly challenging for these models to navigate the intricate boundary between helpfulness and safety, especially against highly complex yet potentially malicious instructions. In this work, we introduce INDICT: a new framework that empowers LLMs with Internal Dialogues of Critiques for both safety and helpfulness guidance. The internal dialogue is a dual cooperative system between a safety-driven critic and a helpfulness-driven critic. Each critic provides analysis against the given task and corresponding generated response, equipped with external knowledge queried through relevant code snippets and tools like web search and code interpreter. We engage the dual critic system in both code generation stage as well as code execution stage, providing preemptive and post-hoc guidance respectively to LLMs. We evaluated INDICT on 8 diverse tasks across 8 programming languages from 5 benchmarks, using LLMs from 7B to 70B parameters. We observed that our approach can provide an advanced level of critiques of both safety and helpfulness analysis, significantly improving the quality of output codes ($+10\%$ absolute improvements in all models).
翻訳日:2024-07-07 13:14:55 公開日:2024-06-23
# 不完全な情報カードゲームにおける解説戦略の強化--広東語解説における大規模言語モデルの検討

Enhancing Commentary Strategies for Imperfect Information Card Games: A Study of Large Language Models in Guandan Commentary ( http://arxiv.org/abs/2406.17807v1 )

ライセンス: Link先を確認
Meiling Tao. Xuechen Liang, Yiling Tao, Tianyu Shi, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、高品質なゲーム解説を生成する可能性を解き放っている。 しかし、不完全な情報を持つ複雑なゲームに対して、洞察に富み、活発なコメントを生み出すことは、依然として大きな課題である。 本稿では,中国のカードゲームである『textit{Guandan}』に特化して,強化学習(RL)とLLMを組み合わせた新たな解説手法を提案する。 本システムでは,RLを利用して複雑なカード再生シナリオを生成し,LDMを用いて対応する注釈文を生成し,プロの解説者の戦略的分析と物語の技を効果的にエミュレートする。 このフレームワークは、ステートコメンタリーガイド、心の理論(ToM)ベースのストラテジーアナライザ、および中国語環境における詳細で文脈に関連のあるゲームコメンタリーをシームレスにコラボレーションするスタイル検索モジュールを含む。 ToM 能力で LLM を強化し,検索機構と情報フィルタリング機構を改良する。 これにより、パーソナライズされたコメントコンテンツの生成が容易になる。 提案手法をオープンソース LLM に適用することにより,複数の評価指標にまたがって GPT-4 の性能を上回る性能向上を実現した。

Recent advancements in large language models (LLMs) have unlocked the potential for generating high-quality game commentary. However, producing insightful and engaging commentary for complex games with incomplete information remains a significant challenge. In this paper, we introduce a novel commentary method that combine Reinforcement Learning (RL) and LLMs, tailored specifically for the Chinese card game \textit{Guandan}. Our system leverages RL to generate intricate card-playing scenarios and employs LLMs to generate corresponding commentary text, effectively emulating the strategic analysis and narrative prowess of professional commentators. The framework comprises a state commentary guide, a Theory of Mind (ToM)-based strategy analyzer, and a style retrieval module, which seamlessly collaborate to deliver detailed and context-relevant game commentary in the Chinese language environment. We empower LLMs with ToM capabilities and refine both retrieval and information filtering mechanisms. This facilitates the generation of personalized commentary content. Our experimental results showcase the substantial enhancement in performance achieved by the proposed commentary framework when applied to open-source LLMs, surpassing the performance of GPT-4 across multiple evaluation metrics.
翻訳日:2024-06-27 17:46:26 公開日:2024-06-23
# 空間を限定したスパース行列の近似乗算

Approximate Multiplication of Sparse Matrices with Limited Space ( http://arxiv.org/abs/2009.03527v2 )

ライセンス: Link先を確認
Yuanyu Wan, Lijun Zhang, (参考訳) 空間を限定した近似行列乗法は、大規模応用の出現により、ますます注目を集めている。 近年,一般的な行列スケッチアルゴリズム-頻繁な方向-に基づいて,この問題に対する近似誤差を低減するための共起方向(co-occuring direction, COD)を導入している。 2つの入力行列に対して$O((m_x+m_y)\ell)$X\in\mathbb{R}^{m_x\times n}$と$Y\in\mathbb{R}^{m_y\times n}$はスケッチサイズであるが、その時間複雑性は$O\left(n(m_x+m_y+\ell)\right)$である。 本稿では,入力行列の空間性を利用して,時間的複雑性を低減することを提案する。 鍵となる考え方は、その空間を利用できる近似特異値分解(SVD)法を用いて、CODが必要とするQR分解数を減少させることである。 このようにして、時間複雑性を$\widetilde{O}\left((\nnz(X)+\nnz(Y))\ell+n\ell^2\right)$に減少させるスパース共起方向を開発するとともに、$O((m_x+m_y)\ell)$と同じ空間複雑性を保持する。 理論的解析により,我々のアルゴリズムの近似誤差はCODとほぼ同値であることが判明した。 さらに,本アルゴリズムの有効性と有効性を実証的に検証した。

Approximate matrix multiplication with limited space has received ever-increasing attention due to the emergence of large-scale applications. Recently, based on a popular matrix sketching algorithm -- frequent directions, previous work has introduced co-occuring directions (COD) to reduce the approximation error for this problem. Although it enjoys the space complexity of $O((m_x+m_y)\ell)$ for two input matrices $X\in\mathbb{R}^{m_x\times n}$ and $Y\in\mathbb{R}^{m_y\times n}$ where $\ell$ is the sketch size, its time complexity is $O\left(n(m_x+m_y+\ell)\ell\right)$, which is still very high for large input matrices. In this paper, we propose to reduce the time complexity by exploiting the sparsity of the input matrices. The key idea is to employ an approximate singular value decomposition (SVD) method which can utilize the sparsity, to reduce the number of QR decompositions required by COD. In this way, we develop sparse co-occuring directions, which reduces the time complexity to $\widetilde{O}\left((\nnz(X)+\nnz(Y))\ell+n\ell^2\right)$ in expectation while keeps the same space complexity as $O((m_x+m_y)\ell)$, where $\nnz(X)$ denotes the number of non-zero entries in $X$ and the $\widetilde{O}$ notation hides constant factors as well as polylogarithmic factors. Theoretical analysis reveals that the approximation error of our algorithm is almost the same as that of COD. Furthermore, we empirically verify the efficiency and effectiveness of our algorithm.
翻訳日:2024-06-26 23:34:57 公開日:2024-06-23
# スムーズなリスク対策の最適化のための政策勾配アプローチ

A policy gradient approach for optimization of smooth risk measures ( http://arxiv.org/abs/2202.11046v4 )

ライセンス: Link先を確認
Nithia Vijayan, Prashanth L. A, (参考訳) 本稿では,リスク感応性強化学習(RL)問題と非政治的設定を両立させる政策勾配アルゴリズムを提案する。 本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。 そこで我々は,2つのテンプレートポリシー勾配アルゴリズムを提案し,それぞれがオンラインとオフラインのRL設定におけるスムーズなリスク尺度を最適化する。 提案アルゴリズムの収束率をスムーズなリスク尺度の定常点に定量化する非漸近境界を導出する。 特殊な場合として, 平均分散度と歪みリスク度をそれぞれ最適化するために, アルゴリズムが適用可能であることを確かめる。

We propose policy gradient algorithms for solving a risk-sensitive reinforcement learning (RL) problem in on-policy as well as off-policy settings. We consider episodic Markov decision processes, and model the risk using the broad class of smooth risk measures of the cumulative discounted reward. We propose two template policy gradient algorithms that optimize a smooth risk measure in on-policy and off-policy RL settings, respectively. We derive non-asymptotic bounds that quantify the rate of convergence of our proposed algorithms to a stationary point of the smooth risk measure. As special cases, we establish that our algorithms apply to optimization of mean-variance and distortion risk measures, respectively.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-23
# 3つの周期的最小表面の永続ホモロジー

Persistent Homology of Triple Periodic Minimal Surfaces ( http://arxiv.org/abs/2406.16215v1 )

ライセンス: Link先を確認
Pavel Snopov, Sergei Ermolenko, (参考訳) 3つの周期的最小面 (TPMS) は、その構造的効率と制御可能な幾何学のために大きな関心を集めており、幅広い用途に適している。 本稿では,ポロシティと持続エントロピーの関係とTPMSの形状因子について検討する。 本稿では,これらの関係性は,機械学習技術の応用から導かれる,自然界の多項式であることを示す。 本研究は,純粋数学的研究における機械学習手法の統合を実証するものである。 予想の他に, TPMS構造の設計とモデル化に潜在的に影響を及ぼす可能性のある数学的モデルも, 様々な応用で提供する。

Triple periodic minimal surfaces (TPMS) have garnered significant interest due to their structural efficiency and controllable geometry, making them suitable for a wide range of applications. This paper investigates the relationships between porosity and persistence entropy with the shape factor of TPMS. We propose conjectures suggesting that these relationships are polynomial in nature, derived through the application of machine learning techniques. This study exemplifies the integration of machine learning methodologies in pure mathematical research. Besides the conjectures, we provide the mathematical models that might have the potential implications for the design and modeling of TPMS structures in various practical applications.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-23
# グローバル感度分析手法のレビューとディジット分類の比較事例

A Review of Global Sensitivity Analysis Methods and a comparative case study on Digit Classification ( http://arxiv.org/abs/2406.16975v1 )

ライセンス: Link先を確認
Zahra Sadeghi, Stan Matwin, (参考訳) グローバル感度分析(GSA)は、ある決定にモデルが到達する要因を検出することを目的としており、高次元データ処理の計算負担を軽減する重要なアプローチである。 本稿では,グローバルな感度分析手法に関する総合的なレビューと比較を行う。 さらに,MNIST桁データセットのケーススタディを行い,これらの手法の有効性を評価する手法を提案する。 本研究は,広く用いられているGSA法の基礎的メカニズムを概説し,その効果を包括的手法を用いて強調する。

Global sensitivity analysis (GSA) aims to detect influential input factors that lead a model to arrive at a certain decision and is a significant approach for mitigating the computational burden of processing high dimensional data. In this paper, we provide a comprehensive review and a comparison on global sensitivity analysis methods. Additionally, we propose a methodology for evaluating the efficacy of these methods by conducting a case study on MNIST digit dataset. Our study goes through the underlying mechanism of widely used GSA methods and highlights their efficacy through a comprehensive methodology.
翻訳日:2024-06-26 19:00:25 公開日:2024-06-23
# 大規模言語モデルを用いた化学空間の効率的な進化探索

Efficient Evolutionary Search Over Chemical Space with Large Language Models ( http://arxiv.org/abs/2406.16976v1 )

ライセンス: Link先を確認
Haorui Wang, Marta Skreta, Cher-Tian Ser, Wenhao Gao, Lingkai Kong, Felix Streith-Kalthoff, Chenru Duan, Yuchen Zhuang, Yue Yu, Yanqiao Zhu, Yuanqi Du, Alán Aspuru-Guzik, Kirill Neklyudov, Chao Zhang, (参考訳) 最適化問題として定式化された分子発見は、最適化目的が微分不可能であるため、重要な計算課題を提示する。 進化的アルゴリズム(EA)は、しばしば分子発見におけるブラックボックスの目的を最適化するために、ランダムな突然変異とクロスオーバーを行い、多くの高価な客観的評価をもたらす。 本研究では,化学を意識した大規模言語モデル(LLM)をEAに組み込むことにより,この欠点を改善する。 すなわち,化学情報の大量コーパスに基づいて学習したLSMを用いて,EAにおけるクロスオーバーと突然変異操作を再設計する。 我々は、資産最適化、分子再分析、構造に基づく薬物設計を含む複数のタスクにおいて、商用およびオープンソースモデルおよびオープンソースモデルの両方について広範な実証研究を行い、LEMとEAを併用することにより、単一および多目的設定における全てのベースラインモデルよりも優れた性能が得られることを示した。 提案アルゴリズムは,最終的な解法の品質と収束速度の両方を改善し,必要な目的評価の回数を減らすことを実証する。 私たちのコードはhttp://github.com/zoom-wang112358/MOLLEOで利用可能です。

Molecular discovery, when formulated as an optimization problem, presents significant computational challenges because optimization objectives can be non-differentiable. Evolutionary Algorithms (EAs), often used to optimize black-box objectives in molecular discovery, traverse chemical space by performing random mutations and crossovers, leading to a large number of expensive objective evaluations. In this work, we ameliorate this shortcoming by incorporating chemistry-aware Large Language Models (LLMs) into EAs. Namely, we redesign crossover and mutation operations in EAs using LLMs trained on large corpora of chemical information. We perform extensive empirical studies on both commercial and open-source models on multiple tasks involving property optimization, molecular rediscovery, and structure-based drug design, demonstrating that the joint usage of LLMs with EAs yields superior performance over all baseline models across single- and multi-objective settings. We demonstrate that our algorithm improves both the quality of the final solution and convergence speed, thereby reducing the number of required objective evaluations. Our code is available at http://github.com/zoom-wang112358/MOLLEO
翻訳日:2024-06-26 19:00:25 公開日:2024-06-23
# MetaFollower: パーソナライズされた自律走行車

MetaFollower: Adaptable Personalized Autonomous Car Following ( http://arxiv.org/abs/2406.16978v1 )

ライセンス: Link先を確認
Xianda Chen, Kehua Chen, Meixin Zhu, Hao, Yang, Shaojie Shen, Xuesong Wang, Yinhai Wang, (参考訳) 微視的交通シミュレーションの基本的な構成要素である自動車追尾(CF)モデリングは、過去数十年間、研究者の関心を集めてきた。 本研究では,メタラーニングの力を活用した,適応型パーソナライズされた自動車追従フレームワーク -MetaFollowerを提案する。 具体的には,まずモデル非依存メタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。 その後、事前訓練されたモデルは、CF適応をパーソナライズするために、数個のCF軌道を持つ新しいドライバで微調整することができる。 さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。 異種運転特性を考慮せずに事前定義された設定と定数パラメータに依存する従来の適応型クルーズ制御(ACC)システムとは異なり、MetaFollowerは個々の運転者の独特の運転スタイルを考慮しつつ、自動車追従動作の複雑なダイナミクスを正確に捉え、シミュレートすることができる。 我々は,MetaFollowerの汎用性と適応性を,訓練データに制限のある新しいドライバに迅速に適応できることを示して示す。 MetaFollowerの性能を評価するため,データ駆動モデルと物理モデルを比較した厳密な実験を行った。 その結果,提案手法は,車追従挙動を高精度かつ安全に予測する上で,ベースラインモデルよりも優れていることがわかった。 我々の知る限り、これはメタラーニングに基づくドライバーと時間的異質性の両方を考慮し、迅速な適応を目指す最初の自動車追従モデルである。

Car-following (CF) modeling, a fundamental component in microscopic traffic simulation, has attracted increasing interest of researchers in the past decades. In this study, we propose an adaptable personalized car-following framework -MetaFollower, by leveraging the power of meta-learning. Specifically, we first utilize Model-Agnostic Meta-Learning (MAML) to extract common driving knowledge from various CF events. Afterward, the pre-trained model can be fine-tuned on new drivers with only a few CF trajectories to achieve personalized CF adaptation. We additionally combine Long Short-Term Memory (LSTM) and Intelligent Driver Model (IDM) to reflect temporal heterogeneity with high interpretability. Unlike conventional adaptive cruise control (ACC) systems that rely on predefined settings and constant parameters without considering heterogeneous driving characteristics, MetaFollower can accurately capture and simulate the intricate dynamics of car-following behavior while considering the unique driving styles of individual drivers. We demonstrate the versatility and adaptability of MetaFollower by showcasing its ability to adapt to new drivers with limited training data quickly. To evaluate the performance of MetaFollower, we conduct rigorous experiments comparing it with both data-driven and physics-based models. The results reveal that our proposed framework outperforms baseline models in predicting car-following behavior with higher accuracy and safety. To the best of our knowledge, this is the first car-following model aiming to achieve fast adaptation by considering both driver and temporal heterogeneity based on meta-learning.
翻訳日:2024-06-26 19:00:25 公開日:2024-06-23
# 深層強化学習の理解と診断

Understanding and Diagnosing Deep Reinforcement Learning ( http://arxiv.org/abs/2406.16979v1 )

ライセンス: Link先を確認
Ezgi Korkmaz, (参考訳) 最近、バイオテクノロジーから自動化された金融システムまで、さまざまな設定にディープ・ニューラル・ポリシーがインストールされている。 しかし、値関数を近似するディープニューラルネットワークの利用は、特に、非常に非凸で複雑なディープニューラル多様体による不明瞭で非破壊的な特徴を判断する政策決定の感度に関して、決定境界安定性に関する懸念を引き起こす。 これらの懸念は、ディープ・ニューラル・ポリシーによる推論とその基礎的限界を理解するのに障害となる。 したがって、ニューラルネットワークポリシーの学習的表現における感性を理解するための技術を開発することが不可欠である。 これを実現するために、時間と空間の両方にわたって深い神経政策決定境界における不安定な方向を体系的に解析する理論的な手法を導入する。 アーケード学習環境(Arcade Learning Environment, ALE)の実験を通じて、我々は、不安定性の関連方向を特定するための手法の有効性を実証し、サンプルシフトがニューラルポリシーのランドスケープにおけるセンシティブな方向のセットをどのように作り直すかを測定する。 最も重要なことは、最先端の堅牢なトレーニング技術が、標準トレーニングと比較して、時間とともに劇的に大きな振動を伴う不安定な方向の学習をもたらすことを示すことである。 本結果は,強化学習政策による決定プロセスの基本的特性を明らかにし,信頼性と堅牢な深層神経政策の構築に有効であると考えている。

Deep neural policies have recently been installed in a diverse range of settings, from biotechnology to automated financial systems. However, the utilization of deep neural networks to approximate the value function leads to concerns on the decision boundary stability, in particular, with regard to the sensitivity of policy decision making to indiscernible, non-robust features due to highly non-convex and complex deep neural manifolds. These concerns constitute an obstruction to understanding the reasoning made by deep neural policies, and their foundational limitations. Hence, it is crucial to develop techniques that aim to understand the sensitivities in the learnt representations of neural network policies. To achieve this we introduce a theoretically founded method that provides a systematic analysis of the unstable directions in the deep neural policy decision boundary across both time and space. Through experiments in the Arcade Learning Environment (ALE), we demonstrate the effectiveness of our technique for identifying correlated directions of instability, and for measuring how sample shifts remold the set of sensitive directions in the neural policy landscape. Most importantly, we demonstrate that state-of-the-art robust training techniques yield learning of disjoint unstable directions, with dramatically larger oscillations over time, when compared to standard training. We believe our results reveal the fundamental properties of the decision process made by reinforcement learning policies, and can help in constructing reliable and robust deep neural policies.
翻訳日:2024-06-26 19:00:25 公開日:2024-06-23
# コンピュータ深層学習に基づく脳疾患MRIの特徴抽出データ処理システムに関する研究

Research on Feature Extraction Data Processing System For MRI of Brain Diseases Based on Computer Deep Learning ( http://arxiv.org/abs/2406.16981v1 )

ライセンス: Link先を確認
Lingxi Xiao, Jinxin Hu, Yutian Yang, Yinqiu Feng, Zichao Li, Zexi Chen, (参考訳) 既存のウェーブレット画像処理技術のほとんどは、単一スケールの再構成と複数イテレーションによって行われる。 しかし、高品質なfMRIデータを処理すると、混合ノイズや過度な計算時間といった問題が発生する。 本稿では,混合雑音除去法とウェーブレット解析を組み合わせ,従来の反復アルゴリズムを置き換えた行列演算法を提案する。 単一被験者の聴覚野の機能的磁気共鳴画像(fMRI)を解析し、繰り返しの時間と世界で最も影響力のあるSPM8に基づいてウェーブレットドメイン信号処理技術と比較する。 実験の結果、このアルゴリズムは計算時間で最速であり、検出効果は従来の反復アルゴリズムに匹敵することがわかった。 しかし、これはFMRIデータの処理に高い実用性を持っている。 さらに、ウェーブレット解析法により、計算速度を高速化する信号処理を提案する。

Most of the existing wavelet image processing techniques are carried out in the form of single-scale reconstruction and multiple iterations. However, processing high-quality fMRI data presents problems such as mixed noise and excessive computation time. This project proposes the use of matrix operations by combining mixed noise elimination methods with wavelet analysis to replace traditional iterative algorithms. Functional magnetic resonance imaging (fMRI) of the auditory cortex of a single subject is analyzed and compared to the wavelet domain signal processing technology based on repeated times and the world's most influential SPM8. Experiments show that this algorithm is the fastest in computing time, and its detection effect is comparable to the traditional iterative algorithm. However, this has a higher practical value for the processing of FMRI data. In addition, the wavelet analysis method proposed signal processing to speed up the calculation rate.
翻訳日:2024-06-26 19:00:25 公開日:2024-06-23
# コンピュータAI深層学習技術に基づく疾患予測モデルの構築に関する研究

Research on Disease Prediction Model Construction Based on Computer AI deep Learning Technology ( http://arxiv.org/abs/2406.16982v1 )

ライセンス: Link先を確認
Yang Lin, Muqing Li, Ziyi Zhu, Yinqiu Feng, Lingxi Xiao, Zexi Chen, (参考訳) 病気の危険因子の予測は、予防と治療のために脆弱なグループをスクリーニングし、その死亡率と死亡率を減らすことができる。 機械学習は高品質なラベル付け情報に大きな需要があり、医療用ビッグデータにおけるラベル付けノイズは、病気のリスクを効果的に警告する手法にとって大きな課題となる。 そこで, 本研究は, 頑健な学習アルゴリズムを研究し, 感染リスクの早期警告に適用することを目的としている。 従来の相互エントロピー暗黙的重み特徴と平均変分特徴を組み合わせた動的トラッピング損失モデルを提案する。 騒音をラベル付けるのは頑丈だ。 トレーニング損失に対する低い境界を構築し, サンプリング率に基づく手法を提案し, 被疑試料の勾配を小さくし, ノイズがトレーニング結果に与える影響を低減した。 本手法の有効性を,ストロークスクリーニングデータセットを用いて検証した。 この方法はラベルノイズを含むデータの堅牢な学習を可能にする。

The prediction of disease risk factors can screen vulnerable groups for effective prevention and treatment, so as to reduce their morbidity and mortality. Machine learning has a great demand for high-quality labeling information, and labeling noise in medical big data poses a great challenge to efficient disease risk warning methods. Therefore, this project intends to study the robust learning algorithm and apply it to the early warning of infectious disease risk. A dynamic truncated loss model is proposed, which combines the traditional mutual entropy implicit weight feature with the mean variation feature. It is robust to label noise. A lower bound on training loss is constructed, and a method based on sampling rate is proposed to reduce the gradient of suspected samples to reduce the influence of noise on training results. The effectiveness of this method under different types of noise was verified by using a stroke screening data set as an example. This method enables robust learning of data containing label noise.
翻訳日:2024-06-26 19:00:25 公開日:2024-06-23
# 磁気共鳴画像再構成における教師なし除音拡散モデルの不安定性について

On Instabilities of Unsupervised Denoising Diffusion Models in Magnetic Resonance Imaging Reconstruction ( http://arxiv.org/abs/2406.16983v1 )

ライセンス: Link先を確認
Tianyu Han, Sven Nebelung, Firas Khader, Jakob Nikolas Kather, Daniel Truhn, (参考訳) デノイング拡散モデルは、MRI(MRI)を加速し、教師なしの方法で診断レベルの画像を生成するための有望なアプローチを提供する。 しかし、我々の研究は、サロゲートモデルから転送される最小のケースの潜在的摂動でさえ、これらのモデルが臨床医を誤解させるかもしれない偽の組織構造を発生させる可能性があることを実証した。 このような最悪の摂動の伝達性は、MRシステム不完全性や他のノイズ源により、画像再構成の堅牢性が損なわれる可能性があることを示唆している。 さらに、より大きな摂動強度では、拡散モデルは、監督されたモデルで観察されるものと異なるガウス的なノイズのようなアーチファクトを示し、検出することがより困難である。 以上の結果から,現在最先端の拡散型再建モデルが最悪の場合の摂動の可能性を示唆し,臨床環境における堅牢性と信頼性の向上に向けたさらなる研究の必要性を浮き彫りにしている。

Denoising diffusion models offer a promising approach to accelerating magnetic resonance imaging (MRI) and producing diagnostic-level images in an unsupervised manner. However, our study demonstrates that even tiny worst-case potential perturbations transferred from a surrogate model can cause these models to generate fake tissue structures that may mislead clinicians. The transferability of such worst-case perturbations indicates that the robustness of image reconstruction may be compromised due to MR system imperfections or other sources of noise. Moreover, at larger perturbation strengths, diffusion models exhibit Gaussian noise-like artifacts that are distinct from those observed in supervised models and are more challenging to detect. Our results highlight the vulnerability of current state-of-the-art diffusion-based reconstruction models to possible worst-case perturbations and underscore the need for further research to improve their robustness and reliability in clinical settings.
翻訳日:2024-06-26 19:00:25 公開日:2024-06-23
# ニューラルネットワークによるLLM機構の展開と制御理論

Unveiling LLM Mechanisms Through Neural ODEs and Control Theory ( http://arxiv.org/abs/2406.16985v1 )

ライセンス: Link先を確認
Yukun Zhang, (参考訳) 本研究では,Large Language Models (LLMs)における入力と出力の複雑な関係を解明するために,ニューラル正規微分方程式(Neural Ordinary Differential Equations (Neural ODEs))を活用する新しい手法を提案する。 我々の方法論の中心は、LLMの入力と出力を低次元の潜在空間に変換し、LLM内の情報処理経路を詳細に調べることである。 ニューラルネットワークは、LLM内のデータの継続的な進化を捉えるダイナミックモデルを提供することによって、この研究において重要な役割を担っている。 さらに、モデルのアウトプットを戦略的に調整するためにロバストな制御機構が適用され、高い品質と信頼性を維持するだけでなく、特定の性能基準に従うことを保証する。 このニューラルODEとロバストコントロールの融合は、LLM解釈可能性の大きな進歩を意味し、これらの複雑なモデルのこれまで不透明であったメカニズムを解明する包括的なフレームワークを提供する。 我々の経験的結果は、この統合されたアプローチの有効性を検証し、高度な機械学習技術とAI出力の透明性と制御のクリティカルな必要性を融合することにより、説明可能なAIの分野に多大な貢献をする。

This study presents a novel approach that leverages Neural Ordinary Differential Equations (Neural ODEs) to unravel the intricate relationships between inputs and outputs in Large Language Models (LLMs), and employs robust control to fine-tune outputs to meet predefined standards. Central to our methodology is the transformation of LLM inputs and outputs into a lower-dimensional latent space, facilitating a detailed examination of the information processing pathways within LLMs. Neural ODEs play a pivotal role in this investigation by providing a dynamic model that captures the continuous evolution of data within the LLMs. Additionally, robust control mechanisms are applied to strategically adjust the model's outputs, ensuring they not only maintain high quality and reliability but also adhere to specific performance criteria. This fusion of Neural ODEs and robust control represents a significant advancement in LLM interpretability, offering a comprehensive framework that elucidates the previously opaque mechanisms of these complex models. Our empirical results validate the effectiveness of this integrated approach, making a substantial contribution to the field of explainable AI by merging advanced machine learning techniques with the critical need for transparency and control in AI outputs.
翻訳日:2024-06-26 19:00:25 公開日:2024-06-23
# 官能強化学習のための平滑な関数ベース勾配アルゴリズム:非漸近的視点

Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint ( http://arxiv.org/abs/2101.02137v6 )

ライセンス: Link先を確認
Nithia Vijayan, Prashanth L. A, (参考訳) 政治外強化学習(RL)の文脈で制御問題を解くための2つのポリシー勾配アルゴリズムを提案する。 どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。 第1のアルゴリズムは、重要サンプリングに基づくオフポリシー評価とSFに基づく勾配推定との直接的な組み合わせである。 第2のアルゴリズムは確率分散還元勾配(SVRG)アルゴリズムにインスパイアされ、更新繰り返しにおける分散の低減を取り入れている。 両方のアルゴリズムに対して、近似定常点への収束を確立する非漸近境界を導出する。 これらの結果から,第1のアルゴリズムはよく知られたREINFORCEアルゴリズムに匹敵する速度で,第2のアルゴリズムは収束率の向上を示した。

We propose two policy gradient algorithms for solving the problem of control in an off-policy reinforcement learning (RL) context. Both algorithms incorporate a smoothed functional (SF) based gradient estimation scheme. The first algorithm is a straightforward combination of importance sampling-based off-policy evaluation with SF-based gradient estimation. The second algorithm, inspired by the stochastic variance-reduced gradient (SVRG) algorithm, incorporates variance reduction in the update iteration. For both algorithms, we derive non-asymptotic bounds that establish convergence to an approximate stationary point. From these results, we infer that the first algorithm converges at a rate that is comparable to the well-known REINFORCE algorithm in an off-policy RL context, while the second algorithm exhibits an improved rate of convergence.
翻訳日:2024-06-26 05:34:02 公開日:2024-06-23
# Pareto Adversarial Robustness: 空間的ロバストネスと感性に基づくロバストネスのバランス

Pareto Adversarial Robustness: Balancing Spatial Robustness and Sensitivity-based Robustness ( http://arxiv.org/abs/2111.01996v3 )

ライセンス: Link先を確認
Ke Sun, Mingjie Li, Zhouchen Lin, (参考訳) 相対ロバスト性は主に感度に基づくロバスト性と空間ロバスト性から成り、ロバストな一般化を達成する上で不可欠な役割を果たす。 本稿では,普遍的対角ロバスト性を実現するための戦略設計に尽力する。 そこで我々はまず,空間的ロバスト性の比較的少ない領域について検討する。 そこで我々は,局所的・大域的空間脆弱性を統一的な空間攻撃と対角的訓練アプローチに組み込むことにより,既存の空間ロバストネス手法を統合する。 さらに, 頑健な表現の観点から, 自然な精度, 感度に基づく頑健さ, 空間的頑健さの包括的関係を示す。 重要なことは、様々なロバスト性成分の相互影響の相互関係を一つの統一された枠組みに整合させるため、敵のロバスト性分析に『textit{Pareto criterion}』を組み込むことにより、普遍的なロバスト性を達成するためのパレート・アジェンダ・トレーニング(Pareto Adversarial Training)と呼ばれる新しい戦略が生み出される。 最適解の集合を表わす結果のパレートフロントは、自然な精度と様々な対向ロバスト性の間の最適なバランスを与える。 このことは、将来普遍的な堅牢性を達成するための解決策に光を当てている。 我々の知識を最大限に活用するために、我々は多目的最適化による普遍的敵の堅牢性を考える最初の人物である。

Adversarial robustness, which primarily comprises sensitivity-based robustness and spatial robustness, plays an integral part in achieving robust generalization. In this paper, we endeavor to design strategies to achieve universal adversarial robustness. To achieve this, we first investigate the relatively less-explored realm of spatial robustness. Then, we integrate the existing spatial robustness methods by incorporating both local and global spatial vulnerability into a unified spatial attack and adversarial training approach. Furthermore, we present a comprehensive relationship between natural accuracy, sensitivity-based robustness, and spatial robustness, supported by strong evidence from the perspective of robust representation. Crucially, to reconcile the interplay between the mutual impacts of various robustness components into one unified framework, we incorporate the \textit{Pareto criterion} into the adversarial robustness analysis, yielding a novel strategy called Pareto Adversarial Training for achieving universal robustness. The resulting Pareto front, which delineates the set of optimal solutions, provides an optimal balance between natural accuracy and various adversarial robustness. This sheds light on solutions for achieving universal robustness in the future. To the best of our knowledge, we are the first to consider universal adversarial robustness via multi-objective optimization.
翻訳日:2024-06-26 05:34:02 公開日:2024-06-23
# PTQ4ViT:双対均一量子化を用いた視覚変換器のポストトレーニング量子化

PTQ4ViT: Post-training quantization for vision transformers with twin uniform quantization ( http://arxiv.org/abs/2111.12293v3 )

ライセンス: Link先を確認
Zhihang Yuan, Chenhao Xue, Yiqi Chen, Qiang Wu, Guangyu Sun, (参考訳) 量子化は、畳み込みニューラルネットワーク(CNN)において大きな成功を収めたニューラルネットワークを圧縮する最も効果的な方法の1つである。 近年,コンピュータビジョンにおいて視覚トランスフォーマーが大きな可能性を示している。 しかし、以前のトレーニング後の量子化法は視覚変換器ではうまく動作せず、8ビット量子化においても1%以上の精度が低下した。 そこで我々は,視覚変換器における量子化の問題を分析する。 ソフトマックス関数とGELU関数の活性化値の分布はガウス分布とは全く異なる。 また、MSEやコサイン距離などの一般的な量子化指標が不正確なため、最適スケーリング係数が決定できないことも観察した。 本稿では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。 また,Hessian Guided Metricsを用いて異なるスケーリング要因の評価を行い,キャリブレーションの精度を低コストで向上することを提案する。 視覚変換器の高速量子化を実現するため,効率的なフレームワークPTQ4ViTを開発した。 実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成することを示した。

Quantization is one of the most effective methods to compress neural networks, which has achieved great success on convolutional neural networks (CNNs). Recently, vision transformers have demonstrated great potential in computer vision. However, previous post-training quantization methods performed not well on vision transformer, resulting in more than 1% accuracy drop even in 8-bit quantization. Therefore, we analyze the problems of quantization on vision transformers. We observe the distributions of activation values after softmax and GELU functions are quite different from the Gaussian distribution. We also observe that common quantization metrics, such as MSE and cosine distance, are inaccurate to determine the optimal scaling factor. In this paper, we propose the twin uniform quantization method to reduce the quantization error on these activation values. And we propose to use a Hessian guided metric to evaluate different scaling factors, which improves the accuracy of calibration at a small cost. To enable the fast quantization of vision transformers, we develop an efficient framework, PTQ4ViT. Experiments show the quantized vision transformers achieve near-lossless prediction accuracy (less than 0.5% drop at 8-bit quantization) on the ImageNet classification task.
翻訳日:2024-06-26 05:34:02 公開日:2024-06-23
# Coxモデルに対する通信効率の良い分散推定と推定

Communication-Efficient Distributed Estimation and Inference for Cox's Model ( http://arxiv.org/abs/2302.12111v3 )

ライセンス: Link先を確認
Pierre Bayle, Jianqing Fan, Zhipeng Lou, (参考訳) プライバシやオーナシップの懸念から個々のデータを共有できない多施設バイオメディカルスタディにより、高次元のスパースコックス比例ハザードモデルにおいて、推定と推測のための通信効率の良い反復分散アルゴリズムを開発した。 比較的少数の反復でも、理想のフルサンプル推定器と同じ収束率を非常に穏やかな条件下で達成できることを実証する。 高次元ハザード回帰係数の線形結合に対する信頼区間を構築するために,新しい縮退法を導入し,中心極限定理を確立し,漸近的に有効な分散信頼区間を生成する一貫した分散確率推定器を提供する。 さらに、デコラートスコアテストに基づく任意の座標要素に対して、有効かつ強力な分散仮説テストを提供する。 我々は、時間に依存した共変量と検閲された生存時間を許可する。 シミュレーションデータと実データの両方に関する大規模な数値実験は、我々の理論をさらに支持し、我々の通信効率の高い分散推定器、信頼区間、仮説テストが代替手法で改善されることを実証する。

Motivated by multi-center biomedical studies that cannot share individual data due to privacy and ownership concerns, we develop communication-efficient iterative distributed algorithms for estimation and inference in the high-dimensional sparse Cox proportional hazards model. We demonstrate that our estimator, even with a relatively small number of iterations, achieves the same convergence rate as the ideal full-sample estimator under very mild conditions. To construct confidence intervals for linear combinations of high-dimensional hazard regression coefficients, we introduce a novel debiased method, establish central limit theorems, and provide consistent variance estimators that yield asymptotically valid distributed confidence intervals. In addition, we provide valid and powerful distributed hypothesis tests for any coordinate element based on a decorrelated score test. We allow time-dependent covariates as well as censored survival times. Extensive numerical experiments on both simulated and real data lend further support to our theory and demonstrate that our communication-efficient distributed estimators, confidence intervals, and hypothesis tests improve upon alternative methods.
翻訳日:2024-06-26 05:28:15 公開日:2024-06-23
# BBOBを用いた高次元ベイズ最適化アルゴリズムの比較

Comparison of High-Dimensional Bayesian Optimization Algorithms on BBOB ( http://arxiv.org/abs/2303.00890v3 )

ライセンス: Link先を確認
Maria Laura Santoni, Elena Raponi, Renato De Leone, Carola Doerr, (参考訳) ベイズ最適化(英: Bayesian Optimization、BO)は、ブラックボックス、サロゲートベースのヒューリスティックのクラスであり、評価に高価な問題を効率的に最適化し、その結果、小さな評価予算しか認めない。 BOは特に、目的関数の評価が時間を要するシミュレーションや物理実験に依存する産業における数値最適化問題の解法として人気がある。 しかし、多くの産業問題は多くのパラメータに依存している。 BOアルゴリズムは、次元が15変数を超えると、しばしば性能が損なわれると報告される。 この問題に対処するために多くの新しいアルゴリズムが提案されているが、どのアルゴリズムがどの最適化シナリオに最適かはよく分かっていない。 本研究では,COCO環境の24BBOB関数に対するバニラBOとCMA-ESの5つの高次元BOアルゴリズムを10から60変数の範囲で比較した。 以上の結果から, CMA-ESよりもBOを優先的に評価し, BO改善の最も有望なアプローチは信頼領域の利用であることが示唆された。 しかし,異なる関数ランドスケープや予算活用フェーズにおいて,アルゴリズムコンポーネントのハイブリダイゼーションによる改善可能性,例えばアルゴリズムコンポーネントのハイブリダイゼーションなど,顕著な性能差が観察されている。

Bayesian Optimization (BO) is a class of black-box, surrogate-based heuristics that can efficiently optimize problems that are expensive to evaluate, and hence admit only small evaluation budgets. BO is particularly popular for solving numerical optimization problems in industry, where the evaluation of objective functions often relies on time-consuming simulations or physical experiments. However, many industrial problems depend on a large number of parameters. This poses a challenge for BO algorithms, whose performance is often reported to suffer when the dimension grows beyond 15 variables. Although many new algorithms have been proposed to address this problem, it is not well understood which one is the best for which optimization scenario. In this work, we compare five state-of-the-art high-dimensional BO algorithms, with vanilla BO and CMA-ES on the 24 BBOB functions of the COCO environment at increasing dimensionality, ranging from 10 to 60 variables. Our results confirm the superiority of BO over CMA-ES for limited evaluation budgets and suggest that the most promising approach to improve BO is the use of trust regions. However, we also observe significant performance differences for different function landscapes and budget exploitation phases, indicating improvement potential, e.g., through hybridization of algorithmic components.
翻訳日:2024-06-26 05:28:15 公開日:2024-06-23
# キーストロークダイナミクス:概念,技術,応用

Keystroke Dynamics: Concepts, Techniques, and Applications ( http://arxiv.org/abs/2303.04605v2 )

ライセンス: Link先を確認
Rashik Shadman, Ahmed Anu Wahab, Michael Manno, Matthew Lukaszewski, Daqing Hou, Faraz Hussain, (参考訳) 被検体を確実に識別し、検証することは、コンピュータシステムのセキュリティに不可欠なものである。 近年,生体認証システムなどの新しい認証技術が開発されている。 本稿では,キーストロークに基づく認証システムとその応用について検討する。 キーストロークダイナミクス(Keystroke dynamics)は、サイバーセキュリティにとって重要なツールとして、非侵襲的で費用対効果を約束する行動バイオメトリックである。 また、追加のハードウェアは不要で、デプロイが便利である。 このサーベイでは、新しいキーストロークデータセット、最先端のキーストローク認証アルゴリズム、タッチスクリーンやモバイルデバイスでのキーストローク認証、認証以上のテクニックのさまざまな顕著な応用について紹介する。 本論文はキーストローク力学のすべての重要な側面を網羅し、この領域における将来の研究者の参考となるものとみなすことができる。 この論文には、最新のキーストロークデータセットに関する議論が含まれており、研究者に分析と実験のための最新のリソースを提供している。 さらに、この領域で採用されている最先端のアルゴリズムを概観し、キーストローク解析に使用される最先端技術について考察する。 さらに,キーストローク力学の多様な応用,特にセキュリティ,検証,識別に焦点をあてる。 これらの重要な領域以外にも、キーストロークダイナミクスを適用可能な他のアプリケーションについても言及し、その潜在的な影響についての理解範囲を様々な領域にわたって広げる。

Reliably identifying and verifying subjects remains integral to computer system security. Various novel authentication techniques such as biometric authentication systems have been devised in recent years. This paper surveys keystroke-based authentication systems and their applications. Keystroke dynamics is a behavioral biometric that is emerging as an important tool for cybersecurity as it promises to be non-intrusive and cost-effective. Also, no additional hardware is required, making it convenient to deploy. This survey covers novel keystroke datasets, state-of-the-art keystroke authentication algorithms, keystroke authentication on touch screen and mobile devices, and various prominent applications of such techniques beyond authentication. The paper covers all the significant aspects of keystroke dynamics and can be considered as a reference for future researchers in this domain. The paper includes a discussion of the latest keystroke datasets, providing researchers with up-to-date resources for analysis and experimentation. Additionally, we review the state-of-the-art algorithms adopted within this domain, offering insights into the cutting-edge techniques utilized for keystroke analysis. Moreover, our paper explains the diverse applications of keystroke dynamics, particularly focusing on security, verification and identification uses. Beyond these crucial areas, we mention other additional applications where keystroke dynamics can be applied, broadening the scope of understanding regarding its potential impact across various domains.
翻訳日:2024-06-26 05:28:15 公開日:2024-06-23
# TraffNet:What-if予測のためのトラフィック生成の因果関係の学習

TraffNet: Learning Causality of Traffic Generation for What-if Prediction ( http://arxiv.org/abs/2303.15954v7 )

ライセンス: Link先を確認
Ming Xu, Qiang Ai, Ruimin Li, Yunyi Ma, Geqi Qi, Xiangfu Meng, Haibo Jin, (参考訳) インテリジェントなトラフィック管理と制御における意思決定には,リアルタイムなトラフィック予測が不可欠だ。 現在のディープラーニング手法は交通予測において大きな優位性を示しているが,コレラオンによる交通予測には無力である。 本稿では,車両軌跡データから交通生成のメカニズムを学習するTraffNetという単純なディープラーニングフレームワークを提案する。 まず,道路網を表すヘテロジニアスグラフを用いて,Origin-Destination (OD) 要求や経路などの交通流の因果的特徴をモデルに組み込む。 次に,道路網にOD要求を割り当てる過程をモデル化したセグメント表現の学習手法を提案する。 学習したセグメント再試行は、交通発生の複雑な原因を効果的にカプセル化し、下流の交通予測を容易にする。 最後に,TraffNetの有効性を評価するために,合成データセットの実験を行った。 TraffNetのコードとデータセットはhttps://github.com/iCityLab/TraffNetで公開されている。

Real-time what-if traffic prediction is crucial for decision making in intelligent traffic management and control. Although current deep learning methods demonstrate significant advantages in traffic prediction, they are powerless in what-if traffic prediction due to their nature of correla-tion-based. Here, we present a simple deep learning framework called TraffNet that learns the mechanisms of traffic generation for what-if pre-diction from vehicle trajectory data. First, we use a heterogeneous graph to represent the road network, allowing the model to incorporate causal features of traffic flows, such as Origin-Destination (OD) demands and routes. Next, we propose a method for learning segment representations, which models the process of assigning OD demands onto the road network. The learned segment represen-tations effectively encapsulate the intricate causes of traffic generation, facilitating downstream what-if traffic prediction. Finally, we conduct experiments on synthetic datasets to evaluate the effectiveness of TraffNet. The code and datasets of TraffNet is available at https://github.com/iCityLab/TraffNet.
翻訳日:2024-06-26 05:28:15 公開日:2024-06-23
# マルチモーダルセンサ融合を用いたDEDプリントSS316L部品の表面ポロシティのその場予測

In-situ surface porosity prediction in DED (directed energy deposition) printed SS316L parts using multimodal sensor fusion ( http://arxiv.org/abs/2304.08658v4 )

ライセンス: Link先を確認
Adithyaa Karthikeyan, Himanshu Balhara, Abhishek Hanchate, Andreas K Lianos, Satish TS Bukkapatnam, (参考訳) 本研究の目的は,高空間(0.5mm)および時間(1ms)の細孔形成と,ハイブリッド指向型エネルギー堆積法(DED)プロセスで収集したAEおよび他のマルチモーダルセンサデータの時間周波数パターンを関連付けることである。 LIME(Local Interpretable Model-Agnostic Explanations)に説明可能なAI手法を適用すると、AEの特定の高周波波形シグネチャは、DEDプロセスにおいて細孔形成のための2つの主要な経路、すなわち、スパッタイベントと、低熱入力による隣接プリントトラック間の融合に起因していると考えられる。 このアプローチは、印刷されたすべてのボクセル(0.5mm)の孔の存在をリアルタイムで予測するエキサイティングな可能性を開く。 SS316Lの材料試料を印刷し、その後加工しながら、力、AE、振動、温度を含む同期マルチモーダルセンサデータを収集した。 プロセスチェーン中に収集されたセンサデータの時間周波数パターン(分光図)に基づいて、ボクセル表面の細孔の存在を特定するために、ディープ畳み込みニューラルネットワーク分類器が使用された。 その結果, DEDで収集した信号は, ボクセルのポロシティ検出のために加工した信号に比べて感度が高かった(分類試験精度87%)。 LIME解析から得られた基礎的な説明によると、高頻度AE波形で得られたエネルギーは、溶融プール内のレーザー-材料相互作用が比較的低い多孔質ボクセルに対して33%低い。 印刷中に散布現象が頻発した多孔質ボクセルは、他の多孔質ボクセルと比較して、高周波AE帯のエネルギー含有量が約27%増加した。 AEシグナルからのこれらのシグネチャは、スパッタと不十分な融合による細孔形成の理解をさらに深めることができる。

This study aims to relate the time-frequency patterns of acoustic emission (AE) and other multi-modal sensor data collected in a hybrid directed energy deposition (DED) process to the pore formations at high spatial (0.5 mm) and time (< 1ms) resolutions. Adapting an explainable AI method in LIME (Local Interpretable Model-Agnostic Explanations), certain high-frequency waveform signatures of AE are to be attributed to two major pathways for pore formation in a DED process, namely, spatter events and insufficient fusion between adjacent printing tracks from low heat input. This approach opens an exciting possibility to predict, in real-time, the presence of a pore in every voxel (0.5 mm in size) as they are printed, a major leap forward compared to prior efforts. Synchronized multimodal sensor data including force, AE, vibration and temperature were gathered while an SS316L material sample was printed and subsequently machined. A deep convolution neural network classifier was used to identify the presence of pores on a voxel surface based on time-frequency patterns (spectrograms) of the sensor data collected during the process chain. The results suggest signals collected during DED were more sensitive compared to those from machining for detecting porosity in voxels (classification test accuracy of 87%). The underlying explanations drawn from LIME analysis suggests that energy captured in high frequency AE waveforms are 33% lower for porous voxels indicating a relatively lower laser-material interaction in the melt pool, and hence insufficient fusion and poor overlap between adjacent printing tracks. The porous voxels for which spatter events were prevalent during printing had about 27% higher energy contents in the high frequency AE band compared to other porous voxels. These signatures from AE signal can further the understanding of pore formation from spatter and insufficient fusion.
翻訳日:2024-06-26 05:18:24 公開日:2024-06-23
# 反応流の物理インフォームドセグメンテーションのためのジャコビアンスケールK平均クラスタリング

Jacobian-Scaled K-means Clustering for Physics-Informed Segmentation of Reacting Flows ( http://arxiv.org/abs/2305.01539v2 )

ライセンス: Link先を確認
Shivam Barwey, Venkat Raman, (参考訳) 本研究は, ヤコビアンスケールの K-means (JSK-means) クラスタリングを導入し, K-means フレームワークを中心に物理インフォームされたクラスタリング戦略を提案する。 従来のユークリッド距離ベクトルを活用する代わりに、JSK-ミーンズ法は、クラスターセントロイドで評価された力学系ヤコビアンから得られる行列によってスケールされた距離ベクトルを演算する。 この研究の目的は、JSK-meansアルゴリズムが、入力データセットを変更することなく、どのようにして動的に類似した領域をキャプチャするクラスタを生成するかを示すことである。 このアルゴリズムは複雑な反応流シミュレーションデータセット(チャネルデトネーション構成)で実証され、熱化学組成空間のダイナミクスは、高度に非線形で硬いアレニウスに基づく化学源の用語で知られている。 物理空間と合成空間の両方におけるクラスター分割の解釈は、JSK-平均が標準K-平均によって生成されたクラスターを高い化学感度の領域(例えば、爆発反応帯付近のピーク熱放出率の領域)にどのようにシフトするかを明らかにする。 本報告では, クラスタリング技術におけるジャコビアンスケール距離の利用のメリット, 特にJSK-means法は, 反応流(および他の多物理)アプリケーションにおいて, 従来の分割に基づくモデリング戦略を改善するための有望な可能性を示す。

This work introduces Jacobian-scaled K-means (JSK-means) clustering, which is a physics-informed clustering strategy centered on the K-means framework. The method allows for the injection of underlying physical knowledge into the clustering procedure through a distance function modification: instead of leveraging conventional Euclidean distance vectors, the JSK-means procedure operates on distance vectors scaled by matrices obtained from dynamical system Jacobians evaluated at the cluster centroids. The goal of this work is to show how the JSK-means algorithm -- without modifying the input dataset -- produces clusters that capture regions of dynamical similarity, in that the clusters are redistributed towards high-sensitivity regions in phase space and are described by similarity in the source terms of samples instead of the samples themselves. The algorithm is demonstrated on a complex reacting flow simulation dataset (a channel detonation configuration), where the dynamics in the thermochemical composition space are known through the highly nonlinear and stiff Arrhenius-based chemical source terms. Interpretations of cluster partitions in both physical space and composition space reveal how JSK-means shifts clusters produced by standard K-means towards regions of high chemical sensitivity (e.g., towards regions of peak heat release rate near the detonation reaction zone). The findings presented here illustrate the benefits of utilizing Jacobian-scaled distances in clustering techniques, and the JSK-means method in particular displays promising potential for improving former partition-based modeling strategies in reacting flow (and other multi-physics) applications.
翻訳日:2024-06-26 05:18:24 公開日:2024-06-23
# 任意遅延を用いた非定常オンライン凸最適化

Non-stationary Online Convex Optimization with Arbitrary Delays ( http://arxiv.org/abs/2305.12131v3 )

ライセンス: Link先を確認
Yuanyu Wan, Chang Yao, Mingli Song, Lijun Zhang, (参考訳) ゆるやかな遅延を伴うオンライン凸最適化(OCO)が近年注目を集めている。 定常環境に着目した従来の研究とは違って,非定常環境におけるOCOの遅延を調査し,コンパレータのシーケンスに対する動的後悔を最小限に抑えることを目的とする。 そこで本研究では,まず,到着順に応じて遅延勾配の勾配降下ステップを実行する,単純なアルゴリズムであるDOGDを提案する。 その単純さにもかかわらず、我々の新しい分析では、DOGDのダイナミックな後悔は、控えめな仮定の下で$O(\sqrt{\bar{d}T}(P_T+1))$と$O(\sqrt{dT}(P_T+1))$で自動的に束縛され、最悪の場合は$O(\sqrt{dT}(P_T+1)$がそれぞれ平均遅延と最大遅延を表す。 さらに,DOGDが達成した動的後悔境界を$O(\sqrt{\bar{d}T(P_T+1)})$と$O(\sqrt{dT(P_T+1)})$に削減する改良アルゴリズムを開発した。 鍵となるアイデアは、異なる学習率で複数のDOGDを実行し、メタアルゴリズムを使用して、遅延したパフォーマンスに基づいて、最高のものを追跡することである。 最後に, 改良アルゴリズムは, 一致した下界を導出することにより, 最悪の場合において最適であることを示す。

Online convex optimization (OCO) with arbitrary delays, in which gradients or other information of functions could be arbitrarily delayed, has received increasing attention recently. Different from previous studies that focus on stationary environments, this paper investigates the delayed OCO in non-stationary environments, and aims to minimize the dynamic regret with respect to any sequence of comparators. To this end, we first propose a simple algorithm, namely DOGD, which performs a gradient descent step for each delayed gradient according to their arrival order. Despite its simplicity, our novel analysis shows that the dynamic regret of DOGD can be automatically bounded by $O(\sqrt{\bar{d}T}(P_T+1))$ under mild assumptions, and $O(\sqrt{dT}(P_T+1))$ in the worst case, where $\bar{d}$ and $d$ denote the average and maximum delay respectively, $T$ is the time horizon, and $P_T$ is the path-length of comparators. Furthermore, we develop an improved algorithm, which reduces those dynamic regret bounds achieved by DOGD to $O(\sqrt{\bar{d}T(P_T+1)})$ and $O(\sqrt{dT(P_T+1)})$, respectively. The key idea is to run multiple DOGD with different learning rates, and utilize a meta-algorithm to track the best one based on their delayed performance. Finally, we demonstrate that our improved algorithm is optimal in the worst case by deriving a matching lower bound.
翻訳日:2024-06-26 05:18:24 公開日:2024-06-23
# 分子ドッキングと機械学習回帰法を用いたCOVID-19 3CLプロテアーゼを標的とした薬剤の精製

Drug Repurposing Targeting COVID-19 3CL Protease using Molecular Docking and Machine Learning Regression Approach ( http://arxiv.org/abs/2305.18088v7 )

ライセンス: Link先を確認
Imra Aqeel, Abdul Majid, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界的な緊急事態を宣言。 薬品のリサイクルは、時間とコストと労力を節約する、という約束のソリューションが生まれつつある。 しかし、新型コロナウイルスの治療に再利用されていると認識されている薬物候補の数はいまだに不足しているため、より効果的で徹底的な薬物探索戦略が必要である。 本研究では,分子ドッキングと機械学習レグレッションアプローチを併用して,新型コロナウイルス治療の今後の治療候補を見出す。 ウイルスの複製に関与するSARS-CoV-2の主要プロテアーゼ3CLを標的とした5903薬のスクリーニングを行った。 分子ドッキングは、これらの薬物の主プロテアーゼ3CLへの結合親和性を計算するために用いられる。 我々は、QSARモデリングに機械学習回帰手法を用いて、高い結合親和性を持つ潜在的な薬物を発見する。 以上の結果から,R2とRMSEの最良のスコアを持つ決定木回帰(DTR)モデルが薬剤の探索に最も適したモデルであることが示唆された。 私たちは6つの好ましい薬を列挙した。 これらの薬剤は、他の研究で既に同定されている1つの抗ウイルス性ZINC203757351化合物を除いて、新規な再精製能を有する。 さらに、これらの最も強力な薬物の生理化学的および薬物動態特性と、それらの特異的なプロテアーゼ3CLproとの結合性について検討した。 私たちの評決は、新型コロナウイルスの効果的な治療法を見つけるという大きな目標に寄与します。 本研究の結果は、新型コロナウイルス治療の潜在的治療候補について貴重な知見を提供するものである。

The COVID-19 pandemic has initiated a global health emergency, with an exigent need for effective cure. Progressively, drug repurposing is emerging a promise solution as it saves the time, cost and labor. However, the number of drug candidates that have been identified as being repurposed for the treatment of COVID-19 are still insufficient, so more effective and thorough drug exploring strategies are required. In this study, we joint the molecular docking with machine learning regression approaches to find some prospective therapeutic candidates for COVID-19 treatment. We screened the 5903 approved drugs for their inhibition by targeting the main protease 3CL of SARS-CoV-2, which is responsible to replicate the virus. Molecular docking is used to calculate the binding affinities of these drugs to the main protease 3CL. We employed several machine learning regression approaches for QSAR modeling to find out some potential drugs with high binding affinities. Our outcomes demonstrated that the Decision Tree Regression (DTR) model with best scores of R2 and RMSE, is the most suitable model to explore the potential drugs. We shortlisted six favorable drugs. These drugs have novel repurposing potential, except for one antiviral ZINC203757351 compound that has already been identified in other studies. We further examined the physiochemical and pharmacokinetic properties of these most potent drugs and their best binding interaction to specific target protease 3CLpro. Our verdicts contribute to the larger goal of finding effective cures for COVID-19, which is an acute global health challenge. The outcomes of our study provide valuable insights into potential therapeutic candidates for COVID-19 treatment.
翻訳日:2024-06-26 05:18:24 公開日:2024-06-23
# 分散シフトのためのモデリング言語の必要性について--タブラルデータセットの例-

On the Need of a Modeling Language for Distribution Shifts: Illustrations on Tabular Datasets ( http://arxiv.org/abs/2307.05284v2 )

ライセンス: Link先を確認
Jiashuo Liu, Tianyu Wang, Peng Cui, Hongseok Namkoong, (参考訳) 異なる分散シフトは異なる介入を必要とし、アルゴリズムはそれらが対処する特定のシフトに基礎を置く必要がある。 しかし、'robust'手法の方法論開発は、実証的検証に欠ける構造的仮定に依存しているのが一般的である。 実験的に基礎を成す帰納的手法を提唱し,不均衡学習法と分散ロバスト最適化(DRO)法を含む5つの表付きデータセットと6万のメソッド構成にまたがる自然なシフトを含む実験的なテストベッドを構築した。 ML文献のX$(共変量)シフトに重きを置いているのとは対照的に、Y|X$-shiftsはテストベッドで最も多く使われている。 「robust」メソッドのパフォーマンスはシフトタイプによって大きく異なり、バニラメソッドよりも優れています。 そこで我々はDRO手法の詳細な実験分析を行い、研究者によってしばしば無視されるが、基礎となるモデルクラス(例えば、XGBoost)やハイパーパラメータ選択などの実装の詳細は、あいまいさセットや半径よりもパフォーマンスに大きな影響を与えることを発見した。 方法論的な研究と実践のギャップをさらに埋めるために、そのような洗練された帰納的な分布シフトの理解が、データ中心とアルゴリズムの介入をいかに促進するかを示すケーススタディを設計する。

Different distribution shifts require different interventions, and algorithms must be grounded in the specific shifts they address. However, methodological development for ''robust'' methods typically relies on structural assumptions that lack empirical validation. Advocating for an empirically grounded inductive approach to research, we build an empirical testbed comprising natural shifts across 5 tabular datasets and 60,000 method configurations encompassing imbalanced learning methods and distributionally robust optimization (DRO) methods. We find $Y|X$-shifts are most prevalent on our testbed, in stark contrast to the heavy focus on $X$ (covariate)-shifts in the ML literature. The performance of ''robust'' methods varies significantly over shift types, and is no better than that of vanilla methods. To understand why, we conduct an in-depth empirical analysis of DRO methods and find that although often neglected by researchers, implementation details -- such as the choice of underlying model class (e.g., XGBoost) and hyperparameter selection -- have a bigger impact on performance than the ambiguity set or its radius. To further bridge that gap between methodological research and practice, we design case studies that illustrate how such a refined, inductive understanding of distribution shifts can enhance both data-centric and algorithmic interventions.
翻訳日:2024-06-26 05:08:33 公開日:2024-06-23
# 経路積分分子動力学の次元自由エルゴディディティ

Dimension-free Ergodicity of Path Integral Molecular Dynamics ( http://arxiv.org/abs/2307.06510v4 )

ライセンス: Link先を確認
Xuda Ye, Zhennan Zhou, (参考訳) 量子熱平均は、量子系の熱力学特性を記述する上で中心的な役割を果たす。 経路積分分子動力学(PIMD)は、量子分割関数を拡張空間上の古典的同型として近似し、効率的な古典的サンプリングを可能にすることで量子熱平均を計算するための一般的なアプローチであるが、サンプリングのエルゴディディディティに関する理論的知識は欠如している。 標準のPIMDを$N$のリングポリマービーズと並行して,N$のリングポリマーを用いた連続ループに置き換えた,松原モードのPIMDについても検討した。 一般化された$\Gamma$計算を利用することで、松原モードPIMDと標準PIMDの両方が一様式-$N$エルゴディディティを持つことを証明している。

The quantum thermal average plays a central role in describing the thermodynamic properties of a quantum system. Path integral molecular dynamics (PIMD) is a prevailing approach for computing quantum thermal averages by approximating the quantum partition function as a classical isomorphism on an augmented space, enabling efficient classical sampling, but the theoretical knowledge of the ergodicity of the sampling is lacking. Parallel to the standard PIMD with $N$ ring polymer beads, we also study the Matsubara mode PIMD, where the ring polymer is replaced by a continuous loop composed of $N$ Matsubara modes. Utilizing the generalized $\Gamma$ calculus, we prove that both the Matsubara mode PIMD and the standard PIMD have uniform-in-$N$ ergodicity, i.e., the convergence rate towards the invariant distribution does not depend on the number of modes or beads $N$.
翻訳日:2024-06-26 05:08:33 公開日:2024-06-23
# TUBERAIDER:YouTubeビデオにコーディネートされたヘイト・アタックをソース・コミュニティに提供する

TUBERAIDER: Attributing Coordinated Hate Attacks on YouTube Videos to their Source Communities ( http://arxiv.org/abs/2308.05247v2 )

ライセンス: Link先を確認
Mohammad Hammas Saeed, Kostantinos Papadamou, Jeremy Blackburn, Emiliano De Cristofaro, Gianluca Stringhini, (参考訳) あいにく、コーディネート・ヘイト・アタックや襲撃は、オンライン上でますます一般的になりつつある。 簡単に言えば、これらは攻撃者の集団によって実行され、プラットフォーム(例:4chan)上の操作を組織し、他のコミュニティ(例:YouTube)の被害者をターゲットにしている。 本稿では,攻撃の文脈(および動機)を考慮に入れたモデレーションアプローチの道を開いた上で,ソースコミュニティへの襲撃の帰結に焦点をあてる。 本稿では,YouTubeビデオのヘイト攻撃を75%以上の精度で検出・帰属する属性システムであるTUBERAIDERを提案する。 4chanの/pol/ボード、r/The_Donald、および16 Incels関連のサブレディットで共有されたYouTubeビデオへのリンクを使ってインスタンス化する。 ピーク検出器を使用して、YouTubeビデオのコメントアクティビティの上昇を特定し、攻撃が発生している可能性があることを知らせる。 次に、コミュニティ言語(例えば、関連するキーワードのTF-IDFスコア)に基づいて機械学習分類器を訓練し、属性を実行する。 野生でTUBERAIDERを試験し、実際の攻撃攻撃についていくつかのケーススタディを提示し、その効果を実証した。

Alas, coordinated hate attacks, or raids, are becoming increasingly common online. In a nutshell, these are perpetrated by a group of aggressors who organize and coordinate operations on a platform (e.g., 4chan) to target victims on another community (e.g., YouTube). In this paper, we focus on attributing raids to their source community, paving the way for moderation approaches that take the context (and potentially the motivation) of an attack into consideration. We present TUBERAIDER, an attribution system achieving over 75% accuracy in detecting and attributing coordinated hate attacks on YouTube videos. We instantiate it using links to YouTube videos shared on 4chan's /pol/ board, r/The_Donald, and 16 Incels-related subreddits. We use a peak detector to identify a rise in the comment activity of a YouTube video, which signals that an attack may be occurring. We then train a machine learning classifier based on the community language (i.e., TF-IDF scores of relevant keywords) to perform the attribution. We test TUBERAIDER in the wild and present a few case studies of actual aggression attacks identified by it to showcase its effectiveness.
翻訳日:2024-06-26 05:08:33 公開日:2024-06-23
# 物理インフォームドニューラルネットワークを用いた複合超弾性材料の構成パラメータの同定

Identifying Constitutive Parameters for Complex Hyperelastic Materials using Physics-Informed Neural Networks ( http://arxiv.org/abs/2308.15640v4 )

ライセンス: Link先を確認
Siyuan Song, Hanxun Jin, (参考訳) 工学や生物学的材料、特に複雑なジオメトリーや機械的な振る舞いを持つ物質の構成的パラメータを同定することは、長年にわたる課題である。 近年の物理情報ニューラルネットワーク(PINN)の出現は、有望なソリューションを提供するが、現在のフレームワークは基本的な構成法則に制限され、実験データと組み合わせることで現実的な制約に直面することが多い。 本稿では,軟質材料,特に複雑な構成挙動を示す材料パラメータを平面応力条件下での大変形下で同定する,堅牢なPINNベースのフレームワークを提案する。 本モデルでは,マルチモーダルな合成実験データセットを用いたPINNのトレーニングを強調し,ノイズのあるデータであってもアルゴリズムの堅牢性を確保する。 その結果, PINN フレームワークは, 複雑なジオメトリを持つ試料に対して, 圧縮不能な Arruda-Boyce モデルの構成パラメータを正確に同定し, 実験ノイズレベル 5% においても誤差を5% 以下に維持できることがわかった。 我々は, 複雑な固体, 特に幾何学的, 構成的複雑性を有する固体に対して, 頑健な弾性率同定手法を提供すると考えている。

Identifying constitutive parameters in engineering and biological materials, particularly those with intricate geometries and mechanical behaviors, remains a longstanding challenge. The recent advent of Physics-Informed Neural Networks (PINNs) offers promising solutions, but current frameworks are often limited to basic constitutive laws and encounter practical constraints when combined with experimental data. In this paper, we introduce a robust PINN-based framework designed to identify material parameters for soft materials, specifically those exhibiting complex constitutive behaviors, under large deformation in plane stress conditions. Distinctively, our model emphasizes training PINNs with multi-modal synthetic experimental datasets consisting of full-field deformation and loading history, ensuring algorithm robustness even with noisy data. Our results reveal that the PINNs framework can accurately identify constitutive parameters of the incompressible Arruda-Boyce model for samples with intricate geometries, maintaining an error below 5%, even with an experimental noise level of 5%. We believe our framework provides a robust modulus identification approach for complex solids, especially for those with geometrical and constitutive complexity.
翻訳日:2024-06-26 04:58:37 公開日:2024-06-23
# 火星の陽子オーロラの説明可能な深層学習モデル

An Explainable Deep-learning Model of Proton Auroras on Mars ( http://arxiv.org/abs/2309.08195v2 )

ライセンス: Link先を確認
Dattaraj B. Dhuri, Dimitra Atri, Ahmed AlHantoobi, (参考訳) 火星の日中は陽子オーロラが広く観測されており、110から150kmの高度でリマンアルファ(121.6nm)の水素放出が顕著に増強されていると確認されている。 太陽風の陽子が火星の温度圏にエネルギー的な中性原子として侵入し、主にこれらのオーロラに寄与していると考えられている。 空間的に局在した陽子オーロラの最近の観測は、不安定な太陽風環境下での火星大気への陽子直接沈着の可能性を示している。 したがって、太陽風と火星大気との相互作用を特徴づけるためには、陽子オーロラの理解を改善することが重要である。 そこで我々は,2014年から2022年の間,火星大気と揮発性エボリュートN(MAVEN)のその場観測とLy-α放出のフットスキャンを用いて,初めて純粋なデータ駆動型プロトンオーロラモデルを構築した。 我々は,Pearson相関の0.94と0.60の相関で,個々のLymanアルファ強度と相対Lymanアルファピーク強度を再現する人工ニューラルネットワーク(ANN)を,観測されたLymanアルファ放射高度プロファイルの形状を忠実に再構築すると共に訓練する。 SHAP (SHapley Additive ExPlanations) 解析により, 風速, 風速, 気温が, モデル付きLymanアルファピーク強度向上の最も重要な特徴であることがわかった。 さらに、モデル化されたピーク強度の増大は、特に緯度付近の早期の局所時間、およびより弱い誘導磁場に対して高い値を示す。 また、SHAP分析により、トレーニングデータにおけるバイアスの影響と、モデリングに使用した測定値間のインタペンデンシーを同定し、これらの側面の改善により、ANNモデルの性能と適用性を大幅に向上させることができる。

Proton auroras are widely observed on the dayside of Mars, identified as a significant intensity enhancement in the hydrogen Lyman alpha (121.6 nm) emission between 110 - 150 km altitudes. Solar wind protons penetrating as energetic neutral atoms into Mars thermosphere are thought to be primarily responsible for these auroras. Recent observations of spatially localized (patchy) proton auroras suggest a possible direct deposition of protons into Mars atmosphere during unstable solar wind conditions. Improving our understanding of proton auroras is therefore important for characterizing the solar wind interaction with Mars atmosphere. Here, we develop a first purely data-driven model of proton auroras using Mars Atmosphere and Volatile EvolutioN (MAVEN) in-situ observations and limb scans of Ly-alpha emissions between 2014 - 2022. We train an artificial neural network (ANN) that reproduces individual Lyman alpha intensities and relative Lyman alpha peak intensity enhancements with a Pearson correlation of 0.94 and 0.60 respectively for the test data, along with a faithful reconstruction of the shape of the observed Lyman alpha emission altitude profiles. By performing a SHapley Additive exPlanations (SHAP) analysis, we find that solar zenith angle, solar longitude, CO2 atmosphere variability, solar wind speed and temperature are the most important features for the modeled Lyman alpha peak intensity enhancements. Additionally, we find that the modeled peak intensity enhancements are high for early local time hours, particularly near polar latitudes, as well as weaker induced magnetic fields. Through SHAP analysis, we also identify the influence of biases in the training data and interdependecies between the measurements used for the modeling, and an improvement on those aspects can significantly improve the performance and applicability of the ANN model.
翻訳日:2024-06-26 04:58:37 公開日:2024-06-23
# 結合埋め込み予測アーキテクチャを用いたグラフレベルの表現学習

Graph-level Representation Learning with Joint-Embedding Predictive Architectures ( http://arxiv.org/abs/2309.16014v2 )

ライセンス: Link先を確認
Geri Skenderi, Hang Li, Jiliang Tang, Marco Cristani, (参考訳) JEPA(Joint-Embedding Predictive Architectures)は、最近、自己教師型表現学習の斬新で強力な技術として登場した。 彼らは、コンテキスト信号xの潜時表現から目標信号yの潜時表現を予測することにより、エネルギーベースモデルを学習することを目指している。 JEPAは、否定的なサンプルと肯定的なサンプルの必要性を回避します。 本稿では,グラフ結合埋め込み予測アーキテクチャ(Graph-JEPA)を提案することにより,このパラダイムを用いてグラフレベルの表現を効果的にモデル化できることを示す。 特に、マスク付きモデリングを採用し、コンテキストサブグラフの潜時表現から始まるマスク付きサブグラフの潜時表現を予測することに焦点をあてる。 グラフレベルの概念によく見られる暗黙的階層を持つ表現を実現するために、2次元平面上の単位双曲面上の符号化された部分グラフの座標を予測することからなる別の予測目標を考案する。 複数の実験結果から,グラフ分類,回帰,非同型グラフの識別において,グラフ-JEPAは,下流のパフォーマンスから示すように,高度に意味的かつ表現的な表現を学習できることが示されている。 コードは受理時に利用可能になる。

Joint-Embedding Predictive Architectures (JEPAs) have recently emerged as a novel and powerful technique for self-supervised representation learning. They aim to learn an energy-based model by predicting the latent representation of a target signal y from the latent representation of a context signal x. JEPAs bypass the need for negative and positive samples, traditionally required by contrastive learning while avoiding the overfitting issues associated with generative pretraining. In this paper, we show that graph-level representations can be effectively modeled using this paradigm by proposing a Graph Joint-Embedding Predictive Architecture (Graph-JEPA). In particular, we employ masked modeling and focus on predicting the latent representations of masked subgraphs starting from the latent representation of a context subgraph. To endow the representations with the implicit hierarchy that is often present in graph-level concepts, we devise an alternative prediction objective that consists of predicting the coordinates of the encoded subgraphs on the unit hyperbola in the 2D plane. Through multiple experimental evaluations, we show that Graph-JEPA can learn highly semantic and expressive representations, as shown by the downstream performance in graph classification, regression, and distinguishing non-isomorphic graphs. The code will be made available upon acceptance.
翻訳日:2024-06-26 04:48:52 公開日:2024-06-23
# InstinCTの使用: トランスフォーマーを結合したLLMsusIngニューラルバンドのInstruction最適化

Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers ( http://arxiv.org/abs/2310.02905v3 )

ライセンス: Link先を確認
Xiaoqiang Lin, Zhaoxuan Wu, Zhongxiang Dai, Wenyang Hu, Yao Shu, See-Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang Low, (参考訳) 大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。 しかし、LSMの演奏は彼らに与えられた指示に大きく依存する。 最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。 しかし、BOは通常、高度に洗練された(例えば高次元の)目的関数、例えば命令をLLMのパフォーマンスにマッピングする関数を最適化するときに不足する。 これは主に、目的関数をモデル化するための代理としてBOによって使用されるガウス過程(GP)の限られた表現力による。 一方、ニューラルネットワーク(NN)、特に事前訓練されたトランスフォーマーは、強い表現力を持ち、非常に複雑な関数をモデル化できることが繰り返し示されている。 そこで我々は,ブラックボックスLLMの命令を最適化するために,NNサロゲートによってBOのGPを置き換えるニューラルネットワークバンドアルゴリズムを採用した。 さらに重要なのは、ニューラルバンディットアルゴリズムは、NNサロゲートと、トレーニング済みのトランスフォーマー(すなわちオープンソースのLLM)が学習した隠れ表現とを自然に結合させることで、その性能が大幅に向上する。 これらのことから,Instruction Optimization usIng Neural Bandits Coupled with Transformers (INSTINCT) アルゴリズムを提案する。 我々はChatGPTの命令最適化を行い、INSTINCTが様々なタスク、例えば様々な命令誘導タスク、ゼロショットチェーン・オブ・シークレット命令を改善するタスクにおいて、ベースラインを一貫して上回っていることを示す。 私たちのコードはhttps://github.com/xqlin98/INSTINCTで利用可能です。

Large language models (LLMs) have shown remarkable instruction-following capabilities and achieved impressive performances in various applications. However, the performances of LLMs depend heavily on the instructions given to them, which are typically manually tuned with substantial human efforts. Recent work has used the query-efficient Bayesian optimization (BO) algorithm to automatically optimize the instructions given to black-box LLMs. However, BO usually falls short when optimizing highly sophisticated (e.g., high-dimensional) objective functions, such as the functions mapping an instruction to the performance of an LLM. This is mainly due to the limited expressive power of the Gaussian process (GP) which is used by BO as a surrogate to model the objective function. Meanwhile, it has been repeatedly shown that neural networks (NNs), especially pre-trained transformers, possess strong expressive power and can model highly complex functions. So, we adopt a neural bandit algorithm which replaces the GP in BO by an NN surrogate to optimize instructions for black-box LLMs. More importantly, the neural bandit algorithm allows us to naturally couple the NN surrogate with the hidden representation learned by a pre-trained transformer (i.e., an open-source LLM), which significantly boosts its performance. These motivate us to propose our INSTruction optimization usIng Neural bandits Coupled with Transformers (INSTINCT) algorithm. We perform instruction optimization for ChatGPT and use extensive experiments to show that INSTINCT consistently outperforms baselines in different tasks, e.g., various instruction induction tasks and the task of improving zero-shot chain-of-thought instructions. Our code is available at https://github.com/xqlin98/INSTINCT.
翻訳日:2024-06-26 04:48:52 公開日:2024-06-23
# 時系列データから構造因果モデルの混合を発見する

Discovering Mixtures of Structural Causal Models from Time Series Data ( http://arxiv.org/abs/2310.06312v3 )

ライセンス: Link先を確認
Sumanth Varambally, Yi-An Ma, Rose Yu, (参考訳) 時系列データから因果関係を明らかにすることは、金融、気候科学、神経科学などの分野において重要である。 しかし、現代の技術は、データが同じ因果モデルに由来するという仮定を単純化することに依存しているが、実際には、データは異質であり、異なる因果モデルに由来する可能性がある。 本研究では,この仮定を緩和し,複数の因果モデルから得られた時系列データから因果発見を行う。 そこで本研究では,MCDと呼ばれる一般的な変分推論に基づくフレームワークを提案し,基礎となる因果モデルと各試料の混合確率を推定する。 このアプローチでは、データ可能性のエビデンス-ローバウンドを最大化するエンドツーエンドのトレーニングプロセスを採用しています。 線形関係と独立雑音に対する MCD-Linear と非線形因果関係と履歴依存雑音に対する MCD-Nonlinear の2つの変種を示す。 提案手法は, 多様な因果グラフからデータを抽出する場合に, 合成および実世界のデータセットを広範囲に実験することにより, 因果探索タスクの最先端ベンチマークを上回ることを示す。 理論的には、いくつかの軽微な仮定の下でそのようなモデルの識別可能性を証明する。

Discovering causal relationships from time series data is significant in fields such as finance, climate science, and neuroscience. However, contemporary techniques rely on the simplifying assumption that data originates from the same causal model, while in practice, data is heterogeneous and can stem from different causal models. In this work, we relax this assumption and perform causal discovery from time series data originating from a mixture of causal models. We propose a general variational inference-based framework called MCD to infer the underlying causal models as well as the mixing probability of each sample. Our approach employs an end-to-end training process that maximizes an evidence-lower bound for the data likelihood. We present two variants: MCD-Linear for linear relationships and independent noise, and MCD-Nonlinear for nonlinear causal relationships and history-dependent noise. We demonstrate that our method surpasses state-of-the-art benchmarks in causal discovery tasks through extensive experimentation on synthetic and real-world datasets, particularly when the data emanates from diverse underlying causal graphs. Theoretically, we prove the identifiability of such a model under some mild assumptions.
翻訳日:2024-06-26 04:48:52 公開日:2024-06-23
# 反復演示選択を用いたインテクスト学習

In-Context Learning with Iterative Demonstration Selection ( http://arxiv.org/abs/2310.09881v3 )

ライセンス: Link先を確認
Chengwei Qin, Aston Zhang, Chen Chen, Anirudh Dagar, Wenming Ye, (参考訳) 大規模化により,大規模言語モデル (LLM) は,文脈内学習 (ICL) を介して,強力な数発学習能力を示した。 しかし、ICLの性能は、数発のデモの選択に非常に敏感であることが示されている。 コンテキストとして最も適切な例を選択することは、現在も進行中の課題であり、オープンな問題である。 既存の文献は、最適選択次元(多様性または類似性)がタスク固有であるという事実を無視しながら、テストサンプルと多様性または意味的に類似した例を選択することの重要性を強調している。 テストサンプルがどのように答えられるかに基づいて、両次元の利点を活用するために反復デモ選択(IDS)を提案する。 ゼロショットチェーン・オブ・シークレット推論(Zero-shot-CoT)を用いて、IDSは多種多様であるが、ICLの実証としてテストサンプルと強く相関する例を反復的に選択する。 具体的には、デモ選択前のテストサンプルにZero-shot-CoTを適用する。 次に、出力推論パスを使用して、推論のためにテストサンプルにプリコンパイルされたデモを選択する。 生成された回答は、次のイテレーションで新しいデモのセットを抽出する対応する推論パスに続きます。 何度も繰り返した結果、IDSは最終結果を得るために多数決を採決する。 推論,質問応答,トピック分類などのタスクに関する広範な実験を通じて,IDSが既存のICLの実証選択方法より一貫して優れていることを示す。

Spurred by advancements in scale, large language models (LLMs) have demonstrated strong few-shot learning ability via in-context learning (ICL). However, the performance of ICL has been shown to be highly sensitive to the selection of few-shot demonstrations. Selecting the most suitable examples as context remains an ongoing challenge and an open problem. Existing literature has highlighted the importance of selecting examples that are diverse or semantically similar to the test sample while ignoring the fact that the optimal selection dimension, i.e., diversity or similarity, is task-specific. Based on how the test sample is answered, we propose Iterative Demonstration Selection (IDS) to leverage the merits of both dimensions. Using zero-shot chain-of-thought reasoning (Zero-shot-CoT), IDS iteratively selects examples that are diverse but still strongly correlated with the test sample as ICL demonstrations. Specifically, IDS applies Zero-shot-CoT to the test sample before demonstration selection. The output reasoning path is then used to choose demonstrations that are prepended to the test sample for inference. The generated answer is followed by its corresponding reasoning path for extracting a new set of demonstrations in the next iteration. After several iterations, IDS adopts majority voting to obtain the final result. Through extensive experiments on tasks including reasoning, question answering, and topic classification, we demonstrate that IDS can consistently outperform existing ICL demonstration selection methods.
翻訳日:2024-06-26 04:48:52 公開日:2024-06-23
# フラクトン場理論における局所クエンチ:リーブ・ロビンソン境界、非因果ダイナミクスおよびフラクタル励起パターン

Local quenches in fracton field theory: Lieb-Robinson bound, non-causal dynamics and fractal excitation patterns ( http://arxiv.org/abs/2310.11197v4 )

ライセンス: Link先を確認
Dmitry S. Ageev, Andrey A. Bagrov, Aleksandr I. Belokon, Askar Iliasov, Vasilii V. Pushkarev, Femke Verheijen, (参考訳) フラクトン場理論における局所摂動によって誘起される平衡外ダイナミクスについて検討する。 2点グリーン函数、$\langle \phi^2 \rangle$ condensate、エネルギー密度、双極子運動量などの可観測物の時間力学を計算する。 時間依存的な考察は、自由フラクトロン理論が因果関係を破り、たとえ系の速度制限を強制する追加相対論的項を含むとしても、瞬間的な信号伝播を示すことを強調している。 このことは、リーブ・ロビンソン境界がフラクトン場理論の連続極限に留まらず、光の有効有界速度が出現しないという事実に関連していることを示す。 有限体積の理論については、フラクトン波面が非自明なハウスドルフ次元のフラクタル形状を取得することを示し、この現象は単純な自己干渉効果によって説明できないと主張する。

We study the out-of-equilibrium dynamics induced by a local perturbation in fracton field theory. For the ${\mathbb Z}_4$ and ${\mathbb Z}_8$-symmetric free fractonic theories, we compute the time dynamics of several observables such as the two-point Green function, $\langle \phi^2 \rangle$ condensate, energy density, and the dipole momentum. The time-dependent considerations highlight that the free fractonic theory breaks causality and exhibits instantaneous signal propagation, even if an additional relativistic term is included to enforce a speed limit in the system. We show that it is related to the fact that the Lieb-Robinson bound does not hold in the continuum limit of the fracton field theory, and the effective bounded speed of light does not emerge. For the theory in finite volume, we show that the fracton wave front acquires fractal shape with non-trivial Hausdorff dimension, and argue that this phenomenon cannot be explained by a simple self-interference effect.
翻訳日:2024-06-26 04:48:52 公開日:2024-06-23
# レスレスバンドの信頼度を固定した最適な腕同定法

Optimal Best Arm Identification with Fixed Confidence in Restless Bandits ( http://arxiv.org/abs/2310.13393v2 )

ライセンス: Link先を確認
P. N. Karthik, Vincent Y. F. Tan, Arpan Mukherjee, Ali Tajer, (参考訳) 本研究は,有限個の腕を持つレスレス・マルチアーム・バンディット・セッティングにおけるベスト・アーム識別について検討する。 各アームによって生成された離散時間データは、共通の有限状態空間で値を取る同質マルコフ連鎖を形成する。 各アームの状態遷移は、TPMの1パラメータ指数族に属するエルゴード遷移確率行列(TPM)によって捕捉される。 腕のTPMの実際の値パラメータは未知であり、与えられた空間に属する。 腕の共通状態空間上で定義される関数 $f$ が与えられたとき、ゴールは、腕の固定分布の下で評価される最も平均値$f$ の腕を、決定の誤差確率(すなわち、固定信頼状態)の上限が最少のサンプル数で識別することである。 消滅する誤差確率の漸近に、期待停止時間の成長速度に対する低い境界を確立する。 さらに、ベストアーム識別のためのポリシーを提案し、その期待される停止時間は、下限と一致する漸近的な成長速度を持つことを証明した。 その結果,あるマルコフ決定過程の長期的挙動の追跡とその状態-行動的訪問比率が,逆および達成可能性境界を解析するための重要な要素であることが示唆された。 すべての政策において、状態-行動の訪問比率は特定の近似フロー保存制約を満たすことが示され、これらの比率は漸近的に最適な政策の下で下界によって決定される最適比率と一致することが示されている。 休眠帯における最高の腕の識別に関する以前の研究は、腕からの独立した観察、休息したマルコフの腕、そして既知の腕のTPMを持つレストレスのマルコフの腕に焦点を当てていた。 対照的に、この研究は、未知の腕TPMを持つレストレス・バンディットにおいて、最も優れた腕の識別を研究した最初のものである。

We study best arm identification in a restless multi-armed bandit setting with finitely many arms. The discrete-time data generated by each arm forms a homogeneous Markov chain taking values in a common, finite state space. The state transitions in each arm are captured by an ergodic transition probability matrix (TPM) that is a member of a single-parameter exponential family of TPMs. The real-valued parameters of the arm TPMs are unknown and belong to a given space. Given a function $f$ defined on the common state space of the arms, the goal is to identify the best arm -- the arm with the largest average value of $f$ evaluated under the arm's stationary distribution -- with the fewest number of samples, subject to an upper bound on the decision's error probability (i.e., the fixed-confidence regime). A lower bound on the growth rate of the expected stopping time is established in the asymptote of a vanishing error probability. Furthermore, a policy for best arm identification is proposed, and its expected stopping time is proved to have an asymptotic growth rate that matches the lower bound. It is demonstrated that tracking the long-term behavior of a certain Markov decision process and its state-action visitation proportions are the key ingredients in analyzing the converse and achievability bounds. It is shown that under every policy, the state-action visitation proportions satisfy a specific approximate flow conservation constraint and that these proportions match the optimal proportions dictated by the lower bound under any asymptotically optimal policy. The prior studies on best arm identification in restless bandits focus on independent observations from the arms, rested Markov arms, and restless Markov arms with known arm TPMs. In contrast, this work is the first to study best arm identification in restless bandits with unknown arm TPMs.
翻訳日:2024-06-26 04:48:52 公開日:2024-06-23
# 多重量子ムペンバ効果:例外点と振動

Multiple quantum Mpemba effect: exceptional points and oscillations ( http://arxiv.org/abs/2311.01347v3 )

ライセンス: Link先を確認
Amit Kumar Chatterjee, Satoshi Takada, Hisao Hayakawa, (参考訳) 量子ムペンバ効果の発生における例外点と複素固有値の役割について検討する。 この目的のために,振動電場と環境との拡散結合を考慮した2レベル駆動型消散システムについて検討した。 例外点と複素固有値の両方が、$multiple$の量子Mpemba効果をもたらす。 この現象は、2つの異なる初期条件に対応する時間発展コピーで発生し、一方は最初は他方よりも高い可観測値を持ち、どちらも同じ定常状態に向かって緩和し、緩和過程の間は2回以上相互に交わる。 それぞれの交叉は量子Mpemba効果を示し、2つのコピーの間のアイデンティティの反転を示す。 このような多重交叉は、例外点における追加の代数的時間依存と、複素固有値の場合の振動緩和に由来する。 コヒーレンスが存在する密度行列における量子Mpemba効果の解析結果を提供する。 制御パラメータ(駆動と散逸)によって、エネルギー、フォン・ノイマンエントロピー、温度などの可観測物は、単一のまたは複数の量子ムペンバ効果を示す。 しかし、クルバック・リーブラーの発散で測定された定常状態からの距離は単一の量子Mpemba効果しか示さないが、対応する速度は単一の量子Mpemba効果または複数の量子Mpemba効果をもたらす。

We explore the role of exceptional points and complex eigenvalues on the occurrence of the quantum Mpemba effect. To this end, we study a two-level driven dissipative system subjected to an oscillatory electric field and dissipative coupling with the environment. We find that both exceptional points and complex eigenvalues can lead to $multiple$ quantum Mpemba effect. It occurs in an observable when time evolved copies corresponding to two different initial conditions, one initially having higher observable value compared to the other and both relaxing towards the same steady state, intersect each other more than once during their relaxation process. Each of the intersections denotes a quantum Mpemba effect and marks the reversal of identities between the two copies i.e. the copy with higher observable value before the intersection becomes the lower valued copy (and vice versa) after the intersection. Such multiple intersections originate from additional algebraic time dependence at the exceptional points and due to oscillatory relaxation in the case of complex eigenvalues. We provide analytical results for quantum Mpemba effect in the density matrix in presence of coherence. Depending on the control parameters (drive and dissipation), observables such as energy, von Neumann entropy, temperature etc. exhibit either single or multiple quantum Mpemba effect. However, the distance from steady state measured in terms of the Kullback-Leibler divergence shows only single quantum Mpemba effect although the corresponding speed gives rise to either single or multiple quantum Mpemba effect.
翻訳日:2024-06-26 04:39:08 公開日:2024-06-23
# ポストセレクト量子メトロロジーにおける圧縮チャネルの理論

Theory of Compression Channels for Postselected Quantum Metrology ( http://arxiv.org/abs/2311.06679v3 )

ライセンス: Link先を確認
Jing Yang, (参考訳) ポストセレクトされた量子メロジカルスキームは、実際の実験で最終的な測定が非常にうるさいか高価である場合に特に有利である。 本研究では,ポストセレクト量子力学における圧縮チャネルに関する一般理論を提唱する。 圧縮品質を特徴付ける基本概念を定義し,損失のない圧縮チャネルの構造を照らし出す。 ポストセレクト光位相推定と弱値増幅に関する以前の実験は、この一般理論の特別な例であることが示されている。 さらに, 両分割系の2つのカテゴリにおいて, 圧縮チャネルが1つのサブシステムにのみ作用する場合でも, 圧縮損失を任意に小さくすることができることを示す。 これらの知見は、測定ノイズとコストが劇的に低減されるように、量子測定を分散するために利用することができる。

Postselected quantum metrological scheme is especially advantageous when the final measurements are either very noisy or expensive in practical experiments. In this work, we put forward a general theory on the compression channels in postselected quantum metrology. We define the basic notions characterizing the compression quality and illuminate the underlying structure of lossless compression channels. Previous experiments on Postselected optical phase estimation and weak-value amplification are shown to be particular cases of this general theory. Furthermore, for two categories of bipartite systems, we show that the compression loss can be made arbitrarily small even when the compression channel acts only on one subsystem. These findings can be employed to distribute quantum measurements so that the measurement noise and cost are dramatically reduced.
翻訳日:2024-06-26 04:39:08 公開日:2024-06-23
# 深い)線形ニューラルネットワークにおける重み変動と逆分散平坦性関係の導出

Weight fluctuations in (deep) linear neural networks and a derivation of the inverse-variance flatness relation ( http://arxiv.org/abs/2311.14120v3 )

ライセンス: Link先を確認
Markus Gross, Arne P. Raulf, Christoph Räth, (参考訳) 合成ガウスデータに対する確率勾配勾配勾配(SGD)の連続限界における1層および2層の線形ニューラルネットワークの定常的(リアルタイム)訓練条件について検討した。 弱いパラメータ化状態の単一層ネットワークの場合、ノイズ共分散行列のスペクトルは特にヘシアンから逸脱し、これはSGD力学の詳細なバランスの破れに起因する。 この場合の重量変動は概して異方性であるが、実質的に等方性損失を経験する。 低パラメータ化された2層ネットワークでは、各層における重みの確率力学を記述し、関連する定常共分散を解析する。 我々は, 層間結合を重み変動の異方性の発生源として同定した。 単層の場合とは対照的に、重み変動は実質的に異方性損失を受けており、その平坦度は揺らぎ変動と逆関係である。 そこで我々は,最近観測された逆分散-平坦性関係を,ディープ線形ニューラルネットワークのモデルで解析的に導出した。

We investigate the stationary (late-time) training regime of single- and two-layer underparameterized linear neural networks within the continuum limit of stochastic gradient descent (SGD) for synthetic Gaussian data. In the case of a single-layer network in the weakly underparameterized regime, the spectrum of the noise covariance matrix deviates notably from the Hessian, which can be attributed to the broken detailed balance of SGD dynamics. The weight fluctuations are in this case generally anisotropic, but effectively experience an isotropic loss. For an underparameterized two-layer network, we describe the stochastic dynamics of the weights in each layer and analyze the associated stationary covariances. We identify the inter-layer coupling as a distinct source of anisotropy for the weight fluctuations. In contrast to the single-layer case, the weight fluctuations are effectively subject to an anisotropic loss, the flatness of which is inversely related to the fluctuation variance. We thereby provide an analytical derivation of the recently observed inverse variance-flatness relation in a model of a deep linear neural network.
翻訳日:2024-06-26 02:42:42 公開日:2024-06-23
# TokenCompose:Token-level Supervisionによるテキストと画像の拡散

TokenCompose: Text-to-Image Diffusion with Token-level Supervision ( http://arxiv.org/abs/2312.03626v2 )

ライセンス: Link先を確認
Zirui Wang, Zhizhou Sha, Zheng Ding, Yilin Wang, Zhuowen Tu, (参考訳) ユーザ指定テキストプロンプトとモデル生成画像との整合性を向上するテキスト・画像生成のための遅延拡散モデルであるTokenComposeを提案する。 非常に成功したにもかかわらず、Latent Diffusion Modelの標準的なデノベーションプロセスは、テキストプロンプトを条件のみとして、テキストプロンプトと画像内容の一貫性に対する明示的な制約が欠如しており、複数のオブジェクトカテゴリを構成するのに不満足な結果をもたらす。 TokenComposeは、画像の内容とオブジェクトのセグメンテーションマップ間のトークンワイド整合項を微調整段階で導入することにより、マルチカテゴリのインスタンス構成を改善することを目的としている。 TokenComposeは、人間のラベル付け情報なしで、テキスト条件の拡散モデルの既存のトレーニングパイプラインに直接適用することができる。 安定拡散を微調整することにより、モデルが生成した画像に対して、多カテゴリのインスタンス構成と拡張されたフォトリアリズムの大幅な改善を示す。 プロジェクトリンク:https://mlpc-ucsd.github.io/TokenCompose

We present TokenCompose, a Latent Diffusion Model for text-to-image generation that achieves enhanced consistency between user-specified text prompts and model-generated images. Despite its tremendous success, the standard denoising process in the Latent Diffusion Model takes text prompts as conditions only, absent explicit constraint for the consistency between the text prompts and the image contents, leading to unsatisfactory results for composing multiple object categories. TokenCompose aims to improve multi-category instance composition by introducing the token-wise consistency terms between the image content and object segmentation maps in the finetuning stage. TokenCompose can be applied directly to the existing training pipeline of text-conditioned diffusion models without extra human labeling information. By finetuning Stable Diffusion, the model exhibits significant improvements in multi-category instance composition and enhanced photorealism for its generated images. Project link: https://mlpc-ucsd.github.io/TokenCompose
翻訳日:2024-06-26 02:42:42 公開日:2024-06-23
# クラスタ化スイッチバック実験:時空間干渉下でのほぼ最適速度

Clustered Switchback Experiments: Near-Optimal Rates Under Spatiotemporal Interference ( http://arxiv.org/abs/2312.15574v4 )

ライセンス: Link先を確認
Su Jia, Nathan Kallus, Christina Lee Yu, (参考訳) 我々は,非定常性,ユニット間干渉(空間的)干渉,時空間干渉(時空間干渉)の存在下での実験を考察し,グローバル平均治療効果(GATE)を推定し,全てのユニットが常に治療や制御のために露出した平均結果の差について検討した。 空間的干渉は、単位の結果がその近傍の処理課題に依存するグラフによって記述され、時間的干渉は隠れマルコフ決定プロセスによって記述され、どちらの処理(動作)も高速な混合条件を満たす。 本稿では,クラスタ単位をクラスタにグループ化し,時間ステップをブロックにグループ化し,クラスタとブロックの組み合わせ毎にランダムな処理を割り当てる,クラスタ化スイッチバックの設計を提案する。 この設計では、良好なクラスタリングを許容するグラフに対して、Truncated exposure-mapping Horvitz-Thompson estimator が$\tilde O(1/NT)$ mean-squared error (MSE) を達成し、$\Omega(1/NT)$ lower bound to logarithmic terms と一致することを示す。 We results simultaneously generalize the $N=1$ set of Hu, Wager 2022 (and improves on the MSE bound there for difference-in-means estimators) and the $T=1$ setting of Ugander et al 2013 and Leung 2022。 シミュレーション研究は、我々のアプローチの好ましい性能を検証する。

We consider experimentation in the presence of non-stationarity, inter-unit (spatial) interference, and carry-over effects (temporal interference), where we wish to estimate the global average treatment effect (GATE), the difference between average outcomes having exposed all units at all times to treatment or to control. We suppose spatial interference is described by a graph, where a unit's outcome depends on its neighborhood's treatment assignments, and that temporal interference is described by a hidden Markov decision process, where the transition kernel under either treatment (action) satisfies a rapid mixing condition. We propose a clustered switchback design, where units are grouped into clusters and time steps are grouped into blocks and each whole cluster-block combination is assigned a single random treatment. Under this design, we show that for graphs that admit good clustering, a truncated exposure-mapping Horvitz-Thompson estimator achieves $\tilde O(1/NT)$ mean-squared error (MSE), matching an $\Omega(1/NT)$ lower bound up to logarithmic terms. Our results simultaneously generalize the $N=1$ setting of Hu, Wager 2022 (and improves on the MSE bound shown therein for difference-in-means estimators) as well as the $T=1$ settings of Ugander et al 2013 and Leung 2022. Simulation studies validate the favorable performance of our approach.
翻訳日:2024-06-26 02:32:50 公開日:2024-06-23
# コンテキストを取り戻す:マルチモーダル知識グラフのリンク予測としてのカメラトラップ種別同定

Bringing Back the Context: Camera Trap Species Identification as Link Prediction on Multimodal Knowledge Graphs ( http://arxiv.org/abs/2401.00608v4 )

ライセンス: Link先を確認
Vardaan Pahuja, Weidi Luo, Yu Gu, Cheng-Hao Tu, Hong-You Chen, Tanya Berger-Wolf, Charles Stewart, Song Gao, Wei-Lun Chao, Yu Su, (参考訳) カメラトラップは生物多様性の監視と保護のために動物生態学において貴重な道具である。 しかし、新しい見えない場所でのデプロイメントへの一般化の欠如のような課題は、実用的応用を制限する。 画像は自然に異質な形態の文脈に関連付けられており、おそらくは様々である。 本研究では,カメラトラップ画像に付随する構造的コンテキストを利用して,カメラトラップの種識別作業における分布外一般化を改善する。 例えば、野生動物の写真は、どこでいつ撮影されたかの情報と、動物種に関する構造化された生物学知識に関連付けられている可能性がある。 通常、既存の作業で見過ごされるが、そのようなコンテキストを復活させることは、データの不足への対処や一般化の強化など、画像理解の改善にいくつかの潜在的なメリットをもたらす。 しかし、このような異種コンテキストを視覚領域に効果的に統合することは難しい問題である。 そこで本研究では,種分類をリンク予測として再編成する新しい枠組みを提案する。 このフレームワークは視覚認識のための様々な形態のマルチモーダルコンテキストをシームレスに統合する。 本フレームワークをiWildCam2020-WILDSおよびSnapshot Mountain Zebraデータセットの分布外種分類に適用し,最先端のアプローチによる競合性能を実現する。 さらに,本フレームワークは,生物分類学を応用して一般化を向上し,外来種認識のための標本効率を向上させる。

Camera traps are valuable tools in animal ecology for biodiversity monitoring and conservation. However, challenges like poor generalization to deployment at new unseen locations limit their practical application. Images are naturally associated with heterogeneous forms of context possibly in different modalities. In this work, we leverage the structured context associated with the camera trap images to improve out-of-distribution generalization for the task of species identification in camera traps. For example, a photo of a wild animal may be associated with information about where and when it was taken, as well as structured biology knowledge about the animal species. While typically overlooked by existing work, bringing back such context offers several potential benefits for better image understanding, such as addressing data scarcity and enhancing generalization. However, effectively integrating such heterogeneous context into the visual domain is a challenging problem. To address this, we propose a novel framework that reformulates species classification as link prediction in a multimodal knowledge graph (KG). This framework seamlessly integrates various forms of multimodal context for visual recognition. We apply this framework for out-of-distribution species classification on the iWildCam2020-WILDS and Snapshot Mountain Zebra datasets and achieve competitive performance with state-of-the-art approaches. Furthermore, our framework successfully incorporates biological taxonomy for improved generalization and enhances sample efficiency for recognizing under-represented species.
翻訳日:2024-06-26 02:32:50 公開日:2024-06-23
# 拡散モデル, 画像超解像, すべて

Diffusion Models, Image Super-Resolution And Everything: A Survey ( http://arxiv.org/abs/2401.00736v3 )

ライセンス: Link先を確認
Brian B. Moser, Arundhati S. Shanbhag, Federico Raue, Stanislav Frolov, Sebastian Palacio, Andreas Dengel, (参考訳) 拡散モデル(DM)は、画像の超解法(SR)領域を破壊し、画像の品質と人間の知覚的嗜好のギャップを埋める。 訓練は簡単で、従来の生成手法による現実性を超えた、非常に高品質なサンプルを作成できる。 有望な結果にもかかわらず、彼らはまた、高い計算要求、可視性、説明可能性の欠如、色の変化など、さらなる研究を必要とする新しい課題も生み出した。 残念ながら、この分野への参入は出版物の多さから圧倒的である。 これを解決するために、画像SRに適用されるDMの基盤となる理論的基礎を統一的に再評価し、この分野における独自の特徴と方法論を、この分野におけるより広範な既存レビューとは異なる、詳細な分析を行う。 本調査は,DM原則の密集的な理解を具体化し,代替入力領域,条件付け手法,指導機構,汚職空間,ゼロショット学習アプローチなど,現在の研究手法を探求する。 DMのレンズを通して画像SRの進化と現在の傾向を詳細に調べることにより、この急速に進歩する領域におけるさらなるイノベーションを刺激し、既存の課題と今後の方向性を図示する。

Diffusion Models (DMs) have disrupted the image Super-Resolution (SR) field and further closed the gap between image quality and human perceptual preferences. They are easy to train and can produce very high-quality samples that exceed the realism of those produced by previous generative methods. Despite their promising results, they also come with new challenges that need further research: high computational demands, comparability, lack of explainability, color shifts, and more. Unfortunately, entry into this field is overwhelming because of the abundance of publications. To address this, we provide a unified recount of the theoretical foundations underlying DMs applied to image SR and offer a detailed analysis that underscores the unique characteristics and methodologies within this domain, distinct from broader existing reviews in the field. This survey articulates a cohesive understanding of DM principles and explores current research avenues, including alternative input domains, conditioning techniques, guidance mechanisms, corruption spaces, and zero-shot learning approaches. By offering a detailed examination of the evolution and current trends in image SR through the lens of DMs, this survey sheds light on the existing challenges and charts potential future directions, aiming to inspire further innovation in this rapidly advancing area.
翻訳日:2024-06-26 02:32:50 公開日:2024-06-23
# Graph2Tac: 形式数学概念のオンライン表現学習

Graph2Tac: Online Representation Learning of Formal Math Concepts ( http://arxiv.org/abs/2401.02949v3 )

ライセンス: Link先を確認
Lasse Blaauwbroek, Miroslav Olšák, Jason Rute, Fidel Ivan Schaposnik Massolo, Jelle Piepenbrock, Vasily Pestun, (参考訳) 証明アシスタントでは、2つの形式的な数学的概念間の物理的な近接は、それらの相互関連性の強い予測因子である。 さらに、近接した補題は、よく似た証明構造を示す。 本研究では,この局所性特性をオンライン学習手法により活用し,未知の数学的条件下での定理の証明を依頼したとき,オフライン学習者よりはるかに上回る解法エージェントを得ることを示す。 第一に、Tacticianのオンラインの$k$-nearestの隣の解法は、最近の証明から学ぶことができ、オフラインの等価性よりも証明された定理の1.72\times$の改善を示す。 第2に、新しい定義のための階層的表現を構築するための新しいアプローチを備えたグラフニューラルネットワーク、Graph2Tacを導入する。 Graph2Tacのオンライン定義タスクは、オフラインベースラインで解決された定理の1.5\times$の改善を実現する。 k$-NNとGraph2Tacのソルバは直交のオンラインデータに依存しており、非常に補完的だ。 彼らの組み合わせは個々のパフォーマンスよりも$1.27\times$を改善する。 CoqHammer、Proverbot9001、およびトランスフォーマーベースラインを少なくとも$1.48\times$で上回り、エンドユーザーによる実用的な使用が可能である。

In proof assistants, the physical proximity between two formal mathematical concepts is a strong predictor of their mutual relevance. Furthermore, lemmas with close proximity regularly exhibit similar proof structures. We show that this locality property can be exploited through online learning techniques to obtain solving agents that far surpass offline learners when asked to prove theorems in an unseen mathematical setting. We extensively benchmark two such online solvers implemented in the Tactician platform for the Coq proof assistant: First, Tactician's online $k$-nearest neighbor solver, which can learn from recent proofs, shows a $1.72\times$ improvement in theorems proved over an offline equivalent. Second, we introduce a graph neural network, Graph2Tac, with a novel approach to build hierarchical representations for new definitions. Graph2Tac's online definition task realizes a $1.5\times$ improvement in theorems solved over an offline baseline. The $k$-NN and Graph2Tac solvers rely on orthogonal online data, making them highly complementary. Their combination improves $1.27\times$ over their individual performances. Both solvers outperform all other general-purpose provers for Coq, including CoqHammer, Proverbot9001, and a transformer baseline by at least $1.48\times$ and are available for practical use by end-users.
翻訳日:2024-06-26 02:32:50 公開日:2024-06-23
# AST-T5: コード生成と理解のための構造認識事前トレーニング

AST-T5: Structure-Aware Pretraining for Code Generation and Understanding ( http://arxiv.org/abs/2401.03003v4 )

ライセンス: Link先を確認
Linyuan Gong, Mostafa Elhoushi, Alvin Cheung, (参考訳) 大規模言語モデル (LLM) は、コードに関連するタスクにおいて大幅な進歩を遂げているが、多くのLLMは、コードを単純なシーケンスとして扱い、構造化された性質を無視している。 AST-T5は、抽象構文木(AST)を利用してコード生成、トランスパイレーション、理解を向上させる新しい事前トレーニングパラダイムである。 動的プログラミングを用いて、AST-Aware Segmentationはコード構造を保持しますが、AST-Aware Span Corruptionは、さまざまなコード構造を再構築するためのモデルを提供します。 他のモデルとは異なり、AST-T5は複雑なプログラム分析やアーキテクチャの変更を避けるため、エンコーダ・デコーダ変換器とシームレスに統合される。 AST-T5 は、様々なコード関連タスクにおいて、同様の大きさの LM を一貫して上回っている。 AST-T5はコード間タスクにおいて特に強力で、Bug2Fixタスクの正確なマッチスコアの2ポイント、CodeXGLUEのJava-C#トランスパイレーションの正確なマッチスコアの3ポイントを超えている。 私たちのコードとモデルはhttps://github.com/gonglinyuan/ast_t5.comで公開されています。

Large language models (LLMs) have made significant advancements in code-related tasks, yet many LLMs treat code as simple sequences, neglecting its structured nature. We introduce AST-T5, a novel pretraining paradigm that leverages the Abstract Syntax Tree (AST) for enhanced code generation, transpilation, and understanding. Using dynamic programming, our AST-Aware Segmentation retains code structure, while our AST-Aware Span Corruption objective equips the model to reconstruct various code structures. Unlike other models, AST-T5 avoids intricate program analyses or architectural changes, so it integrates seamlessly with any encoder-decoder Transformer. Evaluations show that AST-T5 consistently outperforms similar-sized LMs across various code-related tasks. Structure-awareness makes AST-T5 particularly powerful in code-to-code tasks, surpassing CodeT5 by 2 points in exact match score for the Bugs2Fix task and by 3 points in exact match score for Java-C# Transpilation in CodeXGLUE. Our code and model are publicly available at https://github.com/gonglinyuan/ast_t5.
翻訳日:2024-06-26 02:32:50 公開日:2024-06-23
# OCLと検索によるMC/DCの効率的なテストデータ生成

Efficient Test Data Generation for MC/DC with OCL and Search ( http://arxiv.org/abs/2401.03469v2 )

ライセンス: Link先を確認
Hassan Sartaj, Muhammad Zohaib Iqbal, Atif Aftab Ahmed Jilani, Muhammad Uzair Khan, (参考訳) アビオニクスのソフトウェアシステムのシステムレベルのテストは、DO-178Cのような異なる国際安全基準に準拠する必要がある。 アビオニクス産業の重要な考慮事項は、安全基準によって提案される基準に従って自動テストデータ生成である。 DO-178Cの推奨基準の1つは、修正条件/決定カバレッジ(MC/DC)基準である。 現在のモデルベースのテストデータ生成アプローチでは、Object Constraint Language(OCL)で記述された制約を使用し、テストデータを生成するために検索技術を適用します。 これらのアプローチはMC/DC基準をサポートしないか、大規模アビオニクスシステムのテストデータを生成する際にパフォーマンス上の問題に悩まされる。 本稿では,モデルベーステストにおいてMC/DCテストデータの自動生成を効果的に行う方法を提案する。 ケースベース推論 (CBR) と範囲縮小ヒューリスティックスを用いて, MC/DC に適合した OCL 制約を解く手法を開発した。 我々は,CBRを用いたMC/DCテストデータ生成のための提案手法と,CBRと範囲縮小の双方を,元の探索アルゴリズムとランダム検索と比較する実験的検討を行った。 また、我々の戦略を既存の制約解決アプローチと経験的に比較した。 その結果, MC/DCテストデータ生成におけるCBRと範囲の低減は, ベースライン法よりも優れていた。 さらに, MC/DCテストデータ生成におけるCBRと範囲削減の組み合わせは, 既存の制約解法と比較して有効である。

System-level testing of avionics software systems requires compliance with different international safety standards such as DO-178C. An important consideration of the avionics industry is automated test data generation according to the criteria suggested by safety standards. One of the recommended criteria by DO-178C is the modified condition/decision coverage (MC/DC) criterion. The current model-based test data generation approaches use constraints written in Object Constraint Language (OCL), and apply search techniques to generate test data. These approaches either do not support MC/DC criterion or suffer from performance issues while generating test data for large-scale avionics systems. In this paper, we propose an effective way to automate MC/DC test data generation during model-based testing. We develop a strategy that utilizes case-based reasoning (CBR) and range reduction heuristics designed to solve MC/DC-tailored OCL constraints. We performed an empirical study to compare our proposed strategy for MC/DC test data generation using CBR, range reduction, both CBR and range reduction, with an original search algorithm, and random search. We also empirically compared our strategy with existing constraint-solving approaches. The results show that both CBR and range reduction for MC/DC test data generation outperform the baseline approach. Moreover, the combination of both CBR and range reduction for MC/DC test data generation is an effective approach compared to existing constraint solvers.
翻訳日:2024-06-26 02:32:50 公開日:2024-06-23
# LAMPAT: 逆学習を用いた多言語パラフレージングのための低ランク適応

LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training ( http://arxiv.org/abs/2401.04348v3 )

ライセンス: Link先を確認
Khoi M. Le, Trinh Pham, Tho Quan, Anh Tuan Luu, (参考訳) パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。 多くの自然言語処理タスク、特にデータ不足が大きな問題である低リソース言語を扱う際に、自動的なデータ拡張ツールとして使用できる。 多言語環境でのパラフレーズを生成するために、過去の研究では、機械翻訳の分野、すなわち、ゼロショット機械翻訳を同一言語で生成するパラフレーズの知識を活用してきた。 人間の評価は良好だが、これらの手法は依然として並列翻訳データセットを必要とするため、並列コーパスを持たない言語には適用できない。 この問題を緩和するために、我々は、LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$araphrasing using $\textbf{A}$dversarial $\textbf{T}$raining という、単言語データセットが人間に似た文を生成するのに十分な、最初の教師なし多言語パラフレーズモデルを提案した。 実験を通して,本手法は英語だけでなく,目に見えない言語にも適用可能であることがわかった。 データとコードはhttps://github.com/VinAIResearch/LAMPAT.comで入手できる。

Paraphrases are texts that convey the same meaning while using different words or sentence structures. It can be used as an automatic data augmentation tool for many Natural Language Processing tasks, especially when dealing with low-resource languages, where data shortage is a significant problem. To generate a paraphrase in multilingual settings, previous studies have leveraged the knowledge from the machine translation field, i.e., forming a paraphrase through zero-shot machine translation in the same language. Despite good performance on human evaluation, those methods still require parallel translation datasets, thus making them inapplicable to languages that do not have parallel corpora. To mitigate that problem, we proposed the first unsupervised multilingual paraphrasing model, LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$araphrasing using $\textbf{A}$dversarial $\textbf{T}$raining), by which monolingual dataset is sufficient enough to generate a human-like and diverse sentence. Throughout the experiments, we found out that our method not only works well for English but can generalize on unseen languages as well. Data and code are available at https://github.com/VinAIResearch/LAMPAT.
翻訳日:2024-06-26 02:32:50 公開日:2024-06-23
# Intel GPU上での効率的なLLM推論ソリューション

Efficient LLM inference solution on Intel GPU ( http://arxiv.org/abs/2401.05391v2 )

ライセンス: Link先を確認
Hui Wu, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu, Jinghui Gu, Peng Zhao, (参考訳) トランスフォーマーに基づく大規模言語モデル(LLM)は多くの分野で広く使われており、実アプリケーションではLLM推論の効率が話題となっている。 しかし、LLMは通常、大規模な演算を持つモデル構造で複雑に設計され、自動回帰モードで推論を行うため、高い効率でシステムを設計することは困難である。 本稿では,低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。 まず、データ移動と要素演算を融合させることでLCMデコーダ層を単純化し、メモリアクセス頻度を低減し、システム遅延を低減する。 また,要求トークンと応答トークンのキー/値を保持するセグメントKVキャッシュポリシを提案する。 カスタマイズされたScaled-Dot-Product-Attentionカーネルは、セグメントKVキャッシュソリューションに基づいたフュージョンポリシーに適合するように設計されている。 我々は、LLM推論ソリューションをIntel GPU上に実装し、公開しています。 標準的なHuggingFaceの実装と比較すると、提案されたソリューションは、Intel GPU上の一般的なLLMの最大7倍のトークンレイテンシと27倍のスループットを実現している。

Transformer based Large Language Models (LLMs) have been widely used in many fields, and the efficiency of LLM inference becomes hot topic in real applications. However, LLMs are usually complicatedly designed in model structure with massive operations and perform inference in the auto-regressive mode, making it a challenging task to design a system with high efficiency. In this paper, we propose an efficient LLM inference solution with low latency and high throughput. Firstly, we simplify the LLM decoder layer by fusing data movement and element-wise operations to reduce the memory access frequency and lower system latency. We also propose a segment KV cache policy to keep key/value of the request and response tokens in separate physical memory for effective device memory management, helping enlarge the runtime batch size and improve system throughput. A customized Scaled-Dot-Product-Attention kernel is designed to match our fusion policy based on the segment KV cache solution. We implement our LLM inference solution on Intel GPU and publish it publicly. Compared with the standard HuggingFace implementation, the proposed solution achieves up to 7x lower token latency and 27x higher throughput for some popular LLMs on Intel GPU.
翻訳日:2024-06-26 02:22:43 公開日:2024-06-23
# オープンモデル, クローズドマインド : オープンな大規模言語モデルを通して人格を模倣するエージェント能力について

Open Models, Closed Minds? On Agents Capabilities in Mimicking Human Personalities through Open Large Language Models ( http://arxiv.org/abs/2401.07115v2 )

ライセンス: Link先を確認
Lucio La Cava, Andrea Tagarelli, (参考訳) LLM(Large Language Models)における人間に似た行動の出現は、NLPと人間の心理学との密接な関係につながった。 研究者は、LLMが示す固有の個性を研究し、人間の特性や行動をそれらに組み込もうとしている。 しかし、これらの取り組みは主に商用ライセンスのLLMに焦点を合わせており、Open LLMで見られる広く使われていることや顕著な進歩を無視している。 本研究の目的は,最も代表的なオープンモデルに基づく12のLLMエージェントを用いて,マイアーズ・ブリッグス型指標(MBTI)テストとビッグファイブインベントリ(BFI)テストに関する一連の評価を行うことである。 提案手法は,オープンLLMエージェントの本質的な性格特性の評価と,特定の個性や役割によって条件付けられた場合に,これらのエージェントが人格を模倣できる程度を判断することである。 私たちの発見は、$$ (i)各Open LLMエージェントは、異なる人間の個性を示す$ (ii)$personal-conditioned prompting(パーソナリティ条件付きプロンプト)は、与えられたパーソナリティを模倣することに成功し、そのほとんどが'closed-wise'(すなわち、固有の特性を保持する)であり、$は、エージェントに様々な効果をもたらす。 三 役割と人格条件の組み合わせにより、人格を模倣するエージェントの能力を高めることができる。 我々の研究は、オープンLLMのレンズを通して、NLPと人間の心理学の密接な関係を理解するための一歩である。

The emergence of unveiling human-like behaviors in Large Language Models (LLMs) has led to a closer connection between NLP and human psychology. Scholars have been studying the inherent personalities exhibited by LLMs and attempting to incorporate human traits and behaviors into them. However, these efforts have primarily focused on commercially-licensed LLMs, neglecting the widespread use and notable advancements seen in Open LLMs. This work aims to address this gap by employing a set of 12 LLM Agents based on the most representative Open models and subject them to a series of assessments concerning the Myers-Briggs Type Indicator (MBTI) test and the Big Five Inventory (BFI) test. Our approach involves evaluating the intrinsic personality traits of Open LLM agents and determining the extent to which these agents can mimic human personalities when conditioned by specific personalities and roles. Our findings unveil that $(i)$ each Open LLM agent showcases distinct human personalities; $(ii)$ personality-conditioned prompting produces varying effects on the agents, with only few successfully mirroring the imposed personality, while most of them being ``closed-minded'' (i.e., they retain their intrinsic traits); and $(iii)$ combining role and personality conditioning can enhance the agents' ability to mimic human personalities. Our work represents a step up in understanding the dense relationship between NLP and human psychology through the lens of Open LLMs.
翻訳日:2024-06-26 02:22:43 公開日:2024-06-23
# インテクスト学習における実証的選択方略の再検討

Revisiting Demonstration Selection Strategies in In-Context Learning ( http://arxiv.org/abs/2401.12087v2 )

ライセンス: Link先を確認
Keqin Peng, Liang Ding, Yancheng Yuan, Xuebo Liu, Min Zhang, Yuanxin Ouyang, Dacheng Tao, (参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を使用して広範囲のタスクを実行するという印象的な能力を示しており、モデルにタスクを記述するためにいくつかの例が使用されている。 しかし、ICLのパフォーマンスはデモの選択によって大きく異なり、なぜこれが起こっているのか、どのような要因がその選択に影響を与えるのかはいまだ不明である。 本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。 さらに,データとモデルに依存した実演選択法である \textbf{TopK + ConE} を提案した。 経験的に,本手法は,異なるモデルスケールの言語理解タスクと生成タスクの両方において一貫した改善をもたらす。 さらに,異なる状況下での一般性や安定性に加えて,従来の手法の有効性を統一的に説明できることを示す。 コードはリリースされる。

Large language models (LLMs) have shown an impressive ability to perform a wide range of tasks using in-context learning (ICL), where a few examples are used to describe a task to the model. However, the performance of ICL varies significantly with the choice of demonstrations, and it is still unclear why this happens or what factors will influence its choice. In this work, we first revisit the factors contributing to this variance from both data and model aspects, and find that the choice of demonstration is both data- and model-dependent. We further proposed a data- and model-dependent demonstration selection method, \textbf{TopK + ConE}, based on the assumption that \textit{the performance of a demonstration positively correlates with its contribution to the model's understanding of the test samples}, resulting in a simple and effective recipe for ICL. Empirically, our method yields consistent improvements in both language understanding and generation tasks with different model scales. Further analyses confirm that, besides the generality and stability under different circumstances, our method provides a unified explanation for the effectiveness of previous methods. Code will be released.
翻訳日:2024-06-26 02:22:43 公開日:2024-06-23
# RomanSetu: ローマン化による大規模言語モデルの多言語機能の効率的なアンロック

RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization ( http://arxiv.org/abs/2401.14280v3 )

ライセンス: Link先を確認
Jaavid Aktar Husain, Raj Dabre, Aswanth Kumar, Jay Gala, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan, (参考訳) 本研究では,Large Language Models (LLM) を非Romanスクリプトを使用する非英語言語に拡張するという課題に対処する。 本稿では,LLMのインタフェースとしてロマン化形式のテキストを利用するアプローチを提案し,その頻繁な非公式使用と共通トークンによる言語間アライメントの強化を仮定する。 Llama 2のような英語のLLMを、非英語、非ローマ語スクリプト言語のロマライズされたテキスト上で連続的に事前学習し、その後、ロマライズされたデータに対するインストラクションチューニングを行う。 結果から,ロマン化テキストはトークンの肥大度を2x-4x削減するだけでなく,NLU,NLG,MTタスク間のネイティブスクリプト表現に適合あるいは優れることがわかった。 さらに、ロマンティックテキストで計算された埋め込みは、ネイティブスクリプトのものよりも英語の翻訳と密接に一致している。 提案手法は,従来のNLPでは表現できない言語において,英語LLMの力を利用する上で有望な方向を示す。 私たちのコードはhttps://github.com/AI4Bharat/romansetuで公開されています。

This study addresses the challenge of extending Large Language Models (LLMs) to non-English languages that use non-Roman scripts. We propose an approach that utilizes the romanized form of text as an interface for LLMs, hypothesizing that its frequent informal use and shared tokens with English enhance cross-lingual alignment. Our approach involves the continual pretraining of an English LLM like Llama 2 on romanized text of non-English, non-Roman script languages, followed by instruction tuning on romanized data. The results indicate that romanized text not only reduces token fertility by 2x-4x but also matches or outperforms native script representation across various NLU, NLG, and MT tasks. Moreover, the embeddings computed on romanized text exhibit closer alignment with their English translations than those from the native script. Our approach presents a promising direction for leveraging the power of English LLMs in languages traditionally underrepresented in NLP. Our code is available on https://github.com/AI4Bharat/romansetu.
翻訳日:2024-06-26 02:22:43 公開日:2024-06-23
# ニューラルスケーリング法則の動的モデル

A Dynamical Model of Neural Scaling Laws ( http://arxiv.org/abs/2402.01092v4 )

ライセンス: Link先を確認
Blake Bordelon, Alexander Atanasov, Cengiz Pehlevan, (参考訳) さまざまなタスクにおいて、ニューラルネットワークのパフォーマンスは、トレーニング時間、データセットサイズ、モデルサイズをさまざまな桁にわたって予測的に改善する。 この現象は神経スケーリング法則として知られている。 基本的重要性は計算最適スケーリング法であり、モデルサイズを最適に選択する際に計算単位の関数として性能を報告する。 ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。 これは、ニューラルスケーリング法則に関する多くの観察を再現する。 まず,本モデルでは,トレーニング時間とモデルサイズの違いによるパフォーマンスのスケーリングが,異なる法則指数を持つ理由を予測した。 その結果、この理論は、最近の経験的観測と一致して、トレーニングステップの数がモデルパラメータよりも速く増加する非対称な計算-最適スケーリングルールを予測する。 第二に、トレーニングの早い段階でネットワークは1/\textit{width}$で無限幅のダイナミクスに収束するが、遅くとも$\textit{width}^{-c}$はアーキテクチャやタスクの構造に依存する。 私たちはこの行動を示すモデルを示します。 最後に、我々の理論は、データの繰り返し再利用によって、トレーニングとテストの損失のギャップが徐々に増大することを示している。

On a variety of tasks, the performance of neural networks predictably improves with training time, dataset size and model size across many orders of magnitude. This phenomenon is known as a neural scaling law. Of fundamental importance is the compute-optimal scaling law, which reports the performance as a function of units of compute when choosing model sizes optimally. We analyze a random feature model trained with gradient descent as a solvable model of network training and generalization. This reproduces many observations about neural scaling laws. First, our model makes a prediction about why the scaling of performance with training time and with model size have different power law exponents. Consequently, the theory predicts an asymmetric compute-optimal scaling rule where the number of training steps are increased faster than model parameters, consistent with recent empirical observations. Second, it has been observed that early in training, networks converge to their infinite-width dynamics at a rate $1/\textit{width}$ but at late time exhibit a rate $\textit{width}^{-c}$, where $c$ depends on the structure of the architecture and task. We show that our model exhibits this behavior. Lastly, our theory shows how the gap between training and test loss can gradually build up over time due to repeated reuse of data.
翻訳日:2024-06-26 02:11:02 公開日:2024-06-23
# TravelPlanner: 言語エージェントによる実世界の計画ベンチマーク

TravelPlanner: A Benchmark for Real-World Planning with Language Agents ( http://arxiv.org/abs/2402.01622v3 )

ライセンス: Link先を確認
Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su, (参考訳) 計画は、人工知能の構想以来、中核的な追求の1つとなっているが、初期のAIエージェントは、人間レベルの計画に必要な認知的基盤の多くが欠如しているため、主に制約された設定に焦点を当てていた。 近年,大規模言語モデル(LLM)を利用した言語エージェントは,ツールの使用や推論といった興味深い機能を示している。 これらの言語エージェントは、以前のAIエージェントの範囲外にある、より複雑な設定で計画できるのでしょうか? 本研究を進めるために,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。 豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。 包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。 言語エージェントはタスクを継続したり、適切なツールを使って情報を収集したり、複数の制約を追跡するのに苦労する。 しかし、そのような複雑な問題に言語エージェントが取り組む可能性は、それ自体は自明な進歩ではないことに留意する。 TravelPlannerは、将来の言語エージェントにとって、挑戦的で有意義なテストベッドを提供する。

Planning has been part of the core pursuit for artificial intelligence since its conception, but earlier AI agents mostly focused on constrained settings because many of the cognitive substrates necessary for human-level planning have been lacking. Recently, language agents powered by large language models (LLMs) have shown interesting capabilities such as tool use and reasoning. Are these language agents capable of planning in more complex settings that are out of the reach of prior AI agents? To advance this investigation, we propose TravelPlanner, a new planning benchmark that focuses on travel planning, a common real-world planning scenario. It provides a rich sandbox environment, various tools for accessing nearly four million data records, and 1,225 meticulously curated planning intents and reference plans. Comprehensive evaluations show that the current language agents are not yet capable of handling such complex planning tasks-even GPT-4 only achieves a success rate of 0.6%. Language agents struggle to stay on task, use the right tools to collect information, or keep track of multiple constraints. However, we note that the mere possibility for language agents to tackle such a complex problem is in itself non-trivial progress. TravelPlanner provides a challenging yet meaningful testbed for future language agents.
翻訳日:2024-06-26 02:11:02 公開日:2024-06-23
# LLaMAの短縮:再学習法の比較による大規模言語モデルの深さ決定

Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods ( http://arxiv.org/abs/2402.02834v2 )

ライセンス: Link先を確認
Bo-Kyeong Kim, Geonmin Kim, Tae-Ho Kim, Thibault Castells, Shinkook Choi, Junho Shin, Hyoung-Kyu Song, (参考訳) 現代の大規模言語モデル (LLM) の構造的プルーニングは、その高い計算要求を減少させる方法として現れている。 ワイドプルーニングは、レイヤー数を維持しながら、投射重量行列(例えば、注意ヘッドを除去して)のサイズを減少させる。 対照的に、深さのプルーニングは、残りの重量を一定に保ちながら、すべての層やブロックを除去する。 現在、ほとんどの研究は幅のみまたは幅と深さの混合に重点を置いており、LLM推論効率への影響に関する2つの単位(幅と深さ)の比較分析はほとんどない。 本研究では,最近のワイドプルーニング研究に匹敵する性能を保ちつつ,LLMを効果的に圧縮できることを示す。 提案手法は,特にメモリ制約条件下では,LLMの実行に必要なバッチサイズを制限し,幅切断が有効でない場合に,推論速度を向上する。 品質回復のためのプルーニングモデルの再訓練において、大きなコーパスでの事前訓練は、特に厳しいプルーニング比において、LoRAベースのチューニングよりも顕著に優れていた。 この作業がコンパクトで有能なLLMの構築に役立つことを願っています。 コードとモデルについては、https://github.com/Nota-NetsPresso/shortened-llmを参照してください。

Structured pruning of modern large language models (LLMs) has emerged as a way of decreasing their high computational needs. Width pruning reduces the size of projection weight matrices (e.g., by removing attention heads) while maintaining the number of layers. Depth pruning, in contrast, removes entire layers or blocks, while keeping the size of the remaining weights unchanged. Most current research focuses on either width-only or a blend of width and depth pruning, with little comparative analysis between the two units (width vs. depth) concerning their impact on LLM inference efficiency. In this work, we show that simple depth pruning can effectively compress LLMs while achieving comparable or superior performance to recent width pruning studies. Our pruning method boosts inference speeds, especially under memory-constrained conditions that require limited batch sizes for running LLMs, where width pruning is ineffective. In retraining pruned models for quality recovery, continued pretraining on a large corpus markedly outperforms LoRA-based tuning, particularly at severe pruning ratios. We hope this work can help build compact yet capable LLMs. Code and models can be found at: https://github.com/Nota-NetsPresso/shortened-llm
翻訳日:2024-06-26 02:11:02 公開日:2024-06-23
# FaithLM: 大規模言語モデルの忠実な説明を目指して

FaithLM: Towards Faithful Explanations for Large Language Models ( http://arxiv.org/abs/2402.04678v2 )

ライセンス: Link先を確認
Yu-Neng Chuang, Guanchu Wang, Chia-Yuan Chang, Ruixiang Tang, Shaochen Zhong, Fan Yang, Mengnan Du, Xuanting Cai, Xia Hu, (参考訳) 大きな言語モデル(LLM)は、その内部知識と推論能力を活用することで、複雑なタスクに対処するのに熟練している。 しかしながら、これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。 近年の進歩は、自然言語(NL)による予測を自己説明するためにLLMを利用する可能性を示しているが、それらの説明は、導出された説明に対する忠実度最適化の欠如により、LLMの意思決定過程を正確に反映していない可能性がある。 これらの説明の意味を隠蔽するために入力コンテキストを操作するのは難しいため、NL説明の忠実度を測定することは難しい問題である。 そこで本研究では, LLM の決定を NL の説明で説明するために FaithLM を紹介した。 特に、FithLMは、逆の説明をクエリプロセスに組み込むことで、NL説明の忠実さを評価する手法を設計する。 さらに、FaithLMは、導出された説明の忠実性を改善するために反復的なプロセスを実行する。 複数の領域から得られた3つのデータセットの実験結果から、FithLMは導出された説明の忠実性を大幅に向上させることができることが示され、また、地上の真実的説明との整合性も向上する。

Large Language Models (LLMs) have become proficient in addressing complex tasks by leveraging their extensive internal knowledge and reasoning capabilities. However, the black-box nature of these models complicates the task of explaining their decision-making processes. While recent advancements demonstrate the potential of leveraging LLMs to self-explain their predictions through natural language (NL) explanations, their explanations may not accurately reflect the LLMs' decision-making process due to a lack of fidelity optimization on the derived explanations. Measuring the fidelity of NL explanations is a challenging issue, as it is difficult to manipulate the input context to mask the semantics of these explanations. To this end, we introduce FaithLM to explain the decision of LLMs with NL explanations. Specifically, FaithLM designs a method for evaluating the fidelity of NL explanations by incorporating the contrary explanations to the query process. Moreover, FaithLM conducts an iterative process to improve the fidelity of derived explanations. Experiment results on three datasets from multiple domains demonstrate that FaithLM can significantly improve the fidelity of derived explanations, which also provides a better alignment with the ground-truth explanations.
翻訳日:2024-06-26 02:11:02 公開日:2024-06-23
# MODIPHY: PHantom Convolution-Enabled Faster YOLOを用いたIoT用マルチモーダル障害物検出

MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO ( http://arxiv.org/abs/2402.07894v2 )

ライセンス: Link先を確認
Shubhabrata Mukherjee, Cory Beard, Zhu Li, (参考訳) 自動運転車やセキュリティシステムのような現実のモノのインターネット(IoT)アプリケーションでは、低照度条件と隠蔽シナリオがオブジェクト検出を妨げる。 高度な機械学習モデルは精度を追求する一方で、彼らの計算要求はリソース制限されたデバイスの制限と衝突し、リアルタイムのパフォーマンスを妨げている。 現在の研究では,これまでに考案された最小のYOLOモデルのひとつである‘YOLO Phantom’を導入することで,この課題に対処しています。 YOLO Phantomは、新しいPhantom Convolutionブロックを利用して、最新のYOLOv8nモデルに匹敵する精度を実現し、パラメータとモデルサイズを43倍に削減し、Giga Floating-Point Operations (GFLOPs) の19倍の大幅な削減を実現している。 YOLO Phantomは、我々のマルチモーダルなRGB赤外線データセットの転送学習を活用して、低照度と閉塞の問題に対処し、悪条件下での堅牢なビジョンと組み合わせます。 実世界の有効性は、高度な低照度カメラとRGBカメラを備えたIoTプラットフォーム上で実証されており、AWSベースの通知エンドポイントにシームレスに接続することで、効率的なリアルタイムオブジェクト検出を実現している。 ベンチマークでは、ベースラインのYOLOv8nモデルと比較して、それぞれ熱およびRGB検出のためのフレーム毎秒17\%と14\%の大幅なアップが示されている。 コミュニティへのコントリビューションには、コードとマルチモーダルデータセットの両方がGitHubで公開されている。

Low-light conditions and occluded scenarios impede object detection in real-world Internet of Things (IoT) applications like autonomous vehicles and security systems. While advanced machine learning models strive for accuracy, their computational demands clash with the limitations of resource-constrained devices, hampering real-time performance. In our current research, we tackle this challenge, by introducing ``YOLO Phantom", one of the smallest YOLO models ever conceived. YOLO Phantom utilizes the novel Phantom Convolution block, achieving comparable accuracy to the latest YOLOv8n model while simultaneously reducing both parameters and model size by 43\%, resulting in a significant 19\% reduction in Giga Floating-Point Operations (GFLOPs). YOLO Phantom leverages transfer learning on our multimodal RGB-infrared dataset to address low-light and occlusion issues, equipping it with robust vision under adverse conditions. Its real-world efficacy is demonstrated on an IoT platform with advanced low-light and RGB cameras, seamlessly connecting to an AWS-based notification endpoint for efficient real-time object detection. Benchmarks reveal a substantial boost of 17\% and 14\% in frames per second (FPS) for thermal and RGB detection, respectively, compared to the baseline YOLOv8n model. For community contribution, both the code and the multimodal dataset are available on GitHub.
翻訳日:2024-06-26 02:01:18 公開日:2024-06-23
# 単相コントラストヘビアン学習の2つの物語

Two Tales of Single-Phase Contrastive Hebbian Learning ( http://arxiv.org/abs/2402.08573v2 )

ライセンス: Link先を確認
Rasmus Kjær Høier, Christopher Zach, (参考訳) 生物学的に妥当な」学習アルゴリズムの探索は、勾配を活動差として表すという考え方に集約されている。 しかし、ほとんどのアプローチは高い同期(学習中の特定のフェーズ)を必要とし、かなりの計算オーバーヘッドを導入し、その生物学的な妥当性やニューロモルフィックコンピューティングの潜在的な有用性に疑問を呈する。 さらに、彼らは一般的に、ノイズの多い環境では非現実的である出力単位に無限小摂動 (nudges) を適用することに頼っている。 近年, 人工ニューロンを2つの正反対の区画を持つダイアドとしてモデル化することにより, 個別の学習フェーズや無限小ヌーディングを必要とせず, 性能ギャップをバックプロパゲーションに橋渡しする「デュアルプロパゲーション」という完全局所学習アルゴリズムが可能であることが示されている。 しかし、このアルゴリズムは、その数値安定性が、生物学的およびアナログ的な実装において制限的な対称ヌードに依存しているという欠点がある。 本研究は、まず、二重伝搬法の基礎となる目的のための堅固な基盤を提供し、また、対角的強靭性との驚くべき関係を明らかにした。 第二に、二重伝播が非対称なヌーディングによらず安定な特定の随伴状態法とどのように関連しているかを示す。

The search for ``biologically plausible'' learning algorithms has converged on the idea of representing gradients as activity differences. However, most approaches require a high degree of synchronization (distinct phases during learning) and introduce substantial computational overhead, which raises doubts regarding their biological plausibility as well as their potential utility for neuromorphic computing. Furthermore, they commonly rely on applying infinitesimal perturbations (nudges) to output units, which is impractical in noisy environments. Recently it has been shown that by modelling artificial neurons as dyads with two oppositely nudged compartments, it is possible for a fully local learning algorithm named ``dual propagation'' to bridge the performance gap to backpropagation, without requiring separate learning phases or infinitesimal nudging. However, the algorithm has the drawback that its numerical stability relies on symmetric nudging, which may be restrictive in biological and analog implementations. In this work we first provide a solid foundation for the objective underlying the dual propagation method, which also reveals a surprising connection with adversarial robustness. Second, we demonstrate how dual propagation is related to a particular adjoint state method, which is stable regardless of asymmetric nudging.
翻訳日:2024-06-26 02:01:18 公開日:2024-06-23
# 遅延フィードバックによるバンド凸最適化のレグレットの改善

Improved Regret for Bandit Convex Optimization with Delayed Feedback ( http://arxiv.org/abs/2402.09152v2 )

ライセンス: Link先を確認
Yuanyu Wan, Chang Yao, Mingli Song, Lijun Zhang, (参考訳) 遅延フィードバックを伴う帯域幅凸最適化(BCO)について検討し,任意の遅延の下で動作の損失値のみを明らかにする。 n,T,\bar{d}$ はそれぞれ次元、時間的地平線、平均遅延を表す。 従来の研究は、この問題に対して$O(\sqrt{n}T^{3/4}+(n\bar{d})^{1/3}T^{2/3})$ regret boundを達成した。 しかし、その遅延依存部分、すなわち$O((n\bar{d})^{1/3}T^{2/3})$と既存の$Omega(\sqrt{\bar{d}T})$下界との間には大きなギャップがある。 本稿では、このギャップを$\bar{d}$が最大遅延$d$に非常に近い最悪のケースで埋めることができることを示す。 具体的には、まず新しいアルゴリズムを開発し、一般に$O(\sqrt{n}T^{3/4}+\sqrt{dT})$の後悔境界を楽しんでいることを証明する。 前の結果と比較すると、我々の後悔境界は$d=O((n\bar{d})^{2/3}T^{1/3})$の方が良い。 一番の考え方は、遅延の連関効果と、遅延の連関フィードバックをブロック更新機構に注意深く組み込むことで、後悔に対する包括フィードバックとを分離することである。 さらに,提案アルゴリズムは,強い凸関数に対して$O((nT)^{2/3}\log^{1/3}T+d\log T)$に制限された後悔を改善することができることを示す。 最後に、作用集合が非制約であれば、強凸かつ滑らかな函数に対して、$O(n\sqrt{T\log T}+d\log T)$ regret bound を達成するために単純に拡張できることが示される。

We investigate bandit convex optimization (BCO) with delayed feedback, where only the loss value of the action is revealed under an arbitrary delay. Let $n,T,\bar{d}$ denote the dimensionality, time horizon, and average delay, respectively. Previous studies have achieved an $O(\sqrt{n}T^{3/4}+(n\bar{d})^{1/3}T^{2/3})$ regret bound for this problem, whose delay-independent part matches the regret of the classical non-delayed bandit gradient descent algorithm. However, there is a large gap between its delay-dependent part, i.e., $O((n\bar{d})^{1/3}T^{2/3})$, and an existing $\Omega(\sqrt{\bar{d}T})$ lower bound. In this paper, we illustrate that this gap can be filled in the worst case, where $\bar{d}$ is very close to the maximum delay $d$. Specifically, we first develop a novel algorithm, and prove that it enjoys a regret bound of $O(\sqrt{n}T^{3/4}+\sqrt{dT})$ in general. Compared with the previous result, our regret bound is better for $d=O((n\bar{d})^{2/3}T^{1/3})$, and the delay-dependent part is tight in the worst case. The primary idea is to decouple the joint effect of the delays and the bandit feedback on the regret by carefully incorporating the delayed bandit feedback with a blocking update mechanism. Furthermore, we show that the proposed algorithm can improve the regret bound to $O((nT)^{2/3}\log^{1/3}T+d\log T)$ for strongly convex functions. Finally, if the action sets are unconstrained, we demonstrate that it can be simply extended to achieve an $O(n\sqrt{T\log T}+d\log T)$ regret bound for strongly convex and smooth functions.
翻訳日:2024-06-26 02:01:18 公開日:2024-06-23
# 分散オンライン凸最適化のためのほぼ最適レグレット

Nearly Optimal Regret for Decentralized Online Convex Optimization ( http://arxiv.org/abs/2402.09173v2 )

ライセンス: Link先を確認
Yuanyu Wan, Tong Wei, Mingli Song, Lijun Zhang, (参考訳) 分散オンライン凸最適化(D-OCO)について検討し、局所的な計算と通信のみを用いて、グローバルな損失関数の列を最小化するために、一組のローカル学習者が要求される。 これまでの研究では、$O(n^{5/4}\rho^{-1/2}\sqrt{T})$および${O}(n^{3/2}\rho^{-1}\log T)$ regret bounds for convex and strong convex function, where $n$ is the number of local learners, $\rho<1$ is the gap of the communication matrix, $T$ is the time horizon。 しかし、既存の下界からの大きなギャップ、すなわち凸函数の$Omega(n\sqrt{T})$、強凸函数の$Omega(n)$がある。 これらのギャップを埋めるために、まず、凸関数と強凸関数の後悔境界をそれぞれ$\tilde{O}(n\rho^{-1/4}\sqrt{T})$と$\tilde{O}(n\rho^{-1/2}\log T)$に還元できる新しいD-OCOアルゴリズムを開発する。 主な手法は,地域学習者の間で,より高速なコンセンサスを享受するオンライン・アクセラレーション型ゴシップ・ストラテジーを設計することである。 さらに、特定のネットワークトポロジーのスペクトル特性を慎重に活用することにより、凸関数と強凸関数の下位境界をそれぞれ$\Omega(n\rho^{-1/4}\sqrt{T})$と$\Omega(n\rho^{-1/2})$に拡張する。 これらの下限は、我々のアルゴリズムが$T$, $n$, $\rho$の点でほぼ最適であることを示している。

We investigate decentralized online convex optimization (D-OCO), in which a set of local learners are required to minimize a sequence of global loss functions using only local computations and communications. Previous studies have established $O(n^{5/4}\rho^{-1/2}\sqrt{T})$ and ${O}(n^{3/2}\rho^{-1}\log T)$ regret bounds for convex and strongly convex functions respectively, where $n$ is the number of local learners, $\rho<1$ is the spectral gap of the communication matrix, and $T$ is the time horizon. However, there exist large gaps from the existing lower bounds, i.e., $\Omega(n\sqrt{T})$ for convex functions and $\Omega(n)$ for strongly convex functions. To fill these gaps, in this paper, we first develop novel D-OCO algorithms that can respectively reduce the regret bounds for convex and strongly convex functions to $\tilde{O}(n\rho^{-1/4}\sqrt{T})$ and $\tilde{O}(n\rho^{-1/2}\log T)$. The primary technique is to design an online accelerated gossip strategy that enjoys a faster average consensus among local learners. Furthermore, by carefully exploiting the spectral properties of a specific network topology, we enhance the lower bounds for convex and strongly convex functions to $\Omega(n\rho^{-1/4}\sqrt{T})$ and $\Omega(n\rho^{-1/2})$, respectively. These lower bounds suggest that our algorithms are nearly optimal in terms of $T$, $n$, and $\rho$.
翻訳日:2024-06-26 02:01:18 公開日:2024-06-23
# ベイジアン設定における固定信頼度ベストアーム識別

Fixed Confidence Best Arm Identification in the Bayesian Setting ( http://arxiv.org/abs/2402.10429v2 )

ライセンス: Link先を確認
Kyoungseok Jang, Junpei Komiyama, Kazutoshi Yamazaki, (参考訳) ベイズ設定における固定信頼度ベストアーム識別(FC-BAI)問題を考察する。 この問題は、既知の既知値からバンディットモデルがサンプリングされたときに、信頼度が固定された最大の平均のアームを見つけることを目的としている。 FC-BAI問題に関するほとんどの研究は、ゲーム開始前にバンディットモデルが決められた頻繁な設定で行われている。 従来のFC-BAIアルゴリズムは、トラック・アンド・ストップやトップ2などの頻繁な設定で研究されており、ベイズ設定では任意に準最適性能が得られることを示す。 また,ベイジアン設定におけるサンプルの期待値の低い値を取得し,対数係数までの下位値との整合性を持つ逐次除去の変種を導入する。 シミュレーションは理論結果を検証する。

We consider the fixed-confidence best arm identification (FC-BAI) problem in the Bayesian setting. This problem aims to find the arm of the largest mean with a fixed confidence level when the bandit model has been sampled from the known prior. Most studies on the FC-BAI problem have been conducted in the frequentist setting, where the bandit model is predetermined before the game starts. We show that the traditional FC-BAI algorithms studied in the frequentist setting, such as track-and-stop and top-two algorithms, result in arbitrarily suboptimal performances in the Bayesian setting. We also obtain a lower bound of the expected number of samples in the Bayesian setting and introduce a variant of successive elimination that has a matching performance with the lower bound up to a logarithmic factor. Simulations verify the theoretical results.
翻訳日:2024-06-26 02:01:18 公開日:2024-06-23
# DriveVLM: 自律走行と大規模ビジョンランゲージモデルの収束性

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models ( http://arxiv.org/abs/2402.12289v4 )

ライセンス: Link先を確認
Xiaoyu Tian, Junru Gu, Bailin Li, Yicheng Liu, Yang Wang, Zhiyong Zhao, Kun Zhan, Peng Jia, Xianpeng Lang, Hang Zhao, (参考訳) 都市環境における自律運転の主なハードルは、困難な道路条件や繊細な人間の行動など、複雑で長い尾のシナリオを理解することである。 本稿では,視覚言語モデル(VLM)を活用した自律走行システムであるDriveVLMを紹介した。 DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。 さらに,空間的推論におけるVLMの限界を認識し,従来の自律走行パイプラインとDriveVLMの強みを相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。 nuScenesデータセットとSUP-ADデータセットの両方の実験は、複雑で予測不能な運転条件に対するDriveVLMとDriveVLM-Dualの有効性を示した。 最後に、実車にDriveVLM-Dualを配備し、実際の自動運転環境で有効であることを検証した。

A primary hurdle of autonomous driving in urban environments is understanding complex and long-tail scenarios, such as challenging road conditions and delicate human behaviors. We introduce DriveVLM, an autonomous driving system leveraging Vision-Language Models (VLMs) for enhanced scene understanding and planning capabilities. DriveVLM integrates a unique combination of reasoning modules for scene description, scene analysis, and hierarchical planning. Furthermore, recognizing the limitations of VLMs in spatial reasoning and heavy computational requirements, we propose DriveVLM-Dual, a hybrid system that synergizes the strengths of DriveVLM with the traditional autonomous driving pipeline. Experiments on both the nuScenes dataset and our SUP-AD dataset demonstrate the efficacy of DriveVLM and DriveVLM-Dual in handling complex and unpredictable driving conditions. Finally, we deploy the DriveVLM-Dual on a production vehicle, verifying it is effective in real-world autonomous driving environments.
翻訳日:2024-06-26 01:51:30 公開日:2024-06-23
# データアノテーションのための大規模言語モデル:調査

Large Language Models for Data Annotation: A Survey ( http://arxiv.org/abs/2402.13446v2 )

ライセンス: Link先を確認
Zhen Tan, Dawei Li, Song Wang, Alimohammad Beigi, Bohan Jiang, Amrita Bhattacharjee, Mansooreh Karami, Jundong Li, Lu Cheng, Huan Liu, (参考訳) データアノテーションは一般的に、関連する情報による生データのラベル付けや生成を指し、機械学習モデルの有効性を改善するために使用できる。 しかし、このプロセスは労働集約的でコストがかかる。 GPT-4で実証された高度な大規模言語モデル(LLM)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。 既存の調査では、LLMアーキテクチャ、トレーニング、一般的なアプリケーションについて広範囲にカバーされていますが、データアノテーションの特定のユーティリティに特化しています。 この調査は、LLMベースのアノテーション生成、LLM生成アノテーションアセスメント、LLM生成アノテーション利用の3つの中核的な側面に貢献する。 さらに、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略の包括的なレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論を含む。 本調査は,データアノテーションにおける最新のLSMの可能性を探究する研究者や実践者を支援することを目的として,この重要な分野における今後の進歩を促進することを目的とする。

Data annotation generally refers to the labeling or generating of raw data with relevant information, which could be used for improving the efficacy of machine learning models. The process, however, is labor-intensive and costly. The emergence of advanced Large Language Models (LLMs), exemplified by GPT-4, presents an unprecedented opportunity to automate the complicated process of data annotation. While existing surveys have extensively covered LLM architecture, training, and general applications, we uniquely focus on their specific utility for data annotation. This survey contributes to three core aspects: LLM-Based Annotation Generation, LLM-Generated Annotations Assessment, and LLM-Generated Annotations Utilization. Furthermore, this survey includes an in-depth taxonomy of data types that LLMs can annotate, a comprehensive review of learning strategies for models utilizing LLM-generated annotations, and a detailed discussion of the primary challenges and limitations associated with using LLMs for data annotation. Serving as a key guide, this survey aims to assist researchers and practitioners in exploring the potential of the latest LLMs for data annotation, thereby fostering future advancements in this critical field.
翻訳日:2024-06-26 01:51:30 公開日:2024-06-23
# 戦略的自己選択に基づく分類

Classification Under Strategic Self-Selection ( http://arxiv.org/abs/2402.15274v2 )

ライセンス: Link先を確認
Guy Horowitz, Yonatan Sommer, Moran Koren, Nir Rosenfeld, (参考訳) 特定の予測から得られると、ユーザーは戦略的に行動し、好ましい予測結果を得る傾向にある。 戦略的分類に関するほとんどの研究は、機能修正として表されるユーザアクションを考慮しているが、学習された分類器に応答して、ユーザーが決定する新しい設定について研究している。 戦略的認知度を高めるための学習手法として,自己選択が学習に与える影響と,自己選択集団の構成に学習が与える影響について検討する。 次に,自己選択行動下での学習を効果的に最適化できる,識別可能なフレームワークを提案する。 我々は、実データの実験と、我々の分析を補完し、我々のアプローチの有用性を実証するシミュレートされた行動で締めくくります。

When users stand to gain from certain predictions, they are prone to act strategically to obtain favorable predictive outcomes. Whereas most works on strategic classification consider user actions that manifest as feature modifications, we study a novel setting in which users decide -- in response to the learned classifier -- whether to at all participate (or not). For learning approaches of increasing strategic awareness, we study the effects of self-selection on learning, and the implications of learning on the composition of the self-selected population. We then propose a differentiable framework for learning under self-selective behavior, which can be optimized effectively. We conclude with experiments on real data and simulated behavior that both complement our analysis and demonstrate the utility of our approach.
翻訳日:2024-06-26 01:51:30 公開日:2024-06-23
# 対称性インフォームド量子メトロジーの第一原理構築

First principles construction of symmetry-informed quantum metrologies ( http://arxiv.org/abs/2402.16410v3 )

ライセンス: Link先を確認
Jesús Rubio, (参考訳) 量子とベイズ原理の組み合わせは、メトロジーにおいて最適性をもたらすが、関連する最適化方程式はしばしば解決が難しい。 この研究は、この問題を、位置パラメータに同型な量の測定戦略の新たなクラスで緩和し、閉形式最適化が認められることを示した。 得られたフレームワークはパラメータ範囲、事前情報、状態を認め、関連する推定器は有限標本に適用される。 一例として、相対重みの距離論は第一原理から定式化され、双曲的誤差を必要とすることが示されている。 このアプローチの最大の利点は、その単純化力である: 対称性が最大の無知不変な状態を残しているかを特定するための良い戦略の探索を減らすことである。 これにより量子力学の基本的な物理学への応用が促進され、そこでは対称性が重要な役割を果たす。

Combining quantum and Bayesian principles leads to optimality in metrology, but the optimisation equations involved are often hard to solve. This work mitigates this problem with a novel class of measurement strategies for quantities isomorphic to location parameters, which are shown to admit a closed-form optimisation. The resulting framework admits any parameter range, prior information, or state, and the associated estimators apply to finite samples. As an example, the metrology of relative weights is formulated from first principles and shown to require hyperbolic errors. The primary advantage of this approach lies in its simplifying power: it reduces the search for good strategies to identifying which symmetry leaves a state of maximum ignorance invariant. This will facilitate the application of quantum metrology to fundamental physics, where symmetries play a key role.
翻訳日:2024-06-26 01:51:30 公開日:2024-06-23
# Latent Transparency を用いた透過層拡散

Transparent Image Layer Diffusion using Latent Transparency ( http://arxiv.org/abs/2402.17113v4 )

ライセンス: Link先を確認
Lvmin Zhang, Maneesh Agrawala, (参考訳) 本稿では,大規模な事前学習型潜伏拡散モデルを用いて透過的な画像を生成する手法であるLayerDiffuseを提案する。 この方法は、単一の透明な画像や複数の透明な層を生成することができる。 この手法は,アルファチャネル透過性を事前学習した潜伏拡散モデルの潜伏多様体に符号化する「潜伏透過性」を学習する。 事前訓練されたモデルの本来の潜伏分布に最小限の変更を加えて、付加された透明性を潜伏オフセットとして調節することにより、大規模な拡散モデルの生産可能な品質を保っている。 このようにして、調整された潜伏空間で微調整することで、任意の潜伏拡散モデルを透明な画像生成器に変換することができる。 1Mの透明な画像層ペアでトレーニングを行う。 本研究では,様々なオープンソース画像生成装置に潜時透過性を適用したり,各種条件制御システムに適応して,前景/バックグラウンド条件付き層生成,接合層生成,層内容の構造制御などの応用を実現できることを示す。 ユーザ調査によると、ほとんどのケース(97%)のユーザは、生成やマッチングといった従来のアドホックなソリューションよりも、ネイティブに生成された透明なコンテンツを好む。 ユーザが生成した透明な画像の品質は、Adobe Stockのような本物の商用透明な資産に匹敵する。

We present LayerDiffuse, an approach enabling large-scale pretrained latent diffusion models to generate transparent images. The method allows generation of single transparent images or of multiple transparent layers. The method learns a "latent transparency" that encodes alpha channel transparency into the latent manifold of a pretrained latent diffusion model. It preserves the production-ready quality of the large diffusion model by regulating the added transparency as a latent offset with minimal changes to the original latent distribution of the pretrained model. In this way, any latent diffusion model can be converted into a transparent image generator by finetuning it with the adjusted latent space. We train the model with 1M transparent image layer pairs collected using a human-in-the-loop collection scheme. We show that latent transparency can be applied to different open source image generators, or be adapted to various conditional control systems to achieve applications like foreground/background-conditioned layer generation, joint layer generation, structural control of layer contents, etc. A user study finds that in most cases (97%) users prefer our natively generated transparent content over previous ad-hoc solutions such as generating and then matting. Users also report the quality of our generated transparent images is comparable to real commercial transparent assets like Adobe Stock.
翻訳日:2024-06-26 01:51:30 公開日:2024-06-23
# 構文対応型コードフィルインザミドルタスクにおけるLCMの評価

Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks ( http://arxiv.org/abs/2403.04814v3 )

ライセンス: Link先を確認
Linyuan Gong, Sida Wang, Mostafa Elhoushi, Alvin Cheung, (参考訳) 本研究では,SAFIM (Syntax-Aware Fill-in-the-Middle) を導入し,File-in-the-Middle (FIM) タスク上でLLM(Large Language Models) を評価する。 このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てており、データ汚染を最小限に抑えるため、2022年4月以降の最近のコード提出から得られた、複数のプログラミング言語の17,720の例を含んでいる。 SAFIMは、様々なプロンプト設計と新しい構文認識後処理技術を備えた堅牢なフレームワークを提供し、LLM間の正確かつ公正な比較を容易にする。 15個のLLMの総合的な評価から,FIMプレトレーニングはFIMの熟練度を高めるだけでなく,L2R(Left-to-Right)推論を改善することが示唆された。 以上の結果から,事前学習手法やデータ品質がモデルサイズよりも大きな影響を与える可能性が示唆された。 したがって、SAFIMは将来のコードLLMの効果的な事前学習戦略研究の基盤となる。 評価ツールキットとデータセットはhttps://github.com/gonglinyuan/safimで、リーダーボードはhttps://safimbenchmark.comで入手できる。

We introduce Syntax-Aware Fill-In-the-Middle (SAFIM), a new benchmark for evaluating Large Language Models (LLMs) on the code Fill-in-the-Middle (FIM) task. This benchmark focuses on syntax-aware completions of program structures such as code blocks and conditional expressions, and includes 17,720 examples from multiple programming languages, sourced from recent code submissions after April 2022 to minimize data contamination. SAFIM provides a robust framework with various prompt designs and novel syntax-aware post-processing techniques, facilitating accurate and fair comparisons across LLMs. Our comprehensive evaluation of 15 LLMs shows that FIM pretraining not only enhances FIM proficiency but also improves Left-to-Right (L2R) inference using LLMs. Our findings challenge conventional beliefs and suggest that pretraining methods and data quality have more impact than model size. SAFIM thus serves as a foundational platform for future research in effective pretraining strategies for code LLMs. The evaluation toolkit and dataset are available at https://github.com/gonglinyuan/safim, and the leaderboard is available at https://safimbenchmark.com.
翻訳日:2024-06-26 01:31:59 公開日:2024-06-23
# スパース補間専門家によるファウショット一般化のためのメタチューニングのパワーの解放

Unleashing the Power of Meta-tuning for Few-shot Generalization Through Sparse Interpolated Experts ( http://arxiv.org/abs/2403.08477v2 )

ライセンス: Link先を確認
Shengzhuang Chen, Jihoon Tack, Yunqiao Yang, Yee Whye Teh, Jonathan Richard Schwarz, Ying Wei, (参考訳) 近年の成功は、メタラーニングのような代替案の豊富な文献を置き換える、視覚における伝達学習の最先端の手法として、基礎モデルのパラメータ効率の良い微調整が示唆されている。 両方の世界の長所を活用すべく、メタチューニングはその後、基礎モデルの最適化段階を導入するが、今のところ成功は限定的であり、アウト・オブ・ディストリビューション(OOD)のタスクでは過小評価されがちである。 本稿では,Sparse MetA-Tuning(SMAT)について紹介する。これはSparse Mixed-of-Expertsアプローチにインスパイアされた手法で,各タスクのメタチューニングのために,事前学習したパラメータのサブセットを自動的に分離するように訓練されている。 SMATはOOD感度を克服し、パラメータ効率の良い微調整以上の視覚基盤モデルの伝達能力を向上するという約束を果たす。 ゼロショットとグラデーションベースのアダプション設定の両方において、メタデータセットとOODタスクを併用した挑戦的な組み合わせにより、最先端の新たな結果を確立する。 さらに,スパース・エキスパート・メソッドにおいて,手作業で設計したスパース・パターンよりも学習したスパース・パターンの優越性や,分布内と分布外一般化のバランスをとる上でのスパース・レベルの重要性について,徹底的に分析した。 私たちのコードは公開されています。

Recent successes suggest that parameter-efficient fine-tuning of foundation models as the state-of-the-art method for transfer learning in vision, replacing the rich literature of alternatives such as meta-learning. In trying to harness the best of both worlds, meta-tuning introduces a subsequent optimization stage of foundation models but has so far only shown limited success and crucially tends to underperform on out-of-distribution (OOD) tasks. In this paper, we introduce Sparse MetA-Tuning (SMAT), a method inspired by sparse mixture-of-experts approaches and trained to isolate subsets of pre-trained parameters automatically for meta-tuning on each task. SMAT successfully overcomes OOD sensitivity and delivers on the promise of enhancing the transfer abilities of vision foundation models beyond parameter-efficient fine-tuning. We establish new state-of-the-art results on a challenging combination of Meta-Dataset augmented with additional OOD tasks in both zero-shot and gradient-based adaptation settings. In addition, we provide a thorough analysis of the superiority of learned over hand-designed sparsity patterns for sparse expert methods and the pivotal importance of the sparsity level in balancing between in-distribution and out-of-distribution generalization. Our code is publicly available.
翻訳日:2024-06-26 01:31:59 公開日:2024-06-23
# 障害とモニタリングにより局在したシステムにおける単一粒子波動関数の非破壊

Unscrambling of single-particle wave functions in systems localized through disorder and monitoring ( http://arxiv.org/abs/2403.10725v3 )

ライセンス: Link先を確認
Marcin Szyniszewski, (参考訳) 障害やモニタリングによる局在化-非局在化量子相転移を行うシステムでは、位相を識別し、固有の性質を明らかにすることのできるロバストな方法が不可欠である。 本研究では,局所粒子を正確に特徴付ける自由フェルミオン波動関数のスレーター決定式を求める過程,すなわち「アンスクラムリング」を解く過程を開発する。 中心となる考え方は、単一粒子波動関数のエンベロープ間の重なりを最小化すること、または等価に、各軌道の逆参加比を最大化することである。 この数値的に効率的な手法は、指数的局所化(英語版)、パワーロー局所化(英語版)、コンフォメーションクリティカル(英語版)といった異なる種類の波動関数を区別することができる。 この方法は、より高次元のシステムに容易に拡張可能である。 さらに,不規則な監視自由フェルミオンを1次元に含むより困難な問題に適用し,非破壊過程が共形臨界相と局所化領域法量子Zeno相の存在を明らかにする。 本手法は粒子数保存のない自由フェルミオン系にも拡張可能であり, $\mathbb{Z}_2$-symmetric disordered monitored free fermion の位相図を推定して実演する。 その結果, 単一粒子波動関数を応用して, 観測された自由フェルミオンや乱れモデルなどのシステムにおける局在化遷移特性について, 貴重な知見を得ることが可能となった。

In systems undergoing localization-delocalization quantum phase transitions due to disorder or monitoring, there is a crucial need for robust methods capable of distinguishing phases and uncovering their intrinsic properties. In this work, we develop a process of finding a Slater determinant representation of free-fermion wave functions that accurately characterizes localized particles, a procedure we dub "unscrambling". The central idea is to minimize the overlap between envelopes of single-particle wave functions or, equivalently, to maximize the inverse participation ratio of each orbital. This numerically efficient methodology can differentiate between distinct types of wave functions: exponentially localized, power-law localized, and conformal critical, also revealing the underlying physics of these states. The method is readily extendable to systems in higher dimensions. Furthermore, we apply this approach to a more challenging problem involving disordered monitored free fermions in one dimension, where the unscrambling process unveils the presence of a conformal critical phase and a localized area-law quantum Zeno phase. Importantly, our method can also be extended to free fermion systems without particle number conservation, which we demonstrate by estimating the phase diagram of $\mathbb{Z}_2$-symmetric disordered monitored free fermions. Our results unlock the potential of utilizing single-particle wave functions to gain valuable insights into the localization transition properties in systems such as monitored free fermions and disordered models.
翻訳日:2024-06-26 01:31:59 公開日:2024-06-23
# LSKNet: リモートセンシングのための基礎的な軽量バックボーン

LSKNet: A Foundation Lightweight Backbone for Remote Sensing ( http://arxiv.org/abs/2403.11735v4 )

ライセンス: Link先を確認
Yuxuan Li, Xiang Li, Yimian Dai, Qibin Hou, Li Liu, Yongxiang Liu, Ming-Ming Cheng, Jian Yang, (参考訳) リモートセンシング画像は、その固有の複雑さのために、下流のタスクに対して異なる課題を生じさせる。 リモートセンシング分類、オブジェクト検出、セマンティックセグメンテーションに多くの研究がなされているが、これらの研究の多くは、リモートセンシングシナリオに埋め込まれた貴重な事前知識を見落としている。 このような事前知識は、遠隔センシングオブジェクトが十分に長い範囲のコンテキストを参照せずに誤って認識され、異なるオブジェクトに対して異なる可能性があるため、有用である。 本稿では,これらの前提を考察し,軽量なLarge Selective Kernel Network(LSKNet)のバックボーンを提案する。 LSKNetはその大きな空間受容場を動的に調整し、リモートセンシングシナリオにおける様々なオブジェクトの範囲をモデル化する。 我々の知る限り、大規模で選択的なカーネル機構は、これまでリモートセンシング画像では研究されていない。 我々の軽量LSKNetは、標準リモートセンシング分類、オブジェクト検出、セマンティックセグメンテーションベンチマークに基づいて、最先端のスコアを設定しています。 包括的分析により、同定された事前の意義とLSKNetの有効性がさらに検証された。 コードはhttps://github.com/zcablii/LSKNetで公開されている。

Remote sensing images pose distinct challenges for downstream tasks due to their inherent complexity. While a considerable amount of research has been dedicated to remote sensing classification, object detection and semantic segmentation, most of these studies have overlooked the valuable prior knowledge embedded within remote sensing scenarios. Such prior knowledge can be useful because remote sensing objects may be mistakenly recognized without referencing a sufficiently long-range context, which can vary for different objects. This paper considers these priors and proposes a lightweight Large Selective Kernel Network (LSKNet) backbone. LSKNet can dynamically adjust its large spatial receptive field to better model the ranging context of various objects in remote sensing scenarios. To our knowledge, large and selective kernel mechanisms have not been previously explored in remote sensing images. Without bells and whistles, our lightweight LSKNet sets new state-of-the-art scores on standard remote sensing classification, object detection and semantic segmentation benchmarks. Our comprehensive analysis further validated the significance of the identified priors and the effectiveness of LSKNet. The code is available at https://github.com/zcablii/LSKNet.
翻訳日:2024-06-26 01:22:15 公開日:2024-06-23
# EthioLLM:タスク評価を伴うエチオピア語用多言語大言語モデル

EthioLLM: Multilingual Large Language Models for Ethiopian Languages with Task Evaluation ( http://arxiv.org/abs/2403.13737v4 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Israel Abebe Azime, Tadesse Destaw Belay, Mesay Gemeda Yigezu, Moges Ahmed Mehamed, Abinew Ali Ayele, Ebrahim Chekol Jibril, Michael Melese Woldeyohannis, Olga Kolesnikova, Philipp Slusallek, Dietrich Klakow, Shengwu Xiong, Seid Muhie Yimam, (参考訳) 大規模言語モデル(LLM)は、最近、様々な下流自然言語処理(NLP)タスクにおける優れたパフォーマンスのために人気を博している。 しかし、低リソース言語は、LLMを訓練するリソースが不足しているため、NLP分野における現在の最先端(SOTA)開発に遅れを取っている。 エチオピア語は言語学的多様性が顕著で、様々な文字が包含されており、宗教的・文化的意義が深い。 本稿では,エチオピア語5言語(Amharic, Ge'ez, Afan Oromo, Somali, Tigrinya)と英語の多言語大言語モデルであるEthioLLMと,下流NLPタスクのための新しいベンチマークデータセットであるEthiobenchmarkを紹介する。 我々は、これらのモデルの性能を5つの下流NLPタスクで評価する。 我々は、多言語言語モデル、様々な下流タスクのための新しいベンチマークデータセット、タスク固有の微調整言語モデルをオープンソース化し、モデルの性能について議論する。 私たちのデータセットとモデルはhttps://huggingface.co/EthioNLPリポジトリで公開されています。

Large language models (LLMs) have gained popularity recently due to their outstanding performance in various downstream Natural Language Processing (NLP) tasks. However, low-resource languages are still lagging behind current state-of-the-art (SOTA) developments in the field of NLP due to insufficient resources to train LLMs. Ethiopian languages exhibit remarkable linguistic diversity, encompassing a wide array of scripts, and are imbued with profound religious and cultural significance. This paper introduces EthioLLM -- multilingual large language models for five Ethiopian languages (Amharic, Ge'ez, Afan Oromo, Somali, and Tigrinya) and English, and Ethiobenchmark -- a new benchmark dataset for various downstream NLP tasks. We evaluate the performance of these models across five downstream NLP tasks. We open-source our multilingual language models, new benchmark datasets for various downstream tasks, and task-specific fine-tuned language models and discuss the performance of the models. Our dataset and models are available at the https://huggingface.co/EthioNLP repository.
翻訳日:2024-06-26 01:22:15 公開日:2024-06-23
# ニューラルネットワークインテリジェンスに関する調査

A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond ( http://arxiv.org/abs/2403.14734v2 )

ライセンス: Link先を確認
Qiushi Sun, Zhirui Chen, Fangzhi Xu, Kanzhi Cheng, Chang Ma, Zhangyue Yin, Jianing Wang, Chengcheng Han, Renyu Zhu, Shuai Yuan, Qipeng Guo, Xipeng Qiu, Pengcheng Yin, Xiaoli Li, Fei Yuan, Lingpeng Kong, Xiang Li, Zhiyong Wu, (参考訳) ディープラーニングを活用してコードを理解し、生成し、最適化するニューラル・コード・インテリジェンスは、社会全体に変革をもたらす大きな可能性を秘めている。 自然言語とプログラミング言語のギャップを埋めて、このドメインは、過去数年間、両方の研究コミュニティの研究者から大きな注目を集めてきた。 この調査では、50以上の代表モデルとその変種、20以上のタスクカテゴリ、および680以上の関連研究を網羅した、コードインテリジェンスの進歩に関する体系的および時系列的なレビューを提示する。 我々は、異なる研究フェーズ(例えば、リカレントニューラルネットワークによるコードモデリングから、大規模言語モデルの時代まで)にわたるパラダイムシフトをトレースするために、歴史的な進歩を追及する。 同時に、さまざまな段階にまたがるモデル、タスク、評価における主要な技術的な変遷を強調します。 アプリケーションでは、共に進化するシフトも観察します。 初期の取り組みから特定のシナリオへの対処まで、その急速な拡張の間にさまざまなタスクを探索し、現在ますます複雑で多様な現実世界の課題に取り組むことに集中している。 発達軌跡の考察に基づき、コードインテリジェンスとより広範なマシンインテリジェンスとの新たな相乗効果について検討し、新たなクロスドメインの機会を明らかにし、コードインテリジェンスが様々な領域にまたがる実質的な影響を明らかにした。 最後に、この分野での機会と課題を掘り下げ、最も有望な研究方向性についての洞察を解明する。 この調査に関連する、動的に更新されたプロジェクトとリソースがhttps://github.com/QiushiSun/NCISurvey.comでリリースされた。

Neural Code Intelligence -- leveraging deep learning to understand, generate, and optimize code -- holds immense potential for transformative impacts on the whole society. Bridging the gap between Natural Language and Programming Language, this domain has drawn significant attention from researchers in both research communities over the past few years. This survey presents a systematic and chronological review of the advancements in code intelligence, encompassing over 50 representative models and their variants, more than 20 categories of tasks, and an extensive coverage of over 680 related works. We follow the historical progression to trace the paradigm shifts across different research phases (e.g., from modeling code with recurrent neural networks to the era of Large Language Models). Concurrently, we highlight the major technical transitions in models, tasks, and evaluations spanning through different stages. For applications, we also observe a co-evolving shift. It spans from initial endeavors to tackling specific scenarios, through exploring a diverse array of tasks during its rapid expansion, to currently focusing on tackling increasingly complex and varied real-world challenges. Building on our examination of the developmental trajectories, we further investigate the emerging synergies between code intelligence and broader machine intelligence, uncovering new cross-domain opportunities and illustrating the substantial influence of code intelligence across various domains. Finally, we delve into both the opportunities and challenges associated with this field, alongside elucidating our insights on the most promising research directions. An ongoing, dynamically updated project and resources associated with this survey have been released at https://github.com/QiushiSun/NCISurvey.
翻訳日:2024-06-26 01:22:15 公開日:2024-06-23
# LLM推論のための拡張トークン計算

Extending Token Computation for LLM Reasoning ( http://arxiv.org/abs/2403.14932v3 )

ライセンス: Link先を確認
Bingli Liao, Danilo Vasconcellos Vargas, (参考訳) 大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素であるが、非効率な注意分布のために複雑な推論タスクに苦慮することが多い。 本稿では,計算トークンの増大がLLM性能に与える影響を考察し,注意機構の最適化を利用して,計算トークンをCoTプロセスで拡張する方法を提案する。 ドメイン固有で高度に構造化されたデータセット上でLLMを微調整することにより、層間における注意パターンを解析し、非意味トークンによる非意味な注意スコアによる非効率性を特定する。 そこで本研究では、下流層にまたがる早期の注意パターンをエミュレートして、歪んだ注意分布を再バランスさせ、知識抽象化を強化するアルゴリズムを提案する。 提案手法は, LLMの内部力学の深い理解を促進するだけでなく, 特に非STEM領域において, 推論能力を大幅に向上させることが示唆された。 我々の研究は、LLM設計におけるさらなる革新の土台を築き、より強力で、多目的で、幅広い現実世界のアプリケーションに対処できる責任あるモデルを作ることを目的としています。

Large Language Models (LLMs) are pivotal in advancing natural language processing but often struggle with complex reasoning tasks due to inefficient attention distributions. In this paper, we explore the effect of increased computed tokens on LLM performance and introduce a novel method for extending computed tokens in the Chain-of-Thought (CoT) process, utilizing attention mechanism optimization. By fine-tuning an LLM on a domain-specific, highly structured dataset, we analyze attention patterns across layers, identifying inefficiencies caused by non-semantic tokens with outlier high attention scores. To address this, we propose an algorithm that emulates early layer attention patterns across downstream layers to re-balance skewed attention distributions and enhance knowledge abstraction. Our findings demonstrate that our approach not only facilitates a deeper understanding of the internal dynamics of LLMs but also significantly improves their reasoning capabilities, particularly in non-STEM domains. Our study lays the groundwork for further innovations in LLM design, aiming to create more powerful, versatile, and responsible models capable of tackling a broad range of real-world applications.
翻訳日:2024-06-26 01:22:15 公開日:2024-06-23
# LLMs in the Loop:低リソース言語におけるアクティブラーニングのための大規模言語モデルアノテーションの活用

LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages ( http://arxiv.org/abs/2404.02261v2 )

ライセンス: Link先を確認
Nataliia Kholodna, Sahib Julka, Mohammad Khodadadi, Muhammed Nurullah Gumus, Michael Granitzer, (参考訳) 低リソースの言語は、限られた言語資源とデータラベリングの専門知識のために、AI開発において重大な障壁に直面しており、それらを稀で高価なものにしている。 データの不足と既存のツールの欠如はこれらの課題を悪化させ、特にこれらの言語は様々なNLPデータセットで適切に表現されない可能性がある。 このギャップに対処するために、データアノテーションのアクティブ学習ループにおけるLLMの可能性を活用することを提案する。 当初我々は,アノテータ間の整合性と整合性を評価するために評価を行い,適切なLLMアノテータの選択を容易にする。 選択されたアノテーションは、アクティブラーニングパラダイムを使用して分類器のトレーニングループに統合され、必要なクエリデータの量を最小限にする。 GPT-4-Turboを用いた実証的な評価は、人間のアノテーションと比較して少なくとも42.45倍のコスト削減が予想されるように、データ要求を著しく削減した最先端の性能を示している。 提案手法は,低リソース環境における自動化に伴う金融コストと計算コストを大幅に削減する可能性を示している。 低リソース言語とAIのギャップを埋めることによって、このアプローチはより広範な包摂性を促進し、多様な言語環境における自動化を可能にする可能性を示している。

Low-resource languages face significant barriers in AI development due to limited linguistic resources and expertise for data labeling, rendering them rare and costly. The scarcity of data and the absence of preexisting tools exacerbate these challenges, especially since these languages may not be adequately represented in various NLP datasets. To address this gap, we propose leveraging the potential of LLMs in the active learning loop for data annotation. Initially, we conduct evaluations to assess inter-annotator agreement and consistency, facilitating the selection of a suitable LLM annotator. The chosen annotator is then integrated into a training loop for a classifier using an active learning paradigm, minimizing the amount of queried data required. Empirical evaluations, notably employing GPT-4-Turbo, demonstrate near-state-of-the-art performance with significantly reduced data requirements, as indicated by estimated potential cost savings of at least 42.45 times compared to human annotation. Our proposed solution shows promising potential to substantially reduce both the monetary and computational costs associated with automation in low-resource settings. By bridging the gap between low-resource languages and AI, this approach fosters broader inclusion and shows the potential to enable automation across diverse linguistic landscapes.
翻訳日:2024-06-26 01:12:30 公開日:2024-06-23
# 効率的なサーモグラフィー分類とセグメンテーションのための潜水剤の有効利用

Leveraging Latents for Efficient Thermography Classification and Segmentation ( http://arxiv.org/abs/2404.06589v2 )

ライセンス: Link先を確認
Tamir Shor, Chaim Baskin, Alex Bronstein, (参考訳) 乳がんは世界中で顕著な健康上の問題であり、現在、女性の中では2番目に一般的で、2番目に遅れやすい種類のがんである。 現在の乳癌の診断は主にマンモグラフィーに頼っているが、近年は乳がん画像へのサーモグラフィーの使用が人気が高まっている。 サーモグラフィー画像は、体から放出された熱の分布を捉えるために赤外線カメラに依存している。 これらの熱シグネチャは、正確な乳癌の分類と分類のためのコンピュータビジョンシステムに有用であることが証明されているが、以前の研究は手作りの特徴工学や複雑なアーキテクチャに依存しており、これらの手法の互換性と適用性を制限する可能性がある。 本研究では,乳癌の分類とセグメンテーションのための新しいアルゴリズムを提案する。 手動の機能とアーキテクチャ工学に重点を置くのではなく、私たちのアルゴリズムは、情報に富んだ学習済みの機能空間を活用することに集中し、ソリューションを他のフレームワークや下流タスクに使いやすく拡張し、データスカース設定にもより適用できるようにします。 分類はSOTAの結果を生成するが,本論文で研究したセグメンテーション領域の創出は今回が初めてである。

Breast cancer is a prominent health concern worldwide, currently being the secondmost common and second-deadliest type of cancer in women. While current breast cancer diagnosis mainly relies on mammography imaging, in recent years the use of thermography for breast cancer imaging has been garnering growing popularity. Thermographic imaging relies on infrared cameras to capture body-emitted heat distributions. While these heat signatures have proven useful for computer-vision systems for accurate breast cancer segmentation and classification, prior work often relies on handcrafted feature engineering or complex architectures, potentially limiting the comparability and applicability of these methods. In this work, we present a novel algorithm for both breast cancer classification and segmentation. Rather than focusing efforts on manual feature and architecture engineering, our algorithm focuses on leveraging an informative, learned feature space, thus making our solution simpler to use and extend to other frameworks and downstream tasks, as well as more applicable to data-scarce settings. Our classification produces SOTA results, while we are the first work to produce segmentation regions studied in this paper.
翻訳日:2024-06-26 01:12:30 公開日:2024-06-23
# ゲームエンジンと機械学習を用いたテーブルトップ検証演習のための合成衛星画像の作成

Using Game Engines and Machine Learning to Create Synthetic Satellite Imagery for a Tabletop Verification Exercise ( http://arxiv.org/abs/2404.11461v2 )

ライセンス: Link先を確認
Johannes Hoster, Sara Al-Sayed, Felix Biessmann, Alexander Glaser, Kristian Hildebrand, Igor Moric, Tuong Vy Nguyen, (参考訳) 衛星画像は、市民による関心活動の監視の絶好の機会と見なされている。 しかし、関連するイメージは十分な高解像度、品質、ケイデンスでは利用できないかもしれない。 このことは、市民が利用可能な衛星画像を用いて核活動を監視する真の長期的な可能性を評価することを制限する。 本稿では,最新のゲームエンジンと高度な機械学習技術を組み合わせることで,要求に応じて関連パラメータを選択可能なサイト合成画像を生成する方法を紹介する。 同時に、衛星の異なる特性をシミュレートするために解像度と外径の角度を調整することができる。 合成画像にはいくつかのユースケースが考えられるが、ここでは、新しい衛星コンステレーションと非常に短い再訪時間によって可能となる検証能力をよりよく理解するために、単純な監視シナリオを検証できるテーブルトップ演習を支援するための有用性に焦点を当てる。

Satellite imagery is regarded as a great opportunity for citizen-based monitoring of activities of interest. Relevant imagery may however not be available at sufficiently high resolution, quality, or cadence -- let alone be uniformly accessible to open-source analysts. This limits an assessment of the true long-term potential of citizen-based monitoring of nuclear activities using publicly available satellite imagery. In this article, we demonstrate how modern game engines combined with advanced machine-learning techniques can be used to generate synthetic imagery of sites of interest with the ability to choose relevant parameters upon request; these include time of day, cloud cover, season, or level of activity onsite. At the same time, resolution and off-nadir angle can be adjusted to simulate different characteristics of the satellite. While there are several possible use-cases for synthetic imagery, here we focus on its usefulness to support tabletop exercises in which simple monitoring scenarios can be examined to better understand verification capabilities enabled by new satellite constellations and very short revisit times.
翻訳日:2024-06-26 01:02:45 公開日:2024-06-23
# 関連性, ランダム性: LLMはアナロジ的推論を真に達成できるか?

Relevant or Random: Can LLMs Truly Perform Analogical Reasoning? ( http://arxiv.org/abs/2404.12728v2 )

ライセンス: Link先を確認
Chengwei Qin, Wenhan Xia, Tan Wang, Fangkai Jiao, Yuchen Hu, Bosheng Ding, Ruirui Chen, Shafiq Joty, (参考訳) アナロジカル推論は、人間が関連する過去の経験から戦略を移すことによって、不慣れな課題に対処するユニークな能力である。 心理学における重要な発見の1つは、無関係な過去の経験と比較すると、関連することを思い出すことは、人間が新しいタスクをよりうまく処理するのに役立つということだ。 偶然にも、NLPコミュニティは、コンテキストにおける自己生成関連例が、手作りのプロンプトよりも大きな言語モデル(LLM)が与えられた問題を解決するのに役立つことを最近発見した。 しかし、そのような能力を引き出す重要な要因は関連性なのか、すなわち、LLMは関係のないものよりも自己生成関連例の恩恵を受けることができるのかは、まだ不明である。 本研究では,LLMが多種多様な推論タスクにおいて,類推的推論を真に行うことができるかどうかを系統的に検討する。 広範囲な実験と分析により, 自己生成ランダムなサンプルは, GSM8K 上での 4% の性能向上など, 驚くほど, あるいはさらに優れた性能を達成できることが示されている。 自己生成例の精度が重要な要因であることに気付き、その後、推論コストを大幅に削減した2つの改善手法を設計した。 全体として、LLMの類推的推論をより深く理解することを目指しており、この研究が自己生成コンテキストの設計におけるさらなる研究を促進することを願っている。

Analogical reasoning is a unique ability of humans to address unfamiliar challenges by transferring strategies from relevant past experiences. One key finding in psychology is that compared with irrelevant past experiences, recalling relevant ones can help humans better handle new tasks. Coincidentally, the NLP community has also recently found that self-generating relevant examples in the context can help large language models (LLMs) better solve a given problem than hand-crafted prompts. However, it is yet not clear whether relevance is the key factor eliciting such capability, i.e., can LLMs benefit more from self-generated relevant examples than irrelevant ones? In this work, we systematically explore whether LLMs can truly perform analogical reasoning on a diverse set of reasoning tasks. With extensive experiments and analysis, we show that self-generated random examples can surprisingly achieve comparable or even better performance, e.g., 4% performance boost on GSM8K with random biological examples. We find that the accuracy of self-generated examples is the key factor and subsequently design two improved methods with significantly reduced inference costs. Overall, we aim to advance a deeper understanding of LLM analogical reasoning and hope this work stimulates further research in the design of self-generated contexts.
翻訳日:2024-06-26 01:02:45 公開日:2024-06-23
# ソーシャルメディアの利用はアプリシーケンスから予測可能:LSTMとトランスフォーマーニューラルネットワークを用いて行動モデルを構築する

Social Media Use is Predictable from App Sequences: Using LSTM and Transformer Neural Networks to Model Habitual Behavior ( http://arxiv.org/abs/2404.16066v2 )

ライセンス: Link先を確認
Heinrich Peters, Joseph B. Bayer, Sandra C. Matz, Yikun Chi, Sumer S. Vaid, Gabriella M. Harari, (参考訳) 本稿では,スマートフォン利用者の逐次行動の予測モデルを用いて,ソーシャルメディアの習慣を研究する新しいアプローチを提案する。 メディアおよび技術習慣に関する文献の多くは、自己報告アンケートや単純な行動頻度測定に頼っているが、メディアおよび技術習慣の重要かつ未検討の側面である、反復的な行動系列への組込みについて検討する。 Long Short-Term Memory(LSTM)とTransformer Neural Networkの活用 (i)ソーシャルメディアの利用は、内外レベルで予測可能である。 (II)ソーシャルメディア利用の予測可能性には、個人差が強い。 いくつかのモデリング手法の性能について検討する。 一 すべての参加者から収集されたデータに基づいて訓練されたグローバルモデル 2イディオグラフィー人固有のモデル、及び 三 人固有のデータに基づいて微調整されたグローバルモデル。 個人固有のモデリングも、個人固有のデータの微調整も、グローバルモデルよりも大幅に優れておらず、グローバルモデルが様々な慣用的行動パターンを表現できたことを示している。 さらに,ソーシャルメディア利用の個人レベルの予測性は,一般のスマートフォン利用頻度やソーシャルメディア利用頻度と大きく関係しているわけではなく,行動頻度と異なる習慣の側面を捉えていることを示す。 習慣モデリングと理論的発展の意味について論じる。

The present paper introduces a novel approach to studying social media habits through predictive modeling of sequential smartphone user behaviors. While much of the literature on media and technology habits has relied on self-report questionnaires and simple behavioral frequency measures, we examine an important yet understudied aspect of media and technology habits: their embeddedness in repetitive behavioral sequences. Leveraging Long Short-Term Memory (LSTM) and transformer neural networks, we show that (i) social media use is predictable at the within and between-person level and that (ii) there are robust individual differences in the predictability of social media use. We examine the performance of several modeling approaches, including (i) global models trained on the pooled data from all participants, (ii) idiographic person-specific models, and (iii) global models fine-tuned on person-specific data. Neither person-specific modeling nor fine-tuning on person-specific data substantially outperformed the global models, indicating that the global models were able to represent a variety of idiosyncratic behavioral patterns. Additionally, our analyses reveal that the person-level predictability of social media use is not substantially related to the frequency of smartphone use in general or the frequency of social media use, indicating that our approach captures an aspect of habits that is distinct from behavioral frequency. Implications for habit modeling and theoretical development are discussed.
翻訳日:2024-06-26 01:02:45 公開日:2024-06-23
# 動的投機的ルックアヘッドは大規模言語モデルの投機的復号を高速化する

Dynamic Speculation Lookahead Accelerates Speculative Decoding of Large Language Models ( http://arxiv.org/abs/2405.04304v4 )

ライセンス: Link先を確認
Jonathan Mamou, Oren Pereg, Daniel Korat, Moshe Berchansky, Nadav Timor, Moshe Wasserblat, Roy Schwartz, (参考訳) 投機的復号化は、大きな言語モデルの推論遅延を低減するために一般的に用いられる。 その有効性は、投機的なルックアヘッド(SL)、すなわち各イテレーションでドラフトモデルによって生成されるトークンの数に大きく依存します。 この研究において、全ての反復(静的SL)に対して同じSLを使用するという一般的な実践は、最適以下であることを示す。 DISCO(DynamIc SpeCulation lookahead Optimization, DynamIc SpeCulation lookahead Optimization)は,SLを動的に選択する新しい手法である。 4つのデータセットによる実験の結果,disCO は最高の静的 SL ベースラインに比べて平均 10% の高速化を実現し,全く同じテキストを生成することがわかった。

Speculative decoding is commonly used for reducing the inference latency of large language models. Its effectiveness depends highly on the speculation lookahead (SL)-the number of tokens generated by the draft model at each iteration. In this work we show that the common practice of using the same SL for all iterations (static SL) is suboptimal. We introduce DISCO (DynamIc SpeCulation lookahead Optimization), a novel method for dynamically selecting the SL. Our experiments with four datasets show that DISCO reaches an average speedup of 10% compared to the best static SL baseline, while generating the exact same text.
翻訳日:2024-06-26 00:53:00 公開日:2024-06-23
# マルチマージン損失:レコメンダシステムにおける提案と応用

Multi-Margin Loss: Proposal and Application in Recommender Systems ( http://arxiv.org/abs/2405.04614v2 )

ライセンス: Link先を確認
Makbule Gulcin Ozsoy, (参考訳) レコメンダシステムは、予測された嗜好に基づいてアイテムを提案することで、大量の情報を通じてユーザーを誘導する。 協調フィルタリングに基づくディープラーニング技術は、ユーザとイテムのインタラクションのみを使用して、シンプルさによって人気を取り戻している。 通常、これらのシステムは3つの主要なコンポーネント(相互作用モジュール、損失関数、負のサンプリング戦略)から構成される。 当初、研究者は多層パーセプトロン、トランスフォーマー、グラフニューラルネットワークといった技術で複雑な相互作用モジュールを開発することでパフォーマンスを向上させることに重点を置いていた。 しかし、近年、損失関数の精細化と負のサンプリング戦略へのシフトが起きている。 このシフトは対照的な学習への関心を高め、類似したペアを近くに引き寄せ、異種を分離する。 対照的な学習には、重いデータ強化、大規模なバッチサイズ、ハードネガティブなサンプリングといった重要なプラクティスがあるが、これらは、高いメモリ要求やいくつかの負のサンプルの未使用といった課題ももたらしている。 提案されたマルチマージン損失(MML)は、負のサンプルに対して複数のマージンと様々な重みを導入することでこれらの課題に対処する。 MMLは、最も難しい負だけでなく、他の非自明な負も効率的に利用し、特に資源が限られている場合に、より複雑で効率的な損失関数を提供する。 2つのよく知られたデータセットの実験により、MMLは、負のサンプルが少ないベースラインのコントラスト損失関数と比較して最大20倍の性能向上を達成した。

Recommender systems guide users through vast amounts of information by suggesting items based on their predicted preferences. Collaborative filtering-based deep learning techniques have regained popularity due to their simplicity, using only user-item interactions. Typically, these systems consist of three main components: an interaction module, a loss function, and a negative sampling strategy. Initially, researchers focused on enhancing performance by developing complex interaction modules with techniques like multi-layer perceptrons, transformers, or graph neural networks. However, there has been a recent shift toward refining loss functions and negative sampling strategies. This shift has increased interest in contrastive learning, which pulls similar pairs closer while pushing dissimilar ones apart. Contrastive learning involves key practices such as heavy data augmentation, large batch sizes, and hard-negative sampling, but these also bring challenges like high memory demands and under-utilization of some negative samples. The proposed Multi-Margin Loss (MML) addresses these challenges by introducing multiple margins and varying weights for negative samples. MML efficiently utilizes not only the hardest negatives but also other non-trivial negatives, offering a simpler yet effective loss function that outperforms more complex methods, especially when resources are limited. Experiments on two well-known datasets showed MML achieved up to a 20\% performance improvement compared to a baseline contrastive loss function with fewer negative samples.
翻訳日:2024-06-26 00:53:00 公開日:2024-06-23
# コルモゴロフ確率論の量子現象記述への適用性について(その1)

On the applicability of Kolmogorov's theory of probability to the description of quantum phenomena. Part I ( http://arxiv.org/abs/2405.05710v2 )

ライセンス: Link先を確認
Maik Reddiger, (参考訳) フォン・ノイマンが量子力学(QM)の公理化とともに「量子確率論」の基礎を築いたのは、一般的な見解である。 このように、コルモゴロフによる「古典的確率論」の一般化と見なされている。 しかし、量子物理学以外では、コルモゴロフの公理は普遍的な適用性を持っている。 このことは、量子物理学が確率の概念のそのような一般化を必要とするのか、あるいはフォン・ノイマンのQMの公理化が1920年代の確率の一般理論が欠如していたのかという問題を提起する。 この仕事において、私は後者の立場を支持します。 特に、時間非依存スカラーポテンシャルを受ける非相対論的$N$ボディ量子系について、コルモゴロフの公理とQMの中心予測を再現する物理的自然確率変数に基づく数学的厳密な理論を構築することができることを示す。 それぞれの理論は異なるので、経験的な比較が可能かもしれない。 さらに、このアプローチは原則として、量子力学モデルの他のクラスに適応することができる。 このシリーズのパートIIは、射影の仮定とこのアプローチにおける測定の問題に対処する。

It is a common view that von Neumann laid the foundations of a "quantum probability theory" with his axiomatization of quantum mechanics (QM). As such, it is regarded a generalization of the "classical probability theory" due to Kolmogorov. Outside of quantum physics, however, Kolmogorov's axioms enjoy universal applicability. This raises the question of whether quantum physics indeed requires such a generalization of our conception of probability or if von Neumann's axiomatization of QM was contingent on the absence of a general theory of probability in the 1920s. In this work I argue in favor of the latter position. In particular, I show that for non-relativistic $N$-body quantum systems subject to a time-independent scalar potential, it is possible to construct a mathematically rigorous theory based on Kolmogorov's axioms and physically natural random variables, which reproduces central predictions of QM. The respective theories are distinct, so that an empirical comparison may be possible. Moreover, the approach can in principle be adapted to other classes of quantum-mechanical models. Part II of this series will address the projection postulate and the question of measurement in this approach.
翻訳日:2024-06-26 00:53:00 公開日:2024-06-23
# ソーシャルメディアにおける意味的位置予測のための類似性指導型マルチモーダル核融合変換器

Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media ( http://arxiv.org/abs/2405.05760v2 )

ライセンス: Link先を確認
Zhizhen Zhang, Ning Wang, Haojie Li, Zhihui Wang, (参考訳) セマンティックな位置予測は、GPS座標を使用するよりも日常的な活動をより文脈的に理解することを目的として、マルチモーダルなソーシャルメディア投稿から意味のある位置情報を導き出すことを目的としている。 このタスクは、"text-image"ポストのノイズとモダリティの不均一性のために、重大な課題に直面している。 既存の手法は一般に、不適切な特徴表現とモーダル相互作用によって制約され、ノイズやモダリティの不均一性を効果的に減少させるのに苦労する。 これらの課題に対処するため,マルチモーダル投稿からユーザのセマンティックな位置を予測するためのSG-MFT(Simisity-Guided Multimodal Fusion Transformer)を提案する。 まず,事前学習した大規模視覚言語モデルを用いて,高品質なテキストと画像表現を組み込む。 そこで我々は、粗粒度と細粒度の両方の類似性ガイダンスを組み込むことにより、モダリティの不均一性とノイズ干渉を緩和するSimisity-Guided Interaction Module (SIM)を考案した。 具体的には、不均一性を緩和し、各モードにおけるノイズを低減するために、モーダルワイドな類似性を生かした、粗粒度における特徴補間注意機構を提案する。 細粒度レベルでは、類似性を考慮したフィードフォワードブロックと要素単位の類似性を利用して、モダリティの不均一性の問題に対処する。 最後に、最小限のノイズとモーダル干渉を伴う事前処理機能に基づいて、2つのモーダルをクロスアテンション機構で融合させる類似性認識融合モジュール(SFM)を考案する。 総合的な実験結果から,提案手法の優れた性能が明らかとなった。

Semantic location prediction aims to derive meaningful location insights from multimodal social media posts, offering a more contextual understanding of daily activities than using GPS coordinates. This task faces significant challenges due to the noise and modality heterogeneity in "text-image" posts. Existing methods are generally constrained by inadequate feature representations and modal interaction, struggling to effectively reduce noise and modality heterogeneity. To address these challenges, we propose a Similarity-Guided Multimodal Fusion Transformer (SG-MFT) for predicting the semantic locations of users from their multimodal posts. First, we incorporate high-quality text and image representations by utilizing a pre-trained large vision-language model. Then, we devise a Similarity-Guided Interaction Module (SIM) to alleviate modality heterogeneity and noise interference by incorporating both coarse-grained and fine-grained similarity guidance for improving modality interactions. Specifically, we propose a novel similarity-aware feature interpolation attention mechanism at the coarse-grained level, leveraging modality-wise similarity to mitigate heterogeneity and reduce noise within each modality. At the fine-grained level, we utilize a similarity-aware feed-forward block and element-wise similarity to further address the issue of modality heterogeneity. Finally, building upon pre-processed features with minimal noise and modal interference, we devise a Similarity-aware Fusion Module (SFM) to fuse two modalities with a cross-attention mechanism. Comprehensive experimental results clearly demonstrate the superior performance of our proposed method.
翻訳日:2024-06-26 00:53:00 公開日:2024-06-23
# 低磁場における2つの半導体量子ドット間の移動における電子スピン量子ビットのデコヒーレンス

Decoherence of electron spin qubit during transfer between two semiconductor quantum dots at low magnetic fields ( http://arxiv.org/abs/2405.12185v2 )

ライセンス: Link先を確認
Jan A. Krzywda, Łukasz Cywiński, (参考訳) 電子シャットリングは、現在追求されている半導体量子ドットベースのスピン量子ビットのスケーラビリティへの道の1つである。 理論的には、2つのトンネル結合量子ドット間で移動されたスピン量子ビットの劣化を解析する。 我々は,スピンフリップによるインタードットトンネルが欠如しているトンネル結合よりもゼーマン分裂が低い状態に着目し,Si-およびGaAs系量子ドットのスピンコヒーレント電子移動における誤差の原因を分析する。 各点におけるスピンスプリッティングの変動(核オーバーハウザー場によるスピンスプリッティングの変動)が有限$T_{2}^{*} の固定スピンクビットの値をもたらすことの明らかな影響は別として、電荷ノイズとフォノンによる電荷移動の失敗、スピン軌道混合の強化によるスピン緩和、および2つの点間のゼーマン分裂の存在下で電子の電荷に低周波および高周波のノイズカップリングによって生じるスピンデファス化など、各点間の断熱クビット移動を目的としたスイープの除去によって活性化される効果を考察する。 以上の結果から,10,\mu$m長点列における電子スピンのコヒーレント移動を達成するには,2t_c \gtrsim 60 \, \mu$eVの典型値で,大きく均一なトンネル結合を必要とすることが示唆された。

Electron shuttling is one of the currently pursued avenues towards the scalability of semiconductor quantum dot-based spin qubits. We theoretically analyze the dephasing of a spin qubit adiabatically transferred between two tunnel-coupled quantum dots. We focus on the regime where the Zeeman splitting is lower than the tunnel coupling, at which interdot tunneling with spin flip is absent, and analyze the sources of errors in spin-coherent electron transfer for Si- and GaAs-based quantum dots. Apart from the obvious effect of fluctuations in spin splitting in each dot (e.g., due to nuclear Overhauser fields) leading to finite $ T_{2}^{*} $ of the stationary spin qubit, we consider effects activated by detuning sweeps aimed at adiabatic qubit transfer between the dots: failure of charge transfer caused by charge noise and phonons, spin relaxation due to enhancement of spin-orbit mixing of levels, and spin dephasing caused by low- and high-frequency noise coupling to the electron's charge in the presence of differences in Zeeman splittings between the two dots. Our results indicate that achieving coherent transfer of electron spin in a $10\,\mu$m long dot array necessitates a large and uniform tunnel coupling, with a typical value of $ 2t_c \gtrsim 60 \, \mu$eV.
翻訳日:2024-06-26 00:43:06 公開日:2024-06-23
# 大規模言語モデルは最小限の努力で自己修正できる

Large Language Models Can Self-Correct with Minimal Effort ( http://arxiv.org/abs/2405.14092v2 )

ライセンス: Link先を確認
Zhenyu Wu, Qingkai Zeng, Zhihan Zhang, Zhaoxuan Tan, Chao Shen, Meng Jiang, (参考訳) 内在的自己正当性(英: Intrinsic self-correct)とは、大きな言語モデル(LLM)に対して、外部からのフィードバックなしにその応答を検証し、修正するように指示する手法である。 残念なことに、この研究はLSMが自己正しい推論をまだできないと結論づけた。 単純で効果的な検証手法は,LLMの本質的な能力を解き放つことができる。 すなわち、質問のキー条件を隠蔽し、現在の応答を追加して検証問題を構築し、応答を検証する条件を予測する。 この条件は、オープンドメインの質問の実体や、数学の質問の数値となり得る。 本稿では,ProCo という名前の偽応答を段階的に同定し,訂正する反復的検証列補正フレームワークを提案する。 私たちは3つの推論タスクで実験を行います。 平均して、GPT-3.5-Turbo をバックエンド LLM として持つ ProCo は、4つのオープンドメインの質問応答データセットで$6.8$、算術的推論データセットで$+14.1$、常識的推論データセットで$9.6$と、Self-Correct と比較すると$9.6$の精度を持つ。

Intrinsic self-correct was a method that instructed large language models (LLMs) to verify and correct their responses without external feedback. Unfortunately, the study concluded that the LLMs could not self-correct reasoning yet. We find that a simple yet effective verification method can unleash inherent capabilities of the LLMs. That is to mask a key condition in the question, add the current response to construct a verification question, and predict the condition to verify the response. The condition can be an entity in an open-domain question or a numeric value in a math question, which requires minimal effort (via prompting) to identify. We propose an iterative verify-then-correct framework to progressively identify and correct (probably) false responses, named ProCo. We conduct experiments on three reasoning tasks. On average, ProCo, with GPT-3.5-Turbo as the backend LLM, yields $+6.8$ exact match on four open-domain question answering datasets, $+14.1$ accuracy on three arithmetic reasoning datasets, and $+9.6$ accuracy on a commonsense reasoning dataset, compared to Self-Correct.
翻訳日:2024-06-26 00:43:06 公開日:2024-06-23
# MCDFN: 説明可能なマルチチャネルデータフュージョンネットワークモデルによるサプライチェーン需要予測

MCDFN: Supply Chain Demand Forecasting via an Explainable Multi-Channel Data Fusion Network Model ( http://arxiv.org/abs/2405.15598v2 )

ライセンス: Link先を確認
Md Abrar Jahin, Asef Shahriar, Md Al Amin, (参考訳) サプライチェーン管理の最適化には,正確な需要予測が不可欠だ。 伝統的な手法は季節変動や特別な出来事から複雑なパターンを捉えるのに失敗することが多い。 ディープラーニングの進歩にもかかわらず、解釈可能な予測モデルは依然として課題である。 これを解決するために,畳み込みニューラルネットワーク(CNN),長短期記憶ネットワーク(LSTM),GRU(Gated Recurrent Units)を統合するハイブリッドアーキテクチャであるMCDFNを導入し,時系列データから空間的・時間的特徴を抽出して予測性能を向上させる。 MSE(23.5738%)、RMSE(4.8553%)、MAE(3.9991%)、MAPE(20.1575%)である。 さらに、MCDFNの予測は実際の値と統計的に区別できず、5%のp値と10倍の統計ペアt-testで確認された。 解釈可能性を高めるために、ShapTimeやPermutation Feature Importanceのような説明可能なAI技術を適用します。 本研究は,需要予測手法を推進し,MCDFNをサプライチェーンシステムに統合するための実践的ガイドラインを提供する。

Accurate demand forecasting is crucial for optimizing supply chain management. Traditional methods often fail to capture complex patterns from seasonal variability and special events. Despite advancements in deep learning, interpretable forecasting models remain a challenge. To address this, we introduce the Multi-Channel Data Fusion Network (MCDFN), a hybrid architecture that integrates Convolutional Neural Networks (CNN), Long Short-Term Memory networks (LSTM), and Gated Recurrent Units (GRU) to enhance predictive performance by extracting spatial and temporal features from time series data. Our rigorous benchmarking demonstrates that MCDFN outperforms seven other deep-learning models, achieving superior metrics: MSE (23.5738%), RMSE (4.8553%), MAE (3.9991%), and MAPE (20.1575%). Additionally, MCDFN's predictions were statistically indistinguishable from actual values, confirmed by a paired t-test with a 5% p-value and a 10-fold cross-validated statistical paired t-test. We apply explainable AI techniques like ShapTime and Permutation Feature Importance to enhance interpretability. This research advances demand forecasting methodologies and offers practical guidelines for integrating MCDFN into supply chain systems, highlighting future research directions for scalability and user-friendly deployment.
翻訳日:2024-06-26 00:43:06 公開日:2024-06-23
# Match, Compare, Select? エンティティマッチングのための大規模言語モデルの検討

Match, Compare, or Select? An Investigation of Large Language Models for Entity Matching ( http://arxiv.org/abs/2405.16884v2 )

ライセンス: Link先を確認
Tianshu Wang, Xiaoyang Chen, Hongyu Lin, Xuanang Chen, Xianpei Han, Hao Wang, Zhenyu Zeng, Le Sun, (参考訳) エンティティマッチング(EM)は、エンティティ解決(ER)における重要なステップである。 近年,大規模言語モデル (LLM) に基づくエンティティマッチングは大きな可能性を秘めている。 しかしながら、現在のLLMベースのエンティティマッチングアプローチは、通常、レコード関係間のグローバルな一貫性を無視したバイナリマッチングパラダイムに従う。 本稿では,異なる視点からのレコードインタラクションを組み込んだLCMに基づくエンティティマッチング手法について検討する。 具体的には、マッチング、比較、選択の3つの代表的な戦略を総合的に比較し、多様なシナリオにおけるそれぞれの利点と課題を分析します。 そこで本研究では,複数の戦略とLCMの構成を利用する複合エンティティマッチングフレームワーク(ComEM)をさらに設計する。 ComEMは、異なる側面の利点から恩恵を受け、効率性と効率性の両方の改善を実現します。 8つのERデータセットと9つのLLMによる実験結果から、選択戦略によるレコードインタラクションの導入の優位性と、ComEMによるさらなるコスト効果が検証された。

Entity matching (EM) is a critical step in entity resolution (ER). Recently, entity matching based on large language models (LLMs) has shown great promise. However, current LLM-based entity matching approaches typically follow a binary matching paradigm that ignores the global consistency between record relationships. In this paper, we investigate various methodologies for LLM-based entity matching that incorporate record interactions from different perspectives. Specifically, we comprehensively compare three representative strategies: matching, comparing, and selecting, and analyze their respective advantages and challenges in diverse scenarios. Based on our findings, we further design a compound entity matching framework (ComEM) that leverages the composition of multiple strategies and LLMs. ComEM benefits from the advantages of different sides and achieves improvements in both effectiveness and efficiency. Experimental results on 8 ER datasets and 9 LLMs verify the superiority of incorporating record interactions through the selecting strategy, as well as the further cost-effectiveness brought by ComEM.
翻訳日:2024-06-26 00:43:06 公開日:2024-06-23
# 非凸の場合の運動量によるSGDの収束:時間窓による解析

Convergence of SGD with momentum in the nonconvex case: A time window-based analysis ( http://arxiv.org/abs/2405.16954v2 )

ライセンス: Link先を確認
Junwen Qiu, Bohao Ma, Andre Milzarek, (参考訳) 非凸条件下での運動量を有する確率勾配降下法(SGDM)の収束特性を解析するための時間窓解析手法を提案する。 その人気にもかかわらず、SGDMの収束挙動は、非凸シナリオでは理解されていない。 これは主に十分な降下特性が欠如していることと、ほぼ確実な意味で運動量と確率誤差を同時に制御することの難しさが原因である。 これらの課題に対処するために、従来の研究のように連続的な反復音の降下を調べるのではなく、特定の時間窓上でのSGDMの挙動を調査する。 この時間窓ベースのアプローチは収束解析を単純化し、カルディカ・ロジャシエヴィチ(KL)特性の下でSGDMに対する最初の反復収束結果を確立することができる。 さらに、基礎となるKL指数と利用したステップサイズスキームに依存する局所収束率を提供する。

We propose a novel time window-based analysis technique to investigate the convergence properties of the stochastic gradient descent method with momentum (SGDM) in nonconvex settings. Despite its popularity, the convergence behavior of SGDM remains less understood in nonconvex scenarios. This is primarily due to the absence of a sufficient descent property and challenges in simultaneously controlling the momentum and stochastic errors in an almost sure sense. To address these challenges, we investigate the behavior of SGDM over specific time windows, rather than examining the descent of consecutive iterates as in traditional studies. This time window-based approach simplifies the convergence analysis and enables us to establish the first iterate convergence result for SGDM under the Kurdyka-Lojasiewicz (KL) property. We further provide local convergence rates which depend on the underlying KL exponent and the utilized step size schemes.
翻訳日:2024-06-26 00:33:22 公開日:2024-06-23
# 創造性とオープンエンデドネスについて

On Creativity and Open-Endedness ( http://arxiv.org/abs/2405.18016v4 )

ライセンス: Link先を確認
L. B. Soros, Alyssa Adams, Stefano Kalonaris, Olaf Witkowski, Christian Guckelsberger, (参考訳) 学際的な分野としての人工生命(ALife)は、様々な視点からインスピレーションと影響を引き出す。 科学の進歩は、学際的な対話を招こうとする共同努力に大きく依存する。 本研究の目的は、オープンエンデドネス(OE)の概念に特化して、計算創造性(CC)とALifeの潜在的な関連性に関する議論を活性化することであり、CCの主な目的は、人工システムに創造性を持たせることであり、ALifeはOEと人工イノベーションの研究・合成に多くの研究努力を注いでいる。 しかし、これらの概念が近接しているにも関わらず、それらの使用はそれぞれのコミュニティに限られており、その関係は概ね不明である。 両領域の研究に歴史的文脈を提供し、創造性研究とOEを明示的に結びつける限定的な研究を概観する。 次に、検討すべき特定の質問と、最終的な目標を強調します。 (i)OEと創造性の概念の類似点と相違点を強調することにより概念の曖昧さを減少させる。 二 両概念を包含する研究課題の相乗効果の特定及び 3ALifeとCC研究の対話を確立すること。

Artificial Life (ALife) as an interdisciplinary field draws inspiration and influence from a variety of perspectives. Scientific progress crucially depends, then, on concerted efforts to invite cross-disciplinary dialogue. The goal of this paper is to revitalize discussions of potential connections between the fields of Computational Creativity (CC) and ALife, focusing specifically on the concept of Open-Endedness (OE); the primary goal of CC is to endow artificial systems with creativity, and ALife has dedicated much research effort into studying and synthesizing OE and artificial innovation. However, despite the close proximity of these concepts, their use so far remains confined to their respective communities, and their relationship is largely unclear. We provide historical context for research in both domains, and review the limited work connecting research on creativity and OE explicitly. We then highlight specific questions to be considered, with the eventual goals of (i) decreasing conceptual ambiguity by highlighting similarities and differences between the concepts of OE and creativity, (ii) identifying synergy effects of a research agenda that encompasses both concepts, and (iii) establishing a dialogue between ALife and CC research.
翻訳日:2024-06-26 00:33:22 公開日:2024-06-23
# W-Net: 顔に誘導された顔の超解像ネットワーク

W-Net: A Facial Feature-Guided Face Super-Resolution Network ( http://arxiv.org/abs/2406.00676v3 )

ライセンス: Link先を確認
Hao Liu, Yang Yang, Yunxia Liu, (参考訳) Face Super-Resolution (FSR) は、高解像度 (HR) の顔画像を低解像度 (LR) の顔画像から復元することを目的としている。 FSRにおける畳み込みニューラルネットワークの進歩にもかかわらず、再構成効率が低く、事前情報の利用が不十分なため、既存のアプローチの結果は理想的ではない。 顔が高度に構造化された物体であることを考えると、FSRの結果を改善するために顔の事前を効果的に活用することは、貴重な努力である。 本稿では,この課題に対処するため,W-Netと呼ばれる新しいネットワークアーキテクチャを提案する。 W-Netは、厳密に設計されたパーシングブロックを利用して、LR画像の解像度ポテンシャルを完全に活用する。 我々は、この解析マップを事前の注意として使用し、解析マップとLR画像の両方からの情報を効果的に統合する。 同時に、W字型ネットワーク構造とLPF(LR-Parsing Map Fusion Module)を組み合わせることで、様々な次元で複数の融合を行う。 さらに、マスクとして顔解析グラフを用い、異なる重みと損失関数を主要顔領域に割り当て、再建した顔画像の性能を知覚品質と画素精度のバランスをとる。 我々は,従来の顔超解像測定値に限らず,顔認識や顔のキーポイント検出などの下流タスクにも及んだ広範囲な比較実験を行った。 実験により、W-Netは定量的メトリクス、視覚的品質、下流タスクにおいて優れた性能を示すことが示された。

Face Super-Resolution (FSR) aims to recover high-resolution (HR) face images from low-resolution (LR) ones. Despite the progress made by convolutional neural networks in FSR, the results of existing approaches are not ideal due to their low reconstruction efficiency and insufficient utilization of prior information. Considering that faces are highly structured objects, effectively leveraging facial priors to improve FSR results is a worthwhile endeavor. This paper proposes a novel network architecture called W-Net to address this challenge. W-Net leverages meticulously designed Parsing Block to fully exploit the resolution potential of LR image. We use this parsing map as an attention prior, effectively integrating information from both the parsing map and LR images. Simultaneously, we perform multiple fusions in various dimensions through the W-shaped network structure combined with the LPF(LR-Parsing Map Fusion Module). Additionally, we utilize a facial parsing graph as a mask, assigning different weights and loss functions to key facial areas to balance the performance of our reconstructed facial images between perceptual quality and pixel accuracy. We conducted extensive comparative experiments, not only limited to conventional facial super-resolution metrics but also extending to downstream tasks such as facial recognition and facial keypoint detection. The experiments demonstrate that W-Net exhibits outstanding performance in quantitative metrics, visual quality, and downstream tasks.
翻訳日:2024-06-26 00:33:22 公開日:2024-06-23
# MMLU-Pro: よりロバストで、マルチタスク言語を理解するベンチマーク

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark ( http://arxiv.org/abs/2406.01574v4 )

ライセンス: Link先を確認
Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen, (参考訳) 大規模言語モデルの時代において、Multistive Multitask Language Understanding (MMLU)のようなベンチマークは、さまざまなドメインにわたる言語理解と推論においてAIが達成できることの境界を推し進めるために重要な役割を果たしてきた。 しかし、モデルの改善が進むにつれて、これらのベンチマークのパフォーマンスが低下し始めており、モデル機能の違いを識別することがますます困難になっている。 本稿では,知識駆動型MMLUベンチマークの拡張を目的としたMMLU-Proを提案する。 さらに、MMLU-ProはMMLUの自明でノイズの多い問題を取り除く。 実験の結果,MMLU-Proは課題を提起するだけでなく,MMLUに比べて16%から33%の精度低下を招いた。 24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。 さらに, MMLU-Proを用いたモデルでは, MMLU-Proを用いた場合と比較して, MMLU-Proを用いた場合よりも, MMLU-Proを用いた場合の方が優れていることがわかった。 MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。

In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.
翻訳日:2024-06-26 00:33:22 公開日:2024-06-23
# I2EDL:インタラクティブなインストラクションエラー検出と位置決め

I2EDL: Interactive Instruction Error Detection and Localization ( http://arxiv.org/abs/2406.05080v2 )

ライセンス: Link先を確認
Francesco Taioli, Stefano Rosa, Alberto Castellini, Lorenzo Natale, Alessio Del Bue, Alessandro Farinelli, Marco Cristani, Yiming Wang, (参考訳) VLN-CE(Vision-and-Language Navigation in Continuous Environments)タスクでは、人間のユーザは、自然言語によるテキスト命令に続く一連の低レベルアクションを通じて、自律エージェントが目標を達成するようにガイドする。 しかし、既存のほとんどのメソッドは、ユーザーがそのような命令(例えば「右に曲がる」代わりに「左に曲がる」など)を提供する際に間違いを犯す可能性のあるケースに対処していない。 本研究では,連続環境における対話型VLN-CE(Interactive VLN-CE)の新たな課題に対処し,VLN-CEナビゲーション中にエージェントがユーザと対話して,命令エラーに関する疑念を検証できるようにする。 ナビゲーション中の命令エラーを検出する際に,ユーザエージェント間のインタラクションをトリガーする対話型インストラクションエラー検出およびローカライザ(I2EDL)を提案する。 我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。 このようにして、エージェントはユーザの認知負荷を必要とせずに、タイムリーな修正を求めることができる。 提案したI2EDLは,エラーを含む命令のデータセットに基づいて評価し,さらに,ナビゲーション性能とインタラクションの有効性の両方を反映した新しい指標であるSIN(Successed by Interaction Number)を考案する。 提案手法は,ユーザに対して,対話の最小化を図りながら,ナビゲーションの成功率を高めた修正要求を集中的に要求する方法を示す。

In the Vision-and-Language Navigation in Continuous Environments (VLN-CE) task, the human user guides an autonomous agent to reach a target goal via a series of low-level actions following a textual instruction in natural language. However, most existing methods do not address the likely case where users may make mistakes when providing such instruction (e.g. "turn left" instead of "turn right"). In this work, we address a novel task of Interactive VLN in Continuous Environments (IVLN-CE), which allows the agent to interact with the user during the VLN-CE navigation to verify any doubts regarding the instruction errors. We propose an Interactive Instruction Error Detector and Localizer (I2EDL) that triggers the user-agent interaction upon the detection of instruction errors during the navigation. We leverage a pre-trained module to detect instruction errors and pinpoint them in the instruction by cross-referencing the textual input and past observations. In such way, the agent is able to query the user for a timely correction, without demanding the user's cognitive load, as we locate the probable errors to a precise part of the instruction. We evaluate the proposed I2EDL on a dataset of instructions containing errors, and further devise a novel metric, the Success weighted by Interaction Number (SIN), to reflect both the navigation performance and the interaction effectiveness. We show how the proposed method can ask focused requests for corrections to the user, which in turn increases the navigation success, while minimizing the interactions.
翻訳日:2024-06-26 00:23:38 公開日:2024-06-23
# 広告配信最適化のための非同期学習型ユーザ埋め込み

Async Learned User Embeddings for Ads Delivery Optimization ( http://arxiv.org/abs/2406.05898v2 )

ライセンス: Link先を確認
Mingwei Tang, Meng Liu, Hong Li, Junjie Yang, Chenglin Wei, Boyang Li, Dai Li, Rengan Xu, Yifan Xu, Zehua Zhang, Xiangyu Wang, Linfeng Liu, Yuelei Xie, Chengye Liu, Labib Fawaz, Li Li, Hongnan Wang, Bill Zhu, Sri Reddy, (参考訳) 推薦システムでは、高品質なユーザ埋め込みは微妙な好みを捉え、正確な類似性計算を可能にし、時間とともに変化する好みに適応して関連性を維持することができる。 推薦システムの有効性はユーザ埋め込みの品質に依存する。 本稿では,Transformerのような大規模機能学習モジュールを用いて,シーケンスベースのマルチモーダルユーザアクティビティから,毎日数十億のユーザに対する高忠実度ユーザ埋め込みを非同期に学習することを提案する。 非同期学習されたユーザ表現埋め込み(ALURE)はさらに、グラフ学習を通じてユーザ類似性グラフに変換され、ユーザリアルタイムアクティビティと組み合わせて、広告配信システムの高度に関連性の高い広告候補を検索する。 本手法は,オフライン実験とオンライン実験の両方において有意な効果を示した。

In recommendation systems, high-quality user embeddings can capture subtle preferences, enable precise similarity calculations, and adapt to changing preferences over time to maintain relevance. The effectiveness of recommendation systems depends on the quality of user embedding. We propose to asynchronously learn high fidelity user embeddings for billions of users each day from sequence based multimodal user activities through a Transformer-like large scale feature learning module. The async learned user representations embeddings (ALURE) are further converted to user similarity graphs through graph learning and then combined with user realtime activities to retrieval highly related ads candidates for the ads delivery system. Our method shows significant gains in both offline and online experiments.
翻訳日:2024-06-26 00:23:38 公開日:2024-06-23
# Multicam-SLAM: 間接的な視覚的位置決めとナビゲーションのための非重複マルチカメラSLAM

Multicam-SLAM: Non-overlapping Multi-camera SLAM for Indirect Visual Localization and Navigation ( http://arxiv.org/abs/2406.06374v2 )

ライセンス: Link先を確認
Shenghao Li, Luchao Pang, Xianglong Hu, (参考訳) 本稿では,複数のRGB-Dカメラを用いた視覚的同時ローカライゼーションとマッピング(SLAM)の新たなアプローチを提案する。 提案手法であるMulticam-SLAMは,様々な視点からより包括的な空間情報を取得することにより,SLAMシステムの堅牢性と精度を著しく向上する。 重なり合う視野を必要とせずに、複数のカメラ間のポーズ関係を正確に決定することができる。 提案したMuticam-SLAMには、ユニークなマルチカメラモデル、マルチキーフレーム構造、複数の並列SLAMスレッドが含まれている。 マルチカメラモデルは複数のカメラからのデータの統合を可能にし、マルチキーフレームと並列SLAMスレッドは効率的で正確なポーズ推定とマッピングを保証する。 各種環境における広範囲な実験により,従来の単カメラSLAMシステムと比較して,提案手法の精度とロバスト性が向上した。 この結果は、より複雑で困難なアプリケーションのために提案されているMulticam-SLAMの可能性を強調している。 コードは \url{https://github.com/AlterPang/Multi_ORB_SLAM} で公開されている。

This paper presents a novel approach to visual simultaneous localization and mapping (SLAM) using multiple RGB-D cameras. The proposed method, Multicam-SLAM, significantly enhances the robustness and accuracy of SLAM systems by capturing more comprehensive spatial information from various perspectives. This method enables the accurate determination of pose relationships among multiple cameras without the need for overlapping fields of view. The proposed Muticam-SLAM includes a unique multi-camera model, a multi-keyframes structure, and several parallel SLAM threads. The multi-camera model allows for the integration of data from multiple cameras, while the multi-keyframes and parallel SLAM threads ensure efficient and accurate pose estimation and mapping. Extensive experiments in various environments demonstrate the superior accuracy and robustness of the proposed method compared to conventional single-camera SLAM systems. The results highlight the potential of the proposed Multicam-SLAM for more complex and challenging applications. Code is available at \url{https://github.com/AlterPang/Multi_ORB_SLAM}.
翻訳日:2024-06-26 00:23:38 公開日:2024-06-23
# 拡張ドメイン適応オブジェクト検出のためのグラフ生成の利用

Utilizing Graph Generation for Enhanced Domain Adaptive Object Detection ( http://arxiv.org/abs/2406.06535v2 )

ライセンス: Link先を確認
Mu Wang, (参考訳) オブジェクト検出の分野におけるドメイン適応の問題は、ラベル付きソースドメインから未注釈のターゲットドメインへのオブジェクト検出モデルの転送である。 この分野の最近の進歩は、非ユークリッドグラフィカル空間内の領域間でピクセル対を整列させることにより、意味分布の分散を最小化することで、ドメインの相違に対処することを目的としている。 それらの顕著な成果にもかかわらず、これらの手法はしばしば粗い意味表現を使ってグラフをモデル化する。 さらに、粗いグラフの生成は本質的に異常なノードを導入し、課題を提起し、潜在的にドメイン適応の結果をバイアスする可能性がある。 そこで我々は,グラフ生成を利用してDAOD(\method{})の品質を向上させるフレームワークを提案する。 具体的には、メモリバンクを利用してノイズの多いサンプルノードを再構成し、ノイズの多い機能に対照的な正規化を適用するNode Refinementモジュールを紹介します。 セマンティックアライメントを強化するために、グラフ共分散内で符号化されたカテゴリ不変性からドメイン固有スタイルを分離し、カテゴリ不変情報を保存しながらドメイン固有スタイルを選択的に除去し、異なるドメイン間のより正確なセマンティックアライメントを容易にする。 さらに,変分推論を利用して異常ノードの影響を軽減するグラフ最適化適応器を提案する。 3つの適応ベンチマークによる大規模な実験は、教師なしドメイン適応のタスクにおいて、‘method{}’が最先端のパフォーマンスを達成することを実証する。

The problem of Domain Adaptive in the field of Object Detection involves the transfer of object detection models from labeled source domains to unannotated target domains. Recent advancements in this field aim to address domain discrepancies by aligning pixel-pairs across domains within a non-Euclidean graphical space, thereby minimizing semantic distribution variance. Despite their remarkable achievements, these methods often use coarse semantic representations to model graphs, mainly due to ignoring non-informative elements and failing to focus on precise semantic alignment. Additionally, the generation of coarse graphs inherently introduces abnormal nodes, posing challenges and potentially biasing domain adaptation outcomes. Consequently, we propose a framework, which utilizes the Graph Generation to enhance the quality of DAOD (\method{}). Specifically, we introduce a Node Refinement module that utilizes a memory bank to reconstruct noisy sampled nodes while applying contrastive regularization to noisy features. To enhance semantic alignment, we propose separating domain-specific styles from category invariance encoded within graph covariances, which allows us to selectively remove domain-specific styles while preserving category-invariant information, thus facilitating more accurate semantic alignment across different domains. Furthermore, we propose a Graph Optimization adaptor, leveraging variational inference to mitigate the impact of abnormal nodes. Extensive experimentation across three adaptation benchmarks validates that \method{} achieves state-of-the-art performance in the task of unsupervised domain adaptation.
翻訳日:2024-06-26 00:13:51 公開日:2024-06-23
# バック・トゥ・ザ・カラー:教師なし深度推定のための特定の色変換への深度学習

Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation ( http://arxiv.org/abs/2406.07741v2 )

ライセンス: Link先を確認
Yufan Zhu, Chongzhi Ran, Mingtao Feng, Weisheng Dong, Antonio M. López, Guangming Shi, (参考訳) 仮想エンジンは様々な合成シーンの深度マップを生成する能力を有しており、深度推定モデルの訓練には有用ではない。 しかし、合成色は実世界の色に比べて大きな相違が見られることが多く、特に教師なしの単分子深度推定タスクで発生する複雑で不確実な環境において、現実世界のシーンにおける深度推定の課題を提起する。 この問題に対処するために,実世界のデータに基づいて訓練されたモデルを用いて,奥行きからリアルな色を予測するフレームワークBack2Colorを提案する。 さらに,Syn-Real CutMix法を実世界の非教師付きおよび合成教師付き深度サンプルの併用訓練に利用することにより,実世界のシーンにおける単眼深度推定の性能向上を実現する。 さらに,非厳密な動きが深度推定に与える影響を包括的に解決するために,時間次元と空間次元の両方で教師なし学習の利点を統合する自動学習不確実性時空間融合法(Auto-UTSF)を提案する。 さらに,視覚注意ネットワークに基づく深度推定ネットワーク(VADepth)を設計する。 私たちのBack2Colorフレームワークは、パフォーマンス指標の改善と予測における詳細な詳細生成、特に教師なし深度推定のためのCityscapesのような挑戦的なデータセットによって実証された、最先端のパフォーマンスを実証しています。

Virtual engines have the capability to generate dense depth maps for various synthetic scenes, making them invaluable for training depth estimation models. However, synthetic colors often exhibit significant discrepancies compared to real-world colors, thereby posing challenges for depth estimation in real-world scenes, particularly in complex and uncertain environments encountered in unsupervised monocular depth estimation tasks. To address this issue, we propose Back2Color, a framework that predicts realistic colors from depth utilizing a model trained on real-world data, thus facilitating the transformation of synthetic colors into real-world counterparts. Additionally, by employing the Syn-Real CutMix method for joint training with both real-world unsupervised and synthetic supervised depth samples, we achieve improved performance in monocular depth estimation for real-world scenes. Moreover, to comprehensively address the impact of non-rigid motions on depth estimation, we propose an auto-learning uncertainty temporal-spatial fusion method (Auto-UTSF), which integrates the benefits of unsupervised learning in both temporal and spatial dimensions. Furthermore, we design a depth estimation network (VADepth) based on the Vision Attention Network. Our Back2Color framework demonstrates state-of-the-art performance, as evidenced by improvements in performance metrics and the production of fine-grained details in our predictions, particularly on challenging datasets such as Cityscapes for unsupervised depth estimation.
翻訳日:2024-06-26 00:13:51 公開日:2024-06-23
# 磁場勾配における超高感度単一イオンエレクトロメトリー

Ultrasensitive single-ion electrometry in a magnetic field gradient ( http://arxiv.org/abs/2406.08424v2 )

ライセンス: Link先を確認
F. Bonus, C. Knapp, C. H. Valahu, M. Mironiuc, S. Weidt, W. K. Hensinger, (参考訳) 閉じ込められたイオン中の超微細エネルギーレベルは、長時間のスピン状態を与える。 さらに、荷電粒子の運動は外部の電場摂動と強く結合する。 これらの特性は、電場を量子的に検出するために、閉じ込められたイオンを魅力的なプラットフォームにする。 しかし、スピン状態は電場に強い内在結合を示さない。 これにより達成可能な感度が制限される。 ここでは、静磁場勾配を用いて、電場摂動とスピン状態の結合を増幅する。 これにより、印加された外部電場摂動によって生じる力による捕捉されたイオンの変位は、内部スピン状態のエネルギー準位分裂の瞬間的な変化にマッピングされる。 この勾配を媒介とした電場とスピンのカップリングにより、電磁気学プロトコルを電気測定に利用することができる。 我々の量子センサを用いて、$\mathrm{S^{AC}_{min}=960(10)\times 10^{-6}~V m^{-1}Hz^{-\frac{1}{2}}}$の信号周波数$\omega_{\epsilon}/2\pi=5.82~\mathrm{Hz}$のAC感度と$\mathrm{S^{DC}_{min}=1.97(3)\times 10^{-3} ~V m^{-1}Hz^{-\frac{1}{2}}}$のDC感度を示す。 我々はまた、我々の量子センサを電場ノイズスペクトル分析器として利用することができる回転フレーム緩和法を用いている。 電場信号を$\mathrm{S_{E}(\omega)=6.2(5)\times 10^{-12}~V^2 m^{-2}Hz^{-1}}$のノイズフロアまで、$\mathrm{30.0(3)~kHz}$で測定する。 そこで我々は、サブHzから$\sim\mathrm{500~kHz}$までの周波数範囲にわたる直流信号と交流信号の測定において、前例のない電場感度を示す。 最後に,最大6桁の感度向上を実現するハードウェア修正について述べる。

Hyperfine energy levels in trapped ions offer long-lived spin states. In addition, the motion of these charged particles couples strongly to external electric field perturbations. These characteristics make trapped ions attractive platforms for the quantum sensing of electric fields. However, the spin states do not exhibit a strong intrinsic coupling to electric fields. This limits the achievable sensitivities. Here, we amplify the coupling between electric field perturbations and the spin states by using a static magnetic field gradient. Displacements of the trapped ion resulting from the forces experienced by an applied external electric field perturbation are thereby mapped to an instantaneous change in the energy level splitting of the internal spin states. This gradient mediated coupling of the electric field to the spin enables the use of a range of well-established magnetometry protocols for electrometry. Using our quantum sensor, we demonstrate AC sensitivities of $\mathrm{S^{AC}_{min}=960(10)\times 10^{-6}~V m^{-1}Hz^{-\frac{1}{2}}}$ at a signal frequency of $\omega_{\epsilon}/2\pi=5.82~\mathrm{Hz}$, and DC sensitivities of $\mathrm{S^{DC}_{min}=1.97(3)\times 10^{-3} ~V m^{-1}Hz^{-\frac{1}{2}}}$ with a Hahn-echo type sensing sequence. We also employ a rotating frame relaxometry technique, with which our quantum sensor can be utilised as an electric field noise spectrum analyser. We measure electric field signals down to a noise floor of $\mathrm{S_{E}(\omega)=6.2(5)\times 10^{-12}~V^2 m^{-2}Hz^{-1}}$ at a frequency of $\mathrm{30.0(3)~kHz}$. We therefore demonstrate unprecedented electric field sensitivities for the measurement of both DC signals and AC signals across a frequency range of sub-Hz to $\sim\mathrm{500~kHz}$. Finally, we describe a set of hardware modifications that are capable of achieving a further improvement in sensitivity by up to six orders of magnitude.
翻訳日:2024-06-26 00:13:51 公開日:2024-06-23
# Step-by-Step Diffusion: 基本的なチュートリアル

Step-by-Step Diffusion: An Elementary Tutorial ( http://arxiv.org/abs/2406.08929v2 )

ライセンス: Link先を確認
Preetum Nakkiran, Arwen Bradley, Hattie Zhou, Madhu Advani, (参考訳) 拡散経験のない技術的聴衆を対象として,拡散モデルと機械学習のためのフローマッチングに関する第1講座を開催する。 我々は、正しいアルゴリズムを導き出すのに十分な精度を維持しながら、可能な限り数学的詳細(時にはヒューリスティックに)を単純化しようと試みている。

We present an accessible first course on diffusion models and flow matching for machine learning, aimed at a technical audience with no diffusion experience. We try to simplify the mathematical details as much as possible (sometimes heuristically), while retaining enough precision to derive correct algorithms.
翻訳日:2024-06-26 00:13:51 公開日:2024-06-23
# OpenECAD: コンピュータ支援設計のための効率的なビジュアル言語モデル

OpenECAD: An Efficient Visual Language Model for Computer-Aided Design ( http://arxiv.org/abs/2406.09913v2 )

ライセンス: Link先を確認
Zhe Yuan, Jianqi Shi, Yanhong Huang, (参考訳) コンピュータ支援デザイン(CAD)ツールは、カップから宇宙船まであらゆるものをモデリングするために製造業界で利用されている。 これらのプログラムは使用が複雑で、通常、習得するには何年ものトレーニングと経験が必要です。 CADモデリングの重要な要素は、構造的かつ制約の厳しい2Dスケッチと3D構成である。 優れたCADモデルを製造工程にシームレスに統合することにより、生産効率を向上させることができる。 3次元形状の深部生成モデルと3次元オブジェクト再構成モデルは、重要な研究の関心を集めている。 しかし、これらのモデルのほとんどは離散形式で表現されている。 さらに、CAD操作に基づく数少ないモデルには、かなりの入力制限があることが多い。 本研究では,OpenECAD(0.55B,0.89B,2.4B,3.2B,4.2B)を作成するための事前学習モデルの微調整を行った。 OpenECADは入力として3Dデザインの画像を処理し、高度に構造化された2Dスケッチと3D構築コマンドを生成する。 これらの出力は、プロジェクトファイルを生成するために既存のCADツールのAPIで直接使用することができる。 ネットワークをトレーニングするために、新しいCADデータセットを作成しました。 このデータセットは既存の公開CADデータセットに基づいており、VLMトレーニングの要件を満たすように調整と拡張を行っている。

Computer-aided design (CAD) tools are utilized in the manufacturing industry for modeling everything from cups to spacecraft. These programs are complex to use and typically require years of training and experience to master. Structured and well-constrained 2D sketches and 3D constructions are crucial components of CAD modeling. A well-executed CAD model can be seamlessly integrated into the manufacturing process, thereby enhancing production efficiency. Deep generative models of 3D shapes and 3D object reconstruction models have garnered significant research interest. However, most of these models are represented in discrete forms. Moreover, the few models based on CAD operations often have substantial input restrictions. In this work, we fine-tuned pre-trained models to create OpenECAD (0.55B, 0.89B, 2.4B, 3.2B and 4.2B), leveraging the visual, logical, coding, and general capabilities of visual language models. OpenECAD can process images of 3D designs as input and generate highly structured 2D sketches and 3D construction commands. These outputs can be directly used with existing CAD tools' APIs to generate project files. To train our network, we created a new CAD dataset. This dataset is based on existing public CAD datasets, with adjustments and augmentations to meet the requirements of VLM training.
翻訳日:2024-06-26 00:13:51 公開日:2024-06-23
# RoboGolf: 反射型多モードビジョンランゲージモデルによる実世界のミニゴルフのマスタリング

RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model ( http://arxiv.org/abs/2406.10157v2 )

ライセンス: Link先を確認
Hantao Zhou, Tianying Ji, Jianwei Zhang, Fuchun Sun, Huazhe Xu, (参考訳) 無限のコートレイアウトと複雑なボールモーションを備えたゲームMinigolfは、エンボディドインテリジェンスの研究のための魅力的な現実世界のテストベッドを構成する。 空間的およびキノダイナミックな推論に挑戦するだけでなく、誤って設計されたコースに対処するためには反射的および補正能力も必要である。 ネストされたVLMを用いた閉ループ制御と反射平衡ループでデュアルカメラの視覚入力を知覚するフレームワークであるRoboGolfを紹介する。 大規模な実験は、RoboGolfのミニゴルフコートに対する効果を実証している。

Minigolf, a game with countless court layouts, and complex ball motion, constitutes a compelling real-world testbed for the study of embodied intelligence. As it not only challenges spatial and kinodynamic reasoning but also requires reflective and corrective capacities to address erroneously designed courses. We introduce RoboGolf, a framework that perceives dual-camera visual inputs with nested VLM-empowered closed-loop control and reflective equilibrium loop. Extensive experiments demonstrate the effectiveness of RoboGolf on challenging minigolf courts including those that are impossible to finish.
翻訳日:2024-06-26 00:04:06 公開日:2024-06-23
# 空の目:衛星画像を用いたレンガキルンの検出とコンプライアンスモニタリング

Eye in the Sky: Detection and Compliance Monitoring of Brick Kilns using Satellite Imagery ( http://arxiv.org/abs/2406.10723v2 )

ライセンス: Link先を確認
Rishabh Mondal, Shataxi Dubey, Vannsh Jani, Shrimay Shah, Suraj Jaiswal, Zeel B Patel, Nipun Batra, (参考訳) 大気汚染は年間700万人が死亡している。 レンガ製造産業は人口密度の高いインド・ガンゲティック平野の大気汚染の8%-14%を占めている。 レンガのキルンが組織化されていないため、ヒトの生息地に近いような政策違反の検出は依然として困難である。 従来の研究では、衛星画像からのブロックキルン検出にコンピュータビジョンベースの機械学習手法を使用していたが、プロプライエタリな衛星データを利用しており、政府のポリシーに準拠することはめったにない。 本研究では,ブロックキルン検出と自動コンプライアンス監視のためのスケーラブルなフレームワークを提案する。 Google Maps Static APIを使って衛星画像をダウンロードし、YOLOv8xモデルで検出します。 印欧平野の9つの州にまたがる19579個の新しいれんがを同定し,手作業で検証した。 さらに,ヒトの生息地,河川,病院に影響を及ぼす政策の遵守を自動化し,検証する。 以上の結果から,かなりの数のレンガキルンがコンプライアンス要件を満たしていないことが示唆された。 我々の枠組みは、世界中の政府にとって、ブロックキルンに関する政策規制を自動化し、実施するための貴重なツールを提供し、重要な環境と公衆衛生の懸念に対処する。

Air pollution kills 7 million people annually. The brick manufacturing industry accounts for 8%-14% of air pollution in the densely populated Indo-Gangetic plain. Due to the unorganized nature of brick kilns, policy violation detection, such as proximity to human habitats, remains challenging. While previous studies have utilized computer vision-based machine learning methods for brick kiln detection from satellite imagery, they utilize proprietary satellite data and rarely focus on compliance with government policies. In this research, we introduce a scalable framework for brick kiln detection and automatic compliance monitoring. We use Google Maps Static API to download the satellite imagery followed by the YOLOv8x model for detection. We identified and hand-verified 19579 new brick kilns across 9 states within the Indo-Gangetic plain. Furthermore, we automate and test the compliance to the policies affecting human habitats, rivers and hospitals. Our results show that a substantial number of brick kilns do not meet the compliance requirements. Our framework offers a valuable tool for governments worldwide to automate and enforce policy regulations for brick kilns, addressing critical environmental and public health concerns.
翻訳日:2024-06-26 00:04:06 公開日:2024-06-23
# LAIP:テキストに基づく人物検索のための画像合成モデルから局所的アライメントを学習する

LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person Search ( http://arxiv.org/abs/2406.10845v2 )

ライセンス: Link先を確認
Haiguang Wang, Yu Wu, Mengxia Wu, Cao Min, Min Zhang, (参考訳) テキストベースの人物検索は、与えられたテキスト記述に基づいて、特定の人物の画像を取得することを目的としている。 このタスクの一般的な解決策は、画像とテキスト全体、すなわちグローバルアライメントを直接一致させることである。 結果として、一部の作品では注意を局所的なアライメントにシフトさせている。 1つのグループは、変圧器のフォワードアテンション重みを使ってきめ細かな部分とマッチングするが、情報は未利用である。 もうひとつは、マスクされた部分の非マスキングのコンテキストに基づいて、偏りのあるマスキング戦略を用いて、局所的なアライメントを暗黙的に実施する。 すべての性能改善を制限します。 本稿では,2方向アテンション重み付き局所アライメント (BidirAtt) と Mask Phrase Modeling (MPM) モジュールを用いたLAIP(Local Alignment from Image-Phrase Modeling) フレームワークを提案する。 MPMは、全文ではなく名詞句の中でマスクの再構築に焦点を当て、偏見のないマスキング戦略を確実にする。 CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットで実施された大規模な実験は、既存の手法よりもLAIPフレームワークの方が優れていることを示している。

Text-based person search aims at retrieving images of a particular person based on a given textual description. A common solution for this task is to directly match the entire images and texts, i.e., global alignment, which fails to deal with discerning specific details that discriminate against appearance-similar people. As a result, some works shift their attention towards local alignment. One group matches fine-grained parts using forward attention weights of the transformer yet underutilizes information. Another implicitly conducts local alignment by reconstructing masked parts based on unmasked context yet with a biased masking strategy. All limit performance improvement. This paper proposes the Local Alignment from Image-Phrase modeling (LAIP) framework, with Bidirectional Attention-weighted local alignment (BidirAtt) and Mask Phrase Modeling (MPM) module.BidirAtt goes beyond the typical forward attention by considering the gradient of the transformer as backward attention, utilizing two-sided information for local alignment. MPM focuses on mask reconstruction within the noun phrase rather than the entire text, ensuring an unbiased masking strategy. Extensive experiments conducted on the CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets demonstrate the superiority of the LAIP framework over existing methods.
翻訳日:2024-06-26 00:04:06 公開日:2024-06-23
# AIC MLLM:ロバストロボットマニピュレーションのための自律的対話的補正MLLM

AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation ( http://arxiv.org/abs/2406.11548v2 )

ライセンス: Link先を確認
Chuyan Xiong, Chengyu Shen, Xiaoqi Li, Kaichen Zhou, Jiaming Liu, Ruiping Wang, Hao Dong, (参考訳) 現実の物体と安定して相互作用するロボットシステムにとって、障害を反映し修正する能力は不可欠である。マルチモーダル大規模言語モデル(MLLM)の一般化と推論能力の観察において、従来の手法はロボットシステムを強化するためにこれらのモデルを活用することを目的としていたが、これらの手法は通常、追加のMLLMを用いた高レベル計画修正に焦点を合わせ、低レベル接触ポーズの補正に失敗したサンプルを限定的に活用することに集中している。 このギャップに対処するために,従来の低レベルインタラクション体験を利用してSE(3)のポーズを補正する自律的対話補正(AIC)MLLMを提案する。 特に、AIC MLLMは、まず、ポーズ予測とフィードバックプロンプトの理解能力の両方を取得するために微調整され、1) 位置補正のために移動不能な部分をハイライトする視覚マスク、2) 回転補正のための電位方向を示すテキスト記述の2種類のプロンプト命令を慎重に設計し、推論中に、フィードバック情報抽出モジュールが障害原因を認識するために導入され、AIC MLLMは対応するプロンプトを用いてポーズ予測を適応的に修正する。 そこで我々は,AIC MLLMが現在のシーン構成に適応できるテスト時間適応戦略を考案し,シミュレーション環境と実環境の両方で広範な実験を行い,提案手法の評価を行った。 実世界の実例はhttps://sites.google.com/view/aic-mllmで見ることができる。

The ability to reflect on and correct failures is crucial for robotic systems to interact stably with real-life objects.Observing the generalization and reasoning capabilities of Multimodal Large Language Models (MLLMs), previous approaches have aimed to utilize these models to enhance robotic systems accordingly.However, these methods typically focus on high-level planning corrections using an additional MLLM, with limited utilization of failed samples to correct low-level contact poses. To address this gap, we propose an Autonomous Interactive Correction (AIC) MLLM, which makes use of previous low-level interaction experiences to correct SE(3) pose predictions. Specifically, AIC MLLM is initially fine-tuned to acquire both pose prediction and feedback prompt comprehension abilities.We carefully design two types of prompt instructions through interactions with objects: 1) visual masks to highlight unmovable parts for position correction, and 2)textual descriptions to indicate potential directions for rotation correction.During inference, a Feedback Information Extraction module is introduced to recognize the failure cause, allowing AIC MLLM to adaptively correct the pose prediction using the corresponding prompts. To further enhance manipulation stability, we devise a Test Time Adaptation strategy that enables AIC MLLM to better adapt to the current scene configuration.Finally, extensive experiments are conducted in both simulated and real-world environments to evaluate the proposed method. The results demonstrate that our AIC MLLM can efficiently correct failure samples by leveraging interaction experience prompts.Real-world demonstration can be found at https://sites.google.com/view/aic-mllm
翻訳日:2024-06-26 00:04:06 公開日:2024-06-23
# AnyMaker: Decoupled Dual-Level ID注入によるゼロショット汎用オブジェクトのカスタマイズ

AnyMaker: Zero-shot General Object Customization via Decoupled Dual-Level ID Injection ( http://arxiv.org/abs/2406.11643v2 )

ライセンス: Link先を確認
Lingjie Kong, Kai Wu, Xiaobin Hu, Wenhui Han, Jinlong Peng, Chengming Xu, Donghao Luo, Jiangning Zhang, Chengjie Wang, Yanwei Fu, (参考訳) テキスト・ツー・イメージ・オブジェクトのカスタマイズは、テキストのプロンプトや参照画像に応じて、同じID(ID)で画像を生成することを目的としており、大きな進歩を遂げている。 しかし、近年のカスタマイズ研究は、人間のカスタマイズや仮想試行のような特殊なタスクに支配されており、一般的なオブジェクトのカスタマイズにギャップが残されている。 この目的のために、AnyMakerという革新的なゼロショットオブジェクトカスタマイズフレームワークを導入し、高いID忠実度と柔軟なテキスト編集性を持つ汎用オブジェクトを生成する。 AnyMakerの有効性は、新しい一般ID抽出、二重レベルID注入、およびID認識デカップリングに起因している。 具体的には、汎用ID抽出モジュールは、汎用オブジェクトの多様なカスタマイズタスクに取り組むために、自己教師付きモデルのアンサンブルで十分なID情報を抽出する。 そして, 生成プロセスにおけるテキスト編集性を損なうことなく, 抽出したIDを拡散するUNetを提供するために, グローバルなローカルなデュアルレベルIDインジェクションモジュールを設計し, グローバルレベルのセマンティックIDをテキスト記述に注入し, ローカルレベルのID詳細を新たに付加したクロスアテンションモジュールを通じてモデルに直接注入する。 さらに,非ID要素からID関連情報を非ID要素から切り離すためのID対応デカップリングモジュールを提案する。 提案手法の検証と汎用オブジェクトのカスタマイズの研究を促進するため,315kのテキストイメージサンプルと10kのカテゴリを持つ,最初の大規模汎用IDデータセットであるMC-IDC(Multi-Category ID-Consistent)データセットを構築した。 実験により、AnyMakerは一般的なオブジェクトのカスタマイズにおいて顕著なパフォーマンスを示し、対応するタスクにおける特殊なメソッドよりも優れています。 コードとデータセットはまもなくリリースされる。

Text-to-image based object customization, aiming to generate images with the same identity (ID) as objects of interest in accordance with text prompts and reference images, has made significant progress. However, recent customizing research is dominated by specialized tasks, such as human customization or virtual try-on, leaving a gap in general object customization. To this end, we introduce AnyMaker, an innovative zero-shot object customization framework capable of generating general objects with high ID fidelity and flexible text editability. The efficacy of AnyMaker stems from its novel general ID extraction, dual-level ID injection, and ID-aware decoupling. Specifically, the general ID extraction module extracts sufficient ID information with an ensemble of self-supervised models to tackle the diverse customization tasks for general objects. Then, to provide the diffusion UNet with the extracted ID as much while not damaging the text editability in the generation process, we design a global-local dual-level ID injection module, in which the global-level semantic ID is injected into text descriptions while the local-level ID details are injected directly into the model through newly added cross-attention modules. In addition, we propose an ID-aware decoupling module to disentangle ID-related information from non-ID elements in the extracted representations for high-fidelity generation of both identity and text descriptions. To validate our approach and boost the research of general object customization, we create the first large-scale general ID dataset, Multi-Category ID-Consistent (MC-IDC) dataset, with 315k text-image samples and 10k categories. Experiments show that AnyMaker presents remarkable performance in general object customization and outperforms specialized methods in corresponding tasks. Code and dataset will be released soon.
翻訳日:2024-06-26 00:04:06 公開日:2024-06-23
# ゼロショット知識に基づくVQAのためのRationaleに基づく複数QAストラテジーのアンサンブル

Rationale-based Ensemble of Multiple QA Strategies for Zero-shot Knowledge-based VQA ( http://arxiv.org/abs/2406.12746v3 )

ライセンス: Link先を確認
Miaoyu Li, Haoxin Li, Zilin Du, Boyang Li, (参考訳) K-VQA(Knowledge-based Visual Qustion-Awering)は、画像に描かれているもの以外の背景知識の使用を必要とする。 現在のゼロショットK-VQA法は、通常、1種類のテキスト決定コンテキストに画像を変換し、それに基づいてテキストベースのモデルを使用して質問に答えるが、K-VQAの質問は複数の質問答え戦略の組み合わせを必要とすることが多いという事実と矛盾する。 そこで本研究では,Rationale-based Ensemble of Answer Context Tactics (REACT) を提案し,AcG(Answer Candidate Generation)とRSF(Rationale-based Strategy Fusion)を含む複数の質問回答戦術の動的アンサンブルを実現する。 ACGでは、各質問に対して異なる戦略を提供するために3つの決定コンテキストを生成し、その結果、3つの回答候補が生成される。 RSFは、各候補に対する決定コンテキストから自動的および機械的合理性を生成し、モデルがすべての候補から正しい答えを選択することを可能にする。 我々はOK-VQAデータセットとA-OKVQAデータセットの総合的な実験を行い、この手法は全てのデータセットにおける最先端のLCMベースラインを大幅に上回っている。

Knowledge-based Visual Qustion-answering (K-VQA) necessitates the use of background knowledge beyond what is depicted in the image. Current zero-shot K-VQA methods usually translate an image to a single type of textual decision context and use a text-based model to answer the question based on it, which conflicts with the fact that K-VQA questions often require the combination of multiple question-answering strategies. In light of this, we propose Rationale-based Ensemble of Answer Context Tactics (REACT) to achieve a dynamic ensemble of multiple question-answering tactics, comprising Answer Candidate Generation (ACG) and Rationale-based Strategy Fusion (RSF). In ACG, we generate three distinctive decision contexts to provide different strategies for each question, resulting in the generation of three answer candidates. RSF generates automatic and mechanistic rationales from decision contexts for each candidate, allowing the model to select the correct answer from all candidates. We conduct comprehensive experiments on the OK-VQA and A-OKVQA datasets, and our method significantly outperforms state-of-the-art LLM-based baselines on all datasets.
翻訳日:2024-06-25 23:54:21 公開日:2024-06-23
# GroPrompt: ビデオオブジェクトのセグメンテーションの効率化と適応

GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation ( http://arxiv.org/abs/2406.12834v2 )

ライセンス: Link先を確認
Ci-Siang Lin, I-Jieh Liu, Min-Hung Chen, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang, (参考訳) Referring Video Object Segmentation (RVOS)は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメントすることを目的としている。 既存のほとんどのメソッドでは、高密度なマスクアノテーションによるエンドツーエンドのトレーニングが必要です。 本研究では,提案するGroPrompting(GroPrompt)フレームワークを用いて,RVOSに対処するための基盤セグメンテーションモデルを弱監督から効率的に適用することを目的とする。 具体的には,テキストコントラスト学習 (TextCon) とモダリティコントラスト学習 (ModalCon) をそれぞれフレームレベルとビデオレベルで行うことで,テキストコントラスト学習 (ModalCon) やモダリティコントラスト学習 (ModalCon) などのボックスインスペクタのみによる位置プロンプトと参照文の関連性を高めるために,TAP-CL (Text-Aware Prompt Contrastive Learning) を提案する。 提案したTAP-CLにより、GroPromptフレームワークは、ビデオから参照対象の位置と動きを記述した時間一貫性のあるテキスト対応の位置プロンプトを生成することができる。 標準RVOSベンチマーク(Ref-YouTube-VOS,Ref-DAVIS17,A2D-Sentences,JHMDB-Sentences)における実験結果は,バウンディングボックスの弱い監視のみを前提として提案したGroPromptフレームワークの競合性能を示す。

Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence throughout the entire video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we aim to efficiently adapt foundation segmentation models for addressing RVOS from weak supervision with the proposed Grounded Prompting (GroPrompt) framework. More specifically, we propose Text-Aware Prompt Contrastive Learning (TAP-CL) to enhance the association between the position prompts and the referring sentences with only box supervisions, including Text-Contrastive Prompt Learning (TextCon) and Modality-Contrastive Prompt Learning (ModalCon) at frame level and video level, respectively. With the proposed TAP-CL, our GroPrompt framework can generate temporal-consistent yet text-aware position prompts describing locations and movements for the referred object from the video. The experimental results in the standard RVOS benchmarks (Ref-YouTube-VOS, Ref-DAVIS17, A2D-Sentences, and JHMDB-Sentences) demonstrate the competitive performance of our proposed GroPrompt framework given only bounding box weak supervisions.
翻訳日:2024-06-25 23:54:21 公開日:2024-06-23
# D2O:大規模言語モデルの効率的な生成推定のための動的識別操作

D2O: Dynamic Discriminative Operations for Efficient Generative Inference of Large Language Models ( http://arxiv.org/abs/2406.13035v2 )

ライセンス: Link先を確認
Zhongwei Wan, Xinjian Wu, Yu Zhang, Yi Xin, Chaofan Tao, Zhihong Zhu, Xin Wang, Siqi Luo, Jing Xiong, Mi Zhang, (参考訳) 大規模言語モデル(LLM)の効率的な推論は、特に長いシーケンスにおいてキー値(KV)キャッシングのメモリ要求の増加によって妨げられる。 従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを優先し、しばしば生成品質を低下させ、コンテキスト損失や幻覚などの問題を引き起こす。 そこで本稿では,KVキャッシュサイズを微調整せずに最適化する2段階判別手法であるDynamic Discriminative Operations (D2O)を紹介する。 当初、浅い層と深い層の間の様々な注意重みを観測することで、情報損失を最小限に抑えるために、どの層が過剰な排除を避けるべきかを判断するためにこの洞察を用いています。 その後、各層における排除戦略について、D2Oは、類似性のしきい値を維持するための補償機構を革新的に組み込んで、捨てられたトークンの重要性を再認識し、それらがリコールされ、類似のトークンとマージされるべきかどうかを判断する。 提案手法はメモリの大幅な節約と推論スループットを3倍以上に向上するだけでなく,高品質な長文生成も維持する。 様々なベンチマークやLLMアーキテクチャによる大規模な実験により、D2OはKVキャッシュの予算を制限して性能を大幅に向上することを示した。

Efficient inference in Large Language Models (LLMs) is impeded by the growing memory demands of key-value (KV) caching, especially for longer sequences. Traditional KV cache eviction strategies, which prioritize less critical KV-pairs based on attention scores, often degrade generation quality, leading to issues such as context loss or hallucinations. To address this, we introduce Dynamic Discriminative Operations (D2O), a novel method that utilizes two-level discriminative strategies to optimize KV cache size without fine-tuning, while preserving essential context. Initially, by observing varying densities of attention weights between shallow and deep layers, we use this insight to determine which layers should avoid excessive eviction to minimize information loss. Subsequently, for the eviction strategy in each layer, D2O innovatively incorporates a compensation mechanism that maintains a similarity threshold to re-discriminate the importance of previously discarded tokens, determining whether they should be recalled and merged with similar tokens. Our approach not only achieves significant memory savings and enhances inference throughput by more than 3 times but also maintains high-quality long-text generation. Extensive experiments across various benchmarks and LLM architectures have demonstrated that D2O significantly enhances performance with a constrained KV cache budget.
翻訳日:2024-06-25 23:54:21 公開日:2024-06-23
# フェデレーションラーニングと差分プライバシを用いた電子健康記録のためのプライバシ保存機械学習

Privacy Preserving Machine Learning for Electronic Health Records using Federated Learning and Differential Privacy ( http://arxiv.org/abs/2406.15962v1 )

ライセンス: Link先を確認
Naif A. Ganadily, Han J. Xia, (参考訳) 電子健康記録(Electronic Health Record、EHR)は、医療提供者が患者の診断、治療、費用、その他の個人情報を保管するために使用する電子データベースである。 機械学習(ML)アルゴリズムは、患者のデータを抽出して分析し、患者のケアを改善する。 患者記録には、社会保障番号(SSN)や住宅住所などの機密性の高い情報が含まれており、これらMLモデルにフェデレートラーニングと差分プライバシを使用してプライバシ保護技術を適用する必要がある。

An Electronic Health Record (EHR) is an electronic database used by healthcare providers to store patients' medical records which may include diagnoses, treatments, costs, and other personal information. Machine learning (ML) algorithms can be used to extract and analyze patient data to improve patient care. Patient records contain highly sensitive information, such as social security numbers (SSNs) and residential addresses, which introduces a need to apply privacy-preserving techniques for these ML models using federated learning and differential privacy.
翻訳日:2024-06-25 19:43:16 公開日:2024-06-23
# 複雑な医療報告の説明におけるChatGPTの効果

Effectiveness of ChatGPT in explaining complex medical reports to patients ( http://arxiv.org/abs/2406.15963v1 )

ライセンス: Link先を確認
Mengxuan Sun, Ehud Reiter, Anne E Kiltie, George Ramsay, Lisa Duncan, Peter Murchie, Rosalind Adam, (参考訳) 電子的な健康記録には患者の健康状態に関する詳細な情報が含まれているが、患者が患者にアクセスできたとしても理解することは困難である。 大腸癌および前立腺癌患者に対して,ChatGPT(GPT 4)が多部門チーム(MDT)の報告を説明できるかどうかを検討した。 これらの報告は、高密度医療言語で書かれ、臨床知識を前提としており、ChatGPTが複雑な医療報告を患者に説明できるかどうかを十分に検証している。 当科では,ChatGPTの解説と対応について,臨床医や一般人(患者ではない)に検討を依頼した。 また、ChatGPTのアウトプットについて議論するため、3つの焦点群(がん患者、介護者、コンピュータ科学者、臨床医を含む)も実施した。 本研究は,不正確な情報,不適切な言語,限定的パーソナライゼーション,AI不信,大規模言語モデル(LLM)を臨床ワークフローに統合する課題について強調した。 これらの問題は、LSMが複雑な個人情報を患者に説明するために使われる前に解決する必要がある。

Electronic health records contain detailed information about the medical condition of patients, but they are difficult for patients to understand even if they have access to them. We explore whether ChatGPT (GPT 4) can help explain multidisciplinary team (MDT) reports to colorectal and prostate cancer patients. These reports are written in dense medical language and assume clinical knowledge, so they are a good test of the ability of ChatGPT to explain complex medical reports to patients. We asked clinicians and lay people (not patients) to review explanations and responses of ChatGPT. We also ran three focus groups (including cancer patients, caregivers, computer scientists, and clinicians) to discuss output of ChatGPT. Our studies highlighted issues with inaccurate information, inappropriate language, limited personalization, AI distrust, and challenges integrating large language models (LLMs) into clinical workflow. These issues will need to be resolved before LLMs can be used to explain complex personal medical information to patients.
翻訳日:2024-06-25 19:43:16 公開日:2024-06-23
# メンタルヘルスにおけるQ&A分類のための基礎モデルの有効性の評価

Evaluating the Effectiveness of the Foundational Models for Q&A Classification in Mental Health care ( http://arxiv.org/abs/2406.15966v1 )

ライセンス: Link先を確認
Hassan Alhuzali, Ashwag Alasmari, (参考訳) プレトレーニング言語モデル(PLM)は、アクセス可能で文化的に敏感なリソースを提供することで、メンタルヘルスを変革する可能性がある。 しかし、この可能性にもかかわらず、精神医療におけるその効果、特にアラビア語に対する効果は広く調査されていない。 このギャップを埋めるため,精神保健分野における質問紙・回答紙(Q&A)の分類における基礎モデルの有効性について検討した。 我々は、メンタルヘルスに関連するQ&Aインタラクションを特徴とするアラビア語コレクションであるMentalQAデータセットを活用する。 本研究では,従来の特徴抽出法,特徴抽出法としてのPLM,微調整型PLM,ゼロショットおよび少数ショットの学習環境における大規模言語モデル(GPT-3.5およびGPT-4)の4種類の学習手法を用いて実験を行った。 Support Vector Machines (SVM) と組み合わせた従来の機能抽出器は有望な性能を示したが、PLMは意味的な意味をキャプチャする能力により、さらに優れた結果を示した。 例えば、MARBERTは質問分類で0.80のジャカードスコア、回答分類で0.86のジャカードスコアで最高性能を達成した。 さらに、微調整と非微調整の効果、データサイズの変化の影響、誤り解析の実施など、詳細な分析を行った。 解析の結果, PLMの性能向上には微調整が有用であることが示され, トレーニングデータのサイズは高い性能を達成する上で重要な役割を担った。 また, GPT-3.5による少数ショット学習が有望な結果をもたらすプロンプトについても検討した。 質問紙分類では12%,回答分類では45%の改善があった。 以上の結果から, PLMとプロンプトに基づくアプローチは, アラビア語におけるメンタルヘルス支援を約束していると結論付けることができる。

Pre-trained Language Models (PLMs) have the potential to transform mental health support by providing accessible and culturally sensitive resources. However, despite this potential, their effectiveness in mental health care and specifically for the Arabic language has not been extensively explored. To bridge this gap, this study evaluates the effectiveness of foundational models for classification of Questions and Answers (Q&A) in the domain of mental health care. We leverage the MentalQA dataset, an Arabic collection featuring Q&A interactions related to mental health. In this study, we conducted experiments using four different types of learning approaches: traditional feature extraction, PLMs as feature extractors, Fine-tuning PLMs and prompting large language models (GPT-3.5 and GPT-4) in zero-shot and few-shot learning settings. While traditional feature extractors combined with Support Vector Machines (SVM) showed promising performance, PLMs exhibited even better results due to their ability to capture semantic meaning. For example, MARBERT achieved the highest performance with a Jaccard Score of 0.80 for question classification and a Jaccard Score of 0.86 for answer classification. We further conducted an in-depth analysis including examining the effects of fine-tuning versus non-fine-tuning, the impact of varying data size, and conducting error analysis. Our analysis demonstrates that fine-tuning proved to be beneficial for enhancing the performance of PLMs, and the size of the training data played a crucial role in achieving high performance. We also explored prompting, where few-shot learning with GPT-3.5 yielded promising results. There was an improvement of 12% for question and classification and 45% for answer classification. Based on our findings, it can be concluded that PLMs and prompt-based approaches hold promise for mental health support in Arabic.
翻訳日:2024-06-25 19:43:16 公開日:2024-06-23
# ReCaLL: Relative Conditional Log-Likelihoodsによるメンバシップ推論

ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods ( http://arxiv.org/abs/2406.15968v1 )

ライセンス: Link先を確認
Roy Xie, Junlin Wang, Ruomin Huang, Minxing Zhang, Rong Ge, Jian Pei, Neil Zhenqiang Gong, Bhuwan Dhingra, (参考訳) 大規模言語モデル(LLM)の急激なスケーリングは、トレーニングに使用する事前トレーニングデータの透明性と公正な使用に関する懸念を引き起こしている。 このようなコンテンツの検出は、データのスケールと、トレーニング中の各インスタンスの露出が制限されているため、難しい。 ReCaLL (Relative Conditional Log-Likelihood) は, LLMの事前学習データを検出するために, 条件言語モデリング機能を活用して, 新たなメンバーシップ推論攻撃(MIA)を提案する。 ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。 実験の結果,非メンバープレフィックスの条件付きメンバーデータは,非メンバーデータと比較してログライクな傾向が著しく低下することがわかった。 我々は、WikiMIAデータセット上で、ランダムなプレフィックスや合成プレフィックスであっても、ReCaLLが最先端のパフォーマンスを達成し、アンサンブルアプローチによりさらに改善できることを示し、包括的な実験を行った。 さらに,LLMの振る舞いを異なるメンバシップコンテキストで詳細に分析し,LLMがシーケンスとトークンの双方で効果的な推論のために,メンバーシップ情報をどのように活用するかを考察する。

The rapid scaling of large language models (LLMs) has raised concerns about the transparency and fair use of the pretraining data used for training them. Detecting such content is challenging due to the scale of the data and limited exposure of each instance during training. We propose ReCaLL (Relative Conditional Log-Likelihood), a novel membership inference attack (MIA) to detect LLMs' pretraining data by leveraging their conditional language modeling capabilities. ReCaLL examines the relative change in conditional log-likelihoods when prefixing target data points with non-member context. Our empirical findings show that conditioning member data on non-member prefixes induces a larger decrease in log-likelihood compared to non-member data. We conduct comprehensive experiments and show that ReCaLL achieves state-of-the-art performance on the WikiMIA dataset, even with random and synthetic prefixes, and can be further improved using an ensemble approach. Moreover, we conduct an in-depth analysis of LLMs' behavior with different membership contexts, providing insights into how LLMs leverage membership information for effective inference at both the sequence and token level.
翻訳日:2024-06-25 19:43:16 公開日:2024-06-23
# 不完全なリコールゲーム:平衡概念とその複雑さ

Imperfect-Recall Games: Equilibrium Concepts and Their Complexity ( http://arxiv.org/abs/2406.15970v1 )

ライセンス: Link先を確認
Emanuel Tewolde, Brian Hu Zhang, Caspar Oesterheld, Manolis Zampetakis, Tuomas Sandholm, Paul W. Goldberg, Vincent Conitzer, (参考訳) エージェントが以前保持していた情報を忘れたとき、不完全なリコールの下で最適な意思決定を行う。 例えば、欠席したドライバーゲームや、メンバーが限られたコミュニケーション能力を持つチームゲームである。 不完全なリコールを伴う広範形式のゲームフレームワークにおいて、我々は3つの異なる解概念(ナッシュ、明示的決定理論(EDT)に基づくマルチセル、因果的決定理論(CDT)に基づくマルチセル)にまたがるマルチプレイヤー設定における平衡を求める計算複雑性を解析した。 我々は正確な解計算と近似解計算の両方に興味を持っている。 特殊な場合として,(1)単プレイヤーゲーム,(2)二プレイヤーゼロサムゲーム,および最大値との関係,(3)外因性確率性のないゲーム(チャンスノード)を考える。 これらの問題を複雑性クラス P, PPAD, PLS, $\Sigma_2^P$, $\exists$R, $\exists \forall$R に関連付ける。

We investigate optimal decision making under imperfect recall, that is, when an agent forgets information it once held before. An example is the absentminded driver game, as well as team games in which the members have limited communication capabilities. In the framework of extensive-form games with imperfect recall, we analyze the computational complexities of finding equilibria in multiplayer settings across three different solution concepts: Nash, multiselves based on evidential decision theory (EDT), and multiselves based on causal decision theory (CDT). We are interested in both exact and approximate solution computation. As special cases, we consider (1) single-player games, (2) two-player zero-sum games and relationships to maximin values, and (3) games without exogenous stochasticity (chance nodes). We relate these problems to the complexity classes P, PPAD, PLS, $\Sigma_2^P$ , $\exists$R, and $\exists \forall$R.
翻訳日:2024-06-25 19:43:16 公開日:2024-06-23
# EVCL:重み強化による弾力的変分連続学習

EVCL: Elastic Variational Continual Learning with Weight Consolidation ( http://arxiv.org/abs/2406.15972v1 )

ライセンス: Link先を確認
Hunar Batra, Ronald Clark, (参考訳) 継続的な学習は、モデルが以前に学んだことを忘れずに新しいタスクを学習できるようにすることを目的としている。 本稿では、変分連続学習(VCL)の変分後近似機構と、弾性重み強化(EWC)の正規化に基づくパラメータ保護戦略を統合する新しいハイブリッドモデルである、重み強化による弾性変分連続学習(EVCL)を紹介する。 両方の手法の長所を組み合わせることで、EVCLは破滅的な忘れを効果的に軽減し、モデルパラメータとタスク固有のデータ間の依存関係のより優れたキャプチャを可能にします。 EVCLは5つの差別的タスクに基づいて評価され、深い差別的モデルのためのドメイン・インクリメンタルおよびタスク・インクリメンタルな学習シナリオにおいて、既存のベースラインを一貫して上回っている。

Continual learning aims to allow models to learn new tasks without forgetting what has been learned before. This work introduces Elastic Variational Continual Learning with Weight Consolidation (EVCL), a novel hybrid model that integrates the variational posterior approximation mechanism of Variational Continual Learning (VCL) with the regularization-based parameter-protection strategy of Elastic Weight Consolidation (EWC). By combining the strengths of both methods, EVCL effectively mitigates catastrophic forgetting and enables better capture of dependencies between model parameters and task-specific data. Evaluated on five discriminative tasks, EVCL consistently outperforms existing baselines in both domain-incremental and task-incremental learning scenarios for deep discriminative models.
翻訳日:2024-06-25 19:43:16 公開日:2024-06-23
# プログラム合成における効果的な適応的突然変異率

Effective Adaptive Mutation Rates for Program Synthesis ( http://arxiv.org/abs/2406.15976v1 )

ライセンス: Link先を確認
Andrew Ni, Lee Spector, (参考訳) プログラム合成に使用される遺伝的プログラミングシステムを含む多くの進化的アルゴリズムの問題解決性能は、突然変異率を含むハイパーパラメータの値に依存する。 ソフトウェア合成ベンチマーク問題において、最も優れた結果を生み出すために使用される突然変異法であるUMAD(Uniform Mutation by Addition and Deletion)は、ゲノムに所定の頻度で新しい遺伝子を追加し、加算率のバランスをとる速度で遺伝子を削除する。 所定の付加率を持つUMADは、他の多くの突然変異およびクロスオーバースキームよりも優れていますが、進化システムの1つの実行内で、すべての問題またはすべての世代において、単一のレートが最適であるとは期待していません。 しかし、自己適応突然変異率のような現在の適応突然変異スキームの多くは、突然変異率が急速にゼロに崩壊する、消滅する突然変異率問題のような病理に苦しむ。 本稿では,この問題に対処し,突然変異率の特定の必要性を解消する適応的帯域幅に基づく手法を提案する。 提案手法自体はハイパーパラメータを導入しているが、良い値に設定するか、妥当な範囲でアンサンブルするかのいずれかである。 ソフトウェア合成とシンボリック回帰問題の結果から,本手法の有効性が検証された。

The problem-solving performance of many evolutionary algorithms, including genetic programming systems used for program synthesis, depends on the values of hyperparameters including mutation rates. The mutation method used to produce some of the best results to date on software synthesis benchmark problems, Uniform Mutation by Addition and Deletion (UMAD), adds new genes into a genome at a predetermined rate and then deletes genes at a rate that balances the addition rate, producing no size change on average. While UMAD with a predetermined addition rate outperforms many other mutation and crossover schemes, we do not expect a single rate to be optimal across all problems or all generations within one run of an evolutionary system. However, many current adaptive mutation schemes such as self-adaptive mutation rates suffer from pathologies like the vanishing mutation rate problem, in which the mutation rate quickly decays to zero. We propose an adaptive bandit-based scheme that addresses this problem and essentially removes the need to specify a mutation rate. Although the proposed scheme itself introduces hyperparameters, we either set these to good values or ensemble them in a reasonable range. Results on software synthesis and symbolic regression problems validate the effectiveness of our approach.
翻訳日:2024-06-25 19:43:16 公開日:2024-06-23
# キラル分子のエナンチオマー特異的励起

Enantiomer-Specific Pumping of Chiral Molecules ( http://arxiv.org/abs/2406.15978v1 )

ライセンス: Link先を確認
Fen Zou, Yong Li, Peng Zhang, (参考訳) エナンチオマー特異的状態移動(Enantiomer-specific state transfer、ESST)は、キラル分子の異なる配位を持つエナンチオマーを異なるエネルギー内部状態に移動させることを含む。 従来のESST法は動的プロセスに基づいており、初期状態の準備とマイクロ波動作時間の精密制御が必要である。 本稿では,エナンチオマー特異的ポンプ法 (enantiomer-specific pumping, ESP) と呼ばれる新しいESST法を提案する。 このアプローチでは、特定のハンドネスを持つエナンチオマーにのみ現れる特殊なマイクロ波誘起暗黒状態を利用する。 具体的には、ESPでは、ダーク状態を持たないエナンチオマーは、関連する内部状態のサブ空間から取り出すことができ、一方ダーク状態のエナンチオマーは、このサブ空間内で有限確率を維持し、ESSTにおいて高い効率を提供する。 特に、ESPは、エナンチオポーレサンプルを参照として必要とせずに、エナンチオペーションを促進する。

Enantiomer-specific state transfer (ESST), which involves transferring enantiomers with different handedness of a chiral molecule into different-energy internal states, is a challenging yet significant task. Previous ESST methods are based on dynamic processes and thus require the preparation of initial states and precise control of microwave operation times. We propose a novel ESST approach, called enantiomer-specific pumping (ESP), which is based on a {\it dissipative} process, and thereby eliminates the need for these two technical requirements. This approach utilizes a special microwave-induced dark state that appears exclusively for the enantiomer with a specific handedness. Specifically, in ESP, the enantiomer lacking the dark state can be pumped out of the subspace of relevant internal states, while the enantiomer with the dark state maintains a finite probability within this subspace, offering high efficiency in ESST. Notably, ESP facilitates enantiodetection without the need for enantiopure samples as reference.
翻訳日:2024-06-25 19:43:16 公開日:2024-06-23
# 腹腔鏡下腹水の深層学習分画による自動体積定量化

Deep Learning Segmentation of Ascites on Abdominal CT Scans for Automatic Volume Quantification ( http://arxiv.org/abs/2406.15979v1 )

ライセンス: Link先を確認
Benjamin Hou, Sung-Won Lee, Jung-Min Lee, Christopher Koh, Jing Xiao, Perry J. Pickhardt, Ronald M. Summers, (参考訳) 目的:肝硬変および卵巣癌患者の腹水検出における自動深層学習法の性能を評価すること。 材料と方法: この回顧調査では, 硬変性腹水患者と国立衛生研究所(NIH)とウィスコンシン大学(UofW)の卵巣癌患者の造影・非造影腹部CT検査を行った。 このモデルはThe Cancer Genome Atlas Ovarian Cancer データセット(平均年齢60歳+/-11歳女性143名)で訓練され、2つの内部(NIH-LCとNIH-OV)と1つの外部データセット(UofW-LC)で試験された。 その性能はDice係数,標準偏差,95%信頼区間で測定され,腹腔内腹水量に着目した。 結果: NIH-LC (25例, 平均年齢, 59歳+/-14例, 男性14例, 平均年齢, 平均年齢, 65歳+/-9例, 女性全例)では, Diceスコアが0.855+/-0.061 (CI: 0.831-0.878) と0.826+/-0.153 (CI: 0.764-0.887) でそれぞれ19.6% (IQR: 13.2-29.0) と5.3% (IQR: 2.4-9.7) であった。 UofW-LC(平均年齢124人、平均年齢46歳+/-12歳、女性73人)では、Diceスコアが0.830+/- 0.107(CI: 0.798-0.863)、中央ボリューム推定誤差が9.7%(IQR: 4.5-15.1)であった。 このモデルは専門家による評価と強く一致し、r^2は0.79、0.98、0.97である。 結論: 提案した深層学習法は, 専門的放射線学者による評価と一致して, 腹水量を定量化し, セグメンテーションにおいて良好に機能した。

Purpose: To evaluate the performance of an automated deep learning method in detecting ascites and subsequently quantifying its volume in patients with liver cirrhosis and ovarian cancer. Materials and Methods: This retrospective study included contrast-enhanced and non-contrast abdominal-pelvic CT scans of patients with cirrhotic ascites and patients with ovarian cancer from two institutions, National Institutes of Health (NIH) and University of Wisconsin (UofW). The model, trained on The Cancer Genome Atlas Ovarian Cancer dataset (mean age, 60 years +/- 11 [s.d.]; 143 female), was tested on two internal (NIH-LC and NIH-OV) and one external dataset (UofW-LC). Its performance was measured by the Dice coefficient, standard deviations, and 95% confidence intervals, focusing on ascites volume in the peritoneal cavity. Results: On NIH-LC (25 patients; mean age, 59 years +/- 14 [s.d.]; 14 male) and NIH-OV (166 patients; mean age, 65 years +/- 9 [s.d.]; all female), the model achieved Dice scores of 0.855 +/- 0.061 (CI: 0.831-0.878) and 0.826 +/- 0.153 (CI: 0.764-0.887), with median volume estimation errors of 19.6% (IQR: 13.2-29.0) and 5.3% (IQR: 2.4-9.7) respectively. On UofW-LC (124 patients; mean age, 46 years +/- 12 [s.d.]; 73 female), the model had a Dice score of 0.830 +/- 0.107 (CI: 0.798-0.863) and median volume estimation error of 9.7% (IQR: 4.5-15.1). The model showed strong agreement with expert assessments, with r^2 values of 0.79, 0.98, and 0.97 across the test sets. Conclusion: The proposed deep learning method performed well in segmenting and quantifying the volume of ascites in concordance with expert radiologist assessments.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# 大規模言語モデルのシリアル位置効果

Serial Position Effects of Large Language Models ( http://arxiv.org/abs/2406.15981v1 )

ライセンス: Link先を確認
Xiaobo Guo, Soroush Vosoughi, (参考訳) 大規模言語モデル(LLM)はゼロショット学習アプリケーションにおいて顕著な機能を示し、追加の微調整を必要とせずに事前学習情報のみを使用してクエリに対する応答を生成する。 これは、従来の機械学習アプローチから大きく離れている。 以前の研究では、LLMは、人間の心理学においてよく文書化された認知バイアスである予備性や傾向バイアスのような連続的な位置効果を示す可能性があることが示されている。 様々なタスクやモデルにまたがる広範なテストにより、これらの効果の広範な発生が確認されるが、その強度は様々である。 また、慎重に設計されたプロンプトはバイアスを和らげることができるが、その効果は矛盾していることもわかりました。 これらの知見は、特に基礎的な真理ラベルが存在しないシナリオにおいて、推論過程におけるシリアル位置効果の重要性を浮き彫りにし、LLMアプリケーションにおいてこれらの効果にもっと焦点をあてることの必要性を強調している。

Large Language Models (LLMs) have shown remarkable capabilities in zero-shot learning applications, generating responses to queries using only pre-training information without the need for additional fine-tuning. This represents a significant departure from traditional machine learning approaches. Previous research has indicated that LLMs may exhibit serial position effects, such as primacy and recency biases, which are well-documented cognitive biases in human psychology. Our extensive testing across various tasks and models confirms the widespread occurrence of these effects, although their intensity varies. We also discovered that while carefully designed prompts can somewhat mitigate these biases, their effectiveness is inconsistent. These findings underscore the significance of serial position effects during the inference process, particularly in scenarios where there are no ground truth labels, highlighting the need for greater focus on addressing these effects in LLM applications.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# 雑音場真実による学習:2次元分類から3次元再構成へ

Learning with Noisy Ground Truth: From 2D Classification to 3D Reconstruction ( http://arxiv.org/abs/2406.15982v1 )

ライセンス: Link先を確認
Yangdi Lu, Wenbo He, (参考訳) ディープニューラルネットワークは、大規模でクリーンなデータに大きく依存する一方で、データインテリジェンスコンピュータビジョンアプリケーションで成功している。 現実のシナリオでは、クリーンなデータを得るのは難しいことがあります。 例えば、画像分類やセグメンテーションタスクでは、数百万のサンプルの正確なアノテーションは非常に高価で時間を要する。 静的シーン再構築タスクでは、ほとんどのNeRF関連手法は静的シーン(例えば、一貫した照明条件と永続的な物体位置)の基本的な仮定を必要とする。 これらの問題に対処するため、雑音の多い基底真理(LNGT)による学習が効果的な学習方法として登場し、大きな可能性を秘めている。 本稿では,LNGT LNGTの分析を異なる機械学習タスク(分類と回帰)の文脈で統一する形式的定義を提案する。 本定義に基づいて,機械学習の基本的定義と誤り分解に基づいて既存の作業を分類する新たな分類法を提案する。 さらに,2次元分類から3次元再構成に至るまでの今後の研究機会について,記憶効果の詳細な分析と洞察に富んだ考察を行い,今後の研究の指導を期待する。

Deep neural networks has been highly successful in data-intense computer vision applications, while such success relies heavily on the massive and clean data. In real-world scenarios, clean data sometimes is difficult to obtain. For example, in image classification and segmentation tasks, precise annotations of millions samples are generally very expensive and time-consuming. In 3D static scene reconstruction task, most NeRF related methods require the foundational assumption of the static scene (e.g. consistent lighting condition and persistent object positions), which is often violated in real-world scenarios. To address these problem, learning with noisy ground truth (LNGT) has emerged as an effective learning method and shows great potential. In this short survey, we propose a formal definition unify the analysis of LNGT LNGT in the context of different machine learning tasks (classification and regression). Based on this definition, we propose a novel taxonomy to classify the existing work according to the error decomposition with the fundamental definition of machine learning. Further, we provide in-depth analysis on memorization effect and insightful discussion about potential future research opportunities from 2D classification to 3D reconstruction, in the hope of providing guidance to follow-up research.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# Deep-MPC: 最適拘束バッテリ充電のためのDAGGER駆動の模倣学習戦略

Deep-MPC: A DAGGER-Driven Imitation Learning Strategy for Optimal Constrained Battery Charging ( http://arxiv.org/abs/2406.15985v1 )

ライセンス: Link先を確認
Jorge Espin, Dong Zhang, Daniele Toti, Andrea Pozzi, (参考訳) バッテリー充電の分野では、いくつかの複雑な側面は、熱管理、キャパシティの劣化、安全とバッテリー寿命を維持しながら急速充電の必要性など、細心の注意を要する。 本書は,模倣学習パラダイムを応用して,従来の電池充電の予測制御戦略に係わる固有の課題に対処する革新的な手法を提案する。 この研究の重要な貢献は、バッテリパラメータが不確かで内部状態が観測不能なシナリオに対処するために、データセット集約(DAGGER)アルゴリズムを適用することである。 電気化学モデルを組み込んだ実用的な電池シミュレータから得られた結果は、バッテリー充電性能の大幅な改善、特に安全性の制約をすべて満たし、計算処理における従来の戦略よりも優れていた。

In the realm of battery charging, several complex aspects demand meticulous attention, including thermal management, capacity degradation, and the need for rapid charging while maintaining safety and battery lifespan. By employing the imitation learning paradigm, this manuscript introduces an innovative solution to confront the inherent challenges often associated with conventional predictive control strategies for constrained battery charging. A significant contribution of this study lies in the adaptation of the Dataset Aggregation (DAGGER) algorithm to address scenarios where battery parameters are uncertain, and internal states are unobservable. Results drawn from a practical battery simulator that incorporates an electrochemical model highlight substantial improvements in battery charging performance, particularly in meeting all safety constraints and outperforming traditional strategies in computational processing.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# SmartState: 細粒状態依存分析によるスマートコントラクトにおける状態反転脆弱性の検出

SmartState: Detecting State-Reverting Vulnerabilities in Smart Contracts via Fine-Grained State-Dependency Analysis ( http://arxiv.org/abs/2406.15988v1 )

ライセンス: Link先を確認
Zeqin Liao, Sicheng Hao, Yuhong Nan, Zibin Zheng, (参考訳) Solidityで記述されたスマートコントラクトは,EthereumやTRON,BNB Chainなど,さまざまなブロックチェーンプラットフォームで広く使用されている。 Solidityスマートコントラクトのユニークな設計の1つは、エラー処理とアクセス制御のための状態反転メカニズムである。 残念なことに、最近のセキュリティインシデントでは、敵がこのメカニズムを使ってスマートコントラクトの重要な状態を操作しているため、不正な利益獲得やDoS(Doy-of-Service)といったセキュリティ上の結果をもたらすことが示されている。 本稿では、状態回帰脆弱性(State-Reverting Vulnerability, SRV)と呼ばれる脆弱性について述べる。 SRVを自動的に識別することは、スマートコントラクトにおける状態依存関係の詳細な分析と理解を必要とするため、ユニークな課題となる。 本稿では,Solidityスマートコントラクトにおける状態回帰脆弱性を検出するための,きめ細かい状態依存分析による新しいフレームワークであるSmartStateを提案する。 SmartStateは、その有効性を保証するために、一連の新しいメカニズムを統合する。 特にSmart-Stateは、コントラクトバイトコードと履歴トランザクションの両方から状態依存を抽出します。 どちらも、SRVに関連する依存関係を推測するために重要である。 さらに、SmartStateはSRVの一般的なパターン(すなわち利益ゲインとDoS)をSRVインジケータとしてモデル化し、構築されたステート依存グラフに基づいてSRVを効果的に識別する。 SmartStateを評価するために,実世界で91個のSRVを含む地上構造データセットを手動でアノテートした。 評価の結果、SmartStateの精度は87.23%、リコールは89.13%であった。 さらにSmartStateは、47,351の現実世界のスマートコントラクトから406の新しいSRVを正常に識別する。 これらのSRVのうち11は、取引量の多い一般的なスマートコントラクト(トップ2000)からのものである。 われわれの報告によると、SRVは428,600USドル相当のデジタル資産に影響を及ぼしている。

Smart contracts written in Solidity are widely used in different blockchain platforms such as Ethereum, TRON and BNB Chain. One of the unique designs in Solidity smart contracts is its state-reverting mechanism for error handling and access control. Unfortunately, a number of recent security incidents showed that adversaries also utilize this mechanism to manipulate critical states of smart contracts, and hence, bring security consequences such as illegal profit-gain and Deny-of-Service (DoS). In this paper, we call such vulnerabilities as the State-reverting Vulnerability (SRV). Automatically identifying SRVs poses unique challenges, as it requires an in-depth analysis and understanding of the state-dependency relations in smart contracts. This paper presents SmartState, a new framework for detecting state-reverting vulnerability in Solidity smart contracts via fine-grained state-dependency analysis. SmartState integrates a set of novel mechanisms to ensure its effectiveness. Particularly, Smart-State extracts state dependencies from both contract bytecode and historical transactions. Both of them are critical for inferring dependencies related to SRVs. Further, SmartState models the generic patterns of SRVs (i.e., profit-gain and DoS) as SRV indicators, and hence effectively identify SRVs based on the constructed state-dependency graph. To evaluate SmartState, we manually annotated a ground-truth dataset which contains 91 SRVs in the real world. Evaluation results showed that SmartState achieves a precision of 87.23% and a recall of 89.13%. In addition, SmartState successfully identifies 406 new SRVs from 47,351 real-world smart contracts. 11 of these SRVs are from popular smart contracts with high transaction amounts (i.e., top 2000). In total, our reported SRVs affect a total amount of digital assets worth 428,600 USD.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# 談話構造と意味情報によるクロスドキュメントイベント参照解決の強化

Enhancing Cross-Document Event Coreference Resolution by Discourse Structure and Semantic Information ( http://arxiv.org/abs/2406.15990v1 )

ライセンス: Link先を確認
Qiang Gao, Bobo Li, Zixiang Meng, Yunlong Li, Jun Zhou, Fei Li, Chong Teng, Donghong Ji, (参考訳) 既存の文書間のイベントコア参照解決モデルでは、類似性を直接計算するか、イベント引数(場所、時間、エージェント、患者など)を抽出することで参照表現を強化する。 その結果、長距離依存関係の取得に苦労する。 この欠点は、引数情報が長距離依存に依存しているイベントのコア参照を決定する上で、そのパフォーマンスを過小評価することになります。 これらの制約を考慮して,文書の構造的・意味的情報をモデル化するために,文書レベルのレトリック構造理論(RST)木とクロスドキュメントのレキシカルチェインの構築を提案する。 その後、クロスドキュメントな異種グラフを構築し、GATを用いて事象の表現を学習する。 最後に、ペアスコアラは、標準クラスタリングアルゴリズムを用いて、各ペアのイベントと共参照イベントとの類似性を計算する。 さらに、既存のクロスドキュメントイベントコアデータセットは英語に限定されているため、53,066のイベント参照と4,476のクラスタからなる、このギャップを埋めるために、大規模な中国のクロスドキュメントイベントコアデータセットを開発した。 我々のモデルをそれぞれ英語と中国語のデータセットに適用した後、すべてのベースラインを大きなマージンで上回ります。

Existing cross-document event coreference resolution models, which either compute mention similarity directly or enhance mention representation by extracting event arguments (such as location, time, agent, and patient), lacking the ability to utilize document-level information. As a result, they struggle to capture long-distance dependencies. This shortcoming leads to their underwhelming performance in determining coreference for the events where their argument information relies on long-distance dependencies. In light of these limitations, we propose the construction of document-level Rhetorical Structure Theory (RST) trees and cross-document Lexical Chains to model the structural and semantic information of documents. Subsequently, cross-document heterogeneous graphs are constructed and GAT is utilized to learn the representations of events. Finally, a pair scorer calculates the similarity between each pair of events and co-referred events can be recognized using standard clustering algorithm. Additionally, as the existing cross-document event coreference datasets are limited to English, we have developed a large-scale Chinese cross-document event coreference dataset to fill this gap, which comprises 53,066 event mentions and 4,476 clusters. After applying our model on the English and Chinese datasets respectively, it outperforms all baselines by large margins.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# TikTokのエンゲージメントは、データリンクと計算手法を組み合わせた時間的および健康的リスク行動のトレース

TikTok Engagement Traces Over Time and Health Risky Behaviors: Combining Data Linkage and Computational Methods ( http://arxiv.org/abs/2406.15991v1 )

ライセンス: Link先を確認
Xinyan Zhao, Chau-Wai Wong, (参考訳) デジタル技術とソーシャルアルゴリズムはメディアの世界に革命をもたらし、健康情報の選択と消費の仕方を変えつつある。 本研究は,ソーシャルメディアのエンゲージメント,コンバージェンス・パースペクティブ,アルゴリズム的インパクトなどの研究により,さまざまな健康リスクトピックにおける個人のTikTokビデオが,喫煙行動や飲酒行動とどのように関連しているかを検討する。 提案手法は,TikTokインタラクションのデジタルトレースと調査自己レポートを組み合わせ,ソーシャルメディア上での選択的エンゲージメントを客観的に測定するデータリンクに依存した(n = 166)。 2020年から2023年にかけて、これらの回答者が好んだ健康関連ビデオ13,724本を計算分析した。 以上の結果から,当初TikTokで飲酒関連コンテンツを好んだユーザーは,喫煙,飲酒,果物,野菜などのビデオが,自記した喫煙行動や飲酒行動に影響を及ぼす傾向が示唆された。 本研究は、ソーシャルメディアの消費とエンゲージメントをより客観的に検討するために、デジタルトレース、計算分析、自己報告データを組み合わせることの方法論的価値と、ソーシャルメディアの行動への影響をより生態学的に妥当に理解することに焦点を当てた。

Digital technologies and social algorithms are revolutionizing the media landscape, altering how we select and consume health information. Extending the selectivity paradigm with research on social media engagement, the convergence perspective, and algorithmic impact, this study investigates how individuals' liked TikTok videos on various health-risk topics are associated with their vaping and drinking behaviors. Methodologically, we relied on data linkage to objectively measure selective engagement on social media, which involves combining survey self-reports with digital traces from TikTok interactions for the consented respondents (n = 166). A computational analysis of 13,724 health-related videos liked by these respondents from 2020 to 2023 was conducted. Our findings indicate that users who initially liked drinking-related content on TikTok are inclined to favor more of such videos over time, with their likes on smoking, drinking, and fruit and vegetable videos influencing their self-reported vaping and drinking behaviors. Our study highlights the methodological value of combining digital traces, computational analysis, and self-reported data for a more objective examination of social media consumption and engagement, as well as a more ecologically valid understanding of social media's behavioral impact.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# LLMグラフ推論はパターン記憶を超えて一般化できるか?

Can LLM Graph Reasoning Generalize beyond Pattern Memorization? ( http://arxiv.org/abs/2406.15992v1 )

ライセンス: Link先を確認
Yizhuo Zhang, Heng Wang, Shangbin Feng, Zhaoxuan Tan, Xiaochuang Han, Tianxing He, Yulia Tsvetkov, (参考訳) 大規模言語モデル (LLM) は暗黙的なグラフィカル構造の問題に対して大きな可能性を秘めている一方、最近の研究は特殊命令チューニングによる LLM のグラフ推論能力の向上を目指している。 結果として得られる「グラフLLM」は、分布内設定でのみ評価されるため、LLMが一般化可能なグラフ推論スキルを学習しているか、あるいは単に合成トレーニングデータにおけるパターンを記憶しているかは未定である。 そこで本研究では, LLM が合成学習データにおける意味的, 数値的, 構造的, 推論パターンを超越し, 実世界のグラフベースタスクにおける有用性を向上させることができるか, 一般化した LLM グラフ推論の評価スイートである NLGift ベンチマークを提案する。 4つのグラフ推論タスクにまたがる2つのLLMの広範な実験により、単純なパターン(意味的、数値的)の一般化は幾らか満足できるが、LLMは推論と実世界のパターンの一般化に苦慮し、基礎となるネットワーク構造を持つ実世界のタスクに対する合成グラフチューニングの利点に疑問を呈している。 我々は,LLMグラフ推論の一般化を改善するための3つの戦略を探究し,学習後のアライメントが実世界のタスクに最も有望であるのに対して,LLMグラフ推論がパターン記憶を超えて行うことが,オープンな研究課題であることを確認した。

Large language models (LLMs) demonstrate great potential for problems with implicit graphical structures, while recent works seek to enhance the graph reasoning capabilities of LLMs through specialized instruction tuning. The resulting 'graph LLMs' are evaluated with in-distribution settings only, thus it remains underexplored whether LLMs are learning generalizable graph reasoning skills or merely memorizing patterns in the synthetic training data. To this end, we propose the NLGift benchmark, an evaluation suite of LLM graph reasoning generalization: whether LLMs could go beyond semantic, numeric, structural, reasoning patterns in the synthetic training data and improve utility on real-world graph-based tasks. Extensive experiments with two LLMs across four graph reasoning tasks demonstrate that while generalization on simple patterns (semantic, numeric) is somewhat satisfactory, LLMs struggle to generalize across reasoning and real-world patterns, casting doubt on the benefit of synthetic graph tuning for real-world tasks with underlying network structures. We explore three strategies to improve LLM graph reasoning generalization, and we find that while post-training alignment is most promising for real-world tasks, empowering LLM graph reasoning to go beyond pattern memorization remains an open research question.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# 大規模言語モデルにおけるガイダンスによる文書の記憶

Memorizing Documents with Guidance in Large Language Models ( http://arxiv.org/abs/2406.15996v1 )

ライセンス: Link先を確認
Bumjin Park, Jaesik Choi, (参考訳) トレーニングデータは、AIモデルにおいて重要な役割を果たす。 大規模言語モデル(LLM)は大量の文書で訓練され、それらのパラメータは文書に関連する内容を保持する。 近年, LLMにおける内容特異的な位置をパラメーターを用いて同定する研究がいくつか行われている。 ポストホック解釈の代わりに、別のアプローチを提案する。 トレーニング中の文書記憶を追跡するための文書記憶アーキテクチャを提案する。 提案アーキテクチャは、文書表現をメモリエントリにマッピングし、LCMの前方プロセスにおけるメモリをソフトにマスクする。 さらに、文書記憶によるテキストの可能性を増大させ、他の文書の記憶によるテキストの可能性を低下させる文書誘導損失を提案する。 Pythia-1B を用いたWikitext-103-v1 実験の結果,提案手法は文書の異なるメモリエントリを提供し,文書関連コンテンツの高速リコールを実現する。

Training data plays a pivotal role in AI models. Large language models (LLMs) are trained with massive amounts of documents, and their parameters hold document-related contents. Recently, several studies identified content-specific locations in LLMs by examining the parameters. Instead of the post hoc interpretation, we propose another approach. We propose document-wise memory architecture to track document memories in training. The proposed architecture maps document representations to memory entries, which softly mask memories in the forward process of LLMs. Additionally, we propose document guidance loss, which increases the likelihood of text with document memories and reduces the likelihood of the text with the memories of other documents. Experimental results on Wikitext-103-v1 with Pythia-1B show that the proposed methods provide different memory entries for documents and high recall of document-related content in generation with trained document-wise memories.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# SmartAxe: 細粒度静的解析によるブリッジスマートコントラクトにおけるクロスチェーン脆弱性の検出

SmartAxe: Detecting Cross-Chain Vulnerabilities in Bridge Smart Contracts via Fine-Grained Static Analysis ( http://arxiv.org/abs/2406.15999v1 )

ライセンス: Link先を確認
Zeqin Liao, Yuhong Nan, Henglong Liang, Sicheng Hao, Juan Zhai, Jiajing Wu, Zibin Zheng, (参考訳) ブロックチェーンの普及に伴い、さまざまなブロックチェーンプラットフォームがエコシステム(Ethereum、BNB、EOSIOなど)に共存し、クロスチェーン通信の需要が高まっている。 ブロックチェーンブリッジは、さまざまなブロックチェーンプラットフォーム間でのアセット交換のための、特定のタイプの分散アプリケーションである。 クロスチェーンブリッジのスマートコントラクトの確保は、いくつかのセキュリティインシデントにおいて、スマートコントラクトの脆弱性による大きな損失が発生しているため、緊急に必要なものです。 しかし、スマートコントラクトにおけるCCVの自動識別には、いくつかのユニークな課題がある。 特に、(1)クロスブリッジアセット交換に必要なアプリケーション固有のアクセス制御制約を特定し、(2)ブリッジの両側間の一貫性のないクロスチェーンセマンティクスを特定することは、簡単ではない。 本稿では,クロスチェーンブリッジのスマートコントラクトの脆弱性を識別する新たなフレームワークであるSmartAxeを提案する。 特に、アクセス制御の不完全性を持つ脆弱な関数を見つけるために、SmartAxeはアクセス制御の不均一な実装をモデル化し、確率的パターン推論を通じてスマートコントラクトに必要なセキュリティチェックを見つける。 さらにSmartAxeは、クロスチェーン制御フローグラフ(xCFG)とデータフローグラフ(xDFG)を構築し、クロスチェーンデータ通信におけるセマンティック不整合を見つけるのに役立つ。 SmartAxeを評価するために、実攻撃によるクロスチェーンブリッジ契約から88個のCCVのデータセットを収集し、ラベル付けする。 評価の結果、SmartAxeの精度は84.95%、リコール率は89.77%であった。 さらにSmartAxeは、129の現実世界のクロスチェーンブリッジアプリケーション(すなわち1,703のスマートコントラクトから)から232の新しいCCVを識別することに成功した。 これらのCCVは1,885,250米ドル相当のデジタル資産に影響を及ぼす。

With the increasing popularity of blockchain, different blockchain platforms coexist in the ecosystem (e.g., Ethereum, BNB, EOSIO, etc.), which prompts the high demand for cross-chain communication. Cross-chain bridge is a specific type of decentralized application for asset exchange across different blockchain platforms. Securing the smart contracts of cross-chain bridges is in urgent need, as there are a number of recent security incidents with heavy financial losses caused by vulnerabilities in bridge smart contracts, as we call them Cross-Chain Vulnerabilities (CCVs). However, automatically identifying CCVs in smart contracts poses several unique challenges. Particularly, it is non-trivial to (1) identify application-specific access control constraints needed for cross-bridge asset exchange, and (2) identify inconsistent cross-chain semantics between the two sides of the bridge. In this paper, we propose SmartAxe, a new framework to identify vulnerabilities in cross-chain bridge smart contracts. Particularly, to locate vulnerable functions that have access control incompleteness, SmartAxe models the heterogeneous implementations of access control and finds necessary security checks in smart contracts through probabilistic pattern inference. Besides, SmartAxe constructs cross-chain control-flow graph (xCFG) and data-flow graph (xDFG), which help to find semantic inconsistency during cross-chain data communication. To evaluate SmartAxe, we collect and label a dataset of 88 CCVs from real-attacks cross-chain bridge contracts. Evaluation results show that SmartAxe achieves a precision of 84.95% and a recall of 89.77%. In addition, SmartAxe successfully identifies 232 new/unknown CCVs from 129 real-world cross-chain bridge applications (i.e., from 1,703 smart contracts). These identified CCVs affect a total amount of digital assets worth 1,885,250 USD.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# 音声中の音響特徴から個々の抑うつ症状を予測する

Predicting Individual Depression Symptoms from Acoustic Features During Speech ( http://arxiv.org/abs/2406.16000v1 )

ライセンス: Link先を確認
Sebastian Rodriguez, Sri Harsha Dumpala, Katerina Dikaios, Sheri Rempel, Rudolf Uher, Sageev Oore, (参考訳) 現在の自動うつ病検出システムは、臨床うつ病評価尺度で示されるうつ病の個々の症状や症状に頼ることなく、直接予測を提供する。 対照的に、臨床医はうつ病評価尺度の各項目を臨床現場で評価し、うつ病診断のより詳細な根拠を暗黙的に提示する。 本研究では,最後の抑うつ予測を得る前に,音声の音響的特徴を用いて抑うつ評価尺度の個々の項目を予測する。 このために、畳み込み(CNN)とリカレント(長短期記憶(LSTM))ニューラルネットワークを用いる。 発話の時間的文脈を学習するための異なるアプローチを検討する。 さらに,各項目の予測と抑うつ検出のための2種類の投票方式を解析した。 また、音声が進行するにつれて、時間とともにアイテム予測の例を示すアニメーションビジュアライゼーションも含んでいる。

Current automatic depression detection systems provide predictions directly without relying on the individual symptoms/items of depression as denoted in the clinical depression rating scales. In contrast, clinicians assess each item in the depression rating scale in a clinical setting, thus implicitly providing a more detailed rationale for a depression diagnosis. In this work, we make a first step towards using the acoustic features of speech to predict individual items of the depression rating scale before obtaining the final depression prediction. For this, we use convolutional (CNN) and recurrent (long short-term memory (LSTM)) neural networks. We consider different approaches to learning the temporal context of speech. Further, we analyze two variants of voting schemes for individual item prediction and depression detection. We also include an animated visualization that shows an example of item prediction over time as the speech progresses.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# ステレオ画像超解像のための高精度・高密度特徴の学習

Learning Accurate and Enriched Features for Stereo Image Super-Resolution ( http://arxiv.org/abs/2406.16001v1 )

ライセンス: Link先を確認
Hu Gao, Depeng Dang, (参考訳) ステレオ画像超解像(ステレオSR)は、代替的な視点から補完情報を組み込むことで、超解像の質を高めることを目的としている。 現在の手法は顕著な進歩を見せているが、通常は空間的詳細を保存するために完全な解像度で表現を処理し、文脈情報を正確に捉えることの難しさに直面している。 同時に、2つのビューからの情報をクロスフューズするために、すべての特徴的類似性を利用し、無関係な情報の影響を無視する可能性がある。 この問題を克服するために,空間的詳細を正確に保存し,豊富なコンテキスト情報を組み込む複合スケール選択的融合ネットワーク (MSSFNet) を提案し,2つの視点から最も正確な特徴を適応的に選択・融合し,高品質ステレオSRの促進を図る。 具体的には,空間的詳細を正確に保存しつつ,複数の空間的スケールにわたる文脈的にリッチな特徴表現を得る混合スケールブロック(MSB)を開発した。 さらに、最も重要なクロスビュー情報を動的に保持するために、他のビューから最も正確な特徴を検索し、転送する選択的フュージョンアテンションモジュール(SFAM)を設計する。 局所的および非局所的特徴の豊富な集合を学習するために、周波数領域の知識を明示的に統合する高速フーリエ畳み込みブロック(FFCB)を導入する。 大規模実験により,MSSFNetは定量評価と定性評価の両面において,最先端のアプローチよりも大幅に改善されていることが示された。

Stereo image super-resolution (stereoSR) aims to enhance the quality of super-resolution results by incorporating complementary information from an alternative view. Although current methods have shown significant advancements, they typically operate on representations at full resolution to preserve spatial details, facing challenges in accurately capturing contextual information. Simultaneously, they utilize all feature similarities to cross-fuse information from the two views, potentially disregarding the impact of irrelevant information. To overcome this problem, we propose a mixed-scale selective fusion network (MSSFNet) to preserve precise spatial details and incorporate abundant contextual information, and adaptively select and fuse most accurate features from two views to enhance the promotion of high-quality stereoSR. Specifically, we develop a mixed-scale block (MSB) that obtains contextually enriched feature representations across multiple spatial scales while preserving precise spatial details. Furthermore, to dynamically retain the most essential cross-view information, we design a selective fusion attention module (SFAM) that searches and transfers the most accurate features from another view. To learn an enriched set of local and non-local features, we introduce a fast fourier convolution block (FFCB) to explicitly integrate frequency domain knowledge. Extensive experiments show that MSSFNet achieves significant improvements over state-of-the-art approaches on both quantitative and qualitative evaluations.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# トロイダルトラップによるスピン軌道結合原子のスピン電流の共鳴制御

Photon-assisted tunneling resonantly controlling spin current of a spin-orbit-coupled atom in a toroidal trap ( http://arxiv.org/abs/2406.16002v1 )

ライセンス: Link先を確認
Zhiqiang Li, Xiaoxiao Hu, Zhao-Yun Zeng, Ai-Xi Chen, Xiaobing Luo, (参考訳) 周期的な点滅ポテンシャルは、指向性原子電流を調査するための強力なツールであることが証明されている。 スピン軌道(SO)結合、非相互作用ボース・アインシュタイン凝縮(BEC)系に点滅リング形状のポテンシャルを適用し、光子支援トンネル(共鳴)技術を用いて、方向と強度で正確に制御できる可変交互(AC)スピンと原子質量電流の生成を実証する。 この現象の背後にあるメカニズムは、発光電位がラビ振動を誘発するのに十分な光子を供給し、スピンと原子輸送のための運動量移動を与えることである。 未飽和SO結合BECの単一粒子基底状態はラマン結合強度に依存するため、初期状態が単一井戸または二重井戸相にある場合の交流スピン電流の生成と制御を実証する。 特に、単光子共鳴過程を通じて質量電流を伴わない純交流スピン電流の発生機構を解明し、説明する。 これらの興味深い共鳴現象は、スピン力学の透明な制御の可能性を生み出す単純な3レベルモデルによってのみ解析的に説明できることが示されている。

The periodic flashing potential has proven to be a powerful tool for investigating directed atomic currents. By applying the flashing ring-shaped potential to spin-orbit (SO) coupled, noninteracting Bose-Einstein condensate (BEC) systems, through photon-assisted tunneling (resonance) techniques, we demonstrate the generation of tunable alternating (AC) spin and atomic mass currents that can be precisely controlled in terms of direction and strength. The underlying mechanism behind this phenomenon is that the flashing potential supplies enough photons to induce Rabi oscillations and provides momentum transfer for spin and atomic transport. As the single-particle ground state of the unperturbed SO-coupled BEC depends on the Raman coupling strength, we demonstrate how to generate and control AC spin currents in the cases where the initial state resides in a single-well or double-well phase. In particular, we realize and explain the mechanism of generating a net AC spin current without mass current through single-photon resonance processes. It is shown that these interesting resonance phenomena can be analytically described only by the simple three-level model, which creates the possibility of transparent controls of spin dynamics.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# RepNeXt: 構造的再パラメータ化を用いた高速マルチスケールCNN

RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization ( http://arxiv.org/abs/2406.16004v1 )

ライセンス: Link先を確認
Mingshu Zhao, Yi Luo, Yong Ouyang, (参考訳) リソース制約のあるモバイルビジョンタスクの領域では、効率とパフォーマンスの追求が、軽量な畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)のイノベーションを継続的に推進している。 ViTは自己アテンションメカニズムによるグローバルなコンテキストのキャプチャに優れていますが、リソース制限された環境へのデプロイメントは、計算の複雑さとレイテンシによって妨げられます。 逆に、軽量CNNはパラメータ効率と低レイテンシが好ましい。 本研究では,資源拘束型アプリケーションに適した多目的視覚バックボーンを開発するために,CNNとViTの相補的な利点について検討する。 本稿では,マルチスケール特徴表現を統合した新しいモデルシリーズRepNeXtを紹介する。 大規模な実験では、RepNeXtが現在のリードライトウェイトなCNNやViTよりも優れていることを示し、様々なビジョンベンチマークで有利なレイテンシを提供する。 RepNeXt-M4 は RepViT-M1.5 の 82.3 % の精度で iPhone 12 の 1.5ms 以内の ImageNet と一致し、その AP$^{box} を MS-COCO で 1.1 で上回り、パラメータを 0.7M で減らす。 コードとモデルはhttps://github.com/suous/RepNeXt.comで公開されている。

In the realm of resource-constrained mobile vision tasks, the pursuit of efficiency and performance consistently drives innovation in lightweight Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). While ViTs excel at capturing global context through self-attention mechanisms, their deployment in resource-limited environments is hindered by computational complexity and latency. Conversely, lightweight CNNs are favored for their parameter efficiency and low latency. This study investigates the complementary advantages of CNNs and ViTs to develop a versatile vision backbone tailored for resource-constrained applications. We introduce RepNeXt, a novel model series integrates multi-scale feature representations and incorporates both serial and parallel structural reparameterization (SRP) to enhance network depth and width without compromising inference speed. Extensive experiments demonstrate RepNeXt's superiority over current leading lightweight CNNs and ViTs, providing advantageous latency across various vision benchmarks. RepNeXt-M4 matches RepViT-M1.5's 82.3\% accuracy on ImageNet within 1.5ms on an iPhone 12, outperforms its AP$^{box}$ by 1.1 on MS-COCO, and reduces parameters by 0.7M. Codes and models are available at https://github.com/suous/RepNeXt.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# 誤り認識モデルに基づく強化学習のための境界ボックス推論

Bounding-Box Inference for Error-Aware Model-Based Reinforcement Learning ( http://arxiv.org/abs/2406.16006v1 )

ライセンス: Link先を確認
Erin J. Talvitie, Zilei Shao, Huiying Li, Jinghan Hu, Jacob Boerma, Rory Zhao, Xintong Wang, (参考訳) モデルに基づく強化学習では、学習したモデルからシミュレーションされた経験は、実環境からの経験と同等のものとして扱われることが多い。 しかし、モデルが不正確であれば、破滅的に政策学習に干渉する可能性がある。 あるいは、エージェントはモデルの正確性について学び、信頼できる予測を提供する場合にのみ選択的に使用することができる。 選択計画のためのモデル不確実性対策を実証的に検討し、モデルベースの更新に対する不確かさを推定するために、最良の結果が分布に敏感な推測を必要とすることを示す。 そこで我々は,可能な状態やその他の量の集合を囲むバウンディングボックス上で動作するバウンディングボックス推論を提案し,評価する。 境界ボックス推論は効果的な選択計画を支援することができる。

In model-based reinforcement learning, simulated experiences from the learned model are often treated as equivalent to experience from the real environment. However, when the model is inaccurate, it can catastrophically interfere with policy learning. Alternatively, the agent might learn about the model's accuracy and selectively use it only when it can provide reliable predictions. We empirically explore model uncertainty measures for selective planning and show that best results require distribution insensitive inference to estimate the uncertainty over model-based updates. To that end, we propose and evaluate bounding-box inference, which operates on bounding-boxes around sets of possible states and other quantities. We find that bounding-box inference can reliably support effective selective planning.
翻訳日:2024-06-25 19:33:31 公開日:2024-06-23
# 分散ルールベクトルは、大規模言語モデルの文脈学習における鍵となるメカニズムである

Distributed Rule Vectors is A Key Mechanism in Large Language Models' In-Context Learning ( http://arxiv.org/abs/2406.16007v1 )

ライセンス: Link先を確認
Bowen Zheng, Ming Ma, Zhongqiao Lin, Tianming Yang, (参考訳) 大規模言語モデル(LLM)は目覚ましい能力を示しており、最も重要なものはインコンテキスト学習(ICL)である。 ICLでは、LCMはいくつかのデモから基礎となるルールを導出し、ルールに準拠した回答を提供することができる。 以前の研究は、ICL中に特定の位置でネットワークが「タスクベクトル」を生成すると仮定していた。 タスクベクター」をパッチすることで、LLMは少数ショット学習と同様、ゼロショットのパフォーマンスを達成できる。 しかし、このような「タスクベクトル」は、ルールを複数の実演を通して定義しなければならないタスクには存在しないことが判明した。 代わりに、各デモンストレーションによって提供されるルール情報は、まずその回答位置に送信され、独自のルールベクトルを形成する。 重要なことに、すべてのルールベクトルが分散的に出力に寄与する。 さらに、ルールベクトルは、デモから抽出されたルールの高レベルな抽象化を符号化していることを示す。 これらの結果は、複数のデモンストレーションに依存するルールに依存する一連のタスクでさらに検証される。 本研究は,情報集約機構によってICLが達成される可能性を示す,LCMにおけるICLの基盤となるメカニズムに関する新たな知見を提供する。

Large Language Models (LLMs) have demonstrated remarkable abilities, one of the most important being In-Context Learning (ICL). With ICL, LLMs can derive the underlying rule from a few demonstrations and provide answers that comply with the rule. Previous work hypothesized that the network creates a "task vector" in specific positions during ICL. Patching the "task vector" allows LLMs to achieve zero-shot performance similar to few-shot learning. However, we discover that such "task vectors" do not exist in tasks where the rule has to be defined through multiple demonstrations. Instead, the rule information provided by each demonstration is first transmitted to its answer position and forms its own rule vector. Importantly, all the rule vectors contribute to the output in a distributed manner. We further show that the rule vectors encode a high-level abstraction of rules extracted from the demonstrations. These results are further validated in a series of tasks that rely on rules dependent on multiple demonstrations. Our study provides novel insights into the mechanism underlying ICL in LLMs, demonstrating how ICL may be achieved through an information aggregation mechanism.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 中期:長期的文脈利用を改善する位置注意バイアスの校正

Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization ( http://arxiv.org/abs/2406.16008v1 )

ライセンス: Link先を確認
Cheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister, (参考訳) 大規模な言語モデル(LLM)は、長い入力コンテキストを処理するために特別に訓練されたとしても、入力の中央に位置する関連する情報を捉えるのに苦労する。 この現象はミドル・イン・ザ・ミドル問題として知られている。 この作業では、3つのコントリビューションを行います。 まず、この現象を引き起こす要因を理解することにしました。 LLMはU字型の注意バイアスを示し, 入力開始時のトークンと終了時のトークンは, 関連性に関係なく高い注意を受ける。 第二に、この位置バイアスをキャリブレーション機構によって緩和し、中途半端のときであっても、モデルが関連性に応じて忠実にコンテキストに出席できるようにします。 第3に,提案手法では,適切な情報の位置決め性能の向上だけでなく,様々なタスクにまたがる検索強化生成(RAG)性能の向上も達成し,既存の手法を最大15ポイント上回る結果となった。 これらの知見は、LCMの注意バイアスとその潜在的な影響を理解するための将来の方向性を開く。

Large language models (LLMs), even when specifically trained to process long input contexts, struggle to capture relevant information located in the middle of their input. This phenomenon has been known as the lost-in-the-middle problem. In this work, we make three contributions. First, we set out to understand the factors that cause this phenomenon. In doing so, we establish a connection between lost-in-the-middle to LLMs' intrinsic attention bias: LLMs exhibit a U-shaped attention bias where the tokens at the beginning and at the end of its input receive higher attention, regardless of their relevance. Second, we mitigate this positional bias through a calibration mechanism, found-in-the-middle, that allows the model to attend to contexts faithfully according to their relevance, even though when they are in the middle. Third, we show found-in-the-middle not only achieves better performance in locating relevant information within a long context, but also eventually leads to improved retrieval-augmented generation (RAG) performance across various tasks, outperforming existing methods by up to 15 percentage points. These findings open up future directions in understanding LLM attention bias and its potential consequences.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 例外点による多型絡み合いダイナミクス

Multitype entanglement dynamics induced by exceptional points ( http://arxiv.org/abs/2406.16009v1 )

ライセンス: Link先を確認
Zigeng Li, Xinyao Huang, Hongyan Zhu, Guofeng Zhang, Fan Wang, Xiaolan Zhong, (参考訳) 非エルミート系の最も重要な特徴として、例外点(EP)は様々な非伝統的な現象や応用をもたらす。 ここでは,多種類の絡み合いのダイナミクスがEPの工学的順序によって引き起こされることを示す。 2つの結合した非エルミート量子ビットからなる一般モデルを研究することにより、4階EP(EP4)と2階EP(EP2)の両側における多様な絡み合いのダイナミクスが弱いカップリング系で同時に観測できることが分かる。 カップリング強度の増大に伴い、EP4は追加のEP2に置換され、強いカップリング状態においてEP4によって引き起こされる絡み合いのダイナミクス転移が消失する。 また, イジング型相互作用を考慮し, 駆動場を使わずにEP誘起絡み合いのダイナミクス遷移を実現する。 本研究は、EP誘起量子効果の研究方法と、EP関連量子技術の応用について述べる。

As a most important feature of non-Hermitian systems, exceptional points (EPs) lead to a variety of unconventional phenomena and applications. Here we discover that multitype entanglement dynamics can be induced by engineering different orders of EP. By studying a generic model composed of two coupled non-Hermitian qubits, we find that diverse entanglement dynamics on the two sides of the fourth-order EP (EP4) and second-order EP (EP2) can be observed simultaneously in the weak coupling regime. With the increase of the coupling strength, the EP4 is replaced by an additional EP2, leading to the disappearance of the entanglement dynamics transition induced by EP4 in the strong coupling regime. Considering the case of Ising type interaction, we also realize EP-induced entanglement dynamics transition without the driving field. Our study paves the way for the investigation of EP-induced quantum effects and applications of EP-related quantum technologies.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 深層学習を用いた糖尿病下腹部画像における創部組織分画の検討

Wound Tissue Segmentation in Diabetic Foot Ulcer Images Using Deep Learning: A Pilot Study ( http://arxiv.org/abs/2406.16012v1 )

ライセンス: Link先を確認
Mrinal Kanti Dhar, Chuanbo Wang, Yash Patel, Taiyu Zhang, Jeffrey Niezgoda, Sandeep Gopalakrishnan, Keke Chen, Zeyun Yu, (参考訳) 糖尿病性足部潰瘍(DFU)画像における組織分節と呼ばれる個々の組織を同定することは難しい課題であり、臨床画像データセットが限られたため、ほとんど研究されていない。 このギャップに対処するため、我々は、創部組織分割アルゴリズムを評価するために、研究コミュニティ向けのDFUT Issueデータセットを作成しました。 データセットには110枚の画像と、創傷の専門家によってラベル付けされた組織、600枚の未ラベル画像が含まれている。 さらに, 深層学習を用いたフィブリン, 顆粒, カルスなどの創傷特性の分節化に関する試験的検討を行った。 注釈付きデータの量が限られているため、我々のフレームワークは、教師付き学習(SL)と半教師付き学習(SSL)の両方のフェーズで構成されている。 SL相では,エンコーダのMix Transformer(MiT-b3)とデコーダのCNNを組み合わせたハイブリッドモデルを提案する。 SSLフェーズには擬似ラベルベースのアプローチが採用されている。 SL相とSSL相の比較評価を行った。 SLは84.89%のDice similarity Coefficient (DSC)を達成しており、SSLフェーズでは87.64%に改善されている。 さらに、この結果は、ジェネレーティブ・アドバイサル・ネットワーク(Generative Adversarial Networks)とクロス・一貫性・トレーニング(Cross-Consistency Training)という、2つの広く使われているSSLアプローチに対してベンチマークされる。 さらに,DFU創傷領域のバイナリセグメンテーションを行う場合には,92.99%のDSCで最先端の手法よりも高い性能を示した。 コードとデータはhttps://github.com/uwm-bigdata/DFUTissueSegNetで公開されている。

Identifying individual tissues, so-called tissue segmentation, in diabetic foot ulcer (DFU) images is a challenging task and little work has been published, largely due to the limited availability of a clinical image dataset. To address this gap, we have created a DFUTissue dataset for the research community to evaluate wound tissue segmentation algorithms. The dataset contains 110 images with tissues labeled by wound experts and 600 unlabeled images. Additionally, we conducted a pilot study on segmenting wound characteristics including fibrin, granulation, and callus using deep learning. Due to the limited amount of annotated data, our framework consists of both supervised learning (SL) and semi-supervised learning (SSL) phases. In the SL phase, we propose a hybrid model featuring a Mix Transformer (MiT-b3) in the encoder and a CNN in the decoder, enhanced by the integration of a parallel spatial and channel squeeze-and-excitation (P-scSE) module known for its efficacy in improving boundary accuracy. The SSL phase employs a pseudo-labeling-based approach, iteratively identifying and incorporating valuable unlabeled images to enhance overall segmentation performance. Comparative evaluations with state-of-the-art methods are conducted for both SL and SSL phases. The SL achieves a Dice Similarity Coefficient (DSC) of 84.89%, which has been improved to 87.64% in the SSL phase. Furthermore, the results are benchmarked against two widely used SSL approaches: Generative Adversarial Networks and Cross-Consistency Training. Additionally, our hybrid model outperforms the state-of-the-art methods with a 92.99% DSC in performing binary segmentation of DFU wound areas when tested on the Chronic Wound dataset. Codes and data are available at https://github.com/uwm-bigdata/DFUTissueSegNet.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 情報検索のためのデータベース拡張クエリ表現

Database-Augmented Query Representation for Information Retrieval ( http://arxiv.org/abs/2406.16013v1 )

ライセンス: Link先を確認
Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park, (参考訳) 与えられたクエリに関連する文書を検索することを目的とした情報検索モデルは、様々なタスクに適用された多くの成功例を示してきた。 しかし、ユーザによって提供されるクエリは、しばしば非常に短いため、検索者が関連ドキュメントを正しく取得することを困難にしている。 これを解決するために、既存の研究では、クエリに関連するいくつかの追加機能(ユーザ関連)でクエリを拡張することを提案した。 しかし、それらはクエリを効果的に拡張するのに最適ではないかもしれませんが、リレーショナルデータベースでそれを拡張できる情報はたくさんあります。 そこで本研究では,データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。 さらに,メタデータに含まれる特徴の数が非常に多く,その中に順序がないため,順序のないデータベースの特徴の階層性を考慮したグラフベースの集合符号化戦略でそれらを符号化する。 我々は,関係データベースからのメタデータを組み込む多種多様な検索シナリオにおいてDAQuを検証し,既存のクエリ拡張手法と比較して検索性能を大幅に向上させることを示した。

Information retrieval models that aim to search for the documents relevant to the given query have shown many successes, which have been applied to diverse tasks. However, the query provided by the user is oftentimes very short, which challenges the retrievers to correctly fetch relevant documents. To tackle this, existing studies have proposed expanding the query with a couple of additional (user-related) features related to the query. Yet, they may be suboptimal to effectively augment the query, though there is plenty of information available to augment it in a relational database. Motivated by this, we present a novel retrieval framework called Database-Augmented Query representation (DAQu), which augments the original query with various (query-related) metadata across multiple tables. In addition, as the number of features in the metadata can be very large and there is no order among them, we encode them with our graph-based set encoding strategy, which considers hierarchies of features in the database without order. We validate DAQu in diverse retrieval scenarios that can incorporate metadata from the relational database, demonstrating that ours significantly enhances overall retrieval performance, compared to existing query augmentation methods.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 断熱とホロノミック・トランスフォーメーションのショートカットは同じである

Shortcut to adiabaticity and holonomic transformation are the same thing ( http://arxiv.org/abs/2406.16016v1 )

ライセンス: Link先を確認
Zhu-yao Jin, Jun Jing, (参考訳) 任意の量子状態のペアをリンクする安定かつ高速な経路は、ショートカットから断熱へのショートカットやホロノミック変換のような刺激されたラマン断熱通路にインスパイアされた工学的プロトコルに対して一般的に望まれる。 量子制御や量子計算においてすぐに応用され、時間依存のシュリンガー方程式の正確な解の基礎となる。 我々は,システム・ハミルトニアンが対角的であるため,システム・ダイナミックスに基づくユニバーサル・コントロール・フレームワークを構築した。 実際、所望の進化経路はパラメトリックな補助基底に対するフォン・ノイマン方程式によって得ることができる。 我々は、我々の制御枠組みを、非断熱的ホロノミック量子変換、不変量に対するルイス=リースフェルト理論、異なるシナリオと条件下での反断熱駆動法に還元できることを実証した。 また、既存の手法では難しい、あるいは複雑な問題になりうるシステム集団の循環移動を達成するためにも使用できる。 有限次元量子系上の状態工学のために、我々の研究はフルランクの非断熱的時間進化作用素を提供することができる。

A stable and fast path linking arbitrary pair of quantum states is commonly desired for the engineering protocols inspired by stimulated Raman adiabatic passage, such as shortcut to adiabaticity and holonomic transformation. It has immediate applications in quantum control and quantum computation and is fundamental about the exact solution of a time-dependent Schr\"odinger equation. We construct a universal control framework based on the system dynamics within an ancillary picture, in which the system Hamiltonian is diagonal so that no transition exists among the ancillary bases during the time evolution. Practically the desired evolution path can be obtained by the von Neumann equation for the parametric ancillary bases. We demonstrate that our control framework can be reduced to the nonadiabatic holonomic quantum transformation, the Lewis-Riesenfeld theory for invariant, and the counterdiabatic driving method under distinct scenarios and conditions. Also it can be used to achieve the cyclic transfer of system population that could be a hard or complex problem for the existing methods. For the state engineering over a finite-dimensional quantum system, our work can provide a full-rank nonadiabatic time-evolution operator.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 超低温Li-Ba$^+$衝突における励起焼成と電荷交換の競合

Competing excitation quenching and charge exchange in ultracold Li-Ba$^+$ collisions ( http://arxiv.org/abs/2406.16017v1 )

ライセンス: Link先を確認
Xiaodong Xing, Pascal Weckesser, Fabian Thielemann, Tibor Jónás, Romain Vexiau, Nadia Bouloufa-Maafa, Eliane Luc-Koenig, Kirk W. Madison, Andrea Orbán, Ting Xie, Tobias Schaetz, Olivier Dulieu, (参考訳) ハイブリッド原子イオン系は化学反応を研究するためのリッチで強力なプラットフォームであり、電子状態の準備と読み出しの制御に優れただけでなく、わずかな波動状態から量子状態まで、散乱エネルギーの多角的なチューニング性も備えている。 本研究では、これらの優れた制御ノブを用い、量子縮退に近い基底状態の$6$Liガスを持つ5d\,^2D_{3/2,5/2}$準安定状態において作製された1つの$^{138}$Ba$^+$イオンの衝突に関する共同実験および理論的研究を示す。 従来報告された原子-イオン混合物とは対照的に、電荷交換、励起交換、クエンチングを含むいくつかの非放射過程は、イオン-原子分子構造が本質的に複雑であるために互いに競合することを示した。 スピン軌道結合を含む高レベル電子構造計算に基づく完全量子モデルを提案する。 その結果, 内角モータと衝突対の機械的回転との強い結合が, アルカリ金属原子とアルカリ金属イオンからなる他のハイブリッド系と関係していることが明らかとなった。

Hybrid atom-ion systems are a rich and powerful platform for studying chemical reactions, as they feature both excellent control over the electronic state preparation and readout as well as a versatile tunability over the scattering energy, ranging from the few-partial wave regime to the quantum regime. In this work, we make use of these excellent control knobs, and present a joint experimental and theoretical study of the collisions of a single $^{138}$Ba$^+$ ion prepared in the $5d\,^2D_{3/2,5/2}$ metastable states with a ground state $^6$Li gas near quantum degeneracy. We show that in contrast to previously reported atom-ion mixtures, several non-radiative processes, including charge exchange, excitation exchange and quenching, compete with each other due to the inherent complexity of the ion-atom molecular structure. We present a full quantum model based on high-level electronic structure calculations involving spin-orbit couplings. Results are in excellent agreement with observations, highlighting the strong coupling between the internal angular momenta and the mechanical rotation of the colliding pair, which is relevant in any other hybrid system composed of an alkali-metal atom and an alkaline-earth ion.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# IBMの超伝導量子コンピュータにおける3量子グロバー探索アルゴリズムの包括的評価

Comprehensive characterization of three-qubit Grover search algorithm on IBM's 127-qubit superconducting quantum computers ( http://arxiv.org/abs/2406.16018v1 )

ライセンス: Link先を確認
M. AbuGhanem, (参考訳) グロバー探索アルゴリズムは量子コンピューティングにおける重要な進歩であり、非構造化の大規模データベースの探索において古典的アルゴリズムよりも顕著なスピードアップを約束する。 本稿では,超伝導量子アーキテクチャの最先端のスケーラブル量子コンピューティング技術を用いた3量子グロバー探索アルゴリズムの実装と評価について報告する。 アルゴリズムのスケーラビリティと性能のメトリクスを掘り下げるために、我々の調査は、IBM Quantumの127量子ビット量子コンピュータを用いて、9つの2つの2つの再帰託託託宣誓供述書と共に、知覚可能な全8つの単一再帰託託宣誓書のアルゴリズムの実行にまたがる。 さらに、雑音のない環境から現実の量子ハードウェアの複雑さまで、実装されたアルゴリズムの挙動と効率を様々な条件下で正確に評価する5つの量子状態トモグラフィ実験を行った。 本研究は、理論概念と実世界の実験を結びつけることにより、大規模データベース検索を容易にするNISQ(Noisy Intermediate-Scale Quantum)コンピュータの可能性に光を当てるだけでなく、実世界の量子コンピューティングアプリケーションにおけるGrover検索アルゴリズムの実用的応用に関する貴重な洞察を与える。

The Grover search algorithm is a pivotal advancement in quantum computing, promising a remarkable speedup over classical algorithms in searching unstructured large databases. Here, we report results for the implementation and characterization of a three-qubit Grover search algorithm using the state-of-the-art scalable quantum computing technology of superconducting quantum architectures. To delve into the algorithm's scalability and performance metrics, our investigation spans the execution of the algorithm across all eight conceivable single-result oracles, alongside nine two-result oracles, employing IBM Quantum's 127-qubit quantum computers. Moreover, we conduct five quantum state tomography experiments to precisely gauge the behavior and efficiency of our implemented algorithm under diverse conditions; ranging from noisy, noise-free environments to the complexities of real-world quantum hardware. By connecting theoretical concepts with real-world experiments, this study not only shed light on the potential of NISQ (Noisy Intermediate-Scale Quantum) computers in facilitating large-scale database searches but also offer valuable insights into the practical application of the Grover search algorithm in real-world quantum computing applications.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# AudioBench: オーディオ大言語モデルのためのユニバーサルベンチマーク

AudioBench: A Universal Benchmark for Audio Large Language Models ( http://arxiv.org/abs/2406.16020v1 )

ライセンス: Link先を確認
Bin Wang, Xunlong Zou, Geyu Lin, Shuo Sun, Zhuohan Liu, Wenyu Zhang, Zhengyuan Liu, AiTi Aw, Nancy F. Chen, (参考訳) 音声大言語モデル(AudioLLMs)を評価するために設計された新しいベンチマークであるAudioBenchを紹介する。 AudioBenchは、音声理解、音声解釈、音声シーン理解に焦点を当て、8つの異なるタスクと26の慎重に選択された、または新しく訓練されたデータセットを含んでいる。 マルチモーダルバージョンを含む大規模言語モデルの急速な進歩にもかかわらず、その能力を徹底的に評価するための包括的なベンチマークには大きなギャップがある。 AudioBenchは、関連するデータセットと評価メトリクスを提供することで、このギャップに対処する。 そこで本研究では,4つのモデルの諸側面における能力評価を行い,各タスクに一貫した1つのモデルが存在しないことを示した。 我々は、AudioLLMsの研究見通しを概説し、私たちのオープンソースコード、データ、およびリーダーボードが将来のモデル開発のための堅牢なテストベッドを提供することを期待しています。

We introduce AudioBench, a new benchmark designed to evaluate audio large language models (AudioLLMs). AudioBench encompasses 8 distinct tasks and 26 carefully selected or newly curated datasets, focusing on speech understanding, voice interpretation, and audio scene understanding. Despite the rapid advancement of large language models, including multimodal versions, a significant gap exists in comprehensive benchmarks for thoroughly evaluating their capabilities. AudioBench addresses this gap by providing relevant datasets and evaluation metrics. In our study, we evaluated the capabilities of four models across various aspects and found that no single model excels consistently across all tasks. We outline the research outlook for AudioLLMs and anticipate that our open-source code, data, and leaderboard will offer a robust testbed for future model developments.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 複数のソースからのイベントのハーベスティング:クロスドキュメントイベント抽出パラダイムを目指して

Harvesting Events from Multiple Sources: Towards a Cross-Document Event Extraction Paradigm ( http://arxiv.org/abs/2406.16021v1 )

ライセンス: Link先を確認
Qiang Gao, Zixiang Meng, Bobo Li, Jun Zhou, Fei Li, Chong Teng, Donghong Ji, (参考訳) 文書レベルのイベント抽出は、構造化されていないテキストから構造化されたイベント情報を抽出することを目的としている。 しかし、単一の文書は、しばしば限られたイベント情報を含み、異なるイベント引数の役割は、情報ソースの影響によりバイアスを受けることがある。 本稿では,複数の文書からイベント情報を統合し,イベントに対する包括的視点を提供するクロスドキュメントイベント抽出(CDEE)の課題を提案することによって,従来の文書レベルのイベント抽出の限界に対処する。 20,059件の文書と37,688件の言及レベルのイベントを含むクロスドキュメントイベント抽出データセットを構築し,そのうち70%以上がクロスドキュメントである。 ベンチマークを構築するために、イベント抽出、コア参照解決、エンティティ正規化、ロール正規化、エンティティロール解決の5つのステップを含むCDEEパイプラインを提案する。 当社のCDEEパイプラインは,エンドツーエンドのクロスドキュメントイベント抽出において,約72%のF1を実現しています。 我々の研究は情報抽出研究の新たなラインを構築し、新たな研究の注目を惹きつける。

Document-level event extraction aims to extract structured event information from unstructured text. However, a single document often contains limited event information and the roles of different event arguments may be biased due to the influence of the information source. This paper addresses the limitations of traditional document-level event extraction by proposing the task of cross-document event extraction (CDEE) to integrate event information from multiple documents and provide a comprehensive perspective on events. We construct a novel cross-document event extraction dataset, namely CLES, which contains 20,059 documents and 37,688 mention-level events, where over 70% of them are cross-document. To build a benchmark, we propose a CDEE pipeline that includes 5 steps, namely event extraction, coreference resolution, entity normalization, role normalization and entity-role resolution. Our CDEE pipeline achieves about 72% F1 in end-to-end cross-document event extraction, suggesting the challenge of this task. Our work builds a new line of information extraction research and will attract new research attention.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 弱測定による量子メトロポリスサンプリング

Quantum Metropolis Sampling via Weak Measurement ( http://arxiv.org/abs/2406.16023v1 )

ライセンス: Link先を確認
Jiaqing Jiang, Sandy Irani, (参考訳) ギブズサンプリングは物理学、統計学、その他多くの科学分野において重要な計算手法である。 古典的ハミルトニアンにとって、最もよく使われるギブスサンプリング器はメトロポリスアルゴリズムであり、ギブス状態が特異な固定点として知られている。 量子ハミルトニアンにとって、確実に正しいギブスサンプリング器を設計することはより困難である。 [TOV+11]は量子相推定(QPE)とマリオット・ワトルス巻き戻し技術を用いて量子ハミルトンの古典的メトロポリスアルゴリズムを模倣する新しい手法を導入した。 これらのアルゴリズムの解析は、[CKBG23] に存在しないかもしれないQPEの強化およびシフト不変バージョンの使用に依存している。 量子ギブスサンプリング器の設計への最近の取り組みは、全く異なるアプローチをとっており、デイビーズ発電機 [CKBG23,CKG23,RWW23,DLL24] のシミュレーションに基づいている。 現在、これらは量子ハミルトニアンにとって証明可能な正しいギブスサンプリング器である。 我々は[TOV+11]のメトロポリス式アルゴリズムのインスピレーションを再考し、弱い測定を組み込んで、ギブス状態を近似的な一意な固定点として、概念的に単純で証明可能な量子ギブスサンプリングを設計する。 提案手法では,複数のQPEの中央値を取るブーストQPEを用いるが,シフト不変性は不要である。 さらに,アルゴリズムを著しく単純化するMarriott-Watrous再巻き戻し手法は使用しない。

Gibbs sampling is a crucial computational technique used in physics, statistics, and many other scientific fields. For classical Hamiltonians, the most commonly used Gibbs sampler is the Metropolis algorithm, known for having the Gibbs state as its unique fixed point. For quantum Hamiltonians, designing provably correct Gibbs samplers has been more challenging. [TOV+11] introduced a novel method that uses quantum phase estimation (QPE) and the Marriot-Watrous rewinding technique to mimic the classical Metropolis algorithm for quantum Hamiltonians. The analysis of their algorithm relies upon the use of a boosted and shift-invariant version of QPE which may not exist [CKBG23]. Recent efforts to design quantum Gibbs samplers take a very different approach and are based on simulating Davies generators [CKBG23,CKG23,RWW23,DLL24]. Currently, these are the only provably correct Gibbs samplers for quantum Hamiltonians. We revisit the inspiration for the Metropolis-style algorithm of [TOV+11] and incorporate weak measurement to design a conceptually simple and provably correct quantum Gibbs sampler, with the Gibbs state as its approximate unique fixed point. Our method uses a Boosted QPE which takes the median of multiple runs of QPE, but we do not require the shift-invariant property. In addition, we do not use the Marriott-Watrous rewinding technique which simplifies the algorithm significantly.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# CEST-KAN:CEST MRIデータ解析のためのコルモゴロフ・アルノルドネットワーク

CEST-KAN: Kolmogorov-Arnold Networks for CEST MRI Data Analysis ( http://arxiv.org/abs/2406.16026v1 )

ライセンス: Link先を確認
Jiawen Wang, Pei Cai, Ziyan Wang, Huabin Zhang, Jianpan Huang, (参考訳) 目的:CEST MRIデータ解析(CEST-KAN)におけるKAN(Kolmogorov-Arnold Network)の有効性について検討する。 方法: CEST MRIは健常者12名から3Tで取得した。 10人の被験者からのデータが訓練に使われ、残りの2人は試験に使用された。 マルチ層パーセプトロン(MLP)とKANモデルの性能評価を行い,アミド,リレート核オーバーハウザー効果(rNOE),磁化移動(MT)を含む複数のCESTコントラストと水の生成における従来のマルチプールローレンツアンフィッティング(MPLF)法と比較した。 結果:MPLPとKANで生成した水とCESTマップはMPLFと視覚的に比較した。 しかし、KANモデルは、トレーニング中の検証損失が小さく、テスト中の絶対誤差が小さいことから、CEST適合度を外挿する際の精度が高かった。 Voxel-wise correlation analysisにより,kan が生成した4つの CEST 適合度は MLP よりも高いPearson 係数を示し,優れた性能を示した。 さらに、KANモデルはトレーニング時間が長いにもかかわらず、様々な隠蔽層数でMLPモデルより一貫して優れていた。 結論:本研究は,CEST MRIデータ解析におけるkanの有用性を初めて実証し,この課題におけるMLPの優位性を強調した。 以上の結果から,CEST-KANは臨床環境でのCEST MRIの堅牢かつ信頼性の高い分析ツールである可能性が示唆された。

Purpose: To propose and investigate the feasibility of using Kolmogorov-Arnold Network (KAN) for CEST MRI data analysis (CEST-KAN). Methods: CEST MRI data were acquired from twelve healthy volunteers at 3T. Data from ten subjects were used for training, while the remaining two were reserved for testing. The performance of multi-layer perceptron (MLP) and KAN models with the same network settings were evaluated and compared to the conventional multi-pool Lorentzian fitting (MPLF) method in generating water and multiple CEST contrasts, including amide, relayed nuclear Overhauser effect (rNOE), and magnetization transfer (MT). Results: The water and CEST maps generated by both MLP and KAN were visually comparable to the MPLF results. However, the KAN model demonstrated higher accuracy in extrapolating the CEST fitting metrics, as evidenced by the smaller validation loss during training and smaller absolute error during testing. Voxel-wise correlation analysis showed that all four CEST fitting metrics generated by KAN consistently exhibited higher Pearson coefficients than the MLP results, indicating superior performance. Moreover, the KAN models consistently outperformed the MLP models in varying hidden layer numbers despite longer training time. Conclusion: In this study, we demonstrated for the first time the feasibility of utilizing KAN for CEST MRI data analysis, highlighting its superiority over MLP in this task. The findings suggest that CEST-KAN has the potential to be a robust and reliable post-analysis tool for CEST MRI in clinical settings.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# TimeAutoDiff: 時系列表データ合成のためのオートエンコーダと拡散モデルの組み合わせ

TimeAutoDiff: Combining Autoencoder and Diffusion model for time series tabular data synthesizing ( http://arxiv.org/abs/2406.16028v1 )

ライセンス: Link先を確認
Namjoon Suh, Yuning Yang, Din-Yin Hsieh, Qitong Luan, Shirong Xu, Shixiang Zhu, Guang Cheng, (参考訳) 本稿では、遅延拡散モデルのパワーを活用して、合成時系列表データを生成する。 時間的および特徴的相関とともに、表における特徴の不均一性は、時系列表データモデリングにおける主要な障害の1つとなっている。 本稿では,変分オートエンコーダ(VAE)と拡散確率モデル(DDPM)のアイデアを組み合わせることで,この問題に対処する。 一般性: 単一からマルチシーケンスのデータセットから幅広い時系列データを扱う能力; 優れた忠実性と実用性保証: 6つの公開データセット上での数値実験: 時系列表データの生成における最先端モデルよりも大幅に改善されたことを示す実験; (3) 高速なサンプリング速度: 既存の拡散ベースモデルで実装された逐次データサンプリングスキームとは対照的に、全時系列データ生成: 最終的にサンプリング速度が大幅に向上する (4) 実条件生成: 文献における不均一な特徴を持つマルチシーケンス表データの条件付き生成の最初の実装。 コードは一般に公開される準備が整っているが、要求に応じて利用可能である。

In this paper, we leverage the power of latent diffusion models to generate synthetic time series tabular data. Along with the temporal and feature correlations, the heterogeneous nature of the feature in the table has been one of the main obstacles in time series tabular data modeling. We tackle this problem by combining the ideas of the variational auto-encoder (VAE) and the denoising diffusion probabilistic model (DDPM). Our model named as \texttt{TimeAutoDiff} has several key advantages including (1) Generality: the ability to handle the broad spectrum of time series tabular data from single to multi-sequence datasets; (2) Good fidelity and utility guarantees: numerical experiments on six publicly available datasets demonstrating significant improvements over state-of-the-art models in generating time series tabular data, across four metrics measuring fidelity and utility; (3) Fast sampling speed: entire time series data generation as opposed to the sequential data sampling schemes implemented in the existing diffusion-based models, eventually leading to significant improvements in sampling speed, (4) Entity conditional generation: the first implementation of conditional generation of multi-sequence time series tabular data with heterogenous features in the literature, enabling scenario exploration across multiple scientific and engineering domains. Codes are in preparation for release to the public, but available upon request.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 低音源言語のための音声表現を用いたゼロショット言語間NER

Zero-Shot Cross-Lingual NER Using Phonemic Representations for Low-Resource Languages ( http://arxiv.org/abs/2406.16030v1 )

ライセンス: Link先を確認
Jimin Sohn, Haeji Jung, Alex Cheng, Jooeon Kang, Yilin Du, David R. Mortensen, (参考訳) 既存のゼロショットの言語間NERアプローチでは、ターゲット言語の事前知識が必要であり、低リソース言語では実用的ではない。 本稿では,国際音声アルファベット(IPA)に基づく音声表現を用いたNERの新しい手法を提案する。 提案手法は,F-1スコアが46.38%,標準偏差が12.67であり,特に非ラテン文字で頑健であることを示す。

Existing zero-shot cross-lingual NER approaches require substantial prior knowledge of the target language, which is impractical for low-resource languages. In this paper, we propose a novel approach to NER using phonemic representation based on the International Phonetic Alphabet (IPA) to bridge the gap between representations of different languages. Our experiments show that our method significantly outperforms baseline models in extremely low-resource languages, with the highest average F-1 score (46.38%) and lowest standard deviation (12.67), particularly demonstrating its robustness with non-Latin scripts.
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# ランダム学習速度の影響:定常分布による非凸最適化におけるSGDダイナミクスの理論解析

Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution ( http://arxiv.org/abs/2406.16032v1 )

ライセンス: Link先を確認
Naoki Yoshida, Shogo Nakakita, Masaaki Imaizumi, (参考訳) 確率勾配勾配(SGD)の変種をランダムな学習率で検討し,その収束特性を明らかにする。 SGDは機械学習、特にディープラーニングにおいて広く使われている確率最適化アルゴリズムである。 多くの研究により、SGDの収束特性とその単純化された変種が明らかにされている。 これらのうち、更新されたパラメータの定常分布を用いた収束の解析は、一般化可能な結果をもたらす。 しかし、定常分布を得るためには、パラメータの更新方向は退化してはいけない。 本研究では,パラメータ更新方向を非生成し,ランダムな学習率を利用する新しいSGD変種Poisson SGDについて検討する。 その結果、ポアソンSGDによって更新されたパラメータの分布は、損失関数の弱い仮定の下で定常分布に収束することを示した。 これに基づいて、Poisson SGDは非凸最適化問題において大域最小値を求めるとともに、この手法を用いて一般化誤差を評価する。 証明手法として,ポアソンSGDによる分布とバウンシー粒子サンプリング器(BPS)の分布を近似し,その定常分布の導出を行う。

We consider a variant of the stochastic gradient descent (SGD) with a random learning rate and reveal its convergence properties. SGD is a widely used stochastic optimization algorithm in machine learning, especially deep learning. Numerous studies reveal the convergence properties of SGD and its simplified variants. Among these, the analysis of convergence using a stationary distribution of updated parameters provides generalizable results. However, to obtain a stationary distribution, the update direction of the parameters must not degenerate, which limits the applicable variants of SGD. In this study, we consider a novel SGD variant, Poisson SGD, which has degenerated parameter update directions and instead utilizes a random learning rate. Consequently, we demonstrate that a distribution of a parameter updated by Poisson SGD converges to a stationary distribution under weak assumptions on a loss function. Based on this, we further show that Poisson SGD finds global minima in non-convex optimization problems and also evaluate the generalization error using this method. As a proof technique, we approximate the distribution by Poisson SGD with that of the bouncy particle sampler (BPS) and derive its stationary distribution, using the theoretical advance of the piece-wise deterministic Markov process (PDMP).
翻訳日:2024-06-25 19:23:47 公開日:2024-06-23
# 未来を解き放つ:大規模言語モデルにおけるLook-Ahead Planningの機械論的解釈可能性を探る

Unlocking the Future: Exploring Look-Ahead Planning Mechanistic Interpretability in Large Language Models ( http://arxiv.org/abs/2406.16033v1 )

ライセンス: Link先を確認
Tianyi Men, Pengfei Cao, Zhuoran Jin, Yubo Chen, Kang Liu, Jun Zhao, (参考訳) エージェントのコアモジュールとしてのプランニングは、エンボディエージェント、Webナビゲーション、ツール使用など、さまざまな分野において重要である。 大規模言語モデル(LLM)の開発に伴い、大規模言語モデルを知的エージェントとして扱い、計画能力を刺激し評価する研究者もいる。 しかし、計画の仕組みはまだ不明である。 本研究では,情報フローと内部表現の観点から,大規模言語モデルにおけるルックアヘッド計画機構の探索に焦点をあてる。 まず,最終トークンにおける多層認識(MLP)と多層自己注意(MHSA)の要素を解析し,内部的にプランニングを行う方法について検討する。 最後のトークンの中間層におけるMHSAの出力は、その決定を直接ある程度デコードすることができる。 この発見に基づいて,MHSAの発信源を情報フローによりさらに追跡し,MHSAが主に目標状態のスパンや最近のステップから情報を抽出することを明らかにする。 情報の流れにより、我々はその内部でどのような情報がコード化されているかを引き続き研究する。 具体的には,流れの表現において,将来的な決定が事前に符号化されているかを検討する。 計画が成功すれば,中間層と上部層が短期的な将来的な決定をある程度エンコードできることを実証する。 本研究は,LLMのルックアヘッド計画機構を解析し,今後のLLMの計画作業の実施を促進する。

Planning, as the core module of agents, is crucial in various fields such as embodied agents, web navigation, and tool using. With the development of large language models (LLMs), some researchers treat large language models as intelligent agents to stimulate and evaluate their planning capabilities. However, the planning mechanism is still unclear. In this work, we focus on exploring the look-ahead planning mechanism in large language models from the perspectives of information flow and internal representations. First, we study how planning is done internally by analyzing the multi-layer perception (MLP) and multi-head self-attention (MHSA) components at the last token. We find that the output of MHSA in the middle layers at the last token can directly decode the decision to some extent. Based on this discovery, we further trace the source of MHSA by information flow, and we reveal that MHSA mainly extracts information from spans of the goal states and recent steps. According to information flow, we continue to study what information is encoded within it. Specifically, we explore whether future decisions have been encoded in advance in the representation of flow. We demonstrate that the middle and upper layers encode a few short-term future decisions to some extent when planning is successful. Overall, our research analyzes the look-ahead planning mechanisms of LLMs, facilitating future research on LLMs performing planning tasks.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# Meta-FL:フェデレーション学習における不均一モデル集約の最適化のための新しいメタラーニングフレームワーク

Meta-FL: A Novel Meta-Learning Framework for Optimizing Heterogeneous Model Aggregation in Federated Learning ( http://arxiv.org/abs/2406.16035v1 )

ライセンス: Link先を確認
Zahir Alsulaimawi, (参考訳) フェデレートラーニング(FL)は、データのプライバシを保護しながら、さまざまなエンティティ間で協調的なモデルトレーニングを可能にする。 しかし、FLはデータの異質性やモデルの多様性といった課題に直面している。 Meta-Federated Learning (Meta-FL)フレームワークはこれらの課題に取り組むために導入された。 Meta-FLは最適化ベースのMeta-Aggregatorを使用して、異種モデル更新の複雑さをナビゲートする。 Meta-Aggregatorは、メタ機能を活用してグローバルモデルの性能を高め、各ローカルモデルの精度を考慮に入れた調整されたアグリゲーションを保証する。 4つの医療関連データセットに対する実証的な評価は、Meta-FLフレームワークの適応性、効率性、スケーラビリティ、堅牢性を示し、従来のFLアプローチよりも優れています。 さらに、Meta-FLの顕著な効率性とスケーラビリティは、より少ない通信ラウンドでの精度の向上と、性能を損なうことなくフェデレーションネットワークの拡大を管理する能力の達成によって明らかである。

Federated Learning (FL) enables collaborative model training across diverse entities while safeguarding data privacy. However, FL faces challenges such as data heterogeneity and model diversity. The Meta-Federated Learning (Meta-FL) framework has been introduced to tackle these challenges. Meta-FL employs an optimization-based Meta-Aggregator to navigate the complexities of heterogeneous model updates. The Meta-Aggregator enhances the global model's performance by leveraging meta-features, ensuring a tailored aggregation that accounts for each local model's accuracy. Empirical evaluation across four healthcare-related datasets demonstrates the Meta-FL framework's adaptability, efficiency, scalability, and robustness, outperforming conventional FL approaches. Furthermore, Meta-FL's remarkable efficiency and scalability are evident in its achievement of superior accuracy with fewer communication rounds and its capacity to manage expanding federated networks without compromising performance.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# LiveScene:物理シーンレンダリングと制御のための対話的放射場を組み込んだ言語

LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control ( http://arxiv.org/abs/2406.16038v1 )

ライセンス: Link先を確認
Delin Qu, Qizhi Chen, Pingrui Zhang, Xianqiang Gao, Bin Zhao, Dong Wang, Xuelong Li, (参考訳) 本稿では,対話型オブジェクト再構成を単一オブジェクトレベルから複雑なシーンレベルに拡張することにより,物理世界インタラクティブなシーン再構築の進展を推し進めることを目的とする。 そこで我々はまず,28のシーンと複数の対話オブジェクトを含む実シーンレベルの物理インタラクションデータセットを構築した。 さらに,複雑なシーンにおける複数のオブジェクトのインタラクティブな動きを正確にモデル化するために,複雑なシーンにおける複数のオブジェクトを効率的に再構成・制御する,最初のシーンレベルの言語埋め込み型対話型ニューラルラディアンス場であるLiveSceneを提案する。 LiveSceneは、インタラクティブなシーンを複数の局所的な変形可能なフィールドに分解し、個別のインタラクティブなオブジェクトを別々に再構成し、複雑なシーンにおける複数のインタラクティブなオブジェクトに対する最初の正確かつ独立した制御を実現する。 さらに,異なる対話状態下での対話オブジェクトのローカライズのために,様々な言語埋め込みを生成する対話型言語埋め込み手法を導入し,自然言語を用いた対話型オブジェクトの任意制御を実現する。 最後に、OminiSimとInterRealを構築したデータセット上で、様々なシミュレートされた実世界の複雑なシーンでLiveSceneを評価する。 提案手法は,CoNeRF合成におけるPSNR+9.89,+1.30,+1.99,OminiSim#chanllengingデータセットにおけるOminiSim#chanllengingデータセット+65.12,OminiSimにおけるmIOU+65.12をそれぞれ上回り,SOTAの新規なビュー合成と言語基盤性能を実現することを示す。 プロジェクトページ: \href{https://livescenes.github.io}{https://livescenes.github.io}

This paper aims to advance the progress of physical world interactive scene reconstruction by extending the interactive object reconstruction from single object level to complex scene level. To this end, we first construct one simulated and one real scene-level physical interaction dataset containing 28 scenes with multiple interactive objects per scene. Furthermore, to accurately model the interactive motions of multiple objects in complex scenes, we propose LiveScene, the first scene-level language-embedded interactive neural radiance field that efficiently reconstructs and controls multiple interactive objects in complex scenes. LiveScene introduces an efficient factorization that decomposes the interactive scene into multiple local deformable fields to separately reconstruct individual interactive objects, achieving the first accurate and independent control on multiple interactive objects in a complex scene. Moreover, we introduce an interaction-aware language embedding method that generates varying language embeddings to localize individual interactive objects under different interactive states, enabling arbitrary control of interactive objects using natural language. Finally, we evaluate LiveScene on the constructed datasets OminiSim and InterReal with various simulated and real-world complex scenes. Extensive experiment results demonstrate that the proposed approach achieves SOTA novel view synthesis and language grounding performance, surpassing existing methods by +9.89, +1.30, and +1.99 in PSNR on CoNeRF Synthetic, OminiSim #chanllenging, and InterReal #chanllenging datasets, and +65.12 of mIOU on OminiSim, respectively. Project page: \href{https://livescenes.github.io}{https://livescenes.github.io}.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# CholecInstanceSeg:腹腔鏡下手術のためのツールインスタンスセグメンテーションデータセット

CholecInstanceSeg: A Tool Instance Segmentation Dataset for Laparoscopic Surgery ( http://arxiv.org/abs/2406.16039v1 )

ライセンス: Link先を確認
Oluwatosin Alabi, Ko Ko Zayar Toe, Zijian Zhou, Charlie Budd, Nicholas Raison, Miaojing Shi, Tom Vercauteren, (参考訳) 腹腔鏡下手術やロボット手術では、精密ツールインスタンスセグメンテーションは先進的なコンピュータ支援手術に欠かせない技術である。 定期手術の公開手順は存在するが、ツールインスタンスセグメンテーションのための包括的なアノテーションが欠如していることが多い。 さらに、ツールセグメンテーションのための標準データセットの大多数は、豚(pig)の手術に由来する。 このギャップに対処するために、これまでで最大のオープンアクセスツールインスタンスセグメンテーションデータセットであるCholecInstanceSegを紹介します。 既存のColecT50およびColec80データセットから派生したColecInstanceSegは、患者の腹腔鏡下胆嚢摘出術のための新しいアノテーションを提供する。 本データセットは,85の症例から抽出した41.9kの注釈付きフレームと64.4kのツールインスタンスから構成され,それぞれにセマンティックマスクとインスタンスIDをラベル付けした。 アノテーションの信頼性を確保するため、我々は広範囲な品質管理を行い、ラベル合意統計を実行し、セグメンテーション結果を様々なインスタンスセグメンテーションベースラインでベンチマークする。 CholecInstanceSegは、ツールインスタンスセグメンテーションアルゴリズムの開発と評価のための包括的で高品質なオープンアクセスデータセットを提供することで、この分野を前進させることを目指している。

In laparoscopic and robotic surgery, precise tool instance segmentation is an essential technology for advanced computer-assisted interventions. Although publicly available procedures of routine surgeries exist, they often lack comprehensive annotations for tool instance segmentation. Additionally, the majority of standard datasets for tool segmentation are derived from porcine(pig) surgeries. To address this gap, we introduce CholecInstanceSeg, the largest open-access tool instance segmentation dataset to date. Derived from the existing CholecT50 and Cholec80 datasets, CholecInstanceSeg provides novel annotations for laparoscopic cholecystectomy procedures in patients. Our dataset comprises 41.9k annotated frames extracted from 85 clinical procedures and 64.4k tool instances, each labelled with semantic masks and instance IDs. To ensure the reliability of our annotations, we perform extensive quality control, conduct label agreement statistics, and benchmark the segmentation results with various instance segmentation baselines. CholecInstanceSeg aims to advance the field by offering a comprehensive and high-quality open-access dataset for the development and evaluation of tool instance segmentation algorithms.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# 人物再同定のための拡散モデルによる多角的拡張

Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification ( http://arxiv.org/abs/2406.16042v1 )

ライセンス: Link先を確認
Inès Hyeonsu Kim, JoungBin Lee, Soowon Son, Woojeong Jin, Kyusun Cho, Junyoung Seo, Min-Seop Kwak, Seokju Cho, JeongYeol Baek, Byeongwon Lee, Seungryong Kim, (参考訳) 人物の再識別(Re-ID)は、人間のポーズやカメラ視点の変化によってしばしば困難に直面する。 既存のデータセットはこれらの点において多様性とスケーラビリティを欠くことが多く、新しいカメラシステムへのRe-IDモデルの一般化を妨げる。 しかし、トレーニングデータセットにすでに存在する人間のポーズに依存しており、データセットの人間のポーズバイアスを効果的に低減できない。 Diff-IDは、疎密で表現不足な人間のポーズとカメラ視点の例をトレーニングデータに組み込んだ、新しいデータ拡張手法である。 我々の目標は、既存のRe-IDモデルで人間のポーズやカメラの視点の違いに左右されない特徴を学習できるトレーニングデータセットを強化することである。 そこで我々は,事前学習した大規模拡散モデルの知識を活用する。 SMPLモデルを用いて、所望の人間のポーズとカメラ視点の両方を同時にキャプチャし、リアルな人間のレンダリングを可能にする。 SMPLモデルが提供する奥行き情報は、カメラ視点を間接的に伝達する。 SMPLモデルにより、人間のポーズとカメラの視点の両方に拡散モデルを同時に設定することにより、多様なポーズとカメラの視点でリアルな画像を生成する。 定性的な結果は、人間のポーズバイアスに対処し、Re-IDモデルの一般化性を高める方法の有効性を、他のデータ拡張ベースのRe-IDアプローチと比較して示している。 オフラインの拡張現実データセット上でRe-IDモデルをトレーニングすることで達成されるパフォーマンス向上は、個人Re-IDモデルのスケーラビリティと一般化性を改善する上で、提案するフレームワークの可能性を浮き彫りにしている。

Person re-identification (Re-ID) often faces challenges due to variations in human poses and camera viewpoints, which significantly affect the appearance of individuals across images. Existing datasets frequently lack diversity and scalability in these aspects, hindering the generalization of Re-ID models to new camera systems. Previous methods have attempted to address these issues through data augmentation; however, they rely on human poses already present in the training dataset, failing to effectively reduce the human pose bias in the dataset. We propose Diff-ID, a novel data augmentation approach that incorporates sparse and underrepresented human pose and camera viewpoint examples into the training data, addressing the limited diversity in the original training data distribution. Our objective is to augment a training dataset that enables existing Re-ID models to learn features unbiased by human pose and camera viewpoint variations. To achieve this, we leverage the knowledge of pre-trained large-scale diffusion models. Using the SMPL model, we simultaneously capture both the desired human poses and camera viewpoints, enabling realistic human rendering. The depth information provided by the SMPL model indirectly conveys the camera viewpoints. By conditioning the diffusion model on both the human pose and camera viewpoint concurrently through the SMPL model, we generate realistic images with diverse human poses and camera viewpoints. Qualitative results demonstrate the effectiveness of our method in addressing human pose bias and enhancing the generalizability of Re-ID models compared to other data augmentation-based Re-ID approaches. The performance gains achieved by training Re-ID models on our offline augmented dataset highlight the potential of our proposed framework in improving the scalability and generalizability of person Re-ID models.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# Combine and Conquer: データシフトとアウト・オブ・ディストリビューション検出のメタ分析

Combine and Conquer: A Meta-Analysis on Data Shift and Out-of-Distribution Detection ( http://arxiv.org/abs/2406.16045v1 )

ライセンス: Link先を確認
Eduardo Dadalto, Florence Alberge, Pierre Duhamel, Pablo Piantanida, (参考訳) 本稿では,アウト・オブ・ディストリビューション(OOD)検出スコアをシームレスに組み合わせるための普遍的アプローチを提案する。 これらのスコアは、ディープラーニングモデルの自己自信と潜在空間における特徴の異常な振る舞いを活用する幅広い技術を含んでいる。 当然のことながら、単純な統計を用いてこのような多様な人口を組み合わせると、不十分であることが証明される。 この課題を克服するために、これらのスコアをp-値にマッピングする量子正規化を提案し、この問題を多変量仮説テストに効果的にフレーミングする。 そして、確立されたメタ分析ツールを用いてこれらのテストを組み合わせることにより、より効果的な検出と決定境界の統合を実現した。 さらに、最終的な統計を既知のパラメータを持つ分布にマッピングすることで、確率論的解釈可能な基準を作成する。 実験的な調査を通じて、異なるタイプのシフトを探索し、それぞれがデータに様々な影響を及ぼします。 以上の結果から,本手法は多様なOOD検出シナリオにおける全体的な堅牢性と性能を著しく向上することが示された。 特に,我々のフレームワークは,検出スコアの今後の発展に対して容易に拡張可能であり,この文脈における決定境界を最初に組み合わせた存在である。 この作業に関連するコードとアーティファクトは、公開されている。footnote{\url{https://github.com/edadaltocg/detectors}}。

This paper introduces a universal approach to seamlessly combine out-of-distribution (OOD) detection scores. These scores encompass a wide range of techniques that leverage the self-confidence of deep learning models and the anomalous behavior of features in the latent space. Not surprisingly, combining such a varied population using simple statistics proves inadequate. To overcome this challenge, we propose a quantile normalization to map these scores into p-values, effectively framing the problem into a multi-variate hypothesis test. Then, we combine these tests using established meta-analysis tools, resulting in a more effective detector with consolidated decision boundaries. Furthermore, we create a probabilistic interpretable criterion by mapping the final statistics into a distribution with known parameters. Through empirical investigation, we explore different types of shifts, each exerting varying degrees of impact on data. Our results demonstrate that our approach significantly improves overall robustness and performance across diverse OOD detection scenarios. Notably, our framework is easily extensible for future developments in detection scores and stands as the first to combine decision boundaries in this context. The code and artifacts associated with this work are publicly available\footnote{\url{https://github.com/edadaltocg/detectors}}.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# Dzyaloshinskii-Moriya相互作用を持つハイゼンベルクスピンチェーンモデルにおける量子電池

Quantum battery in the Heisenberg spin chain models with Dzyaloshinskii-Moriya interaction ( http://arxiv.org/abs/2406.16047v1 )

ライセンス: Link先を確認
Xiang-Long Zhang, Xue-Ke Song, Dong Wang, (参考訳) 量子電池(Quantum Battery, QB)は、量子力学の原理に準拠したエネルギー貯蔵・抽出装置である。 本研究では,ハイゼンベルクスピン鎖モデルにおけるジアロシンスキー-モリヤ相互作用の欠如と存在下でのQBの特性について考察する。 以上の結果から,DM相互作用によりQBのエルゴトロピーとパワーが向上し,QBの並列充電性能が向上することが示唆された。 さらに、一階のコヒーレンスは充電中に重要な量子資源であり、セル間の量子ステアリングはQBのエネルギー貯蔵に寄与しないことがわかった。 本研究は,ハイゼンベルクスピンチェーンモデルとDM相互作用を用いたQBの特性を考察し,現実的な量子電池の枠組みにおける性能の獲得を促進するものである。

Quantum battery (QB) is an energy storage and extraction device conforming to the principles of quantum mechanics. In this study, we consider the characteristics of QBs for the Heisenberg spin chain models in the absence and presence of Dzyaloshinskii-Moriya (DM) interaction. Our results show that the DM interaction can enhance the ergotropy and power of QBs, which shows the collective charging can outperform parallel charging regarding QB's performance. Besides, it turns out that first-order coherence is a crucial quantum resource during charging, while quantum steering between the cells is not conducive to the energy storage of QBs. Our investigations offer insight into the properties of QBs with Heisenberg spin chain models with DM interaction and facilitate us to acquire the performance in the framework of realistic quantum batteries.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# 一般エンタングルメント演算子に基づく量子クールノットモデル

Quantum Cournot model based on general entanglement operator ( http://arxiv.org/abs/2406.16049v1 )

ライセンス: Link先を確認
Katarzyna Bolonek-Lasoń, (参考訳) プレイヤーの交換に関して対称な二次式を含む最も一般的な絡み合い演算子に基づくクールノットモデルの性質を考察する。 1と2のスクイーズパラメータに依存するゲームの絡み合いの程度と、ナッシュ平衡におけるそれらのペイオフ値を比較する。

The properties of the Cournot model based on the most general entanglement operator containing quadratic expressions which is symmetric with respect to the exchange of players are considered. The degree of entanglement of games dependent on one and two squeezing parameters and their payoff values in Nash equilibrium are compared.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# Pivotal Auto-Encoder by Self-Normalizing ReLU

Pivotal Auto-Encoder via Self-Normalizing ReLU ( http://arxiv.org/abs/2406.16052v1 )

ライセンス: Link先を確認
Nelson Goldenstein, Jeremias Sulam, Yaniv Romano, (参考訳) スパースオートエンコーダは高次元データから低次元表現を抽出するのに有用である。 しかし、テスト時の入力ノイズとトレーニング時に使用するノイズとが異なる場合、その性能は急激に低下する。 この制限は、入力のノイズレベルが予測不可能な実世界のシナリオにおけるオートエンコーダの適用性を妨げている。 本稿では,トランスフォーメーション学習問題として,単一の隠蔽層スパースオートエンコーダを定式化する。 変換モデリングの解釈を応用し、テスト時の雑音レベルに不変な予測モデルをもたらす最適化問題を提案する。 言い換えれば、同じ事前訓練されたモデルが、異なるノイズレベルに一般化することができる。 提案アルゴリズムは平方根のラッソから導出され,新しい計算効率の高い自動符号化アーキテクチャに変換される。 提案手法がノイズレベルに不変であることを証明した後,提案手法を用いてネットワークを訓練し,タスクを識別する手法を提案する。 実験結果から, 各種ノイズに対する安定性は, 一般的なアーキテクチャに比べて有意に向上したことがわかった。

Sparse auto-encoders are useful for extracting low-dimensional representations from high-dimensional data. However, their performance degrades sharply when the input noise at test time differs from the noise employed during training. This limitation hinders the applicability of auto-encoders in real-world scenarios where the level of noise in the input is unpredictable. In this paper, we formalize single hidden layer sparse auto-encoders as a transform learning problem. Leveraging the transform modeling interpretation, we propose an optimization problem that leads to a predictive model invariant to the noise level at test time. In other words, the same pre-trained model is able to generalize to different noise levels. The proposed optimization algorithm, derived from the square root lasso, is translated into a new, computationally efficient auto-encoding architecture. After proving that our new method is invariant to the noise level, we evaluate our approach by training networks using the proposed architecture for denoising tasks. Our experimental results demonstrate that the trained models yield a significant improvement in stability against varying types of noise compared to commonly used architectures.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# Port: トレースの推論に関する優先度最適化

PORT: Preference Optimization on Reasoning Traces ( http://arxiv.org/abs/2406.16061v1 )

ライセンス: Link先を確認
Salem Lahlou, Abdalgader Abubaker, Hakim Hacid, (参考訳) 提案手法は,人間の値と大規模言語モデル(LLM)のアライメントを改善するだけでなく,要約やスタイリスティックな継続といった特定の自然言語タスクの改善にも有効である。 本稿では,言語モデルの推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。 選択された回答は、推論トレースを含むデータセットから得られるが、デジタイズと弱いLLMプロンプトという2つの補完的手法を提案する。 提案手法は,Falcon2-11BとMistral-7BのGSM8K,AQuA-RAT,ARCベンチマークの精度向上につながる。 例えば、このアプローチは、追加のアノテーションなしでGSM8Kベンチマークの精度が8.47%向上する可能性がある。 この研究は、推論トレースのデータセット作成にリソースを費やすことで、非公式な推論タスクにおけるLLMのパフォーマンスがさらに向上することを示唆している。

Preference optimization methods have been successfully applied to improve not only the alignment of large language models (LLMs) with human values, but also specific natural language tasks such as summarization and stylistic continuations. This paper proposes using preference optimization methods on Chain-of-Thought steps in order to improve the reasoning performances of language models. While the chosen answers are obtained from datasets that include reasoning traces, we propose two complementary schemes for generating rejected answers: digit corruption, and weak LLM prompting. Our approach leads to increased accuracy on the GSM8K, AQuA-RAT, and ARC benchmarks for Falcon2-11B and Mistral-7B. For example, the approach can lead to up to a relative 8.47% increase in accuracy on the GSM8K benchmark without any extra annotations. This work suggests that spending resources on creating more datasets of reasoning traces would further boost LLM performances on informal reasoning tasks.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# 生物学的プラウジブルコンピューティングを目指して : 総合的な比較

Towards Biologically Plausible Computing: A Comprehensive Comparison ( http://arxiv.org/abs/2406.16062v1 )

ライセンス: Link先を確認
Changze Lv, Yufei Gu, Zhengkang Guo, Zhibo Xu, Yixin Wu, Feiran Zhang, Tianyuan Shi, Zhenghua Wang, Ruicheng Yin, Yu Shang, Siqi Zhong, Xiaohua Wang, Muling Wu, Wenhao Liu, Tianlong Li, Jianhao Zhu, Cenyuan Zhang, Zixuan Ling, Xiaoqing Zheng, (参考訳) バックプロパゲーション(backpropagation)は、教師あり学習のためのニューラルネットワークのトレーニングにおける基盤となるアルゴリズムである。 深層学習の推進において重要な役割を担っているにもかかわらず、バックプロパゲーションの生物学的妥当性は、重量対称性、大域的誤差計算、二相学習の要求により疑問視されている。 この長年にわたる課題に対処するために、多くの研究が生物学的に妥当なトレーニングアルゴリズムの開発に取り組んできた。 しかし、多層ニューラルネットワークを訓練するための完全に生物学的に妥当なアルゴリズムはいまだ解明されておらず、生物学的に妥当な解釈は研究者によって異なる。 本研究では,望ましい学習アルゴリズムが満たすべき生物学的妥当性の基準を確立する。 これらの基準を用いて,ハビアン学習,スパイクタイピング依存塑性,フィードバックアライメント,ターゲット伝搬,予測符号化,前向きアルゴリズム,摂動学習,局所的損失,エネルギーベース学習など,生物学的に有効なと考えられる既存のアルゴリズムを評価した。 さらに、これらのアルゴリズムを様々なネットワークアーキテクチャやデータセットで実証的に評価する。 これらのアルゴリズムが学習した特徴表現と、同じ刺激下で非侵襲デバイスが記録した脳活動とを比較し、どのアルゴリズムが脳活動パターンを最も正確に再現できるかを特定することを目的とした。 この研究が、神経科学と機械学習の両方の分野における進歩を促進するために、多層ネットワークをトレーニングするための生物学的にもっとも有効な新しいアルゴリズムの開発を促すことを願っている。

Backpropagation is a cornerstone algorithm in training neural networks for supervised learning, which uses a gradient descent method to update network weights by minimizing the discrepancy between actual and desired outputs. Despite its pivotal role in propelling deep learning advancements, the biological plausibility of backpropagation is questioned due to its requirements for weight symmetry, global error computation, and dual-phase training. To address this long-standing challenge, many studies have endeavored to devise biologically plausible training algorithms. However, a fully biologically plausible algorithm for training multilayer neural networks remains elusive, and interpretations of biological plausibility vary among researchers. In this study, we establish criteria for biological plausibility that a desirable learning algorithm should meet. Using these criteria, we evaluate a range of existing algorithms considered to be biologically plausible, including Hebbian learning, spike-timing-dependent plasticity, feedback alignment, target propagation, predictive coding, forward-forward algorithm, perturbation learning, local losses, and energy-based learning. Additionally, we empirically evaluate these algorithms across diverse network architectures and datasets. We compare the feature representations learned by these algorithms with brain activity recorded by non-invasive devices under identical stimuli, aiming to identify which algorithm can most accurately replicate brain activity patterns. We are hopeful that this study could inspire the development of new biologically plausible algorithms for training multilayer networks, thereby fostering progress in both the fields of neuroscience and machine learning.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# モバイルデバイスにおける実時間ニューラルボリュームレンダリングに向けて:計測研究

Towards Real-Time Neural Volumetric Rendering on Mobile Devices: A Measurement Study ( http://arxiv.org/abs/2406.16068v1 )

ライセンス: Link先を確認
Zhe Wang, Yifei Zhu, (参考訳) Neural Radiance Fields (NeRF) は、2次元画像から幅広い潜在的な用途で3Dオブジェクトを合成する新興技術である。 しかし、既存のNeRFモデルのレンダリングは非常に計算集約的であり、モバイルデバイスでのリアルタイムインタラクションをサポートすることは困難である。 本稿では,システムの観点から最先端のリアルタイムNeRFレンダリング技術について検討する。 まず、NeRFサービスシステムの動作パイプライン全体を定義する。 次に,コミュニケーション,計算,視覚的パフォーマンスの観点から,システムにとって重要な制御ノブを同定する。 さらに,これらの制御ノブがシステム性能に及ぼす影響を明らかにするため,広範囲な測定を行った。 その結果, メッシュの粒度は最も有効なノブであり, 量子化は最も有効なノブである。 さらに、多様なハードウェアデバイス設定とネットワーク条件は、適切なノブの下での運用の利点を完全に解き放つ必要がある。

Neural Radiance Fields (NeRF) is an emerging technique to synthesize 3D objects from 2D images with a wide range of potential applications. However, rendering existing NeRF models is extremely computation intensive, making it challenging to support real-time interaction on mobile devices. In this paper, we take the first initiative to examine the state-of-the-art real-time NeRF rendering technique from a system perspective. We first define the entire working pipeline of the NeRF serving system. We then identify possible control knobs that are critical to the system from the communication, computation, and visual performance perspective. Furthermore, an extensive measurement study is conducted to reveal the effects of these control knobs on system performance. Our measurement results reveal that different control knobs contribute differently towards improving the system performance, with the mesh granularity being the most effective knob and the quantization being the least effective knob. In addition, diverse hardware device settings and network conditions have to be considered to fully unleash the benefit of operating under the appropriate knobs
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# FastMem: Promptの高速覚書化により,大規模言語モデルのコンテキスト認識性が向上

FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models ( http://arxiv.org/abs/2406.16069v1 )

ライセンス: Link先を確認
Junyi Zhu, Shuochen Liu, Yu Yu, Bo Tang, Yibo Yan, Zhiyu Li, Feiyu Xiong, Tong Xu, Matthew B. Blaschko, (参考訳) 大きな言語モデル(LLM)は、一貫性のあるテキストを生成するのに優れているが、コンテキスト認識に苦しむことが多く、提供された情報に忠実に従わなければならないタスクにおいて不正確である。 我々は,命令を微調整したLLMの文脈認識を高速な記憶により向上させる新しい手法であるFastMemを紹介する。 FastMemは、最後のFeed-Forward Network (FFN)モジュールのみを微調整することで、推論前のプロンプトの可能性を最大化する。 このターゲットのアプローチは、過度に適合することなく効率的な最適化を保証し、モデルの理解能力を大幅に改善し、コンテキストを正確に追従する。 本実験は, 読解理解, テキスト要約, 出力構造への順守において, かなりの効果を示した。 例えば、FastMemはNQ-SWAPデータセット上のLlama 3-8B-Instの精度を59.1%から71.6%に改善し、Qwen 1.5-4B-Chatの出力構造失敗率を34.9%から25.5%に下げる。 大規模な実験の結果は、さまざまなアプリケーションにおけるLLMの信頼性と精度を高める堅牢なソリューションを提供するFastMemの可能性を浮き彫りにしている。 私たちのコードは、https://github.com/IAAR-Shanghai/FastMemで利用可能です。

Large language models (LLMs) excel in generating coherent text, but they often struggle with context awareness, leading to inaccuracies in tasks requiring faithful adherence to provided information. We introduce FastMem, a novel method designed to enhance instruction fine-tuned LLMs' context awareness through fast memorization of the prompt. FastMem maximizes the likelihood of the prompt before inference by fine-tuning only the last Feed-Forward Network (FFN) module. This targeted approach ensures efficient optimization without overfitting, significantly improving the model's ability to comprehend and accurately follow the context. Our experiments demonstrate substantial gains in reading comprehension, text summarization and adherence to output structures. For instance, FastMem improves the accuracy of Llama 3-8B-Inst on the NQ-SWAP dataset from 59.1% to 71.6%, and reduces the output structure failure rate of Qwen 1.5-4B-Chat from 34.9% to 25.5%. Extensive experimental results highlight FastMem's potential to offer a robust solution to enhance the reliability and accuracy of LLMs in various applications. Our code is available at: https://github.com/IAAR-Shanghai/FastMem
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# 構文林でのダンス--SALSAを用いた高速・高精度・説明可能な感情分析

Dancing in the syntax forest: fast, accurate and explainable sentiment analysis with SALSA ( http://arxiv.org/abs/2406.16071v1 )

ライセンス: Link先を確認
Carlos Gómez-Rodríguez, Muhammad Imran, David Vilares, Elena Solera, Olga Kellert, (参考訳) センチメント分析は、企業や機関が製品やサービス、イベントに関する世論を測る上で重要な技術である。 しかし、大規模な感情分析が控えめな計算資源を持つエンティティにアクセスできるためには、リソース効率のよい方法で行う必要がある。 いくつかの効率的な感情分析システムが存在するが、彼らは浅いヒューリスティックスを適用する傾向にあり、それは感情を根本的に変えうる統語的現象を考慮していない。 逆に、構文を考慮に入れた代替案は計算コストがかかる。 SALSAプロジェクトは、欧州研究評議会がProof-of-Concept Grantの下で資金提供し、最近開発された高速構文解析技術を活用して、軽量で効率的な感情分析システムを構築することを目的としている。 当社のアプローチは、中小企業が本番で使うことに関心のある作業プロダクトのバックボーンとなることを目的としています。

Sentiment analysis is a key technology for companies and institutions to gauge public opinion on products, services or events. However, for large-scale sentiment analysis to be accessible to entities with modest computational resources, it needs to be performed in a resource-efficient way. While some efficient sentiment analysis systems exist, they tend to apply shallow heuristics, which do not take into account syntactic phenomena that can radically change sentiment. Conversely, alternatives that take syntax into account are computationally expensive. The SALSA project, funded by the European Research Council under a Proof-of-Concept Grant, aims to leverage recently-developed fast syntactic parsing techniques to build sentiment analysis systems that are lightweight and efficient, while still providing accuracy and explainability through the explicit use of syntax. We intend our approaches to be the backbone of a working product of interest for SMEs to use in production.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# DV-3DLane:デュアルビュー表現によるエンドツーエンドのマルチモーダル3Dレーン検出

DV-3DLane: End-to-end Multi-modal 3D Lane Detection with Dual-view Representation ( http://arxiv.org/abs/2406.16072v1 )

ライセンス: Link先を確認
Yueru Luo, Shuguang Cui, Zhen Li, (参考訳) 正確な3Dレーン推定は、自動運転の安全性を確保するために不可欠である。 しかし、一般的な単分子技術は、深さの損失と照明のバリエーションに悩まされ、正確な3次元車線検出を妨げている。 対照的に、LiDARの点は幾何学的手がかりを提供し、正確な局所化を可能にする。 本稿では,DV-3DLaneについて述べる。DV-3DLaneは,画像とLiDAR点の両方の強度を相乗化する,エンドツーエンドのマルチモーダル3Dレーン検出フレームワークである。 両視点空間,すなわち視点ビュー (PV) と鳥眼ビュー (BEV) でマルチモーダルな特徴を学習し,モーダル固有情報を効果的に活用することを提案する。 これを実現するために,我々は3つの設計を紹介した。 1) 各ビュー空間にマルチモーダルな特徴を統合する双方向機能融合戦略は,その特徴的強みを生かした。 2) PVおよびBEV空間からの車線認識知識を活用してクエリを生成する統一クエリ生成手法を提案する。 3) PVおよびBEV空間の識別特徴を正確な3次元車線検出のための問合せに集約する3次元デュアルビューデフォルマブルアテンション機構。 公開ベンチマークの大規模な実験であるOpenLaneは、DV-3DLaneの有効性と効率を実証した。 最先端のパフォーマンスを実現し、F1スコアが11.2、エラーが53.5%減少している。 コードは \url{https://github.com/JMoonr/dv-3dlane} で公開されている。

Accurate 3D lane estimation is crucial for ensuring safety in autonomous driving. However, prevailing monocular techniques suffer from depth loss and lighting variations, hampering accurate 3D lane detection. In contrast, LiDAR points offer geometric cues and enable precise localization. In this paper, we present DV-3DLane, a novel end-to-end Dual-View multi-modal 3D Lane detection framework that synergizes the strengths of both images and LiDAR points. We propose to learn multi-modal features in dual-view spaces, i.e., perspective view (PV) and bird's-eye-view (BEV), effectively leveraging the modal-specific information. To achieve this, we introduce three designs: 1) A bidirectional feature fusion strategy that integrates multi-modal features into each view space, exploiting their unique strengths. 2) A unified query generation approach that leverages lane-aware knowledge from both PV and BEV spaces to generate queries. 3) A 3D dual-view deformable attention mechanism, which aggregates discriminative features from both PV and BEV spaces into queries for accurate 3D lane detection. Extensive experiments on the public benchmark, OpenLane, demonstrate the efficacy and efficiency of DV-3DLane. It achieves state-of-the-art performance, with a remarkable 11.2 gain in F1 score and a substantial 53.5% reduction in errors. The code is available at \url{https://github.com/JMoonr/dv-3dlane}.
翻訳日:2024-06-25 19:13:57 公開日:2024-06-23
# LGS : 効率的な手術シーン再構築のための軽量4Dガウス切削法

LGS: A Light-weight 4D Gaussian Splatting for Efficient Surgical Scene Reconstruction ( http://arxiv.org/abs/2406.16073v1 )

ライセンス: Link先を確認
Hengyu Liu, Yifan Liu, Chenxin Li, Wuyang Li, Yixuan Yuan, (参考訳) 3D Gaussian Splatting (3D-GS)テクニックの出現とその動的シーンモデリングのバリエーションである4D-GSは、動的手術シナリオのリアルタイムレンダリングに期待できる可能性を示唆している。 しかし,多数のガウス単位,高次元ガウス特性,高分解能変形場などによる動的シーンのモデル化の前提条件は,資源限定の手術機器におけるリアルタイムレンダリングの妨げとなる記憶上の問題である。 これらの制限を克服するために、動的内視鏡再構成のためのレンダリングとストレージの効率ボトルネックを解放する軽量4Dガウススティングフレームワーク(LGS)を導入する。 具体的には,ガウス量の冗長性を最小化するために,各ガウスの変形に対する影響を加味して変形認識プルーニングを提案する。 同時に、ガウス属性の冗長性を低減するために、ガウス属性の次元を刻むことにより、非極端領域におけるテクスチャや照明の表現を単純化する。 さらに,4次元特徴場縮合により動的シーンをモデル化するための4次元ニューラル時空間エンコーダの高分解能化による特徴場の冗長性も解決する。 公開ベンチマークの実験では、圧縮速度が9倍を超えながら、視覚的品質とリアルタイムレンダリング効率を維持しながら、LGSの有効性を実証している。 LGSは、ロボット外科サービスへの応用に向けて、大きな一歩を踏み出した。

The advent of 3D Gaussian Splatting (3D-GS) techniques and their dynamic scene modeling variants, 4D-GS, offers promising prospects for real-time rendering of dynamic surgical scenarios. However, the prerequisite for modeling dynamic scenes by a large number of Gaussian units, the high-dimensional Gaussian attributes and the high-resolution deformation fields, all lead to serve storage issues that hinder real-time rendering in resource-limited surgical equipment. To surmount these limitations, we introduce a Lightweight 4D Gaussian Splatting framework (LGS) that can liberate the efficiency bottlenecks of both rendering and storage for dynamic endoscopic reconstruction. Specifically, to minimize the redundancy of Gaussian quantities, we propose Deformation-Aware Pruning by gauging the impact of each Gaussian on deformation. Concurrently, to reduce the redundancy of Gaussian attributes, we simplify the representation of textures and lighting in non-crucial areas by pruning the dimensions of Gaussian attributes. We further resolve the feature field redundancy caused by the high resolution of 4D neural spatiotemporal encoder for modeling dynamic scenes via a 4D feature field condensation. Experiments on public benchmarks demonstrate efficacy of LGS in terms of a compression rate exceeding 9 times while maintaining the pleasing visual quality and real-time rendering efficiency. LGS confirms a substantial step towards its application in robotic surgical services.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# CAVM:コントラスト強調脳腫瘍MRI合成のための条件付き自己回帰視覚モデル

CAVM: Conditional Autoregressive Vision Model for Contrast-Enhanced Brain Tumor MRI Synthesis ( http://arxiv.org/abs/2406.16074v1 )

ライセンス: Link先を確認
Lujun Gui, Chuyang Ye, Tianyi Yan, (参考訳) 造影MRI(Contrast-enhanced magnetic resonance imaging)は、脳腫瘍の分節と解析のパイプラインにおいて重要である。 ガドリニウムをベースとした造影剤は、最も一般的に使用されるコントラスト剤として高価であり、副作用の可能性がある。 深層学習法は、非コントラスト画像から仮想コントラスト強調MRIスキャンを合成するために応用されている。 しかし、この合成問題は本質的に不適切であるため、これらの手法は高品質な結果を生み出すには不十分である。 本研究ではコントラスト強調脳腫瘍MRIの合成を改善するための条件自動回帰視覚モデル(CAVM)を提案する。 コントラスト剤の高用量で画像強度の増大が進行するにつれて、コントラスト強調画像と非コントラスト画像との差が小さい仮想画像を低用量で合成することが難しくなると仮定する。 これにより、CAVMはコントラスト剤の摂取量を徐々に増加させ、最終的な所望量に到達するまで、以前の低線量画像に基づいて高線量画像を生成する。 自然言語処理における段階的線量増加とChain-of-Thoughtアプローチの類似性から着想を得たCAVMは、分解トークン化器とデコーダを備えた自己回帰戦略を使用する。 具体的には、よりコンパクトな画像表現の計算効率を得るためにトークン化器を適用し、その画像を線量変化および線量不変のトークンに分解する。 次に、自己回帰のためのマスク付き自己認識機構を開発し、線量変化トークンに基づいて、徐々に仮想画像の線量を増加させる。 最後に、所望の用量に対応する更新された用量変動トークンと、用量不変トークンとをデコードして、最終コントラスト強調MRIを生成する。

Contrast-enhanced magnetic resonance imaging (MRI) is pivotal in the pipeline of brain tumor segmentation and analysis. Gadolinium-based contrast agents, as the most commonly used contrast agents, are expensive and may have potential side effects, and it is desired to obtain contrast-enhanced brain tumor MRI scans without the actual use of contrast agents. Deep learning methods have been applied to synthesize virtual contrast-enhanced MRI scans from non-contrast images. However, as this synthesis problem is inherently ill-posed, these methods fall short in producing high-quality results. In this work, we propose Conditional Autoregressive Vision Model (CAVM) for improving the synthesis of contrast-enhanced brain tumor MRI. As the enhancement of image intensity grows with a higher dose of contrast agents, we assume that it is less challenging to synthesize a virtual image with a lower dose, where the difference between the contrast-enhanced and non-contrast images is smaller. Thus, CAVM gradually increases the contrast agent dosage and produces higher-dose images based on previous lower-dose ones until the final desired dose is achieved. Inspired by the resemblance between the gradual dose increase and the Chain-of-Thought approach in natural language processing, CAVM uses an autoregressive strategy with a decomposition tokenizer and a decoder. Specifically, the tokenizer is applied to obtain a more compact image representation for computational efficiency, and it decomposes the image into dose-variant and dose-invariant tokens. Then, a masked self-attention mechanism is developed for autoregression that gradually increases the dose of the virtual image based on the dose-variant tokens. Finally, the updated dose-variant tokens corresponding to the desired dose are decoded together with dose-invariant tokens to produce the final contrast-enhanced MRI.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# 熱画像の不規則配列による高濃度太陽光発電プラントの異常運転検出

Detecting Abnormal Operations in Concentrated Solar Power Plants from Irregular Sequences of Thermal Images ( http://arxiv.org/abs/2406.16077v1 )

ライセンス: Link先を確認
Sukanya Patra, Nicolas Sournac, Souhaib Ben Taieb, (参考訳) 集中型ソーラーパワー(CSP)プラントは、中央タワーの上のソーラーレシーバーに日光を集中させるミラーの配列で記憶媒体を加熱することでエネルギーを貯蔵する。 高温で作動するこれらの受信機は、凍結、変形、腐食などのリスクに直面し、運用上の故障、ダウンタイム、高価な機器の損傷を引き起こす。 運転中のCSPプラントから1年以上にわたって収集された熱画像の配列における異常検出(AD)の問題について検討した。 これらの画像は、日中1分から5分に及ぶ不規則な間隔で、太陽光受信機に搭載された赤外線カメラによって撮影される。 本研究の目的は,ADのための高次元熱画像から有用な表現を抽出する手法を開発することである。 強い季節パターンのため、不規則性、画像間の時間的依存、非定常性など、データの時間的特徴を扱えるようにすべきである。 高温異常による運転サイクルの開始から終了までの正常な画像に類似した低温異常の同時発生は、さらなる課題となる。 我々はまず,異常検出のための有意義な画像表現の導出に有効であることが示されている,最先端の深層画像ベースAD手法を評価した。 次に,過去の時系列やタイムスタンプから将来の熱画像を予測するための予測に基づくAD手法を提案する。 この方法は、特定の時間的データの特徴を効果的に捉え、温度に基づく異常を区別する。 本実験は,複数の評価指標を用いた複数のSOTAベースラインと比較し,本手法の有効性を示した。 CSPプラントのメンテナンスに関する重要な洞察を提供するため、私たちは5ヶ月の見当たらないデータにソリューションを配置することに成功しました。 私たちのコードは、https://tinyurl.com/ForecastADで利用可能です。

Concentrated Solar Power (CSP) plants store energy by heating a storage medium with an array of mirrors that focus sunlight onto solar receivers atop a central tower. Operating at high temperatures these receivers face risks such as freezing, deformation, and corrosion, leading to operational failures, downtime, or costly equipment damage. We study the problem of anomaly detection (AD) in sequences of thermal images collected over a year from an operational CSP plant. These images are captured at irregular intervals ranging from one to five minutes throughout the day by infrared cameras mounted on solar receivers. Our goal is to develop a method to extract useful representations from high-dimensional thermal images for AD. It should be able to handle temporal features of the data, which include irregularity, temporal dependency between images and non-stationarity due to a strong daily seasonal pattern. The co-occurrence of low-temperature anomalies that resemble normal images from the start and the end of the operational cycle with high-temperature anomalies poses an additional challenge. We first evaluate state-of-the-art deep image-based AD methods, which have been shown to be effective in deriving meaningful image representations for the detection of anomalies. Then, we introduce a forecasting-based AD method that predicts future thermal images from past sequences and timestamps via a deep sequence model. This method effectively captures specific temporal data features and distinguishes between difficult-to-detect temperature-based anomalies. Our experiments demonstrate the effectiveness of our approach compared to multiple SOTA baselines across multiple evaluation metrics. We have also successfully deployed our solution on five months of unseen data, providing critical insights for the maintenance of the CSP plant. Our code is available at: https://tinyurl.com/ForecastAD
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# 言語モデル推論におけるヒューリスティックの動的利用

First Heuristic Then Rational: Dynamic Use of Heuristics in Language Model Reasoning ( http://arxiv.org/abs/2406.16078v1 )

ライセンス: Link先を確認
Yoichi Aoki, Keito Kudo, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi, Keisuke Sakaguchi, Kentaro Inui, (参考訳) 多段階推論は、言語モデル(LM)の性能を改善するために、コミュニティで広く採用されている。 本稿では,このプロセスでLMが使用する体系的戦略について報告する。 制御された実験により、LMは解答により多くのステップが必要となる場合の推論の初期段階において、語彙重なりなどのヒューリスティックに強く依存していることが判明した。 逆に、LMが最終回答に近づくにつれて、ヒューリスティックスへの依存は減少する。 このことは、LMが将来的なステップの限られた数だけを追跡し、マルチステップ推論を含むタスクにおいて、ヒューリスティック戦略と論理的戦略を動的に組み合わせていることを示唆している。

Multi-step reasoning is widely adopted in the community to explore the better performance of language models (LMs). We report on the systematic strategy that LMs use in this process. Our controlled experiments reveal that LMs rely more heavily on heuristics, such as lexical overlap, in the earlier stages of reasoning when more steps are required to reach an answer. Conversely, as LMs progress closer to the final answer, their reliance on heuristics decreases. This suggests that LMs track only a limited number of future steps and dynamically combine heuristic strategies with logical ones in tasks involving multi-step reasoning.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# EERPD:パーソナリティ検出を改善するための感情と感情の規制の活用

EERPD: Leveraging Emotion and Emotion Regulation for Improving Personality Detection ( http://arxiv.org/abs/2406.16079v1 )

ライセンス: Link先を確認
Zheng Li, Dawei Zhu, Qilong Ma, Weimin Xiong, Sujian Li, (参考訳) パーソナリティ(Personality)は、個人の行動、思考、感情パターンを反映する心理学の基本的構成である。 従来の研究は、主に人格の予測にテキスト全体を活用することによって、人格検出に多少の進歩をもたらした。 しかしながら、これらの研究は一般に心理学的知識を軽視する傾向があり、感情の規制と個性の間に確立された相関関係を適用することは滅多にない。 そこで本研究では,ERPDと呼ばれる人格検出手法を提案する。 本手法では,人格予測において,人格に強く相関する心理的概念である感情制御を導入する。 この機能と感情機能を組み合わせることで、数ショットのサンプルを取得し、テキストからラベルを推論するためのプロセスCoTを提供する。 このアプローチは、テキスト中のパーソナリティに対するLLMの理解を高め、パーソナリティ検出の性能を向上させる。 実験の結果,EERPDは2つのベンチマークデータセットの平均F1において,従来のSOTAを15.05/4.29で上回り,人格検出の精度と堅牢性を大幅に向上させることが示された。

Personality is a fundamental construct in psychology, reflecting an individual's behavior, thinking, and emotional patterns. Previous researches have made some progress in personality detection, primarily by utilizing the whole text to predict personality. However, these studies generally tend to overlook psychological knowledge: they rarely apply the well-established correlations between emotion regulation and personality. Based on this, we propose a new personality detection method called EERPD. This method introduces the use of emotion regulation, a psychological concept highly correlated with personality, for personality prediction. By combining this feature with emotion features, it retrieves few-shot examples and provides process CoTs for inferring labels from text. This approach enhances the understanding of LLM for personality within text and improves the performance in personality detection. Experimental results demonstrate that EERPD significantly enhances the accuracy and robustness of personality detection, outperforming previous SOTA by 15.05/4.29 in average F1 on the two benchmark datasets.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# 効率的な部分空間走査によるマンバ型光電界超解像

Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning ( http://arxiv.org/abs/2406.16083v1 )

ライセンス: Link先を確認
Ruisheng Gao, Zeyu Xiao, Zhiwei Xiong, (参考訳) トランスフォーマーに基づく手法は、長距離空間角相関を効果的にモデル化することで、4次元光場(LF)超解像において顕著な性能を示したが、その2次複雑さは高分解能4次元入力の効率的な処理を妨げ、推論速度が遅く、メモリコストも高い。 妥協として、ほとんどの以前の作業はパッチベースの戦略を採用しており、入力LF全体からの完全な情報を活用できない。 最近提案された選択的状態空間モデルであるMambaは、その効率的な長距離シーケンスモデリングで人気を集めている。 本稿では,効率的な部分空間走査法を設計し,マンバをベースとした光場超解法 MLFSR を提案する。 具体的には、4次元LFをサブスペースシーケンスにトークン化し、各サブスペース上で双方向走査を行う。 スキャン戦略に基づいて、グローバル情報をキャプチャするMambaベースのGlobal Interaction(MGI)モジュールと、ローカルなSpatial-Angular Modulator(SAM)を設計し、局所的な詳細を補完する。 さらに,Transformer-to-Mamba (T2M)ロスを導入し,全体的な性能を向上させる。 MLFSRはCNNベースのモデルを超え、高い効率を維持しながらTransformerベースの手法に匹敵する性能を示す。 高速な推論速度とメモリ要求の低減により、MLFSRは高性能な高解像度4D LFのフルイメージ処理を容易にする。

Transformer-based methods have demonstrated impressive performance in 4D light field (LF) super-resolution by effectively modeling long-range spatial-angular correlations, but their quadratic complexity hinders the efficient processing of high resolution 4D inputs, resulting in slow inference speed and high memory cost. As a compromise, most prior work adopts a patch-based strategy, which fails to leverage the full information from the entire input LFs. The recently proposed selective state-space model, Mamba, has gained popularity for its efficient long-range sequence modeling. In this paper, we propose a Mamba-based Light Field Super-Resolution method, named MLFSR, by designing an efficient subspace scanning strategy. Specifically, we tokenize 4D LFs into subspace sequences and conduct bi-directional scanning on each subspace. Based on our scanning strategy, we then design the Mamba-based Global Interaction (MGI) module to capture global information and the local Spatial- Angular Modulator (SAM) to complement local details. Additionally, we introduce a Transformer-to-Mamba (T2M) loss to further enhance overall performance. Extensive experiments on public benchmarks demonstrate that MLFSR surpasses CNN-based models and rivals Transformer-based methods in performance while maintaining higher efficiency. With quicker inference speed and reduced memory demand, MLFSR facilitates full-image processing of high-resolution 4D LFs with enhanced performance.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# Open-Vocabulary Zero-Shot Segmentationのための簡易フレームワーク

A Simple Framework for Open-Vocabulary Zero-Shot Segmentation ( http://arxiv.org/abs/2406.16085v1 )

ライセンス: Link先を確認
Thomas Stegmüller, Tim Lebailly, Nikola Dukic, Behzad Bozorgtabar, Jean-Philippe Thiran, Tinne Tuytelaars, (参考訳) ゼロショット分類機能は、視覚言語によるコントラストフレームワーク内で訓練されたモデルで自然に発生する。 分類の進歩にもかかわらず、これらのモデルはゼロショットの開語彙セグメンテーションのような密集したタスクに苦しむ。 この欠損は、キャプションにおける局所化の手がかりが欠如していることや、画像表現学習と相互モダリティアライメントの両方を含む学習過程の相互に絡み合った性質に起因していることが多い。 これらの課題に対処するため,オープン語彙ゼロショットセグメンテーションのためのシンプルなフレームワークであるSimZSSを提案する。 この方法は2つの鍵となる原則に基づいている。 一 テキストエンコーダを排他的に整合させながら、空間認識を示す凍結視覚のみのモデルを活用すること。 二 テキスト及び言語知識の個別の性質を利用して、字幕内の局所概念を特定すること。 視覚的表現の質を活かすことで、画像キャプチャーペアのデータセットのみを必要とし、小さなキュレートされた、大規模なノイズのあるデータセットに適応する。 8GPUにわたるCOCO Captionsのトレーニングを行うと、SimZSSは8つのベンチマークデータセットのうち7つの最先端の結果を15分以内で達成する。

Zero-shot classification capabilities naturally arise in models trained within a vision-language contrastive framework. Despite their classification prowess, these models struggle in dense tasks like zero-shot open-vocabulary segmentation. This deficiency is often attributed to the absence of localization cues in captions and the intertwined nature of the learning process, which encompasses both image representation learning and cross-modality alignment. To tackle these issues, we propose SimZSS, a Simple framework for open-vocabulary Zero-Shot Segmentation. The method is founded on two key principles: i) leveraging frozen vision-only models that exhibit spatial awareness while exclusively aligning the text encoder and ii) exploiting the discrete nature of text and linguistic knowledge to pinpoint local concepts within captions. By capitalizing on the quality of the visual representations, our method requires only image-caption pairs datasets and adapts to both small curated and large-scale noisy datasets. When trained on COCO Captions across 8 GPUs, SimZSS achieves state-of-the-art results on 7 out of 8 benchmark datasets in less than 15 minutes.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# SEAM: マルチドキュメントタスクの確率ベンチマーク

SEAM: A Stochastic Benchmark for Multi-Document Tasks ( http://arxiv.org/abs/2406.16086v1 )

ライセンス: Link先を確認
Gili Lior, Avi Caciularu, Arie Cattan, Shahar Levy, Ori Shapira, Gabriel Stanovsky, (参考訳) 要約、マルチホップ質問応答、コア参照解決といった様々なタスクは、現実世界の文書のコレクションに自然に記述される。 このようなタスクは、文書にまたがる一貫性のある物語構造が欠如し、しばしば矛盾、欠落、情報の繰り返しを引き起こすという、ユニークな課題の集合を示す。 現実世界のアプリケーションと挑戦的な特性にもかかわらず、マルチドキュメントタスクにおける大規模言語モデル(LLM)の能力を特に測定するベンチマークは今のところ存在しない。 このギャップを埋めるために,従来の評価基準,入力出力フォーマット,評価プロトコルの設定など,多文書データセットの多種多様な集合に対するコングロマリットベンチマークであるSEAM(Stochastic Evaluation Approach for Multi-document task)を提案する。 特にSEAMは, 任意の因子(例えば文書の順序)の値をランダムにランダムにサンプリングし, 繰り返し評価することで, LLMの感度を若干の即時変動に対処する。 マルチドキュメントタスクは,70Bパラメータを持つ最先端モデルであっても,多文書タスクがLLMにとって重要な課題となることをSEAM上で評価した。 また,統計的手法により,静的なベンチマークでは観測できない統計的傾向が明らかになった。 マルチドキュメントタスクの一貫性と意味のある評価を通じて,SEAMが進展を加速することを期待している。

Various tasks, such as summarization, multi-hop question answering, or coreference resolution, are naturally phrased over collections of real-world documents. Such tasks present a unique set of challenges, revolving around the lack of coherent narrative structure across documents, which often leads to contradiction, omission, or repetition of information. Despite their real-world application and challenging properties, there is currently no benchmark which specifically measures the abilities of large language models (LLMs) on multi-document tasks. To bridge this gap, we present SEAM (a Stochastic Evaluation Approach for Multi-document tasks), a conglomerate benchmark over a diverse set of multi-document datasets, setting conventional evaluation criteria, input-output formats, and evaluation protocols. In particular, SEAM addresses the sensitivity of LLMs to minor prompt variations through repeated evaluations, where in each evaluation we sample uniformly at random the values of arbitrary factors (e.g., the order of documents). We evaluate different LLMs on SEAM finding that multi-document tasks pose a significant challenge for LLMs, even for state-of-the-art models with 70B parameters. In addition, we show that the stochastic approach uncovers underlying statistical trends which cannot be observed in a static benchmark. We hope that SEAM will spur progress via consistent and meaningful evaluation of multi-document tasks.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# Imperative Learning:ロボット自律性のための自己教師型ニューラルネットワーク学習フレームワーク

Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy ( http://arxiv.org/abs/2406.16087v1 )

ライセンス: Link先を確認
Chen Wang, Kaiyi Ji, Junyi Geng, Zhongqiang Ren, Taimeng Fu, Fan Yang, Yifan Guo, Haonan He, Xiangyu Chen, Zitong Zhan, Qiwei Du, Shaoshu Su, Bowen Li, Yuheng Qiu, Yi Du, Qihang Li, Yifan Yang, Xiao Lin, Zhipeng Zhao, (参考訳) 強化や模倣学習のようなデータ駆動の手法は、ロボットの自律性において顕著な成功を収めた。 しかし、データ中心の性質は、常に変化する環境への一般化を妨げている。 さらに、ロボットタスクのための大規模なデータセットの収集は非現実的で高価であることが多い。 これらの課題を克服するために,ロボット自律のための自己教師型ニューラルシンボリック(NeSy)計算フレームワーク,インペラティブラーニング(IL)を導入し,シンボル推論の一般化能力を活用する。 ILのフレームワークは、ニューラルモジュール、推論エンジン、メモリシステムという3つの主要コンポーネントで構成されている。 ILを特別な二段階最適化(BLO)として定式化し、3つのモジュール間の相互学習を可能にする。 これは、データ駆動アプローチに関連するラベル集約的な障害を克服し、論理的推論、物理原理、幾何学的解析などに関する象徴的推論を活用する。 本稿では,ILの最適化手法について議論し,経路計画,ルール誘導,最適制御,視覚計測,マルチロボットルーティングを含む5つのロボット自律作業において,その有効性を検証する。 様々な実験を通して、ILはロボットの自律能力を大幅に向上させ、様々な領域にわたるさらなる研究を促進することを期待する。

Data-driven methods such as reinforcement and imitation learning have achieved remarkable success in robot autonomy. However, their data-centric nature still hinders them from generalizing well to ever-changing environments. Moreover, collecting large datasets for robotic tasks is often impractical and expensive. To overcome these challenges, we introduce a new self-supervised neural-symbolic (NeSy) computational framework, imperative learning (IL), for robot autonomy, leveraging the generalization abilities of symbolic reasoning. The framework of IL consists of three primary components: a neural module, a reasoning engine, and a memory system. We formulate IL as a special bilevel optimization (BLO), which enables reciprocal learning over the three modules. This overcomes the label-intensive obstacles associated with data-driven approaches and takes advantage of symbolic reasoning concerning logical reasoning, physical principles, geometric analysis, etc. We discuss several optimization techniques for IL and verify their effectiveness in five distinct robot autonomy tasks including path planning, rule induction, optimal control, visual odometry, and multi-robot routing. Through various experiments, we show that IL can significantly enhance robot autonomy capabilities and we anticipate that it will catalyze further research across diverse domains.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# 基礎モデルを用いた自然言語駆動型アセンブリを目指して

Towards Natural Language-Driven Assembly Using Foundation Models ( http://arxiv.org/abs/2406.16093v1 )

ライセンス: Link先を確認
Omkar Joglekar, Tal Lancewicki, Shir Kozlovsky, Vladimir Tchuiev, Zohar Feldman, Dotan Di Castro, (参考訳) 大型言語モデル(LLM)と強力な視覚モデルにより、ロボット制御を可能にするビジョン・ランゲージ・アクションモデル(英語版)の分野での迅速な研究と開発が可能になった。 これらの手法の主な目的は、様々な実施形態を持つロボットを制御できる汎用的なポリシーを開発することである。 しかしながら、自動組立や分解などの産業用ロボットアプリケーションでは、挿入、より精度の高い要求、接触エンゲージメント、摩擦ハンドリング、洗練されたモータースキルといった複雑な要素を含むタスクがある。 これらのスキルをジェネラリストのポリシーを用いて実装することは、これらのポリシーがより正確な精度を高めるために、力やトルクの測定を含むさらなる感覚データを統合できるため、難しい。 本手法では,動的コンテキストスイッチングによる高精度タスクを特別に訓練した限られたスキル群に制御ポリシーを移行できるLLMに基づくグローバル制御ポリシーを提案する。 このフレームワークへのLLMの統合は、言語入力の解釈と処理だけでなく、多種多様な複雑なロボット操作のための制御機構の強化においても、その重要性を浮き彫りにしている。

Large Language Models (LLMs) and strong vision models have enabled rapid research and development in the field of Vision-Language-Action models that enable robotic control. The main objective of these methods is to develop a generalist policy that can control robots with various embodiments. However, in industrial robotic applications such as automated assembly and disassembly, some tasks, such as insertion, demand greater accuracy and involve intricate factors like contact engagement, friction handling, and refined motor skills. Implementing these skills using a generalist policy is challenging because these policies might integrate further sensory data, including force or torque measurements, for enhanced precision. In our method, we present a global control policy based on LLMs that can transfer the control policy to a finite set of skills that are specifically trained to perform high-precision tasks through dynamic context switching. The integration of LLMs into this framework underscores their significance in not only interpreting and processing language inputs but also in enriching the control mechanisms for diverse and intricate robotic operations.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# ステアリングの一般文脈からの制約測定不整合性

Constrained Measurement Incompatibility from Generalised Contextuality of Steered Preparation ( http://arxiv.org/abs/2406.16095v1 )

ライセンス: Link先を確認
Sumit Mukherjee, A. K. Pan, (参考訳) パーティ毎の2つの局所測定と測定毎の2つの結果を含む2部構成ベルのシナリオでは、一方の翼における測定の不整合性は必要であり、非局所性を明らかにするのに十分である。 しかし、そのような1対1の対応は、観測者の1人が2つ以上の測定を行うと失敗する。 このようなシナリオでは、測定の不整合性は必要だが、非局所性を明らかにするには不十分である。 本研究では、一般確率論(GPT)の形式論において、非局所性とは異なり、一方の翼におけるNの任意の測定の不整合性は、他方の翼における部分系に対する一般化された文脈性を明らかにするのに必要かつ十分であることを示す。 さらに、任意の GPT に対して、N 個の任意の可観測量の N-次整合に必要となる新しい形の不等式を定式化する。 さらに、提案された不等式に反する任意の理論は、違反の量を通じて定量化できる相補性の程度を持っていると論じる。 最後に、自然界の任意の実現可能な理論の測度不整合性に制限を与える一般化された文脈性であり、したがって量子論を超選択的に選択する。

In a bipartite Bell scenario involving two local measurements per party and two outcome per measurement, the measurement incompatibility in one wing is both necessary and sufficient to reveal the nonlocality. However, such a one-to-one correspondence fails when one of the observers performs more than two measurements. In such a scenario, the measurement incompatibility is necessary but not sufficient to reveal the nonlocality. In this work, within the formalism of general probabilistic theory (GPT), we demonstrate that unlike the nonlocality, the incompatibility of N arbitrary measurements in one wing is both necessary and sufficient for revealing the generalised contextuality for the sub-system in the other wing. Further, we formulate a novel form of inequality for any GPT that are necessary for N-wise compatibility of N arbitrary observables. Moreover, we argue that any theory that violates the proposed inequality possess a degree of incompatibility that can be quantified through the amount of violation. Finally, we claim that it is the generalised contextuality that provides a restriction to the allowed degree of measurement incompatibility of any viable theory of nature and thereby super-select the the quantum theory.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# 一対のナノ構造を用いた単一光子の高効率結合

Highly efficient coupling of single photons using a pair of nanostructures ( http://arxiv.org/abs/2406.16097v1 )

ライセンス: Link先を確認
Resmi M, Elaganuru Bashaiah, Shashank Suman, Ramachandrarao Yalla, (参考訳) 一対のナノ構造を用いた単一双極子源(SDS)からの単一光子の高効率結合を数値的に報告する。 シリカナノチップ(SNT)の誘導モードへの最大結合効率({\eta}p)は、ダイヤモンドナノチップ(DNT)とダイヤモンドナノワイヤ(DNW)の近傍に半径0.43 {\mu}mのSNTが配置されているときに生じる。 さらに, DNT/DNWの半径の変化は, {\eta}p-値に大きく影響しないことがわかった。 さらに,SDSからDNTの誘導モードへの単一光子の結合効率 ({\eta}) について検討した。 半径 0.4 {\mu}m の DNT の面に放射指向 SDS が配置されているとき、最大 eta} の値は 87% となる。 DNTを他のDNTとDNWの近傍に配置すると, eta}p値が向上することが判明した。 現在のプラットフォームは量子ネットワークに新たな可能性を開くかもしれない。

We numerically report highly efficient coupling of single photons from a single dipole source (SDS) using a pair of nanostructures. The maximum coupling efficiency ({\eta}p) of 56%, into guided modes of a silica nanotip (SNT), is found when the SNT of radius 0.43 {\mu}m is placed in the vicinity of a diamond nanotip (DNT) and a diamond nanowire (DNW). Additionally, we found that varying the radius of the DNT/DNW does not significantly affect the {\eta}p-value. Furthermore, we investigate the coupling efficiency ({\eta}) of single photons from the SDS into guided modes of the DNT. The maximum {\eta}-value of 87% is found when the radially oriented SDS is positioned on the facet of the DNT of radius 0.4 {\mu}m. We found that the {\eta}p-value is enhanced when the DNT is placed in the vicinity of another DNT and the DNW. The present platform may open new possibilities in quantum networks.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# $\mathcal{PT}=対称非エルミートキャビティマグノメカニクス

$\mathcal{PT}$ Symmetric Non-Hermitian Cavity Magnomechanics ( http://arxiv.org/abs/2406.16098v1 )

ライセンス: Link先を確認
Yu Chengyong, Kashif Ammar Yasir, (参考訳) 我々は、外磁場によって駆動される強磁性YIG球からなるハイブリッド非エルミートキャビティマグ力学のPT対称挙動を設計し、探索する。 非Hermicityは、YIGと直接対話する走行場を用いて設計される。 外磁場はマグノンの集合的な機械的モードを励起し、後にキャビティモードを励起し、キャビティマグノンと光子を結合させる。 系のマグノメカニカル相互作用もまたフォノンを励起し、それらをシステムに結合する。 固有値スペクトルを計算することにより、走行場の特定の入射角におけるマグノン光子カップリングの増加に伴う3次例外点の発生を実証する。 従来検討されていた非エルミタン系とは異なり,固有値スペクトルにおける固有値領域の2次元及び1次元保護されたPT対称性領域を,走行場強度とマグノン光子カップリングの比を演算することにより,利得と損失の調整を行うことができる。 興味深いことに、PT対称性は例外点の軸にしか存在しない。 さらに、PT対称性は、走行場の入射の2つの角度でしか支配できないことを示す。 しかし、その後、安定性解析を行うことで、システムは$\pi/2$でのみ安定であり、他のすべての角度において、システムは非PT対称であるか不安定であるかを示す。 さらに,本システムにおけるパラメトリック安定条件を規定し,安定度パラメータを定義することにより,安定度と不安定なパラメトリック状態を示す。 我々の発見は、新しいタイプのPT対称システムについて議論するだけでなく、空洞磁気力学を量子情報やプロセスの主題に持ち込む基盤としても機能する可能性がある。

We design and explore PT-symmetric behavior of a hybrid non-Hermitian cavity magnomechanics consisting of a ferromagnetic YIG sphere driven by external magnetic field. Non-Hermicity is engineered by using a traveling field directly interacting with YIG. The external magnetic field excites collective mechanical modes of magnons, which later excites cavity mode leading to a coupling between cavity magnons and photons. The magnomechanical interaction of the system also excites phonon and couple them to the system. By computing eigenvalue spectrum, we demonstrate the occurrence of three-order exceptional point emerge with the increase of magnon-photon coupling at a specific incidence angle of traveling field. We illustrate the unique bi-broken and uni-protected PT-symmetry regions in eigenvalue spectrum unlike previously investigated non-Hermitian system, which can be tuned with gain and loss configuration by manipulating ratio between traveling field strength and magnon-photon coupling. Interestingly, protected PT-symmetry only exists on the axis of exceptional point. We further show that the PT-symmetry can only be govern at two angle of incident of traveling field. However, later, by performing stability analysis, we illustrate that the system is only stable at $\pi/2$ and, on all other angles, either the system is non-PT-symmetric or it is unstable. Furthermore, we govern the parametric stability conditions for the system and, by defining stablity parameter, illustrate the stable and unstable parametric regimes. Our finding not only discusses a new type of PT-symmetric system, but also could act as foundation to bring cavity magnomechanics to the subject of quantum information and process.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# ニュースレコメンダシステムにおけるアンサンブル手法の評価

Evaluating Ensemble Methods for News Recommender Systems ( http://arxiv.org/abs/2406.16106v1 )

ライセンス: Link先を確認
Alexander Gray, Noorhan Abbas, (参考訳) ニュースレコメンデーションは、特にニュース消費のデジタル化が進む中で、個人が記事にアクセスできるようにするために不可欠である。 その結果,ニュースレコメンダシステム (News Recommender Systems, NRS) に関する広範な研究が進められている。 この持続的な学術的な調査にもかかわらず、これらのアルゴリズムを融合して優れた結果をもたらすことによって得られるシナジーの可能性について、注目すべき研究ギャップが存在する。 本稿は,Microsoft News データセット(MIND)において,さまざまな最先端アルゴリズムを組み合わせて優れた結果を得るために,アンサンブル手法をどのように利用できるかを示すことで,このギャップに対処する試みである。 さらに,アンサンブル手法が結果の改善に失敗するシナリオを特定し,その原因を説明する。 この結果から,NRSアルゴリズムの組み合わせは,コンテンツベースBERTアプローチと協調フィルタリングLSTURアルゴリズムからなるアンサンブルに対して最大5倍の精度で,基礎学習者が十分に多様であることを示す。 さらに, 本研究の結果は, 未分化な手法を組み合わさった場合に, 改善が得られないことを実証した。 これらの知見は, NRSにおけるアンサンブル手法のアプローチの成功に対する洞察を与え, 適切なアンサンブル解によるより良いシステム開発を提唱する。

News recommendation is crucial for facilitating individuals' access to articles, particularly amid the increasingly digital landscape of news consumption. Consequently, extensive research is dedicated to News Recommender Systems (NRS) with increasingly sophisticated algorithms. Despite this sustained scholarly inquiry, there exists a notable research gap regarding the potential synergy achievable by amalgamating these algorithms to yield superior outcomes. This paper endeavours to address this gap by demonstrating how ensemble methods can be used to combine many diverse state-of-the-art algorithms to achieve superior results on the Microsoft News dataset (MIND). Additionally, we identify scenarios where ensemble methods fail to improve results and offer explanations for this occurrence. Our findings demonstrate that a combination of NRS algorithms can outperform individual algorithms, provided that the base learners are sufficiently diverse, with improvements of up to 5\% observed for an ensemble consisting of a content-based BERT approach and the collaborative filtering LSTUR algorithm. Additionally, our results demonstrate the absence of any improvement when combining insufficiently distinct methods. These findings provide insight into successful approaches of ensemble methods in NRS and advocates for the development of better systems through appropriate ensemble solutions.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# エンドツーエンド音声認識のためのデコーダのみのアーキテクチャ

Decoder-only Architecture for Streaming End-to-end Speech Recognition ( http://arxiv.org/abs/2406.16107v1 )

ライセンス: Link先を確認
Emiru Tsunoo, Hayato Futami, Yosuke Kashiwagi, Siddhant Arora, Shinji Watanabe, (参考訳) デコーダのみの言語モデル(LM)は、自動音声認識(ASR)を含む音声処理タスクにうまく採用されている。 LMは十分な表現力を有し、効率よく機能する。 この効率性は、ASRのストリーミングアプリケーションに適した特性である。 本研究では,ブロックワイドストリーミングASRにおけるデコーダのみのアーキテクチャを提案する。 提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。 デコーダは、各ブロックで出力トークンを即座に推定する。 そこで本研究では,ランダム長プレフィックスプロンプトを用いた新しいトレーニング手法を提案し,ブロックワイズ処理によって引き起こされる停止したプロンプトに頑健なモデルを提案する。 実験により,提案したデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減できることがわかった。

Decoder-only language models (LMs) have been successfully adopted for speech-processing tasks including automatic speech recognition (ASR). The LMs have ample expressiveness and perform efficiently. This efficiency is a suitable characteristic for streaming applications of ASR. In this work, we propose to use a decoder-only architecture for blockwise streaming ASR. In our approach, speech features are compressed using CTC output and context embedding using blockwise speech subnetwork, and are sequentially provided as prompts to the decoder. The decoder estimates the output tokens promptly at each block. To this end, we also propose a novel training scheme using random-length prefix prompts to make the model robust to the truncated prompts caused by blockwise processing. An experimental comparison shows that our proposed decoder-only streaming ASR achieves 8% relative word error rate reduction in the LibriSpeech test-other set while being twice as fast as the baseline model.
翻訳日:2024-06-25 19:04:12 公開日:2024-06-23
# X線CTPA:2次元X線コンディショニングから3次元CTPAスキャンを生成する

X-ray2CTPA: Generating 3D CTPA scans from 2D X-ray conditioning ( http://arxiv.org/abs/2406.16109v1 )

ライセンス: Link先を確認
Noa Cahan, Eyal Klang, Galit Aviram, Yiftach Barash, Eli Konen, Raja Giryes, Hayit Greenspan, (参考訳) 胸部X線または胸部X線撮影(CXR)は、一般的にCTスキャンと比較して限られた画像撮影が可能であり、特にCTPA(CT lung Angiography)のような造影スキャンにより、より詳細に正確な3次元データを提供する。 しかし、CTスキャンはコストが高く、放射線被曝が大きく、CXRよりもアクセスしにくい。 本研究では,2次元低コントラスト分解能X線入力から3次元高コントラスト・空間分解能CTPAスキャンへのクロスモーダル変換について検討する。 生成AIの最近の進歩により、我々はこのタスクに新しい拡散に基づくアプローチを導入する。 測定値と放射線技師からの定性的フィードバックの両方を用いてモデル性能を評価し, 生成した画像の診断的妥当性を保証した。 さらに, 合成した3D画像を分類フレームワークに採用し, 最初のCXR入力を用いて, PE分類タスクにおいて改良されたAUCを示す。 提案手法は一般化可能であり,医療画像に付加的なモダリティ変換を行うことができる。 よりアクセシブルで費用対効果の高い高度な診断ツールの道を開くかもしれない。 プロジェクトのコードは、https://github.com/NoaCahan/X-ray2CTPA である。

Chest X-rays or chest radiography (CXR), commonly used for medical diagnostics, typically enables limited imaging compared to computed tomography (CT) scans, which offer more detailed and accurate three-dimensional data, particularly contrast-enhanced scans like CT Pulmonary Angiography (CTPA). However, CT scans entail higher costs, greater radiation exposure, and are less accessible than CXRs. In this work we explore cross-modal translation from a 2D low contrast-resolution X-ray input to a 3D high contrast and spatial-resolution CTPA scan. Driven by recent advances in generative AI, we introduce a novel diffusion-based approach to this task. We evaluate the models performance using both quantitative metrics and qualitative feedback from radiologists, ensuring diagnostic relevance of the generated images. Furthermore, we employ the synthesized 3D images in a classification framework and show improved AUC in a PE categorization task, using the initial CXR input. The proposed method is generalizable and capable of performing additional cross-modality translations in medical imaging. It may pave the way for more accessible and cost-effective advanced diagnostic tools. The code for this project is available: https://github.com/NoaCahan/X-ray2CTPA .
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# ビデオテキスト検索のためのマルチスケール時間差変換器

Multi-Scale Temporal Difference Transformer for Video-Text Retrieval ( http://arxiv.org/abs/2406.16111v1 )

ライセンス: Link先を確認
Ni Wang, Dongliang Liao, Xing Xu, (参考訳) 現在、ビデオテキスト検索の分野では、多くのトランスフォーマーベースの方法が存在する。 多くの場合、フレームの特徴を積み重ね、トークンとしてフレームを再グレードし、ビデオの時間的モデリングにトランスフォーマーを使用する。 しかし、彼らは局所的時間情報をモデル化するトランスフォーマーの劣る能力を無視している。 そこで本研究では,MSTDT(Multi-Scale Temporal Difference Transformer)と呼ばれる変圧器変圧器を提案する。 MSTDTは主に、局所的な時間情報を取得する能力に制限のある従来のトランスフォーマーの欠陥に対処する。 また,より詳細なダイナミックな情報をモデル化するために,映像のダイナミックな動きを実際に反映するフレーム間の差分特徴を利用する。 フレーム間差分特徴を抽出し、マルチスケールの時間変換器による差分特徴とフレーム特徴を統合する。 提案手法は,短時間の時間差分変換器と長期の時間差分変換器から構成される。 前者は局所時間情報をモデル化することに焦点を当て、後者はグローバル時間情報をモデル化することを目的としている。 最終的に、類似したサンプルの距離を狭めるために、新しい損失を提案する。 大規模な実験は、CLIPのようなMSTDTによるバックボーンが、新しい最先端の結果を得たことを示している。

Currently, in the field of video-text retrieval, there are many transformer-based methods. Most of them usually stack frame features and regrade frames as tokens, then use transformers for video temporal modeling. However, they commonly neglect the inferior ability of the transformer modeling local temporal information. To tackle this problem, we propose a transformer variant named Multi-Scale Temporal Difference Transformer (MSTDT). MSTDT mainly addresses the defects of the traditional transformer which has limited ability to capture local temporal information. Besides, in order to better model the detailed dynamic information, we make use of the difference feature between frames, which practically reflects the dynamic movement of a video. We extract the inter-frame difference feature and integrate the difference and frame feature by the multi-scale temporal transformer. In general, our proposed MSTDT consists of a short-term multi-scale temporal difference transformer and a long-term temporal transformer. The former focuses on modeling local temporal information, the latter aims at modeling global temporal information. At last, we propose a new loss to narrow the distance of similar samples. Extensive experiments show that backbone, such as CLIP, with MSTDT has attained a new state-of-the-art result.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# 強度パレート進化アルゴリズム(SPEA2)の初走行時間解析

A First Running Time Analysis of the Strength Pareto Evolutionary Algorithm 2 (SPEA2) ( http://arxiv.org/abs/2406.16116v1 )

ライセンス: Link先を確認
Shengjie Ren, Chao Bian, Miqing Li, Chao Qian, (参考訳) 進化的アルゴリズム(EA)は、多目的最適化問題に対処する主要なアプローチとして登場した。 しかし、多目的EA(MOEA)の理論的基盤、特に実行時間分析のような基本的な側面は、いまだほとんど探索されていない。 既存の理論研究は主に基本的なMOEAに焦点を当てており、実際的なMOEAにはほとんど注目されていない。 本稿では,Pareto進化アルゴリズム2(SPEA2)の動作時間解析を初めて行う。 具体的には、一般的に使用される3つの多目的問題(例えば$m$OneMinMax, $m$LeadingOnesTrailingZeroes, $m$-OneJumpZeroJump)を解決するためのSPEA2の実行時間は、$O(\mu n\cdot \min\{m\log n, n\})$, $O(\mu n^2)$, $O(\mu n^k \cdot \min\{mn, 3^{m/2}\})$である。 ここで$m$は目的数を表し、人口規模$\mu$は少なくとも$(2n/m+1)^{m/2}$、$(2n/m+1)^{m-1}$、$(2n/m-2k+3)^{m/2}$でなければならない。 これらの証明は、これらの問題に関して他のMOEAの期待される実行時間を分析するのにも適用できる一般的な定理によって達成され、MOEAの将来の理論的解析に役立つ。

Evolutionary algorithms (EAs) have emerged as a predominant approach for addressing multi-objective optimization problems. However, the theoretical foundation of multi-objective EAs (MOEAs), particularly the fundamental aspects like running time analysis, remains largely underexplored. Existing theoretical studies mainly focus on basic MOEAs, with little attention given to practical MOEAs. In this paper, we present a running time analysis of strength Pareto evolutionary algorithm 2 (SPEA2) for the first time. Specifically, we prove that the expected running time of SPEA2 for solving three commonly used multi-objective problems, i.e., $m$OneMinMax, $m$LeadingOnesTrailingZeroes, and $m$-OneJumpZeroJump, is $O(\mu n\cdot \min\{m\log n, n\})$, $O(\mu n^2)$, and $O(\mu n^k \cdot \min\{mn, 3^{m/2}\})$, respectively. Here $m$ denotes the number of objectives, and the population size $\mu$ is required to be at least $(2n/m+1)^{m/2}$, $(2n/m+1)^{m-1}$ and $(2n/m-2k+3)^{m/2}$, respectively. The proofs are accomplished through general theorems which are also applicable for analyzing the expected running time of other MOEAs on these problems, and thus can be helpful for future theoretical analysis of MOEAs.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# 言葉と行動を超えて:デジタル時代のマルチモーダル分析とコラボレーションを探る

Beyond words and actions: Exploring Multimodal Analytics and Collaboration in the Digital Age ( http://arxiv.org/abs/2406.16118v1 )

ライセンス: Link先を確認
Diego Miranda, Rene Noel, Jaime Godoy, Carlos Escobedo, Cristian Cechinel, Roberto Munoz, (参考訳) この記事では,アジャイルソフトウェア開発におけるコミュニケーション評価におけるマルチモーダル分析の利用,特にポーカー計画を通じての協調行動の理解について論じる。 マルチモーダル分析(Multimodal Analytics)は、効率的なコミュニケーション、協調、調整を必要とするソフトウェア工学における効果的なコラボレーションに不可欠な、言語、パラバーバル、非言語コミュニケーションを調査する。 本研究は,高度な音声視覚データ分析技術を用いて,ポーカー計画がチームメンバーの発話時間と注意にどのように影響するかに焦点を当てた。 その結果、計画ポーカーはトータルトーキーやアテンションタイムに大きく変化しないが、より公平な発話時間分布をもたらし、チーム参加の充実のメリットを浮き彫りにしている。 これらの知見は,ソフトウェアチームのコラボレーション改善におけるポーカーの役割の計画と,チームコミュニケーションの新たな側面を探求するマルチモーダル分析の可能性を強調した。 この研究は、ソフトウェア開発とチーム教育におけるコーディネーション技術の影響をよりよく理解することに貢献し、代替コーディネーション技術によるチームコラボレーションとパフォーマンスの最適化に関する将来の調査と、さまざまなコラボレーティブな設定におけるマルチモーダル分析を提案している。

This article explores Multimodal Analytics' use in assessing communication within agile software development, particularly through planning poker, to understand collaborative behavior. Multimodal Analytics examines verbal, paraverbal, and non-verbal communication, crucial for effective collaboration in software engineering, which demands efficient communication, cooperation, and coordination. The study focuses on how planning poker influences speaking time and attention among team members by utilizing advanced audiovisual data analysis technologies. Results indicate that while planning poker doesn't significantly change total speaking or attention time, it leads to a more equitable speaking time distribution, highlighting its benefit in enhancing equitable team participation. These findings emphasize planning poker's role in improving software team collaboration and suggest multimodal analytics' potential to explore new aspects of team communication. This research contributes to better understanding coordination techniques' impact in software development and team education, proposing future investigations into optimizing team collaboration and performance through alternative coordination techniques and multimodal analysis across different collaborative settings.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# 中間バイアス損失を考慮した文脈付きエンドツーエンド音声認識

Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss ( http://arxiv.org/abs/2406.16120v1 )

ライセンス: Link先を確認
Muhammad Shakeel, Yui Sudo, Yifan Peng, Shinji Watanabe, (参考訳) 文脈的エンドツーエンドの自動音声認識は, 最終損失目標に基づく文脈的フレーズの暗黙的な学習に焦点を当てた, 活発な研究分野である。 しかし、これらのアプローチは中間層に符号化された有用な文脈知識を無視している。 我々は、エンコーダ中間層における補助的なタスクとして明示的な偏見損失を用いることで、テキストトークンやオーディオフレームを所望の目的と整合させることができると仮定する。 提案する中間バイアス損失は,ネットワークにより規則化と文脈化をもたらす。 本手法は,従来の文脈偏差ベースラインよりも優れており,バイアス付き単語誤り率(B-WER)が22.5%,非文脈偏差ベースラインが最大44%,偏差リストが100。 さらに、RNN-transducer-driven joint decodingを用いることで、未バイアスの単語誤り率(U-WER)をさらに低減し、より堅牢なネットワークを実現する。

Contextualized end-to-end automatic speech recognition has been an active research area, with recent efforts focusing on the implicit learning of contextual phrases based on the final loss objective. However, these approaches ignore the useful contextual knowledge encoded in the intermediate layers. We hypothesize that employing explicit biasing loss as an auxiliary task in the encoder intermediate layers may better align text tokens or audio frames with the desired objectives. Our proposed intermediate biasing loss brings more regularization and contextualization to the network. Our method outperforms a conventional contextual biasing baseline on the LibriSpeech corpus, achieving a relative improvement of 22.5% in biased word error rate (B-WER) and up to 44% compared to the non-contextual baseline with a biasing list size of 100. Moreover, employing RNN-transducer-driven joint decoding further reduces the unbiased word error rate (U-WER), resulting in a more robust network.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# 拡散スペクトル表現による強化学習

Diffusion Spectral Representation for Reinforcement Learning ( http://arxiv.org/abs/2406.16121v1 )

ライセンス: Link先を確認
Dmitry Shribak, Chen-Xiao Gao, Yitong Li, Chenjun Xiao, Bo Dai, (参考訳) 拡散に基づくモデルは、複素分布のモデル化における表現性から、強化学習(RL)において顕著な経験的成功を達成している。 既存の手法が有望であるにもかかわらず、より広い現実世界のアプリケーションのために既存の手法を拡張するという重要な課題は、推論時間における計算コストにある。 この問題を回避するために,表現学習の観点からRLの拡散モデルの柔軟性を活用することを提案する。 特に,拡散モデルとエネルギーモデルとの接続を利用して,マルコフ決定過程 (MDP) と部分的に観測可能なマルコフ決定過程 (PMMDP) における値関数の十分な表現を抽出できるコヒーレントなアルゴリズムフレームワークである拡散スペクトル表現 (Diff-SR) を開発する。 さらに、拡散モデルからのサンプリングの困難さと推論コストを明示的に回避しつつ、Diff-SRが効率的なポリシー最適化と実用的なアルゴリズムをいかに促進するかを示す。 最後に、Diff-SRの利点を検証するための総合的な実証的研究を行い、完全かつ部分的に観測可能な設定で、様々なベンチマークで堅牢で有利なパフォーマンスを提供する。

Diffusion-based models have achieved notable empirical successes in reinforcement learning (RL) due to their expressiveness in modeling complex distributions. Despite existing methods being promising, the key challenge of extending existing methods for broader real-world applications lies in the computational cost at inference time, i.e., sampling from a diffusion model is considerably slow as it often requires tens to hundreds of iterations to generate even one sample. To circumvent this issue, we propose to leverage the flexibility of diffusion models for RL from a representation learning perspective. In particular, by exploiting the connection between diffusion model and energy-based model, we develop Diffusion Spectral Representation (Diff-SR), a coherent algorithm framework that enables extracting sufficient representations for value functions in Markov decision processes (MDP) and partially observable Markov decision processes (POMDP). We further demonstrate how Diff-SR facilitates efficient policy optimization and practical algorithms while explicitly bypassing the difficulty and inference cost of sampling from the diffusion model. Finally, we provide comprehensive empirical studies to verify the benefits of Diff-SR in delivering robust and advantageous performance across various benchmarks with both fully and partially observable settings.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# CBPF:複合的バックドア攻撃に基づく汚染データのフィルタリング

CBPF: Filtering Poisoned Data Based on Composite Backdoor Attack ( http://arxiv.org/abs/2406.16125v1 )

ライセンス: Link先を確認
Hanfeng Xia, Haibo Hong, Ruili Wang, (参考訳) バックドア攻撃には、トレーニングデータセットにトリガーを含む限られた量の有毒な例が注入される。 推論段階では、バックドア攻撃は通常の例に対して高いレベルの精度を維持することができるが、トリガーを含むインスタンスが提示されると、モデルが攻撃者が指定したターゲットクラスとしてそれらを誤って予測する可能性がある。 本稿では, 有害試料の濾過によるバックドア攻撃のリスク軽減戦略について検討し, バックドア攻撃の主な特徴として, 複数のバックドアが1つのモデル内に同時に存在すること, サンプル内の2つのトリガを新しいターゲットラベルに変更しても, トリガの本来の機能を損なわない複合バックドア攻撃(CBA)による発見が, 両トリガが同時に存在する場合に, 新たなターゲットクラスとしてのデータ予測を可能にすること, 従来, 複合バックドア・ポゾン・フィルタリング(CBPF)として知られる新しい3段階データフィルタリング手法が提案されている。 まず、汚染されたサンプルとクリーンなサンプルの出力の識別された区別を利用して、データのサブセットを分割して、汚染されたサンプルとクリーンなインスタンスの両方を含める。 その後、良性トリガが組み込まれ、ラベルが調整され、新しいターゲットおよび良性ターゲットクラスが作成される。 実験の結果,CBPFはCIFAR10とImageNet-12に対する6つの高度な攻撃によって生成された悪意のあるデータをフィルタリングすることに成功した。 平均して、CBPFはCIFAR10に対する6回の攻撃で99.91%のフィルタ成功率を達成した。 さらに、汚染されていない試料で訓練されたモデルでは、高い精度が持続する。

Backdoor attacks involve the injection of a limited quantity of poisoned examples containing triggers into the training dataset. During the inference stage, backdoor attacks can uphold a high level of accuracy for normal examples, yet when presented with trigger-containing instances, the model may erroneously predict them as the targeted class designated by the attacker. This paper explores strategies for mitigating the risks associated with backdoor attacks by examining the filtration of poisoned samples.We primarily leverage two key characteristics of backdoor attacks: the ability for multiple backdoors to exist simultaneously within a single model, and the discovery through Composite Backdoor Attack (CBA) that altering two triggers in a sample to new target labels does not compromise the original functionality of the triggers, yet enables the prediction of the data as a new target class when both triggers are present simultaneously.Therefore, a novel three-stage poisoning data filtering approach, known as Composite Backdoor Poison Filtering (CBPF), is proposed as an effective solution. Firstly, utilizing the identified distinctions in output between poisoned and clean samples, a subset of data is partitioned to include both poisoned and clean instances. Subsequently, benign triggers are incorporated and labels are adjusted to create new target and benign target classes, thereby prompting the poisoned and clean data to be classified as distinct entities during the inference stage. The experimental results indicate that CBPF is successful in filtering out malicious data produced by six advanced attacks on CIFAR10 and ImageNet-12. On average, CBPF attains a notable filtering success rate of 99.91% for the six attacks on CIFAR10. Additionally, the model trained on the uncontaminated samples exhibits sustained high accuracy levels.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# UDHF2-Net:リモートセンシング画像の高精度解釈のための不確かさ拡散モデルに基づく高周波トランスフォーマネットワーク

UDHF2-Net: An Uncertainty-diffusion-model-based High-Frequency TransFormer Network for High-accuracy Interpretation of Remotely Sensed Imagery ( http://arxiv.org/abs/2406.16129v1 )

ライセンス: Link先を確認
Pengfei Zhang, Chang Li, Yongjun Zhang, Rongjun Qin, (参考訳) 意味的セグメンテーションや変化検出などのタスクを含むリモートセンシング画像の高精度解釈(RSIHI)は,(1)静止・非定常周波数の相補性問題,(2)エンコーダステップのダウンサンプリングと固有エッジノイズによるエッジ不確実性問題,(3)変化検出における画像登録誤差による誤検出問題,の3つの問題に直面している。 以上の問題を解決するために,不確実拡散モデルに基づく高周波数トランスフォーマーネットワーク (UDHF2-Net) が提案され,その優位性は次の通りである。(1) 空間定常非定常高周波数接続パラダイム (SHCP) は,空間定常および非定常周波数特性の相互作用を高めて高周波数エッジ抽出結果を得る。 HRFormerにインスパイアされたSHCPは、エンコーダ-デコーダプロセス全体を通して並列な高低周波ストリームを流れる高周波ストリームを保ち、ダウンサンプリング操作によりエッジ損失を低減する。 MUDMは、複数のジオ知識に基づくノイズを徐々に除去することで、不確定領域をさらに最適化し、エッジ抽出結果を改善することができる。 半擬似シマセアーキテクチャを用いて、上記相補的な周波数特徴を抽出し、登録差分を適応的に低減し、MUDMにより、前記エッジノイズ以外の登録誤差を徐々に低減し、不確定領域を復元する。 UDHF2-Netの優位性を示すための総合実験を行った。 特にアブレーション実験はUDHF2-Netの有効性を示す。

Remotely sensed image high-accuracy interpretation (RSIHI), including tasks such as semantic segmentation and change detection, faces the three major problems: (1) complementarity problem of spatially stationary-and-non-stationary frequency; (2) edge uncertainty problem caused by down-sampling in the encoder step and intrinsic edge noises; and (3) false detection problem caused by imagery registration error in change detection. To solve the aforementioned problems, an uncertainty-diffusion-model-based high-Frequency TransFormer network (UDHF2-Net) is the proposed for RSIHI, the superiority of which is as following: (1) a spatially-stationary-and-non-stationary high-frequency connection paradigm (SHCP) is proposed to enhance the interaction of spatially stationary and non-stationary frequency features to yield high-fidelity edge extraction result. Inspired by HRFormer, SHCP remains the high-frequency stream through the whole encoder-decoder process with parallel high-to-low frequency streams and reduces the edge loss by a downsampling operation; (2) a mask-and-geo-knowledge-based uncertainty diffusion module (MUDM) is proposed to improve the robustness and edge noise resistance. MUDM could further optimize the uncertain region to improve edge extraction result by gradually removing the multiple geo-knowledge-based noises; (3) a semi-pseudo-Siamese UDHF2-Net for change detection task is proposed to reduce the pseudo change by registration error. It adopts semi-pseudo-Siamese architecture to extract above complemental frequency features for adaptively reducing registration differencing, and MUDM to recover the uncertain region by gradually reducing the registration error besides above edge noises. Comprehensive experiments were performed to demonstrate the superiority of UDHF2-Net. Especially ablation experiments indicate the effectiveness of UDHF2-Net.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# 多言語大言語モデルにおける言語横断能力と知識バリア

Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models ( http://arxiv.org/abs/2406.16135v1 )

ライセンス: Link先を確認
Lynn Chua, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Amer Sinha, Chulin Xie, Chiyuan Zhang, (参考訳) 大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。 しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。 これらのモデルは,機械翻訳や組込み空間解析において有望な面レベルのクロスリンガル能力を示す一方で,汎用(MMLUベンチマーク)とドメイン固有(ハリー・ポッター・クイズ)の両文脈において,クロスリンガルな知識伝達に苦慮している。 単純な推論時間緩和法は限定的な改善しか提供しない。 一方,混合言語データに対するLLMの微調整は,WikiTextのようなドメイン外データセットを用いた場合であっても,これらのギャップを効果的に軽減する。 以上の結果から,LLMの完全な言語間ポテンシャルを解放するための明示的な最適化の必要性が示唆された。 私たちのコードはhttps://github.com/google-research/crosslingual-knowledge-barriersで公開されています。

Large language models (LLMs) are typically multilingual due to pretraining on diverse multilingual corpora. But can these models relate corresponding concepts across languages, effectively being crosslingual? This study evaluates six state-of-the-art LLMs on inherently crosslingual tasks. We observe that while these models show promising surface-level crosslingual abilities on machine translation and embedding space analyses, they struggle with deeper crosslingual knowledge transfer, revealing a crosslingual knowledge barrier in both general (MMLU benchmark) and domain-specific (Harry Potter quiz) contexts. We observe that simple inference-time mitigation methods offer only limited improvement. On the other hand, we propose fine-tuning of LLMs on mixed-language data, which effectively reduces these gaps, even when using out-of-domain datasets like WikiText. Our findings suggest the need for explicit optimization to unlock the full crosslingual potential of LLMs. Our code is publicly available at https://github.com/google-research/crosslingual-knowledge-barriers.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# MLPHand:MLPモデリングによるリアルタイムマルチビュー3Dハンドメッシュ再構築

MLPHand: Real Time Multi-View 3D Hand Mesh Reconstruction via MLP Modeling ( http://arxiv.org/abs/2406.16137v1 )

ライセンス: Link先を確認
Jian Yang, Jiakun Li, Guoming Li, Zhen Shen, Huai-Yu Wu, Zhaoxin Fan, Heng Huang, (参考訳) マルチビューハンドメッシュ再構築は、バーチャルリアリティーおよび人間とコンピュータのインタラクションにおけるアプリケーションにとって重要なタスクであるが、依然として非常に難しい課題である。 既存のマルチビューハンド再構成手法は驚くほどの精度を達成するが、通常はリアルタイムの推論を妨げる計算負荷が伴う。 そこで我々はMLPHandを提案する。MLPHandはリアルタイム・マルチビュー・シングルハンド再構成のための新しい手法である。 MLP Handは,(1)手足骨から手足のメッシュを効率よく回収する軽量MLPベースのSkeleton2Meshモデル,(2)スケルトン2Meshモデルを強化する多視点形状特徴融合予測モジュールの2つの主要モジュールから構成される。 3つの広く使用されているデータセットの実験により、MLPHandは既存の最先端ベースラインに匹敵する再構築精度を達成しつつ、計算複雑性を90%削減できることが示された。

Multi-view hand mesh reconstruction is a critical task for applications in virtual reality and human-computer interaction, but it remains a formidable challenge. Although existing multi-view hand reconstruction methods achieve remarkable accuracy, they typically come with an intensive computational burden that hinders real-time inference. To this end, we propose MLPHand, a novel method designed for real-time multi-view single hand reconstruction. MLP Hand consists of two primary modules: (1) a lightweight MLP-based Skeleton2Mesh model that efficiently recovers hand meshes from hand skeletons, and (2) a multi-view geometry feature fusion prediction module that enhances the Skeleton2Mesh model with detailed geometric information from multiple views. Experiments on three widely used datasets demonstrate that MLPHand can reduce computational complexity by 90% while achieving comparable reconstruction accuracy to existing state-of-the-art baselines.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# 認知症者の医療と支援 : 技術・研究の現状と課題

Pervasive Technology-Enabled Care and Support for People with Dementia: The State of Art and Research Issues ( http://arxiv.org/abs/2406.16138v1 )

ライセンス: Link先を確認
Sayan Kumar Ray, Geri Harris, Akbar Hossain, NZ Jhanjhi, (参考訳) 認知症は世界中の人々が一緒に暮らしている精神疾患である。 誰も免疫がありません。 開始を予測できない。 認知症の本当の話は、認知症の症状が否定されたことや、病気に付随する社会的便秘が原因で、世界中で不明である。 近年、精神疾患としての認知症は、科学コミュニティや医療提供者から多くの注目を集めている。 本稿では,アルツハイマー性認知症に苦しむ人々の介護と支援を可能にする普及技術の現状について紹介する。 認知症に対する広汎な技術支援の3つの領域を,ケア,ウェルネス,アクティブな生活に焦点をあてた。 ここでは既存の研究について批判的な分析を行い、認知症患者、特にコミュニティで1人暮らしている人々に対して、広く普及したコンピューティング、人工知能(AI)、モノのインターネット(IoT)が、すでにどのようにサポートし、快適さを提供しているかを探求する。 この研究は、アクセシビリティの欠如、可用性、テクノロジーの使いやすさと手頃な価格、限られた包括的ケアアプローチ、教育と情報の欠如などの理由から、テクノロジー対応サポートの重要な課題と限界について論じている。 今後の研究の方向性は、アルツハイマー性認知症の健康とメンタルヘルスへの影響をより良く支援することに焦点を当てている。

Dementia is a mental illness that people live with all across the world. No one is immune. Nothing can predict its onset. The true story of dementia remains unknown globally, partly due to the denial of dementia symptoms and partly due to the social stigma attached to the disease. In recent years, dementia as a mental illness has received a lot of attention from the scientific community and healthcare providers. This paper presents a state of art survey of pervasive technology enabled care and support for people suffering from Alzheimers dementia. We identify three areas of pervasive technology support for dementia patients, focusing on care, wellness and active living. A critical analysis of existing research is presented here, exploring how pervasive computing, artificial intelligence (AI) and the Internet of Things (IoT) are already supporting and providing comfort to dementia patients, particularly those living alone in the community. The work discusses key challenges and limitations of technology-enabled support owing to reasons like lack of accessibility, availability, usability and affordability of technology, limited holistic care approach, and lack of education and information. Future research directions focusing on how pervasive and connected healthcare can better support the well being and mental health impacts of Alzheimers dementia are also highlighted.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# CLIPによるマルチモーダルマルチラベル分類

Multimodal Multilabel Classification by CLIP ( http://arxiv.org/abs/2406.16141v1 )

ライセンス: Link先を確認
Yanming Guo, (参考訳) マルチモーダルマルチラベル分類(MMC)は、画像とテキストの2つのデータソースを扱う学習アルゴリズムを設計し、モダリティ全体にわたって包括的なセマンティックな特徴提示を学ぶことを目的とした課題である。 本稿では,MCCにおける最先端手法の多種多様さを概観し,特徴抽出器としてContrastive Language- Image Pre-Turning(CLIP)を応用し,異なる分類ヘッド,融合方法,損失関数を探索してモデルを微調整する新しい手法を活用する。 最後に、私たちの最高の成果は、パブリックなKaggleコンペティションのリーダーボードで90%以上のF_1スコアを獲得しました。 本稿では,新しいトレーニング手法の詳細な説明と,実験結果による定量的解析について述べる。

Multimodal multilabel classification (MMC) is a challenging task that aims to design a learning algorithm to handle two data sources, the image and text, and learn a comprehensive semantic feature presentation across the modalities. In this task, we review the extensive number of state-of-the-art approaches in MMC and leverage a novel technique that utilises the Contrastive Language-Image Pre-training (CLIP) as the feature extractor and fine-tune the model by exploring different classification heads, fusion methods and loss functions. Finally, our best result achieved more than 90% F_1 score in the public Kaggle competition leaderboard. This paper provides detailed descriptions of novel training methods and quantitative analysis through the experimental results.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# スパース量子状態合成の回路複雑度

Circuit Complexity of Sparse Quantum State Preparation ( http://arxiv.org/abs/2406.16142v1 )

ライセンス: Link先を確認
Jingquan Luo, Lvzhou Li, (参考訳) 量子状態の準備は、量子コンピューティングにおける基本的で重要なサブルーチンである。 本稿では,スパース量子状態生成のための回路サイズを系統的に検討する。 量子状態が$d$スパースであるとは、非ゼロ振幅が$d$である場合に言う。 n$-qubit $d$-sparse 量子状態を作成するタスクでは、以下の結果が得られる: (a) 補助量子ビットを使わずに$o(dn)$初等ゲートを使用する最初のアプローチを提案する。 具体的には、任意の$n$-qubit $d$-sparse量子状態は、$O(\frac{dn}{\log n} +)の量子回路で作成できることが証明されている。 n) ancillary qubitsを使用しない$ これは、$d = poly の場合、漸近的に最適である (n)$, そしてこの最適性は、いくつかの妥当な仮定の下でより広い範囲に拡張される。 (b)任意の$n$-qubit $d$-sparse量子状態は、$O(\frac{dn}{\log d})$とdeep$\Theta(\log dn)$の量子回路で作成できることを示す。 (n)$だが、同時に[PRL, 129, 230504(2022)]で与えられる結果と比較すると、補助量子ビットを少なくし、量子ゲートを小さくし、同じ漸近的に最適な深さを達成する。 (ii) 下位境界 $\Omega(\frac{dn}{\log(n +) を確立する。 m) + \log d} + n) 回路サイズは$m$ acillary qubits である。 合理的な仮定の下で わずかに強い下限も得られます (c)任意の量の補助量子ビットが利用可能である場合、$n$-qubit $d$-sparse量子状態を作成するための回路サイズは$\Theta({\frac{dn}{\log dn} + n})$であることを示す。

Quantum state preparation is a fundamental and significant subroutine in quantum computing. In this paper, we conduct a systematic investigation on the circuit size for sparse quantum state preparation. A quantum state is said to be $d$-sparse if it has only $d$ non-zero amplitudes. For the task of preparing $n$-qubit $d$-sparse quantum states, we obtain the following results: (a) We propose the first approach that uses $o(dn)$ elementary gates without using ancillary qubits. Specifically, it is proven that any $n$-qubit $d$-sparse quantum state can be prepared by a quantum circuit of size $O(\frac{dn}{\log n} + n)$ without using ancillary qubits. This is asymptotically optimal when $d = poly(n)$, and this optimality extends to a broader scope under some reasonable assumptions. (b) We show that any $n$-qubit $d$-sparse quantum state can be prepared by a quantum circuit of size $O(\frac{dn}{\log d})$ and depth $\Theta(\log dn)$ using at most $O(\frac{n{d}}{\log d} )$ ancillary qubits, which not only reduces the circuit size compared to the one without ancillary qubits when $d = \omega(poly(n))$, but also achieves the same asymptotically optimal depth while utilizing fewer ancillary qubits and applying fewer quantum gates compared to the result given in [PRL, 129, 230504(2022)]. (ii) We establish the lower bound $\Omega(\frac{dn}{\log(n + m) + \log d} + n)$ on the circuit size with $m$ ancillary qubits available. we also obtain a slightly stronger lower bound under reasonable assumptions. (c) We prove that with arbitrary amount of ancillary qubits available, the circuit size for preparing $n$-qubit $d$-sparse quantum states is $\Theta({\frac{dn}{\log dn} + n})$.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# 医療領域におけるゼロショットとFewショットAIアルゴリズムのレビュー

Review of Zero-Shot and Few-Shot AI Algorithms in The Medical Domain ( http://arxiv.org/abs/2406.16143v1 )

ライセンス: Link先を確認
Maged Badawi, Mohammedyahia Abushanab, Sheethal Bhat, Andreas Maier, (参考訳) 本稿では, 少数ショット, ゼロショット, 正規物体検出の異なる手法について検討した。 数ショットの学習とゼロショットの学習技術の必要性は極めて重要であり、従来の機械学習、ディープラーニング、そして大量のデータを必要とするコンピュータビジョン手法の限界と課題、そしてそれらの従来の手法の一般化の低さから生じる。 これらの技術は、必要なデータ量を削減し、一般化を改善するために、少数のトレーニングセットを使用するだけで、顕著な結果が得られる。 この調査では、前述した課題に対処するために、過去3年間のいくつかのショットラーニングとゼロショットラーニング技術を導入した最近の論文を取り上げる。 本稿では、ゼロショット、少数ショット、正規オブジェクト検出手法をレビューし、それらを理解可能な方法で分類した。 各カテゴリーで比較した。 アプローチは非常に印象的なものだことが判明した。 少数ショット、ゼロショット、正規オブジェクト検出に関する多種多様な論文の統合レビューは、新しいフレームワークやテクニックを通じて分野を前進させることに共通の焦点をあてている。 注目すべき観察は、開発段階で遭遇した困難に関する詳細な議論の欠如である。 ZSD-YOLOやGTNetのような革新的なモデルの導入は、平均平均精度(mAP)、Recall@100(RE@100)、受信機動作特性曲線(AUROC)の下の領域、精度などの様々な指標で改善を示すことが多い。 これらの知見は、視覚言語モデルを多元的応用に活用するための総合的な動きを浮き彫りにしており、将来的な研究分野として、より徹底的な限界探索やドメイン固有の適応が期待できる。

In this paper, different techniques of few-shot, zero-shot, and regular object detection have been investigated. The need for few-shot learning and zero-shot learning techniques is crucial and arises from the limitations and challenges in traditional machine learning, deep learning, and computer vision methods where they require large amounts of data, plus the poor generalization of those traditional methods. Those techniques can give us prominent results by using only a few training sets reducing the required amounts of data and improving the generalization. This survey will highlight the recent papers of the last three years that introduce the usage of few-shot learning and zero-shot learning techniques in addressing the challenges mentioned earlier. In this paper we reviewed the Zero-shot, few-shot and regular object detection methods and categorized them in an understandable manner. Based on the comparison made within each category. It been found that the approaches are quite impressive. This integrated review of diverse papers on few-shot, zero-shot, and regular object detection reveals a shared focus on advancing the field through novel frameworks and techniques. A noteworthy observation is the scarcity of detailed discussions regarding the difficulties encountered during the development phase. Contributions include the introduction of innovative models, such as ZSD-YOLO and GTNet, often showcasing improvements with various metrics such as mean average precision (mAP),Recall@100 (RE@100), the area under the receiver operating characteristic curve (AUROC) and precision. These findings underscore a collective move towards leveraging vision-language models for versatile applications, with potential areas for future research including a more thorough exploration of limitations and domain-specific adaptations.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# チェーン・オブ・プローブ:CoTステップ・バイ・ステップの必要性と正確性

Chain-of-Probe: Examing the Necessity and Accuracy of CoT Step-by-Step ( http://arxiv.org/abs/2406.16144v1 )

ライセンス: Link先を確認
Zezhong Wang, Xingshan Zeng, Weiwen Liu, Yufei Wang, Liangyou Li, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu, Kam-Fai Wong, (参考訳) 現在の研究では、大規模な言語モデル(LLM)における早期解答の問題が報告されている。 この現象は、予測された答えと推論プロセスの間に必要な依存が欠如している可能性を示唆している。 1) モデルにすでに答えがある場合、CoTは依然として必要か? 2) 回答の正しさは、CoTの正しさの有効な証拠となるか。 これらの問題に対処するため,モデル推論中の心の変化を探索する手法であるChain-of-Probe(CoP)を提案する。 調査結果からは,CoTが不要なケースがかなりの数あることが示唆され,その必要条件は要求される推論ステップによって定義されたタスクの単純さと相関している。 さらに, 心的変化のパターンを解析することにより, モデルの推論の正しさを検証した。 我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。 そこで本研究では,CoPに基づく戦略的アプローチを提案し,複数の候補間の正しい推論による回答の優先順位付けを行い,モデルの推論の信頼性を高める。

Current research found the issue of Early Answering in large language models (LLMs), where the models already have an answer before generating the Chain-of-Thought (CoT). This phenomenon suggests a potential lack of necessary dependency between the predicted answer and the reasoning process. Consequently, two important questions arise: (1) Is CoT still necessary if the model already has an answer? (2) Can the correctness of the answer serve as valid evidence for the correctness of CoT? To address these questions, we propose a method, namely Chain-of-Probe (CoP), to probe changes in the mind during the model's reasoning. The probing results show that in a significant number of question-answer cases, CoT appears to be unnecessary, and this necessity correlates with the simplicity of the task, defined by reasoning steps required. Furthermore, by analyzing patterns in mind change, we examine the correctness of the model's reasoning. Our validation reveals that many responses, although correct in their final answer, contain errors in their reasoning process. To this end, we propose a strategic approach based on CoP to prioritize answers with correct reasoning among multiple candidates, thereby bolstering the reliability of the model's reasoning.
翻訳日:2024-06-25 18:54:26 公開日:2024-06-23
# クラス内分離・アンタングル化のための事前定義されたプロトタイプ

Predefined Prototypes for Intra-Class Separation and Disentanglement ( http://arxiv.org/abs/2406.16145v1 )

ライセンス: Link先を確認
Antonio Almudévar, Théo Mariotte, Alfonso Ortega, Marie Tahon, Luis Vicente, Antonio Miguel, Eduardo Lleida, (参考訳) 原型学習は、クラスの埋め込みがクラスタ化される点(プロトタイプと呼ぶ)があるという考えに基づいている。 ラベル付きデータが少ないシナリオや説明可能なモデルの設計において、有望な結果を示している。 通常、プロトタイプはクラスの埋め込みの平均として定義されるか、トレーニング可能なように設計されている。 本研究では,トレーニングパイプラインを簡素化し,異なる利点をもたらす人為的基準に従ってプロトタイプを事前定義することを提案する。 具体的には, 組込みのクラス間分離性の向上と, 差分要因の相違による組込みの切り離し, 説明可能な予測が可能となる2つの利点について検討する。 最後に,提案提案を理解する上で有効な実験を提案し,その利点を実証的に示す。

Prototypical Learning is based on the idea that there is a point (which we call prototype) around which the embeddings of a class are clustered. It has shown promising results in scenarios with little labeled data or to design explainable models. Typically, prototypes are either defined as the average of the embeddings of a class or are designed to be trainable. In this work, we propose to predefine prototypes following human-specified criteria, which simplify the training pipeline and brings different advantages. Specifically, in this work we explore two of these advantages: increasing the inter-class separability of embeddings and disentangling embeddings with respect to different variance factors, which can translate into the possibility of having explainable predictions. Finally, we propose different experiments that help to understand our proposal and demonstrate empirically the mentioned advantages.
翻訳日:2024-06-25 18:44:42 公開日:2024-06-23
# オープンな呼吸音響基礎モデルに向けて:事前学習とベンチマーク

Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking ( http://arxiv.org/abs/2406.16148v1 )

ライセンス: Link先を確認
Yuwei Zhang, Tong Xia, Jing Han, Yu Wu, Georgios Rizos, Yang Liu, Mohammed Mosuily, Jagmohan Chauhan, Cecilia Mascolo, (参考訳) くしゃみや呼吸音などの呼吸性オーディオは、幅広い医療応用の予測力を持っているが、現在はまだ未調査である。 これらのアプリケーションの主な問題は、モデル開発のための大きなラベル付きタスク固有データを集めることの難しさから生じる。 ラベル付けされていないデータで事前訓練された一般的な呼吸音響基礎モデルは、魅力的な利点を提供し、おそらくこの欠点を解き放つだろう。 しかし、医療応用の安全性に欠かせない性質を考えると、提案された基盤モデルソリューションの開放性と複製性を確保することが重要である。 そこで本研究では,OPEn 呼吸音響基礎モデルの事前学習とベンチマークシステムである OPERA について,そのニーズに応える最初のアプローチとして紹介する。 大規模呼吸オーディオデータセット(約136Kサンプル、440時間)をキュレートし、3つの先駆的基礎モデルを事前訓練し、評価のための19の下流呼吸健康タスクからなるベンチマークを構築した。 プレトレーニングされたモデルでは,既存の音響モデルに対して,19のタスクのうち16のタスクにおいて,一般的な音響モデルで事前トレーニングされた場合と比較して)優れた性能と汎用性(未知のデータセットと新しい呼吸オーディオモダリティ)を示す。 このことは、呼吸音響基礎モデルの大きな約束を強調し、健康のための呼吸音響の研究を加速するオープンリソースとしてOPERAを使用することを奨励する。 このシステムはhttps://github.com/evelyn0414/OPERAからアクセスできる。

Respiratory audio, such as coughing and breathing sounds, has predictive power for a wide range of healthcare applications, yet is currently under-explored. The main problem for those applications arises from the difficulty in collecting large labeled task-specific data for model development. Generalizable respiratory acoustic foundation models pretrained with unlabeled data would offer appealing advantages and possibly unlock this impasse. However, given the safety-critical nature of healthcare applications, it is pivotal to also ensure openness and replicability for any proposed foundation model solution. To this end, we introduce OPERA, an OPEn Respiratory Acoustic foundation model pretraining and benchmarking system, as the first approach answering this need. We curate large-scale respiratory audio datasets (~136K samples, 440 hours), pretrain three pioneering foundation models, and build a benchmark consisting of 19 downstream respiratory health tasks for evaluation. Our pretrained models demonstrate superior performance (against existing acoustic models pretrained with general audio on 16 out of 19 tasks) and generalizability (to unseen datasets and new respiratory audio modalities). This highlights the great promise of respiratory acoustic foundation models and encourages more studies using OPERA as an open resource to accelerate research on respiratory audio for health. The system is accessible from https://github.com/evelyn0414/OPERA.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# 強度拡散 : ブロンコス分別における強度距離誘導損失

Intensity Confusion Matters: An Intensity-Distance Guided Loss for Bronchus Segmentation ( http://arxiv.org/abs/2406.16150v1 )

ライセンス: Link先を確認
Haifan Gong, Wenhao Huang, Huan Zhang, Yu Wang, Xiang Wan, Hong Shen, Guanbin Li, Haofeng Li, (参考訳) 疾患診断のための構造情報を提供するため,CT画像からの気管支の自動分画が重要である。 従来の自動気管支分画法の利点にもかかわらず、彼らは我々が「textit{Intensity Confusion}」と呼ぶ問題への注意を減らし、特定の背景ボクセルの強度値がブロンチ内の前景ボクセルの強度に近づいた。 逆に、いくつかの前景のボクセルの強度値は、背景のボクセルの強度とほぼ同一である。 この強度値の近接は、ニューラルネットワークの方法論に重大な課題をもたらす。 この問題に対処するために, 異なる画像ボクセルに適応重みを割り当て, 強度混乱を引き起こすハードサンプルをマイニングする新しいインテンシティ・ディスタンス誘導損失関数を提案する。 提案した損失は, 以下の強度と距離の先行値に基づいて, 試料のボクセルレベル硬さを推定する。 1) 気管支領域に近接する強度値, (2) 気管支領域に近く, 気管支内のほとんどのボクセルよりも高い強度, (3) 背景領域, 気管支から短い距離がある場合, ブロクセルを硬い試料とみなす。 また,本手法が最先端の手法よりも優れていることを示すとともに,強度混乱問題への対処が気管支分節の改善に有効であることを検証した。 プロジェクトページ:https://github.com/lhaof/ICM。

Automatic segmentation of the bronchial tree from CT imaging is important, as it provides structural information for disease diagnosis. Despite the merits of previous automatic bronchus segmentation methods, they have paied less attention to the issue we term as \textit{Intensity Confusion}, wherein the intensity values of certain background voxels approach those of the foreground voxels within bronchi. Conversely, the intensity values of some foreground voxels are nearly identical to those of background voxels. This proximity in intensity values introduces significant challenges to neural network methodologies. To address the issue, we introduce a novel Intensity-Distance Guided loss function, which assigns adaptive weights to different image voxels for mining hard samples that cause the intensity confusion. The proposed loss estimates the voxel-level hardness of samples, on the basis of the following intensity and distance priors. We regard a voxel as a hard sample if it is in: (1) the background and has an intensity value close to the bronchus region; (2) the bronchus region and is of higher intensity than most voxels inside the bronchus; (3) the background region and at a short distance from the bronchus. Extensive experiments not only show the superiority of our method compared with the state-of-the-art methods, but also verify that tackling the intensity confusion issue helps to significantly improve bronchus segmentation. Project page: https://github.com/lhaof/ICM.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# マルコフ決定過程の確率制御のためのモンテカルロ計画

Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes ( http://arxiv.org/abs/2406.16151v1 )

ライセンス: Link先を確認
Larkin Liu, Shiqi Liu, Matej Jusup, (参考訳) 確率制御の世界では、特に経済・工学において、マルコフ決定プロセス(MDP)は資産管理から輸送最適化まで、様々な確率決定プロセスを効果的にモデル化することができる。 これらの基礎となるMDPは、綿密な検査によって、遷移と報酬のダイナミクスに関する特定の制約された因果構造を明らかにすることが多い。 この構造を利用することで、問題設定の因果表現の低減を図り、最適な値関数をより効率的に解くことができる。 この研究は MDP フレームワークである \texttt{SD-MDP} を定義し、MDP の遷移と報酬のダイナミクスの因果構造を解き、時間的因果グラフに異なる分割を与える。 この確率的還元により、 \texttt{SD-MDP} は資源割り当て問題の一般的なクラスを反映する。 さらに,モンテカルロサンプリングから独立な値推定を行うことにより,最適条件下での値関数の推定誤差に関する理論的保証を導出することができる。 その後、モンテカルロ木探索(MCTS)のようなよく知られたモンテカルロ計画アルゴリズムにこの推定器を組み込むことで、アルゴリズムの単純な後悔に基づく境界を導出する。 最後に,一定のシミュレーション予算の下でMCTS計画アルゴリズムが期待される高い報酬(より低いコスト)を達成することを示すことにより,MCTSの政策改善を,海上給油による具体的な経済事例に基づいて定量化する。

In the world of stochastic control, especially in economics and engineering, Markov Decision Processes (MDPs) can effectively model various stochastic decision processes, from asset management to transportation optimization. These underlying MDPs, upon closer examination, often reveal a specifically constrained causal structure concerning the transition and reward dynamics. By exploiting this structure, we can obtain a reduction in the causal representation of the problem setting, allowing us to solve of the optimal value function more efficiently. This work defines an MDP framework, the \texttt{SD-MDP}, where we disentangle the causal structure of MDPs' transition and reward dynamics, providing distinct partitions on the temporal causal graph. With this stochastic reduction, the \texttt{SD-MDP} reflects a general class of resource allocation problems. This disentanglement further enables us to derive theoretical guarantees on the estimation error of the value function under an optimal policy by allowing independent value estimation from Monte Carlo sampling. Subsequently, by integrating this estimator into well-known Monte Carlo planning algorithms, such as Monte Carlo Tree Search (MCTS), we derive bounds on the simple regret of the algorithm. Finally, we quantify the policy improvement of MCTS under the \texttt{SD-MDP} framework by demonstrating that the MCTS planning algorithm achieves higher expected reward (lower costs) under a constant simulation budget, on a tangible economic example based on maritime refuelling.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# 地域を意識したバイアス評価指標を目指して

Towards Region-aware Bias Evaluation Metrics ( http://arxiv.org/abs/2406.16152v1 )

ライセンス: Link先を確認
Angana Borah, Aparna Garimella, Rada Mihalcea, (参考訳) 人為的なデータに晒されると、言語モデルは学習し、社会的バイアスを増幅することが知られている。 以前の研究では、これらのモデルのバイアスを評価するのに使えるベンチマークが導入されたが、それらは普遍的に正しくない仮定に依存している。 例えば、これらの指標で一般的に使用される性別バイアス次元は、家族介護者のものであるが、世界の特定の地域では、これが唯一の一般的なバイアスではないかもしれない。 本稿では,異なる地域における性別バイアスの地域差を同定し,バイアス評価のための地域別ボトムアップアプローチを提案する。 提案手法は, ある地域におけるジェンダー・アライメント・トピックを用いて, ジェンダー・社会的バイアスを捉える可能性のあるトピック・ペアの形で, ジェンダー・アライメント・ディメンションを識別する。 提案するバイアストピックペアのいくつかは、既存のものと比較して、これらの領域における性別バイアスに対する人間の認識と同等であり、また、既存のものよりも整合性が高い新しいペアも同定する。 さらに, 単語埋め込みアソシエーションテスト(WEAT)に基づく評価尺度において, 異なるデータ領域の異なる領域にまたがる性別バイアスを評価するために, 地域別バイアストピックペアを用いた。 また,LLMは,領域認識バイアス評価尺度の重要性を示す高度に表現された領域に対して,バイアス対と高い整合性を有することがわかった。

When exposed to human-generated data, language models are known to learn and amplify societal biases. While previous works introduced benchmarks that can be used to assess the bias in these models, they rely on assumptions that may not be universally true. For instance, a gender bias dimension commonly used by these metrics is that of family--career, but this may not be the only common bias in certain regions of the world. In this paper, we identify topical differences in gender bias across different regions and propose a region-aware bottom-up approach for bias assessment. Our proposed approach uses gender-aligned topics for a given region and identifies gender bias dimensions in the form of topic pairs that are likely to capture gender societal biases. Several of our proposed bias topic pairs are on par with human perception of gender biases in these regions in comparison to the existing ones, and we also identify new pairs that are more aligned than the existing ones. In addition, we use our region-aware bias topic pairs in a Word Embedding Association Test (WEAT)-based evaluation metric to test for gender biases across different regions in different data domains. We also find that LLMs have a higher alignment to bias pairs for highly-represented regions showing the importance of region-aware bias evaluation metric.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# 最新のDRAMチップにおけるRowPress脆弱性

RowPress Vulnerability in Modern DRAM Chips ( http://arxiv.org/abs/2406.16153v1 )

ライセンス: Link先を確認
Haocong Luo, Ataberk Olgun, A. Giray Yağlıkçı, Yahya Can Tuğrul, Steve Rhyner, Meryem Banu Cavlak, Joël Lindegger, Mohammad Sadrosadati, Onur Mutlu, (参考訳) メモリアイソレーションはシステムの信頼性、セキュリティ、安全性にとって重要な特性である。 我々は、有名なRowHammerとは異なるDRAM読み取り障害現象であるRowPressを実証する。 RowPressは、行を何度も開いて閉じる代わりに、長い時間DRAM行を開いておくことで、ビットフリップを誘導する。 我々はRowPressビットフリップを実験的に特徴付け、市販のDDR4 DRAMチップに広く存在することを示す。 我々は,すでにRowHammerを保護している実システムにおいて,RowPressのビットフリップを実証し,DRAMをRowHammerとRowPressの両方に対して効果的に保護する手法を提案する。

Memory isolation is a critical property for system reliability, security, and safety. We demonstrate RowPress, a DRAM read disturbance phenomenon different from the well-known RowHammer. RowPress induces bitflips by keeping a DRAM row open for a long period of time instead of repeatedly opening and closing the row. We experimentally characterize RowPress bitflips, showing their widespread existence in commodity off-the-shelf DDR4 DRAM chips. We demonstrate RowPress bitflips in a real system that already has RowHammer protection, and propose effective mitigation techniques that protect DRAM against both RowHammer and RowPress.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# LeanBin: バイナリのリフティングと再コンパイルを損なう

LeanBin: Harnessing Lifting and Recompilation to Debloat Binaries ( http://arxiv.org/abs/2406.16162v1 )

ライセンス: Link先を確認
Igor Wodiany, Antoniu Pop, Mikel Luján, (参考訳) 潜在的なエクスプロイトのソースを減らすために、バイナリのデブロや特殊化ツールを使用して、不要なコードをバイナリから削除する。 本稿では、観測された実行トレースに基づいて、リフトと再コンパイルを利用する新しいバイナリデブロと特殊化ツールであるLeanBinを提案する。 動的に記録された実行トレースは、必要な命令のサブセットと、所定の入力セットに対するアプリケーションバイナリの制御フローをキャプチャする。 この初期制御フローは、ヒューリスティックフリーな静的解析を用いて拡張され、入力空間の過剰制限を回避し、制御フローとバイナリ命令のCの部分集合への変換をさらに構造化することにより、再コンパイル可能なコードの軽量な生成を可能にし、LLVM IRと新しいデブロッドバイナリを得る。 ほとんどのデ肥大化アプローチとは異なり、LeanBinは既存のコンパイラインフラストラクチャを再利用しながら、アプリケーションと共有ライブラリのバイナリデ肥大化を可能にする。 さらに、既存のバイナリリフターとは異なり、スタティックリフターが使用する潜在的な非健全なヒューリスティックや、既存の動的リフターの制限である長時間の実行時間にも依存しない。 LeanBinはヒューリスティックな静的解析と動的解析を組み合わせたものだ。 SPEC CPU2006 INTベンチマークの起動時の実行時間は平均1.78$\times$で、ネイティブ実行に正規化され、デブロ化されたバイナリは平均1.21$\times$で実行される。 元々のバイナリに比べてガジェットの割合は、デ肥大戦略によって24.10%から30.22%の間であり、コードサイズは53.59%と低い。 SQLiteのユースケースでは、LeanBinは共有ライブラリと一緒にバイナリをデブロートし、最大1.24$\times$で3.65%のガジェットで走るデブロ化されたバイナリを生成する。

To reduce the source of potential exploits, binary debloating or specialization tools are used to remove unnecessary code from binaries. This paper presents a new binary debloating and specialization tool, LeanBin, that harnesses lifting and recompilation, based on observed execution traces. The dynamically recorded execution traces capture the required subset of instructions and control flow of the application binary for a given set of inputs. This initial control flow is subsequently augmented using heuristic-free static analysis to avoid overrestricting the input space; and the further structuring of the control flow and translation of binary instructions into a subset of C, enables a lightweight generation of the code that can be recompiled, obtaining LLVM IR and a new debloated binary. Unlike most debloating approaches, LeanBin enables both binary debloating of the application and shared libraries, while reusing the existing compiler infrastructure. Additionally, unlike existing binary lifters, it does not rely on potentially unsound heuristics, used by static lifters, nor suffers from long execution times, a limitation of existing dynamic lifters. Instead LeanBin combines both heuristic-free static and dynamic analysis. The run time during lifting and debloating SPEC CPU2006 INT benchmarks is on average 1.78$\times$, normalized to the native execution, and the debloated binary runs with an average overhead of 1.21$\times$. The percentage of gadgets, compared to the original binary, has a geomean between 24.10% and 30.22%, depending on the debloating strategy; the code size can be as low as 53.59%. For the SQLite use-case, LeanBin debloats a binary together with its shared library, and generates a debloated binary that runs up to 1.24$\times$ faster with 3.65% gadgets.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# 原子核構造計算のための量子コンピュータ仕様

Quantum computer specification for nuclear structure calculations ( http://arxiv.org/abs/2406.16165v1 )

ライセンス: Link先を確認
Ching-Hwa Wee, Meng-Hock Koh, Yung Szen Yap, (参考訳) 量子コンピュータを用いた原子核構造問題の解法に関する最近の研究は、変分量子固有解法(VQE)と呼ばれる量子アルゴリズムに依存している。 本研究では,量子コンピュータシミュレータ上でのユニタリペアリング・カップリング・クラスタ・ダブルス(UpCCD)アンサッツを用いて,VQEを用いたヘリウム6の相関エネルギーを計算し,最適化時間を短縮するために,一組のカスタム終了基準を実装した。 このセットアップを用いて、様々なコヒーレンス時間と量子エラーのノイズの多い量子コンピュータシミュレータをテストし、そのような計算に必要な仕様を見つける。 また、量子コンピュータと最適化プロセスからのエラーの寄与についても検討する。 5~msコヒーレンス時間と10〜4$の量子誤差の最小限の仕様は、状態ベクトルの結果を 8 % の差で確実に再現するために必要である。 本研究は,量子誤り訂正を行なわずに,わずかにノイズの多い量子コンピュータ上で,完全長のUpCCDアンサッツを用いてVQE計算を行う可能性を示す。

Recent studies to solve nuclear structure problems using quantum computers rely on a quantum algorithm known as Variational Quantum Eigensolver (VQE). In this study, we calculate the correlation energy in Helium-6 using VQE, with a \textit{full-term} unitary-paired-coupled-cluster-doubles (UpCCD) ansatz on a quantum computer simulator and implement a set of custom termination criteria to shorten the optimization time. Using this setup, we test out noisy quantum computer simulators of various coherence times and quantum errors to find the required specification for such calculations. We also look into the contribution of errors from the quantum computers and optimization process. We find that the minimal specification of 5~ms coherence times and $10^{-4}$ quantum errors is required to reliably reproduce state-vector results within 8\% discrepancy. Our study indicates the possibility of performing VQE calculations using a full-term UpCCD ansatz on a slightly noisy quantum computer, without implementing quantum error correction.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# 機械学習を用いた最適破壊靭性のための複合材料設計

Composite Material Design for Optimized Fracture Toughness Using Machine Learning ( http://arxiv.org/abs/2406.16166v1 )

ライセンス: Link先を確認
Mohammad Naqizadeh Jahromi, Mohammad Ravandi, (参考訳) 本稿では,機械学習(ML)技術を用いた2次元および3次元複合構造の最適化について検討し,Double Cantilever Beam(DCB)試験における破壊靭性とき裂進展に着目した。 マイクロ構造配置とコンポジットのマクロ特性の複雑な関係を探索することにより、MLが設計最適化プロセスの迅速化のための強力なツールとしての可能性を示し、従来の有限要素解析よりも顕著な優位性を示した。 本研究は, 2次元および3次元複合モデルにおいて, き裂伝播と破壊靭性について検討した。 MLアルゴリズムの適用を通じて、複合材料における広大な設計空間を迅速かつ正確に探索する能力を示す。 この結果は、限られたトレーニングデータによる機械的挙動の予測におけるMLの効率性を強調し、複合設計と最適化における幅広い応用への道を開いた。 本研究は,複合材料設計プロセスの効率化におけるMLの役割の理解の促進に寄与する。

This paper investigates the optimization of 2D and 3D composite structures using machine learning (ML) techniques, focusing on fracture toughness and crack propagation in the Double Cantilever Beam (DCB) test. By exploring the intricate relationship between microstructural arrangements and macroscopic properties of composites, the study demonstrates the potential of ML as a powerful tool to expedite the design optimization process, offering notable advantages over traditional finite element analysis. The research encompasses four distinct cases, examining crack propagation and fracture toughness in both 2D and 3D composite models. Through the application of ML algorithms, the study showcases the capability for rapid and accurate exploration of vast design spaces in composite materials. The findings highlight the efficiency of ML in predicting mechanical behaviors with limited training data, paving the way for broader applications in composite design and optimization. This work contributes to advancing the understanding of ML's role in enhancing the efficiency of composite material design processes.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# FS-RAG:大規模言語モデルにおける実測精度向上のためのフレームセマンティックスに基づくアプローチ

FS-RAG: A Frame Semantics Based Approach for Improved Factual Accuracy in Large Language Models ( http://arxiv.org/abs/2406.16167v1 )

ライセンス: Link先を確認
Harish Tayyar Madabushi, (参考訳) 本稿では,大規模言語モデルの出力における事実的不正確さを軽減することを目的として,検索拡張を新たに提案する。 具体的には,大規模言語モデルの問合せ支援に関連する事実情報の索引付けと検索のために,フレームセマンティクスの認知言語理論に基づく。 我々は,この手法の有効性を,検索の有効性と,フレームの関連性およびフレーム関係の自動生成の観点から実証する実験を行った。 本研究は,FS-RAGの改良を目的としたフレームセマンティック検索の新たなメカニズムが有効であり,フレームセマンティックス理論に対するデータ駆動的な洞察を提供する可能性を示唆する。 プログラムコードへのオープンアクセスとプロンプトを提供しています。

We present a novel extension to Retrieval Augmented Generation with the goal of mitigating factual inaccuracies in the output of large language models. Specifically, our method draws on the cognitive linguistic theory of frame semantics for the indexing and retrieval of factual information relevant to helping large language models answer queries. We conduct experiments to demonstrate the effectiveness of this method both in terms of retrieval effectiveness and in terms of the relevance of the frames and frame relations automatically generated. Our results show that this novel mechanism of Frame Semantic-based retrieval, designed to improve Retrieval Augmented Generation (FS-RAG), is effective and offers potential for providing data-driven insights into frame semantics theory. We provide open access to our program code and prompts.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# ExcelがコピーするオールMLPシーケンスモデリングアーキテクチャ

An All-MLP Sequence Modeling Architecture That Excels at Copying ( http://arxiv.org/abs/2406.16168v1 )

ライセンス: Link先を確認
Chenwei Cui, Zehao Yan, Gedeon Muhawenayo, Hannah Kerner, (参考訳) 最近の研究はトランスフォーマーが指数関数サイズの文字列を効率的にコピーできることを示し、他のアーキテクチャと区別した。 本稿では、全MLPシーケンスモデリングアーキテクチャであるCausal Relation Network(CausalRN)を提案する。 関係ネットワークの拡張(RN)により,計算可能性を維持しつつ,自己回帰的シーケンスモデリングをサポートする重要なイノベーションを実現した。 我々は指数関数的に活性化されたRNが線形時間複雑性に還元可能であることを発見し、前活性化正規化はKVキャッシュと同様、無限に増大するメモリプールを誘導することを示した。 アブレーション研究では,Transformerレベルのコピーには,指数的アクティベーションとプレアクティベーション正規化が不可欠であることが判明した。 本研究は,コンテキスト内検索の強大性に関する新たな知見を提供する。

Recent work demonstrated Transformers' ability to efficiently copy strings of exponential sizes, distinguishing them from other architectures. We present the Causal Relation Network (CausalRN), an all-MLP sequence modeling architecture that can match Transformers on the copying task. Extending Relation Networks (RNs), we implemented key innovations to support autoregressive sequence modeling while maintaining computational feasibility. We discovered that exponentially-activated RNs are reducible to linear time complexity, and pre-activation normalization induces an infinitely growing memory pool, similar to a KV cache. In ablation study, we found both exponential activation and pre-activation normalization are indispensable for Transformer-level copying. Our findings provide new insights into what actually constitutes strong in-context retrieval.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# SimCE: 協調フィルタリングのためのクロスエントロピー損失の簡易化

SimCE: Simplifying Cross-Entropy Loss for Collaborative Filtering ( http://arxiv.org/abs/2406.16170v1 )

ライセンス: Link先を確認
Xiaodong Yang, Huiyuan Chen, Yuchen Yan, Yuxin Tang, Yuying Zhao, Eric Xu, Yiwei Cai, Hanghang Tong, (参考訳) 学習目的は協調フィルタリングシステムに不可欠なものであり、ベイズパーソナライズされたランキング(BPR)の損失は情報的バックボーンの学習に広く用いられている。 しかしながら、BPRは各正の項目に対して1つの負の項目のみを考慮し、他の観測されていない項目の潜在的影響を無視しているため、緩やかな収束と最適な局所最適を経験することが多い。 この問題に対処するため、最近提案されたSammpled Softmax Cross-Entropy (SSM) では、正のサンプルを複数の負のサンプルと比較し、性能が向上した。 総合的な実験では、トレーニング中に複数の負のサンプルからリコメンダシステムが常に恩恵を受けることが確認された。 さらに,SSM を上界で単純化した SimCE (Samline{Sim}plified Sampled Softmax \underline{C}ross-\underline{E}ntropy Loss) を導入する。 MFとLightGCNの両方のバックボーンを使用して、12のベンチマークデータセットに対する検証を行ったところ、SimCEはBPRとSSMの両方で大幅に優れていた。

The learning objective is integral to collaborative filtering systems, where the Bayesian Personalized Ranking (BPR) loss is widely used for learning informative backbones. However, BPR often experiences slow convergence and suboptimal local optima, partially because it only considers one negative item for each positive item, neglecting the potential impacts of other unobserved items. To address this issue, the recently proposed Sampled Softmax Cross-Entropy (SSM) compares one positive sample with multiple negative samples, leading to better performance. Our comprehensive experiments confirm that recommender systems consistently benefit from multiple negative samples during training. Furthermore, we introduce a \underline{Sim}plified Sampled Softmax \underline{C}ross-\underline{E}ntropy Loss (SimCE), which simplifies the SSM using its upper bound. Our validation on 12 benchmark datasets, using both MF and LightGCN backbones, shows that SimCE significantly outperforms both BPR and SSM.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# ウクライナ戦争、新型コロナウイルスワクチン接種、2020年中間選挙に対するユーザーの共有習慣のマッピング

The Persistence of Contrarianism on Twitter: Mapping users' sharing habits for the Ukraine war, COVID-19 vaccination, and the 2020 Midterm Elections ( http://arxiv.org/abs/2406.16175v1 )

ライセンス: Link先を確認
David Axelrod, Sangyeon Kim, John Paolillo, (参考訳) オンライン偽情報に関する実証的研究は、新型コロナウイルス(COVID-19)のパンデミック、対外選挙干渉、ロシア・ウクライナ戦争などの公共の関心事を強調しており、主にトピックを別々に扱う研究で行われている。 比較して、そのような異なるトピックを関連づけ、彼らが行動を共有する範囲に対処しようとする研究は少ない。 本研究では、新型コロナウイルスの予防接種、ウクライナ戦争、2020年中間選挙に関するTwitterの3つのサンプルデータを比較し、この3つのサンプルにまたがるユーザーのイデオロギー的スタンスがどのように関連しているかを確認した。 以上の結果から、バイデン政権の外交政策姿勢とともに、公衆衛生の物語・政治に対する反対によって定義された幅広い反トラスト的姿勢の出現が示唆された。 コントラリアヌス位置における共有活動は、一方の端に外因性含量を持つスペクトルに該当する。 われわれは、Twitterユーザーの間でイデオロギー的に一貫性のあるクロスオブジェクトのスタンスの存在を確認するが、右派政治的指向とは正反対である。

Empirical studies of online disinformation emphasize matters of public concern such as the COVID-19 pandemic, foreign election interference, and the Russo-Ukraine war, largely in studies that treat the topics separately. Comparatively fewer studies attempt to relate such disparate topics and address the extent to which they share behaviors. In this study, we compare three samples of Twitter data on COVID-19 vaccination, the Ukraine war and the 2020 midterm elections, to ascertain how distinct ideological stances of users across the three samples might be related. Our results indicate the emergence of a broad contrarian stance that is defined by its opposition to public health narratives/policies along with the Biden administration's foreign policy stances. Sharing activity within the contrarian position falls on a spectrum with outright conspiratorial content on one end. We confirm the existence of ideologically coherent cross-subject stances among Twitter users, but in a manner not squarely aligned with right-left political orientations.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# GraphEval2000: グラフデータセット上での大規模言語モデルのベンチマークと改善

GraphEval2000: Benchmarking and Improving Large Language Models on Graph Datasets ( http://arxiv.org/abs/2406.16176v1 )

ライセンス: Link先を確認
Qiming Wu, Zichen Chen, Will Corcoran, Misha Sra, Ambuj K. Singh, (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めており、テキストデータの処理と理解において重要な能力を示している。 しかし、近年の研究では、LLMがグラフ構造化データについて推論する能力の限界が特定されている。 このギャップに対処するために、グラフデータ構造問題40と2000のテストケースからなるグラフデータセットGraphEval2000を紹介した。 さらに,LLMのグラフ推論能力を評価するために,GraphEval2000に基づく評価フレームワークを導入する。 本データセットは,テストケースを4つのサブカテゴリと4つのサブカテゴリに分類し,総合的な評価を確実にする。 我々はGraphEval2000上で8つの人気のあるLLMを評価し、LLMは無向グラフよりも有向グラフの理解が優れていることを示した。 プライベートLLMは一貫してオープンソースモデルより優れているが、パフォーマンスのギャップは狭まっている。 さらに,評価フレームワークのユーザビリティ向上のために,GraphEval2000上でのLCM性能向上を目的とした命令ベース手法であるStructured Symbolic Decomposition (SSD)を提案する。 その結果,GPT-3.5,GPT-4,GPT-4oの複雑なグラフ問題に対する性能は,それぞれ11.11\%,33.37\%,33.37\%に向上した。

Large language models (LLMs) have achieved remarkable success in natural language processing (NLP), demonstrating significant capabilities in processing and understanding text data. However, recent studies have identified limitations in LLMs' ability to reason about graph-structured data. To address this gap, we introduce GraphEval2000, the first comprehensive graph dataset, comprising 40 graph data structure problems along with 2000 test cases. Additionally, we introduce an evaluation framework based on GraphEval2000, designed to assess the graph reasoning abilities of LLMs through coding challenges. Our dataset categorizes test cases into four primary and four sub-categories, ensuring a comprehensive evaluation. We evaluate eight popular LLMs on GraphEval2000, revealing that LLMs exhibit a better understanding of directed graphs compared to undirected ones. While private LLMs consistently outperform open-source models, the performance gap is narrowing. Furthermore, to improve the usability of our evaluation framework, we propose Structured Symbolic Decomposition (SSD), an instruction-based method designed to enhance LLM performance on GraphEval2000. Results show that SSD improves the performance of GPT-3.5, GPT-4, and GPT-4o on complex graph problems, with an increase of 11.11\%, 33.37\%, and 33.37\%, respectively.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# 光スピンからの高精度ジャイロスコープ

A Precision Gyroscope from the Spin of Light ( http://arxiv.org/abs/2406.16178v1 )

ライセンス: Link先を確認
Michael A. Fedderke, Roni Harnik, David E. Kaplan, Sam Posen, Surjeet Rajendran, Francesco Serra, Vyacheslav P. Yakovlev, (参考訳) 光の偏光に対する回転の影響に基づいて回転を測定するジャイロスコープについて述べる。 回転は、左右の円偏光の伝播における差動位相シフトを誘導し、この位相シフトは、適切に設計された干渉計の設定で測定することができる。 このセットアップの信号は、周波数に依存する位相シフトを引き起こす振動などの様々なノイズ源とは異なり、光の周波数とは独立している。 このような振動は、ジャイロスコープとして一般的に使用される従来のサニャック式光学干渉計の感度の実用的な限界である。 提案した設定では、周波数の異なる2つ(またはそれ以上)の光源を同時に使用することにより、このノイズ源を緩和することができる。 この設定の信号は、光の総保存時間とともにスケールする。 したがって、その周波数独立性のため、利用可能なキャビティの高精細度が光学装置よりもはるかに長い保存時間を可能にする超伝導RFシステムを用いて信号を測定するのが最も最適である。

We describe a gyroscope that measures rotation based on the effects of the rotation on the polarization of light. Rotation induces a differential phase shift in the propagation of left and right circularly polarized light and this phase shift can be measured in suitably designed interferometric setups. The signal in this setup is independent of the frequency of light, unlike various sources of noise such as vibrations, which cause phase shifts that depend on the frequency. Such vibrations are the practical limit on the sensitivity of conventional Sagnac-style optical interferometers that are typically used as gyroscopes. In the proposed setup, one can potentially mitigate this source of noise by simultaneously using two (or more) sources of light that have different frequencies. The signal in this setup scales with the total storage time of the light. Due to its frequency independence, it is thus most optimal to measure the signal using superconducting RF systems where the high finesse of the available cavities enables considerably longer storage times than is possible in an optical setup.
翻訳日:2024-06-25 18:44:41 公開日:2024-06-23
# 紫外線の発散を除去する境界条件

Boundary Conditions that Remove Certain Ultraviolet Divergences ( http://arxiv.org/abs/2406.16180v1 )

ライセンス: Link先を確認
Roderich Tumulka, (参考訳) 量子論において、ハミルトニアンは、通常紫外線(UV)の発散する粒子の生成と消滅の項を含む。 これらの発散は、対極を付加し、紫外線遮断が無限大になるような制限を取ることによって、取り除くことができることが知られている。 ここでは、波動関数にある種の境界条件を与えることにより、紫外線の発散を除去する新しい方法についてレビューする。 これらの条件は、内部境界条件 (IBCs) と呼ばれ、波動関数の値と、粒子の生成や消滅によって結びつく2つの構成を関連付ける。 それらは、再正規化や制限手順なしに、ハミルトン多様体の直接的な定義を可能にする。 本項では,検出時間と位置の確率分布を時間的三面上で決定する境界条件について概説する。

In quantum field theory, Hamiltonians contain particle creation and annihilation terms that are usually ultraviolet (UV) divergent. It is well known that these divergences can sometimes be removed by adding counter-terms and taking limits in which an UV cut-off tends to infinity. Here, I review a novel way of removing UV divergences: by imposing a kind of boundary condition on the wave function. These conditions, called interior-boundary conditions (IBCs), relate the values of the wave function at two configurations linked by the creation or annihilation of a particle. They allow for a direct definition of the Hamiltonian without renormalization or limiting procedures. In the last section, I review another boundary condition that serves for determining the probability distribution of detection times and places on a timelike 3-surface.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# 横磁場をもつ平面上での荷電粒子の運動と量子非相対論的運動の定数

Constants of motion and quantum non-relativistic motion of a charged particle on a flat surface with transversal magnetic field ( http://arxiv.org/abs/2406.16181v1 )

ライセンス: Link先を確認
Gustavo V. López, Jorge A. Lizarraga, (参考訳) 平らな表面を移動する荷電粒子の運動は、磁気ゲージにより系に付随する運動の定数によって研究される。 通常のランダウの解とランダウのゲージに対する非可分解が発見され、対称ゲージに対する新しい非可分解が与えられる。 この結果、磁束の量子化は、運動の作用素定数から生じるユニタリ変換の下での解の不変性から生じる。

The motion of a charged particle moving on a flat surface is studied through the constants of motion associated to the system, given the magnetic gauge. The usual Landau' solution and the non separable solution for the Landau's gauge are found, and new non separable solution for the symmetric gauge is given. As a consequence of this, the quantization of the magnetic flux results from the invariance of the solutions under the unitary transformations which arise from the operators constants of motion.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# 感情誘発画像強調法の評価と比較

Evaluation and Comparison of Emotionally Evocative Image Augmentation Methods ( http://arxiv.org/abs/2406.16187v1 )

ライセンス: Link先を確認
Jan Ignatowicz, Krzysztof Kutt, Grzegorz J. Nalepa, (参考訳) 感情コンピューティングの実験は、刺激データセットに基づいており、標準化の過程で、各刺激が引き起こす感情を記述するメタデータを受け取る。 本稿では,GAN(Generative Adversarial Network)を用いた感情コンピューティングのための刺激データセット作成手法について検討する。 従来のデータセット作成手法はコストと時間を要するため、代替案の調査が進められます。 我々は、データ拡張および転送学習技術とともに、Deep Convolutional GAN、Conditional GAN、Auxiliary Classifier GAN、Progressive Augmentation GAN、Wasserstein GANなど、さまざまなGANアーキテクチャを用いて実験を行った。 以上の結果から,情緒的に誘発される合成画像の創出が期待できるものとなり,今後の研究や改善の可能性が示唆された。

Experiments in affective computing are based on stimulus datasets that, in the process of standardization, receive metadata describing which emotions each stimulus evokes. In this paper, we explore an approach to creating stimulus datasets for affective computing using generative adversarial networks (GANs). Traditional dataset preparation methods are costly and time consuming, prompting our investigation of alternatives. We conducted experiments with various GAN architectures, including Deep Convolutional GAN, Conditional GAN, Auxiliary Classifier GAN, Progressive Augmentation GAN, and Wasserstein GAN, alongside data augmentation and transfer learning techniques. Our findings highlight promising advances in the generation of emotionally evocative synthetic images, suggesting significant potential for future research and improvements in this domain.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# ファジィ注意に基づく肺臓器分離のための境界レンダリングネットワーク

Fuzzy Attention-based Border Rendering Network for Lung Organ Segmentation ( http://arxiv.org/abs/2406.16189v1 )

ライセンス: Link先を確認
Sheng Zhang, Yang Nan, Yingying Fang, Shiyi Wang, Xiaodan Xing, Zhifan Gao, Guang Yang, (参考訳) CT画像上の自動肺臓器分割は肺疾患の診断に不可欠である。 しかしながら、肺臓器のボクセル値とクラス不均衡は、高度な方法における偽陰性/陽性および漏れの問題を引き起こす可能性がある。 さらに、一部の細い肺臓器は、リサイクル/アップサンプル(例えば、気管支・動脈)の処置中に容易に消失し、深刻な不連続性を引き起こす。 そこで本研究では,Fizzy Attention-based Border Rendering (FABR) ネットワークと呼ばれる,効果的な肺臓器分割法を提案する。 ファジィ論理は特徴抽出の不確実性を扱うことができるため、深層ネットワークとファジィ集合の融合はより良い性能を実現するための有効な解である。 一方, FABRでは, 肺臓器領域を立方体ツリーとして表現し, リサイクルサンプリングされた境界脆弱性点のみに着目し, 新たなGlobal-Local Cube-tree Fusion (GLCF)モジュールで, 極めて不連続で偽陰性で陽性の臓器領域を描画する。 気道および動脈の4つの挑戦的データセットを用いた実験結果から,本手法が良好な性能を発揮することを示す。

Automatic lung organ segmentation on CT images is crucial for lung disease diagnosis. However, the unlimited voxel values and class imbalance of lung organs can lead to false-negative/positive and leakage issues in advanced methods. Additionally, some slender lung organs are easily lost during the recycled down/up-sample procedure, e.g., bronchioles & arterioles, causing severe discontinuity issue. Inspired by these, this paper introduces an effective lung organ segmentation method called Fuzzy Attention-based Border Rendering (FABR) network. Since fuzzy logic can handle the uncertainty in feature extraction, hence the fusion of deep networks and fuzzy sets should be a viable solution for better performance. Meanwhile, unlike prior top-tier methods that operate on all regular dense points, our FABR depicts lung organ regions as cube-trees, focusing only on recycle-sampled border vulnerable points, rendering the severely discontinuous, false-negative/positive organ regions with a novel Global-Local Cube-tree Fusion (GLCF) module. All experimental results, on four challenging datasets of airway & artery, demonstrate that our method can achieve the favorable performance significantly.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# Epsilon-Greedy最適化を用いた決定変換器による行列対角化の高速化

Accelerating Matrix Diagonalization through Decision Transformers with Epsilon-Greedy Optimization ( http://arxiv.org/abs/2406.16191v1 )

ライセンス: Link先を確認
Kshitij Bhatta, Geigh Zollicoffer, Manish Bhattarai, Phil Romero, Christian F. A. Negre, Anders M. N. Niklasson, Adetokunbo Adedoyin, (参考訳) 本稿では,行列対角化のための新しいフレームワークを提案し,それを逐次決定問題として再キャストし,決定変換器(DT)のパワーを適用した。 提案手法は,ジャコビアルゴリズムによる対角化時の最適ピボット選択を決定する。 堅牢性を高めるために、エプシロン・グレーディ戦略を統合し、決定論的アプローチが失敗するシナリオでの成功を可能にする。 この研究は、複雑な計算タスクにおけるDTの有効性を示し、機械学習レンズによる数学的操作を再現する可能性を強調する。 さらに, トランスファー学習を用いて, トレーニングした行列よりも小さい行列を対角化することにより, 本手法の一般化性を確立した。

This paper introduces a novel framework for matrix diagonalization, recasting it as a sequential decision-making problem and applying the power of Decision Transformers (DTs). Our approach determines optimal pivot selection during diagonalization with the Jacobi algorithm, leading to significant speedups compared to the traditional max-element Jacobi method. To bolster robustness, we integrate an epsilon-greedy strategy, enabling success in scenarios where deterministic approaches fail. This work demonstrates the effectiveness of DTs in complex computational tasks and highlights the potential of reimagining mathematical operations through a machine learning lens. Furthermore, we establish the generalizability of our method by using transfer learning to diagonalize matrices of smaller sizes than those trained.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# HEST-1k:空間転写学と組織像解析のためのデータセット

HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis ( http://arxiv.org/abs/2406.16192v1 )

ライセンス: Link先を確認
Guillaume Jaume, Paul Doucet, Andrew H. Song, Ming Y. Lu, Cristina Almagro-Pérez, Sophia J. Wagner, Anurag J. Vaidya, Richard J. Chen, Drew F. K. Williamson, Ahrong Kim, Faisal Mahmood, (参考訳) 空間転写学(Spatial transcriptomics, ST)は、組織の分子組成を、分解能、深さ、感度を常に増加させながら問うことができる。 しかし、コスト、急速に進化する技術、標準の欠如は、狭いタスクや小さなコホートに対してSTの計算方法に制約を与えている。 さらに, H&E-stained whole slide image (WSIs) によって反映される組織形態は, ST研究でしばしば見落とされた豊富な情報を符号化している。 本稿では,1,108個の空間転写プロファイルの集合であるHEST-1kについて紹介する。 HEST-1kは、25の臓器、Homo SapiensとMus Musculusの2種、25のがんタイプから320のがんサンプルを含む131の公衆および内部コホートからHEST-Libraryを用いて組み立てられた。 HEST-1k処理により、150万の表現-モルフォロジー対と6000万の核の同定が可能となった。 HEST-1kは、(1)病理組織学の基礎モデル(HEST-Benchmark)のベンチマーク、(2)バイオマーカーの同定、(3)マルチモーダル表現学習の3つのユースケースで試験される。 HEST-1k、HEST-Library、HEST-Benchmarkはhttps://github.com/mahmoodlab/hestを通じて自由にアクセスできる。

Spatial transcriptomics (ST) enables interrogating the molecular composition of tissue with ever-increasing resolution, depth, and sensitivity. However, costs, rapidly evolving technology, and lack of standards have constrained computational methods in ST to narrow tasks and small cohorts. In addition, the underlying tissue morphology as reflected by H&E-stained whole slide images (WSIs) encodes rich information often overlooked in ST studies. Here, we introduce HEST-1k, a collection of 1,108 spatial transcriptomic profiles, each linked to a WSI and metadata. HEST-1k was assembled using HEST-Library from 131 public and internal cohorts encompassing 25 organs, two species (Homo Sapiens and Mus Musculus), and 320 cancer samples from 25 cancer types. HEST-1k processing enabled the identification of 1.5 million expression--morphology pairs and 60 million nuclei. HEST-1k is tested on three use cases: (1) benchmarking foundation models for histopathology (HEST-Benchmark), (2) biomarker identification, and (3) multimodal representation learning. HEST-1k, HEST-Library, and HEST-Benchmark can be freely accessed via https://github.com/mahmoodlab/hest.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# フェアフェデレーション学習のための半可変化

Semi-Variance Reduction for Fair Federated Learning ( http://arxiv.org/abs/2406.16193v1 )

ライセンス: Link先を確認
Saber Malekmohammadi, (参考訳) フェデレートラーニング(FL)システムにおける公正性の確保、すなわち、参加する多種多様なクライアントすべてにとって満足なパフォーマンスは、重要かつ困難な問題である。 文献には複数のフェアFLアルゴリズムがあり、フェアネスを提供するのに比較的成功した。 しかしながら、これらのアルゴリズムは、パフォーマンスを改善するために最悪のクライアントの損失関数を強調しており、しばしば良好なパフォーマンスのクライアントを抑圧する。 結果として、彼らは通常、公平性を達成するためにシステム全体の平均パフォーマンスを犠牲にします。 そこで本研究では,金融におけるリスクモデリング手法である平均値と平均値の2つに着想を得て,新しいフェアFLアルゴリズムである変動低減法(VRed)と半値低減法(SemiVRed)を提案し,検討した。 VRedは、クライアントの損失関数間の平等を奨励し、分散を罰する。 対照的に、SemiVRedは、最悪のクライアントの損失関数と平均損失との差を罰する。 複数のビジョンと言語データセットに関する広範な実験を通して、SemiVRedは不均一なデータ分布を持つシナリオにおいてSoTAのパフォーマンスを達成し、公平性とシステム全体の平均性能を向上することを示した。

Ensuring fairness in a Federated Learning (FL) system, i.e., a satisfactory performance for all of the participating diverse clients, is an important and challenging problem. There are multiple fair FL algorithms in the literature, which have been relatively successful in providing fairness. However, these algorithms mostly emphasize on the loss functions of worst-off clients to improve their performance, which often results in the suppression of well-performing ones. As a consequence, they usually sacrifice the system's overall average performance for achieving fairness. Motivated by this and inspired by two well-known risk modeling methods in Finance, Mean-Variance and Mean-Semi-Variance, we propose and study two new fair FL algorithms, Variance Reduction (VRed) and Semi-Variance Reduction (SemiVRed). VRed encourages equality between clients' loss functions by penalizing their variance. In contrast, SemiVRed penalizes the discrepancy of only the worst-off clients' loss functions from the average loss. Through extensive experiments on multiple vision and language datasets, we show that, SemiVRed achieves SoTA performance in scenarios with heterogeneous data distributions and improves both fairness and system overall average performance.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# FPGAにおける信頼性不確実性予測のためのハードウェア対応ニューラルドロップアウト探索

Hardware-Aware Neural Dropout Search for Reliable Uncertainty Prediction on FPGA ( http://arxiv.org/abs/2406.16198v1 )

ライセンス: Link先を確認
Zehuan Zhang, Hongxiang Fan, Hao Mark Chen, Lukasz Dudziak, Wayne Luk, (参考訳) 重要な意思決定のための人工知能(AI)の展開の増加は、信頼に値するAIの必要性を増幅する。 この分野では、ドロップアウトベースのベイズニューラルネットワーク(BayesNN)が顕著であり、確実な不確実性推定を提供する。 その効果にもかかわらず、既存のドロップアウトベースのベイズNNは、通常、異なる層にまたがる均一なドロップアウト設計を採用しており、亜最適性能をもたらす。 さらに、多様なアプリケーションが最適なパフォーマンスのために調整されたドロップアウト戦略を必要とするため、様々なアプリケーションのために手動でドロップアウト設定を最適化するのは、エラーが原因であり、労力がかかる。 これらの課題に対処するため,本研究では,降車ベースベイズNNとFPGA上でのハードウェア実装の両方を自動最適化するニューラルドロップアウト検索フレームワークを提案する。 我々は、効率的なドロップアウト最適化のために、進化的アルゴリズムを用いてワンショットのスーパーネットトレーニングを利用する。 不均一なドロップアウト構成を持つドロップアウトベースベイズNNの自動設計を可能にするために,レイヤワイドドロップアウト検索空間が導入された。 大規模な実験により,提案するフレームワークがParetoフロンティアの設計構成を効果的に発見できることが実証された。 手動で設計したGPU上のBayesNNと比較して、我々の検索手法は最大33倍のエネルギー効率を実現するFPGA設計を生成する。 ベイズNNの最先端FPGA設計と比較すると,提案手法の解はアルゴリズムの性能とエネルギー効率を向上させることができる。

The increasing deployment of artificial intelligence (AI) for critical decision-making amplifies the necessity for trustworthy AI, where uncertainty estimation plays a pivotal role in ensuring trustworthiness. Dropout-based Bayesian Neural Networks (BayesNNs) are prominent in this field, offering reliable uncertainty estimates. Despite their effectiveness, existing dropout-based BayesNNs typically employ a uniform dropout design across different layers, leading to suboptimal performance. Moreover, as diverse applications require tailored dropout strategies for optimal performance, manually optimizing dropout configurations for various applications is both error-prone and labor-intensive. To address these challenges, this paper proposes a novel neural dropout search framework that automatically optimizes both the dropout-based BayesNNs and their hardware implementations on FPGA. We leverage one-shot supernet training with an evolutionary algorithm for efficient dropout optimization. A layer-wise dropout search space is introduced to enable the automatic design of dropout-based BayesNNs with heterogeneous dropout configurations. Extensive experiments demonstrate that our proposed framework can effectively find design configurations on the Pareto frontier. Compared to manually-designed dropout-based BayesNNs on GPU, our search approach produces FPGA designs that can achieve up to 33X higher energy efficiency. Compared to state-of-the-art FPGA designs of BayesNN, the solutions from our approach can achieve higher algorithmic performance and energy efficiency.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# 経済複雑性を再解釈する--コクラスタリングアプローチ

Reinterpreting Economic Complexity: A co-clustering approach ( http://arxiv.org/abs/2406.16199v1 )

ライセンス: Link先を確認
Carlo Bottai, Jacopo Di Iorio, Martina Iori, (参考訳) 経済成長は、国の組織的・技術的能力の蓄積による。 輸出品のバスケットからこれらの能力を計測する試みとして導入された経済・製品複合指数は、経済発展、イノベーションの地理、産業政策の研究に人気を博している。 この受理にもかかわらず、これらの指標の解釈は困難であることが判明した。 元々の反射法は、国と製品メトリクスの直接的な相互接続を示唆していたが、経済・製品複雑度指数は、それぞれ類似国または類似商品を別々に分類するスペクトルクラスタリングアルゴリズムから導かれることが証明されている。 経済と製品の複雑さに対するこの最近のアプローチは、元のアプローチと矛盾し、国と製品を別々に扱う。 しかし,従来の指標の解釈と近年のスペクトルクラスタリングの進化に基づいて,これらの指標が類似国と商品の2つの共クラスタを同時に同定できることが示されている。 この視点は、指標のスペクトルクラスタリング解釈を、元の反射法解釈と照合する。 国と製品の複雑さの間にしばしば無視される親密な関係を証明することによって、このアプローチは、経済におけるこれらの指標の適用範囲を広げつつ、経済発展を決定するための選択された製品セットの役割を強調する。

Economic growth results from countries' accumulation of organizational and technological capabilities. The Economic and Product Complexity Indices, introduced as an attempt to measure these capabilities from a country's basket of exported products, have become popular to study economic development, the geography of innovation, and industrial policies. Despite this reception, the interpretation of these indicators proved difficult. Although the original Method of Reflections suggested a direct interconnection between country and product metrics, it has been proved that the Economic and Product Complexity Indices result from a spectral clustering algorithm that separately groups similar countries or similar products, respectively. This recent approach to economic and product complexity conflicts with the original one and treats separately countries and products. However, building on previous interpretations of the indices and the recent evolution in spectral clustering, we show that these indices simultaneously identify two co-clusters of similar countries and products. This viewpoint reconciles the spectral clustering interpretation of the indices with the original Method of Reflections interpretation. By proving the often neglected intimate relationship between country and product complexity, this approach emphasizes the role of a selected set of products in determining economic development while extending the range of applications of these indicators in economics.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# ニューラルネットワークの敵対的脆弱性の謎を解き明かす

Towards unlocking the mystery of adversarial fragility of neural networks ( http://arxiv.org/abs/2406.16200v1 )

ライセンス: Link先を確認
Jingchao Gao, Raghu Mudumbai, Xiaodong Wu, Jirong Yi, Catherine Xu, Hui Xie, Weiyu Xu, (参考訳) 本稿では,分類タスクに対するディープニューラルネットワークの対角的ロバスト性について検討する。 分類アルゴリズムの出力を変えることができる最小の加法摂動を考察する。 本稿では,ディープニューラルネットワークの逆方向の脆弱性を行列理論で説明して分類する。 特に,ニューラルネットワークの対角ロバスト性は,入力次元が$d$になるにつれて低下する可能性が示唆された。 解析学的に、ニューラルネットワークの対向ロバスト性は1/\sqrt{d}$でしかあり得ない。 我々の行列理論的説明は、ニューラルネットワークの対向的脆弱性に関する、以前の情報理論的特徴圧縮に基づく説明と一致している。

In this paper, we study the adversarial robustness of deep neural networks for classification tasks. We look at the smallest magnitude of possible additive perturbations that can change the output of a classification algorithm. We provide a matrix-theoretic explanation of the adversarial fragility of deep neural network for classification. In particular, our theoretical results show that neural network's adversarial robustness can degrade as the input dimension $d$ increases. Analytically we show that neural networks' adversarial robustness can be only $1/\sqrt{d}$ of the best possible adversarial robustness. Our matrix-theoretic explanation is consistent with an earlier information-theoretic feature-compression-based explanation for the adversarial fragility of neural networks.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# ブラインド・ベースライン、ファンデーションモデルでメンバーシップ推論攻撃に勝利

Blind Baselines Beat Membership Inference Attacks for Foundation Models ( http://arxiv.org/abs/2406.16201v1 )

ライセンス: Link先を確認
Debeshee Das, Jie Zhang, Florian Tramèr, (参考訳) メンバーシップ推論(MI)攻撃は、データサンプルが機械学習モデルのトレーニングに使用されたかどうかを判断しようとする。 未知のWebデータに基づいてトレーニングされた基礎モデルに対して、MI攻撃は著作権のあるトレーニング材料の検出、テストセットの汚染の測定、あるいは監査マシンのアンラーニングに使用できる。 残念ながら、異なる分布からメンバーや非メンバーをサンプリングするため、基礎モデルに対するMI攻撃の評価には欠陥がある。 公開された8つのMI評価データセットについて、トレーニングされたモデルを見ることなくメンバと非メンバの分布を区別するブラインドアタックが、最先端のMIアタックを上回っていることを示す。 既存の評価結果からは,基礎モデルのトレーニングデータのメンバシップリークについては何も示されていない。

Membership inference (MI) attacks try to determine if a data sample was used to train a machine learning model. For foundation models trained on unknown Web data, MI attacks can be used to detect copyrighted training materials, measure test set contamination, or audit machine unlearning. Unfortunately, we find that evaluations of MI attacks for foundation models are flawed, because they sample members and non-members from different distributions. For 8 published MI evaluation datasets, we show that blind attacks -- that distinguish the member and non-member distributions without looking at any trained model -- outperform state-of-the-art MI attacks. Existing evaluations thus tell us nothing about membership leakage of a foundation model's training data.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# マルチパーティイトベルの不等式に対するチレルソンの精製境界

Refined Tsirelson Bounds on Multipartite Bell Inequalities ( http://arxiv.org/abs/2406.16202v1 )

ライセンス: Link先を確認
Rain Lenny, Dana Ben Porath, Eliahu Cohen, (参考訳) その重要性にも拘わらず、多部量子相関を特徴付ける課題が進行中である。 Svetlichny と Mermin-Klyshko (MK) の不等式は、多重粒子系における相関に制約を与える。 この研究では、基本的制約から生じる不等式から導かれるこれらの不等式に対する洗練されたツィレルソン(量子)境界が、量子不確実性と密接に類似している。 元の、既知の不等式とは異なり、我々の境界は単一の定数点ではなく、特定の部分系の相関に依存する(スヴェットリキー作用素上の境界に対する局所的相関とMK作用素上の境界に対する二部相関)。 我々は、我々の境界が既知の境界よりも厳密な具体的な例を分析する。

Despite their importance, there is an on-going challenge characterizing multipartite quantum correlations. The Svetlichny and Mermin-Klyshko (MK) inequalities present constraints on correlations in multipartite systems, a violation of which allows to classify the correlations by using the non-separability property. In this work we present refined Tsirelson (quantum) bounds on these inequalities, derived from inequalities stemming from a fundamental constraint, tightly akin to quantum uncertainty. Unlike the original, known inequalities, our bounds do not consist of a single constant point but rather depend on correlations in specific subsystems (being local correlations for our bounds on the Svetlichny operators and bipartite correlations for our bounds on the MK operators). We analyze concrete examples in which our bounds are strictly tighter than the known bounds.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# LLMの分類性能は誇張されている

LLMs' Classification Performance is Overclaimed ( http://arxiv.org/abs/2406.16203v1 )

ライセンス: Link先を確認
Hanzi Xu, Renze Lou, Jiangshu Du, Vahid Mahzoon, Elmira Talebianaraki, Zhuoan Zhou, Elizabeth Garrison, Slobodan Vucetic, Wenpeng Yin, (参考訳) AIや人間のために設計された多くの分類タスクでは、金のラベルはデフォルトでラベル空間に含まれており、しばしば「次のどれが正しいか」と表される。 この標準設定は伝統的に、日常的な分類タスクにおいて高度なAI、特に最高パフォーマンスのLarge Language Model(LLM)の強いパフォーマンスを強調してきた。 しかし、ゴールドラベルが意図的にラベル空間から除外された場合、LLMがまだ使用可能なラベル候補から選び出そうとしていることが明らかになる。 LLMは、分類タスクの本質を理解する上で、その知性を真に示しているか? そこで本研究では,LLMの認識性能が過大評価されていることを論じ,オープンソースLLMとオープンソースLLMの両方を代表的分類タスクで評価した。 この論文は3倍の貢献をする。 一 私たちの知る限り、金のラベルが存在しないときの分類作業における LLM の限界を特定するのは、これが初めてです。 我々は、このタスクをClassify-w/o-Goldと定義し、LLMの新しいテストベッドとして提案する。 ii)既存の2つの分類タスクと1つの新しいタスクからなるベンチマーク「ノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウ 三 この研究は、金ラベルの有無にかかわらず、分類作業におけるLCMのパフォーマンスを評価する新たな評価指標であるOmniAccuracyを定義し、提唱するものである。

In many classification tasks designed for AI or human to solve, gold labels are typically included within the label space by default, often posed as "which of the following is correct?" This standard setup has traditionally highlighted the strong performance of advanced AI, particularly top-performing Large Language Models (LLMs), in routine classification tasks. However, when the gold label is intentionally excluded from the label space, it becomes evident that LLMs still attempt to select from the available label candidates, even when none are correct. This raises a pivotal question: Do LLMs truly demonstrate their intelligence in understanding the essence of classification tasks? In this study, we evaluate both closed-source and open-source LLMs across representative classification tasks, arguing that the perceived performance of LLMs is overstated due to their inability to exhibit the expected comprehension of the task. This paper makes a threefold contribution: i) To our knowledge, this is the first work to identify the limitations of LLMs in classification tasks when gold labels are absent. We define this task as Classify-w/o-Gold and propose it as a new testbed for LLMs. ii) We introduce a benchmark, Know-No, comprising two existing classification tasks and one new task, to evaluate Classify-w/o-Gold. iii) This work defines and advocates for a new evaluation metric, OmniAccuracy, which assesses LLMs' performance in classification tasks both when gold labels are present and absent.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# フレームを分割する:ビジュアルオーバーラップ予測による画像検索

Breaking the Frame: Image Retrieval by Visual Overlap Prediction ( http://arxiv.org/abs/2406.16204v1 )

ライセンス: Link先を確認
Tong Wei, Philipp Lindenberger, Jiri Matas, Daniel Barath, (参考訳) 本稿では,グローバルな画像の類似性や局所的な特徴に伝統的な依存から,画像重なりの予測に移行することで,隠蔽や複雑なシーンを効果的に解決する新しい視覚的位置認識手法 VOP を提案する。 提案手法は,高コストな特徴検出とマッチングを必要とせず,可視画像区間の識別を可能にする。 本研究では,Vision Transformerのバックボーンによるパッチレベルの埋め込みとパッチ・ツー・パッチ対応の確立に焦点をあてて,潜在的データベース画像の重複点評価のための投票機構を用いて,難解なシナリオにおけるニュアンス付き画像検索指標を提供する。 VOPは、検索した画像ペアの相対的なポーズ推定とローカライズ結果が、多数の大規模、実世界のデータセットの最先端ベースラインよりも正確になる。 コードはhttps://github.com/weitong8591/vop.comで公開されている。

We propose a novel visual place recognition approach, VOP, that efficiently addresses occlusions and complex scenes by shifting from traditional reliance on global image similarities and local features to image overlap prediction. The proposed method enables the identification of visible image sections without requiring expensive feature detection and matching. By focusing on obtaining patch-level embeddings by a Vision Transformer backbone and establishing patch-to-patch correspondences, our approach uses a voting mechanism to assess overlap scores for potential database images, thereby providing a nuanced image retrieval metric in challenging scenarios. VOP leads to more accurate relative pose estimation and localization results on the retrieved image pairs than state-of-the-art baselines on a number of large-scale, real-world datasets. The code is available at https://github.com/weitong8591/vop.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# ゼロ膨らませたツイーディ、キャットブースで木を膨らませる-保険の損失分析

Zero-Inflated Tweedie Boosted Trees with CatBoost for Insurance Loss Analytics ( http://arxiv.org/abs/2406.16206v1 )

ライセンス: Link先を確認
Banghee So, Emiliano A. Valdez, (参考訳) 本稿では,自動車,健康,責任などの各種保険の集合的請求をモデル化する際の限界に対処するため,Tweedie回帰モデルの改良について検討する。 伝統的なツイーディーモデルは、請求の確率と大きさを捉えるのに効果的であるが、通常、ゼロ請求の大量発生を正確に表すには不十分である。 我々の推奨するアプローチは、予測精度を高めるために反復的なプロセスを活用するのに役立つため、0-claimプロセスの洗練されたモデリングとブースティング手法の統合である。 この反復による学習アルゴリズムの本質的にの減速にもかかわらず、XGBoost、LightGBM、CatBoostといったパラメータの正確なチューニングを支援する効率的な実装技術がいくつか出現している。 それにもかかわらず、私たちはカテゴリやその他の特殊なデータを効果的に扱う効率的なブースティングアプローチであるCatBoostを使うことを選択しました。 本論文の中核的な貢献は、ゼロクレームに対する別個のモデリングと、ゼロの膨らみ確率が平均パラメータの関数であることを仮定して、CatBoostフレームワーク内でツリーベースのブースティングアンサンブル手法の適用である。 Tweedieモデルの有効性を保険テレマティクス・データセットの適用により実証し,構成的特徴変数のさらなる複雑さを示す。 モデル化の結果, モデル性能が著しく向上し, 保険請求分析に適した精度の予測を行う可能性が示された。

In this paper, we explore advanced modifications to the Tweedie regression model in order to address its limitations in modeling aggregate claims for various types of insurance such as automobile, health, and liability. Traditional Tweedie models, while effective in capturing the probability and magnitude of claims, usually fall short in accurately representing the large incidence of zero claims. Our recommended approach involves a refined modeling of the zero-claim process, together with the integration of boosting methods in order to help leverage an iterative process to enhance predictive accuracy. Despite the inherent slowdown in learning algorithms due to this iteration, several efficient implementation techniques that also help precise tuning of parameter like XGBoost, LightGBM, and CatBoost have emerged. Nonetheless, we chose to utilize CatBoost, a efficient boosting approach that effectively handles categorical and other special types of data. The core contribution of our paper is the assembly of separate modeling for zero claims and the application of tree-based boosting ensemble methods within a CatBoost framework, assuming that the inflated probability of zero is a function of the mean parameter. The efficacy of our enhanced Tweedie model is demonstrated through the application of an insurance telematics dataset, which presents the additional complexity of compositional feature variables. Our modeling results reveal a marked improvement in model performance, showcasing its potential to deliver more accurate predictions suitable for insurance claim analytics.
翻訳日:2024-06-25 18:34:57 公開日:2024-06-23
# バイアスを超えて考える:多面的影響の分析とジェンダー労働におけるAIの影響

Thinking beyond Bias: Analyzing Multifaceted Impacts and Implications of AI on Gendered Labour ( http://arxiv.org/abs/2406.16207v1 )

ライセンス: Link先を確認
Satyam Mohla, Bishnupriya Bagh, Anupam Guha, (参考訳) 多面的技術とグローバル生産における重要な役割を持つ人工知能は、特にジェンダー労働におけるジェンダーダイナミクスに大きな影響を及ぼす。 本稿では,AIが男女労働に広範な影響を与えることの必要性を強調する。 私たちは、AI産業がより大きな経済構造に不可欠な要素であるということが、仕事の性質をいかに変えているかに注意を払っています。 プラットフォームベースの作業モデルの普及と、特に女性に対する仕事の不安定化が進んでいる。 重要な懸念事項は、デジタル労働力における有意義な関与から女性を除外することである。 この問題はAI研究コミュニティからの緊急の注意をしばしば見落としていた。 ジェンダー労働におけるAIの多面的役割を理解するには、経済変革とそのジェンダー・エクイティに対する影響を精査する必要がある。 本論文は,これらの交差点に光を当てることで,深い議論を刺激し,AIによる変換によってアクセントされる性別格差を緩和することを目的とした目標行動を促進することを目的とする。

Artificial Intelligence with its multifaceted technologies and integral role in global production significantly impacts gender dynamics particularly in gendered labor. This paper emphasizes the need to explore AIs broader impacts on gendered labor beyond its current emphasis on the generation and perpetuation of epistemic biases. We draw attention to how the AI industry as an integral component of the larger economic structure is transforming the nature of work. It is expanding the prevalence of platform based work models and exacerbating job insecurity particularly for women. Of critical concern is the increasing exclusion of women from meaningful engagement in the digital labor force. This issue often overlooked demands urgent attention from the AI research community. Understanding AIs multifaceted role in gendered labor requires a nuanced examination of economic transformation and its implications for gender equity. By shedding light on these intersections this paper aims to stimulate in depth discussions and catalyze targeted actions aimed at mitigating the gender disparities accentuated by AI driven transformations.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# 一貫性拡散モデルにおける確率的統計率

Provable Statistical Rates for Consistency Diffusion Models ( http://arxiv.org/abs/2406.16213v1 )

ライセンス: Link先を確認
Zehao Dou, Minshuo Chen, Mengdi Wang, Zhuoran Yang, (参考訳) 拡散モデルはコンピュータビジョンやオーディオ生成など、様々なアプリケーション領域に革命をもたらした。 最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。 その結果, サンプル生成速度は, 品質を損なうことなく大幅に向上することがわかった。 本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。 本分析は,バニラ拡散モデルと一致する一貫性モデルに対するワッサーシュタイン距離に基づく統計的推定率を求める。 さらに, 蒸留法と分離法の両方による整合性モデルのトレーニングも実施し, その基礎となる利点を実証した。

Diffusion models have revolutionized various application domains, including computer vision and audio generation. Despite the state-of-the-art performance, diffusion models are known for their slow sample generation due to the extensive number of steps involved. In response, consistency models have been developed to merge multiple steps in the sampling process, thereby significantly boosting the speed of sample generation without compromising quality. This paper contributes towards the first statistical theory for consistency models, formulating their training as a distribution discrepancy minimization problem. Our analysis yields statistical estimation rates based on the Wasserstein distance for consistency models, matching those of vanilla diffusion models. Additionally, our results encompass the training of consistency models through both distillation and isolation methods, demystifying their underlying advantage.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# Traceが新しいAutoDiff -- 計算ワークフローの効率的な最適化をアンロックする

Trace is the New AutoDiff -- Unlocking Efficient Optimization of Computational Workflows ( http://arxiv.org/abs/2406.16218v1 )

ライセンス: Link先を確認
Ching-An Cheng, Allen Nie, Adith Swaminathan, (参考訳) 我々は、コーディングアシスタント、ロボット、コピロなどのAIシステムの設計と更新を自動化することによって動機付けられた最適化問題のクラスについて研究する。 本稿では、バックプロパゲーションの一般化に基づいて、AIシステムの計算ワークフローをニューラルネットワークに似たグラフとして扱うエンドツーエンド最適化フレームワークであるTraceを提案する。 計算ワークフローの最適化には、リッチなフィードバック(コンソール出力やユーザの応答など)、異種パラメータ(例えばプロンプト、ハイパーパラメータ、コード)、複雑な目的(スコアの最大化に加えて)が含まれる。 さらに、その計算グラフは入力とパラメータによって動的に変化する。 我々は、反復最適化の新しい数学的設定、Trace Oracle (OPTO) を用いて、これらのプロパティをキャプチャして抽象化し、多くのドメインで機能する最適化を設計する。 OPTOでは、オプティマイザは計算された出力に対するフィードバックとともに実行トレースを受け取り、パラメータを反復的に更新する。 Traceは実際にOPTOを実装するツールです。 TraceにはPythonインターフェースがあり、PyTorchのようなインターフェイスを使って計算ワークフローをOPTOインスタンスに変換する。 Trace を用いて,OPTO 問題を効果的に解決できる汎用 LLM ベースのオプティマイザ OptoPrime を開発した。 実証実験では,OptoPrimeは1次数値最適化,プロンプト最適化,ハイパーパラメータチューニング,ロボットコントローラ設計,コードデバッギングなどが可能であり,各ドメインの特別なオプティマイザと競合することが多い。 Trace、OptoPrime、OPTOフレームワークは、様々な種類のフィードバックを使って自動的に適応するインタラクティブエージェントの次世代を可能にすると信じています。 ウェブサイト:https://microsoft.github.io/Trace

We study a class of optimization problems motivated by automating the design and update of AI systems like coding assistants, robots, and copilots. We propose an end-to-end optimization framework, Trace, which treats the computational workflow of an AI system as a graph akin to neural networks, based on a generalization of back-propagation. Optimization of computational workflows often involves rich feedback (e.g. console output or user's responses), heterogeneous parameters (e.g. prompts, hyper-parameters, codes), and intricate objectives (beyond maximizing a score). Moreover, its computation graph can change dynamically with the inputs and parameters. We frame a new mathematical setup of iterative optimization, Optimization with Trace Oracle (OPTO), to capture and abstract these properties so as to design optimizers that work across many domains. In OPTO, an optimizer receives an execution trace along with feedback on the computed output and updates parameters iteratively. Trace is the tool to implement OPTO in practice. Trace has a Python interface that efficiently converts a computational workflow into an OPTO instance using a PyTorch-like interface. Using Trace, we develop a general-purpose LLM-based optimizer called OptoPrime that can effectively solve OPTO problems. In empirical studies, we find that OptoPrime is capable of first-order numerical optimization, prompt optimization, hyper-parameter tuning, robot controller design, code debugging, etc., and is often competitive with specialized optimizers for each domain. We believe that Trace, OptoPrime and the OPTO framework will enable the next generation of interactive agents that automatically adapt using various kinds of feedback. Website: https://microsoft.github.io/Trace
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# ブロックチェーンロールアップのための形式的基盤を目指して

Towards a Formal Foundation for Blockchain Rollups ( http://arxiv.org/abs/2406.16219v1 )

ライセンス: Link先を確認
Stefanos Chaliasos, Denis Firsov, Benjamin Livshits, (参考訳) BitcoinやEthereumのようなブロックチェーンはデジタルトランザクションに革命をもたらしたが、スケーラビリティの問題は続いている。 検証ロールアップ(ZK-Rollups)のようなレイヤ2ソリューションは、トランザクションをオフチェーンで処理し、メインチェーンで検証することで、これらの課題に対処することを目指している。 しかし、セキュリティと検閲に対する抵抗、特にレイヤ2の集中管理とレイヤ1の契約を通じてこれらのプロパティを強制するための不十分なメカニズムに関する懸念は残る。 この研究は、アロイ仕様言語を使用して、強制トランザクションキュー、安全なブラックリスト、アップグレード可能性を含む重要なレイヤ2の機能を調べ、設計する形式的な分析を提示している。 この分析を通じて,現在のメカニズムの潜在的な脆弱性を特定し,セキュリティと検閲に対する抵抗を強化するための強化されたモデルを提案し,ロールアップのセキュリティのための新しい標準を設定した。

Blockchains like Bitcoin and Ethereum have revolutionized digital transactions, yet scalability issues persist. Layer 2 solutions, such as validity proof Rollups (ZK-Rollups), aim to address these challenges by processing transactions off-chain and validating them on the main chain. However, concerns remain about security and censorship resistance, particularly regarding centralized control in Layer 2 and inadequate mechanisms for enforcing these properties through Layer 1 contracts. This work presents a formal analysis using the Alloy specification language to examine and design key Layer 2 functionalities, including forced transaction queues, safe blacklisting, and upgradeability. Through this analysis, we identify potential vulnerabilities in current mechanisms and propose enhanced models to strengthen security and censorship resistance, setting new standards for the security of rollups.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# 機械学習コンポーネントのための実行時安全モニタの学習

Learning Run-time Safety Monitors for Machine Learning Components ( http://arxiv.org/abs/2406.16220v1 )

ライセンス: Link先を確認
Ozan Vardal, Richard Hawkins, Colin Paterson, Chiara Picardi, Daniel Omeiza, Lars Kunze, Ibrahim Habli, (参考訳) 自律システム(AS)の一部として重要なタスクを実行するために使用される機械学習コンポーネントについては、デプロイ後の変更(システムの運用環境の変化など)に直面してモデルの保証を維持することが重要である。 重要な部分は、実行時に(変更の結果)モデルのパフォーマンスがシステムに安全リスクをもたらすことを監視できることである。 これは、実行時に真理が利用できない場合、特に難しい課題である。 本稿では、劣化データセットと機械学習を用いて、MLコンポーネントの安全モニタを作成するプロセスを紹介する。 作成した安全モニタは、MLコンポーネントと並行してASにデプロイされ、モデル出力に関連する安全リスクの予測を提供する。 我々は,公開速度標識データセットを用いた実験により,提案手法の有効性を実証する。

For machine learning components used as part of autonomous systems (AS) in carrying out critical tasks it is crucial that assurance of the models can be maintained in the face of post-deployment changes (such as changes in the operating environment of the system). A critical part of this is to be able to monitor when the performance of the model at runtime (as a result of changes) poses a safety risk to the system. This is a particularly difficult challenge when ground truth is unavailable at runtime. In this paper we introduce a process for creating safety monitors for ML components through the use of degraded datasets and machine learning. The safety monitor that is created is deployed to the AS in parallel to the ML component to provide a prediction of the safety risk associated with the model output. We demonstrate the viability of our approach through some initial experiments using publicly available speed sign datasets.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# F-FOMAML: プロキシデータを用いたピーク時需要予測のためのGNN強化メタラーニング

F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data ( http://arxiv.org/abs/2406.16221v1 )

ライセンス: Link先を確認
Zexing Xu, Linjun Zhang, Sitan Yang, Rasoul Etesami, Hanghang Tong, Huan Zhang, Jiawei Han, (参考訳) 需要予測は電子商取引や小売業にとって重要な課題であり、特に高額な販売イベントでは重要な課題である。 しかし、これらのピーク期からの履歴データの入手が限られていることは、従来の予測手法にとって大きな課題となっている。 本稿では,グラフニューラルネットワーク(GNN)に基づく予測モデルから学習した特徴に富み,ピーク時の需要を予測するために,非ピーク期間における類似エンティティからの潜在的な販売パターンを反映した戦略的選択されたプロキシデータを活用する手法を提案する。 我々は,要求予測をメタラーニング問題として定式化し,非ピーク周期のプロキシデータとGNN生成メタデータを利用して特徴固有層パラメータを学習し,ピークイベントに対する需要予測に適応するF-FOMAMLアルゴリズムを開発した。 理論的には、タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化の改善が達成される。 大規模産業データセットの実証評価は、我々のアプローチの優位性を示している。 従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。

Demand prediction is a crucial task for e-commerce and physical retail businesses, especially during high-stake sales events. However, the limited availability of historical data from these peak periods poses a significant challenge for traditional forecasting methods. In this paper, we propose a novel approach that leverages strategically chosen proxy data reflective of potential sales patterns from similar entities during non-peak periods, enriched by features learned from a graph neural networks (GNNs)-based forecasting model, to predict demand during peak events. We formulate the demand prediction as a meta-learning problem and develop the Feature-based First-Order Model-Agnostic Meta-Learning (F-FOMAML) algorithm that leverages proxy data from non-peak periods and GNN-generated relational metadata to learn feature-specific layer parameters, thereby adapting to demand forecasts for peak events. Theoretically, we show that by considering domain similarities through task-specific metadata, our model achieves improved generalization, where the excess risk decreases as the number of training tasks increases. Empirical evaluations on large-scale industrial datasets demonstrate the superiority of our approach. Compared to existing state-of-the-art models, our method demonstrates a notable improvement in demand prediction accuracy, reducing the Mean Absolute Error by 26.24% on an internal vending machine dataset and by 1.04% on the publicly accessible JD.com dataset.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# 混合戦略学習による連続出力個人性検出モデル

Continuous Output Personality Detection Models via Mixed Strategy Training ( http://arxiv.org/abs/2406.16223v1 )

ライセンス: Link先を確認
Rong Wang, Kun Sun, (参考訳) 伝統的なパーソナリティモデルでは、バイナリ結果しか得られない。 本稿では、混合戦略を用いて、連続的な出力値を生成する人格検出モデルを訓練するための新しいアプローチを提案する。 Redditコメントの広範囲なパーソナリティラベルを含むPANDORAデータセットを活用することで、Big Fiveのパーソナリティ特性を高精度に予測するモデルを開発した。 我々のアプローチでは、マルチ層パーセプトロン(MLP)統合やハイパーパラメータチューニングなど、さまざまな戦略でRoBERTaベースモデルを微調整する。 その結果、我々のモデルは従来の二項分類法を著しく上回り、人格特性の正確な連続出力を提供し、それによってAI、心理学、人的資源、マーケティング、医療分野の応用性を高めた。

The traditional personality models only yield binary results. This paper presents a novel approach for training personality detection models that produce continuous output values, using mixed strategies. By leveraging the PANDORA dataset, which includes extensive personality labeling of Reddit comments, we developed models that predict the Big Five personality traits with high accuracy. Our approach involves fine-tuning a RoBERTa-base model with various strategies such as Multi-Layer Perceptron (MLP) integration, and hyperparameter tuning. The results demonstrate that our models significantly outperform traditional binary classification methods, offering precise continuous outputs for personality traits, thus enhancing applications in AI, psychology, human resources, marketing and health care fields.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# テキストからテストへ:材料科学機器のためのAI生成制御ソフトウェア

From Text to Test: AI-Generated Control Software for Materials Science Instruments ( http://arxiv.org/abs/2406.16224v1 )

ライセンス: Link先を確認
Davi M Fébba, Kingsley Egbo, William A. Callahan, Andriy Zakutayev, (参考訳) 大規模言語モデル(LLM)は、化学と材料科学の風景を変えつつある。 LLM加速実験の最近の例では、文献から合成レシピを解析する仮想アシスタントや、抽出した知識を用いて合成とキャラクタリゼーションをガイドする。 これらの進歩にもかかわらず、それらの応用は自動化された機器と制御ソフトウェアを持つ研究室に制限されており、多くの材料は手動のプロセスに依存している。 ここでは,ChatGPT-4を用いたKeithley 2400電気源測定ユニットのためのPythonベースの制御モジュールの迅速な展開を実演する。 反復的改善により,人間の介入を最小限に抑え,効果的な楽器管理を実現した。 さらに、ユーザフレンドリーなグラフィカルユーザインタフェース(GUI)が作成され、すべての機器制御をインタラクティブなスクリーン要素に効果的にリンクする。 最後に,このAIを用いた機器制御ソフトウェアを高性能確率最適化アルゴリズムに統合し,電流電圧(IV)測定データから半導体電荷輸送機構に関連する電子機器パラメータの迅速かつ自動抽出を容易にする。 この統合により、IV曲線測定を用いた半導体デバイスの特性評価と解析のための包括的なオープンソースツールキットが実現された。 Pt/Cr<sub>2</sub>O<sub>3</sub>/\b{eta}-Ga<sub>2</sub>O<sub>3</sub>ヘテロ接合ダイオードからIVデータを取得し,解析し,パラメータ化することにより,これらのツールの応用を実証する。 このアプローチは、LLMと科学調査のための機器の開発の間の強力な相乗効果を浮き彫りにし、材料科学のさらなる加速の道を示す。

Large language models (LLMs) are transforming the landscape of chemistry and materials science. Recent examples of LLM-accelerated experimental research include virtual assistants for parsing synthesis recipes from the literature, or using the extracted knowledge to guide synthesis and characterization. Despite these advancements, their application is constrained to labs with automated instruments and control software, leaving much of materials science reliant on manual processes. Here, we demonstrate the rapid deployment of a Python-based control module for a Keithley 2400 electrical source measure unit using ChatGPT-4. Through iterative refinement, we achieved effective instrument management with minimal human intervention. Additionally, a user-friendly graphical user interface (GUI) was created, effectively linking all instrument controls to interactive screen elements. Finally, we integrated this AI-crafted instrument control software with a high-performance stochastic optimization algorithm to facilitate rapid and automated extraction of electronic device parameters related to semiconductor charge transport mechanisms from current-voltage (IV) measurement data. This integration resulted in a comprehensive open-source toolkit for semiconductor device characterization and analysis using IV curve measurements. We demonstrate the application of these tools by acquiring, analyzing, and parameterizing IV data from a Pt/Cr<sub>2</sub>O<sub>3</sub>/\b{eta}-Ga<sub>2</sub>O<sub>3</sub> heterojunction diode, a novel stack for high-power and high-temperature electronic devices. This approach underscores the powerful synergy between LLMs and the development of instruments for scientific inquiry, showcasing a path for further acceleration in materials science.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# 自動プログラム修復における動的削減手法の有効性について

On The Effectiveness of Dynamic Reduction Techniques in Automated Program Repair ( http://arxiv.org/abs/2406.16225v1 )

ライセンス: Link先を確認
Omar I. Al-Bataineh, (参考訳) 現在の自動プログラム修復(APR)アプローチを使って大規模なバグジープログラムを修復することは、かなりの計算資源を必要とする時間を要する操作である。 本稿では,大規模バグ修正プログラムを効果的に処理するプログラム修復フレームワークについて述べる。 このフレームワークは、プログラムスライシングの形式でプログラムの削減を利用して、バグに関係のないコードの一部を除去し、修正システムの正しいパッチ作成能力に悪影響を及ぼすことなく、修正する。 観察に基づくスライシングは、最近導入された言語に依存しないスライシング技術であり、幅広いアプリケーションにおいて優れた効果を示す。 本研究では,障害局所化ステップ,パッチ生成ステップ,パッチ検証ステップを含む,修復プロセスのすべての側面を改善するために,ORBSをAPRと効果的に統合する方法を示す。 提案した補修フレームワークは、テストスイートの実行コストと、修正中のバグに対応する適切な欠陥文の検索コストを低減し、APRの能力を高める。 広く使用されているDefects4Jデータセットに対する実験結果から,修復品質の劣化を伴わずに,大幅な性能向上が達成できることが判明した。

Repairing a large-scale buggy program using current automated program repair (APR) approaches can be a time-consuming operation that requires significant computational resources. We describe a program repair framework that effectively handles large-scale buggy programs of industrial complexity. The framework exploits program reduction in the form of program slicing to eliminate parts of the code irrelevant to the bug being repaired without adversely affecting the capability of the repair system in producing correct patches. Observation-based slicing is a recently introduced, language-independent slicing technique that shows a good effectiveness in a wide range of applications. In this work, we show how ORBS can be effectively integrated with APR to improve all aspects of the repair process including the fault localization step, patch generation step, and patch validation step. The presented repair framework indeed enhances the capability of APR by reducing the execution cost of a test suite and the search cost for the appropriate faulty statement corresponding to the bug being repair. Our empirical results on the widely used Defects4J dataset reveal that a substantial improvement in performance can be obtained without any degradation in repair quality.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# VICatMix:個別生体データに対する変分ベイズクラスタリングと変分選択

VICatMix: variational Bayesian clustering and variable selection for discrete biomedical data ( http://arxiv.org/abs/2406.16227v1 )

ライセンス: Link先を確認
Paul D. W. Kirk, Jackie Rao, (参考訳) バイオメディカルデータの効果的なクラスタリングは、正確な医療において不可欠であり、患者やサンプルの正確な成層を可能にする。 しかし,「物理データ」を含む高次元分類データの可用性の向上は,計算効率のよいクラスタリングアルゴリズムを必要としている。 分類データのクラスタリング用に設計された変分ベイズ有限混合モデルであるVICatMixを提案する。 トレーニングにおける変分推論(VI)の使用により、モデルは高い精度を維持しながら、効率の面でライバルより優れている。 VICatMixはさらに可変選択を行い、高次元ノイズデータの性能を向上させる。 提案モデルでは, 近似とモデル平均化を組み込んで, VIにおける局所最適性の低下を緩和し, 特徴量とともにクラスタの真の数を推定し, 精度を向上する。 The Cancer Genome Atlas (TCGA) のデータセットへの応用を含め、シミュレーションデータと実世界のデータの両方を用いて、VICatMixの性能を実証し、癌サブタイプとドライバ遺伝子発見にその使用例を示した。 VICatMixの効用を、異なる‘omics’データセットによる統合クラスタ分析で実証し、新しいサブタイプの発見を可能にした。 https://github.com/j-ackierao/VICatMix} では、より高速な計算のために C++ が組み込まれている。

Effective clustering of biomedical data is crucial in precision medicine, enabling accurate stratifiction of patients or samples. However, the growth in availability of high-dimensional categorical data, including `omics data, necessitates computationally efficient clustering algorithms. We present VICatMix, a variational Bayesian finite mixture model designed for the clustering of categorical data. The use of variational inference (VI) in its training allows the model to outperform competitors in term of efficiency, while maintaining high accuracy. VICatMix furthermore performs variable selection, enhancing its performance on high-dimensional, noisy data. The proposed model incorporates summarisation and model averaging to mitigate poor local optima in VI, allowing for improved estimation of the true number of clusters simultaneously with feature saliency. We demonstrate the performance of VICatMix with both simulated and real-world data, including applications to datasets from The Cancer Genome Atlas (TCGA), showing its use in cancer subtyping and driver gene discovery. We demonstrate VICatMix's utility in integrative cluster analysis with different `omics datasets, enabling the discovery of novel subtypes. \textbf{Availability:} VICatMix is freely available as an R package, incorporating C++ for faster computation, at \url{https://github.com/j-ackierao/VICatMix}.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# 大規模言語モデルの多目的言語制御

Multi-Objective Linguistic Control of Large Language Models ( http://arxiv.org/abs/2406.16229v1 )

ライセンス: Link先を確認
Dang Nguyen, Jiuhai Chen, Tianyi Zhou, (参考訳) 大規模言語モデル(LLM)は、多くの挑戦的なベンチマークタスクで突破したにもかかわらず、冗長な応答の生成に傾き、出力複雑性の制御性に欠ける。 本稿では,LLM出力の複数の言語的複雑さをオフザシェルフデータを用いて微調整することにより正確に制御する方法を検討する。 そこで本研究では,マルチコントロールチューニング(MCTune)を提案する。 Alpaca-GPT4およびWizardLMデータセット上でLLaMA2-7Bを微調整する。 提案手法は, LLMの多複素性制御性を大幅に向上するだけでなく, 副次的効果として応答の質を維持・向上することを示した。

Large language models (LLMs), despite their breakthroughs on many challenging benchmark tasks, lean to generate verbose responses and lack the controllability of output complexity, which is usually preferred by human users in practice. In this paper, we study how to precisely control multiple linguistic complexities of LLM output by finetuning using off-the-shelf data. To this end, we propose multi-control tuning (MCTune), which includes multiple linguistic complexity values of ground-truth responses as controls in the input for instruction tuning. We finetune LLaMA2-7B on Alpaca-GPT4 and WizardLM datasets. Evaluations on widely used benchmarks demonstrate that our method does not only improve LLMs' multi-complexity controllability substantially but also retains or even enhances the quality of the responses as a side benefit.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# シームレス適応のための段階的多様性:新しいドメイン増分学習法

Gradual Divergence for Seamless Adaptation: A Novel Domain Incremental Learning Method ( http://arxiv.org/abs/2406.16231v1 )

ライセンス: Link先を確認
Kishaan Jeeveswaran, Elahe Arani, Bahram Zonooz, (参考訳) ドメインインクリメンタルラーニング(ドメインインクリメンタルラーニング、ドメインインクリメンタルラーニング、Domain incremental Learning、DIL)は、現実のシナリオにおいて重要な課題となる。 モデルが新しいタスクに適応するにつれて、学習された表現が変化していく現象を模倣する表現ドリフトは、破滅的な忘れを和らげるのに役立つ。 本研究では,DAREと呼ばれる新しいDIL手法を提案する。 このプロセスは、タスク固有の決定境界を同時に統合しながら、新しいタスクに関連する表現を、以前のタスクのサンプルによって分散された機能空間に徐々に適応させます。 さらに,バッファサンプリングのための新しい手法を導入し,本手法と組み合わせて特徴エンコーダ内の表現ドリフトを低減する方法の有効性を示した。 この貢献により、複数のDILベンチマークにおける破滅的な忘れを効果的に軽減できる。 さらに,本手法はタスク境界における突然の表現のドリフトを防止し,従来のタスクの性能を維持するDILモデルを実現する。

Domain incremental learning (DIL) poses a significant challenge in real-world scenarios, as models need to be sequentially trained on diverse domains over time, all the while avoiding catastrophic forgetting. Mitigating representation drift, which refers to the phenomenon of learned representations undergoing changes as the model adapts to new tasks, can help alleviate catastrophic forgetting. In this study, we propose a novel DIL method named DARE, featuring a three-stage training process: Divergence, Adaptation, and REfinement. This process gradually adapts the representations associated with new tasks into the feature space spanned by samples from previous tasks, simultaneously integrating task-specific decision boundaries. Additionally, we introduce a novel strategy for buffer sampling and demonstrate the effectiveness of our proposed method, combined with this sampling strategy, in reducing representation drift within the feature encoder. This contribution effectively alleviates catastrophic forgetting across multiple DIL benchmarks. Furthermore, our approach prevents sudden representation drift at task boundaries, resulting in a well-calibrated DIL model that maintains the performance on previous tasks.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# 多目的最適化のためのヤコビアン Descent

Jacobian Descent for Multi-Objective Optimization ( http://arxiv.org/abs/2406.16232v1 )

ライセンス: Link先を確認
Pierre Quinton, Valérian Rey, (参考訳) 多くの最適化問題は本質的に多目的である。 それらの問題に対処するため、ベクトル値関数に対する勾配降下の直接一般化であるヤコビアン降下(JD)を定式化する。 このアルゴリズムの各ステップは、目的ごとの1つの勾配からなるヤコビ行列に依存する。 この行列を更新ベクタに還元するアグリゲータは、JDを特徴付ける。 マルチタスク学習の文献には、既に様々なアグリゲータが含まれているが、それらは自然の性質を欠いていることが多い。 特に、更新はいかなる目的とも矛盾せず、各勾配の基準に比例してスケールすべきである。 これを満たすために特別に設計された新しいアグリゲータを提案する。 目的間の衝突を強調することで、メソッドの直接的な応用を強調します。 最も注目すべきは、学習パラダイムであるインスタンスワイドリスク最小化(IWRM)の導入である。 単純な画像分類タスクでは、IWRMは平均損失の直接最小化よりも有望な結果を示す。 これらの実験におけるアグリゲータの性能も理論的な知見を裏付けるものである。 最後に、速度がJDの主な限界であるので、より効率的な実装への道筋を提供する。

Many optimization problems are inherently multi-objective. To address them, we formalize Jacobian descent (JD), a direct generalization of gradient descent for vector-valued functions. Each step of this algorithm relies on a Jacobian matrix consisting of one gradient per objective. The aggregator, responsible for reducing this matrix into an update vector, characterizes JD. While the multi-task learning literature already contains a variety of aggregators, they often lack some natural properties. In particular, the update should not conflict with any objective and should scale proportionally to the norm of each gradient. We propose a new aggregator specifically designed to satisfy this. Emphasizing conflict between objectives, we then highlight direct applications for our methods. Most notably, we introduce instance-wise risk minimization (IWRM), a learning paradigm in which the loss of each training example is considered a separate objective. On simple image classification tasks, IWRM exhibits promising results compared to the direct minimization of the average loss. The performance of our aggregator in those experiments also corroborates our theoretical findings. Lastly, as speed is the main limitation of JD, we provide a path towards a more efficient implementation.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# Toxicity Mitigationの推奨チューニングが言語間を一般化

Preference Tuning For Toxicity Mitigation Generalizes Across Languages ( http://arxiv.org/abs/2406.16235v1 )

ライセンス: Link先を確認
Xiaochen Li, Zheng-Xin Yong, Stephen H. Bach, (参考訳) 多言語大言語モデル(LLM)のデトックス化は、そのグローバルな利用の増加により重要になっている。 そこで本研究では,LLMにおける優先調整のゼロショット言語間一般化について検討する。 他の安全タスクに対する言語間一般化を限定した従来の研究とは異なり、英語データのみを用いた直接選好最適化(DPO)訓練は、多言語オープンエンド世代における毒性を著しく低下させることを示した。 例えば、mGPT-1.3Bが有毒な継続を引き起こす確率は、訓練後に17の異なる言語で46.8%から3.9%に低下する。 また, BLOOM, Llama3, Aya-23などの多言語LLMにも拡張した。 因果介入やアクティベーション解析などの機械的解釈可能性ツールを用いて,LLMにおけるMLP層の二重多言語性特性を同定し,DPOの言語間一般化を解説した。 最後に、二言語文検索により、DPO選好調律の言語間伝達可能性を予測できることを示す。

Detoxifying multilingual Large Language Models (LLMs) has become crucial due to their increasing global use. In this work, we explore zero-shot cross-lingual generalization of preference tuning in detoxifying LLMs. Unlike previous studies that show limited cross-lingual generalization for other safety tasks, we demonstrate that Direct Preference Optimization (DPO) training with only English data can significantly reduce toxicity in multilingual open-ended generations. For example, the probability of mGPT-1.3B generating toxic continuations drops from 46.8% to 3.9% across 17 different languages after training. Our results also extend to other multilingual LLMs, such as BLOOM, Llama3, and Aya-23. Using mechanistic interpretability tools like causal intervention and activation analysis, we identified the dual multilinguality property of MLP layers in LLMs, which explains the cross-lingual generalization of DPO. Finally, we show that bilingual sentence retrieval can predict the cross-lingual transferability of DPO preference tuning.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# 位置づけ: ベンチマークは強化学習研究に限られている

Position: Benchmarking is Limited in Reinforcement Learning Research ( http://arxiv.org/abs/2406.16241v1 )

ライセンス: Link先を確認
Scott M. Jordan, Adam White, Bruno Castro da Silva, Martha White, Philip S. Thomas, (参考訳) 新たな強化学習アルゴリズム、あるいは既存のアルゴリズムの改良は、ベンチマーク環境でのパフォーマンスを評価することで一般的に正当化され、常に変化する標準アルゴリズムと比較される。 しかし、多くの改善の要求にもかかわらず、実験的な実践は誤解を招くか、あるいは支持されない主張を生み出し続けている。 進行中のサブスタンダードのプラクティスの1つの理由は、厳密なベンチマーク実験を行うには相当な計算時間が必要であることである。 本研究では,厳密な実験設計における計算コストの増大の原因について検討する。 厳格な性能ベンチマークの実行には、しばしば禁止される計算コストが伴う可能性が示されている。 その結果,ベンチマークの限界を克服するために,新たな実験パラダイムを用いることを議論する。

Novel reinforcement learning algorithms, or improvements on existing ones, are commonly justified by evaluating their performance on benchmark environments and are compared to an ever-changing set of standard algorithms. However, despite numerous calls for improvements, experimental practices continue to produce misleading or unsupported claims. One reason for the ongoing substandard practices is that conducting rigorous benchmarking experiments requires substantial computational time. This work investigates the sources of increased computation costs in rigorous experiment designs. We show that conducting rigorous performance benchmarks will likely have computational costs that are often prohibitive. As a result, we argue for using an additional experimentation paradigm to overcome the limitations of benchmarking.
翻訳日:2024-06-25 18:25:12 公開日:2024-06-23
# ロングコンテキストでの作業は可能か? デモ生成のためのコンテキストのリサイクル

Can Few-shot Work in Long-Context? Recycling the Context to Generate Demonstrations ( http://arxiv.org/abs/2406.13632v2 )

ライセンス: Link先を確認
Arie Cattan, Alon Jacovi, Alex Fabrikant, Jonathan Herzig, Roee Aharoni, Hannah Rashkin, Dror Marcus, Avinatan Hassidim, Yossi Matias, Idan Szpektor, Avi Caciularu, (参考訳) 近年のLarge Language Models (LLMs) の進歩にもかかわらず、長いコンテキストを含むタスクのパフォーマンスは依然として準最適である。 In-Context Learning (ICL) では,このシナリオで LLM のパフォーマンスを向上するための魅力的なソリューションになるかも知れない。しかしながら,長時間のコンテキストで ICL のサンプルを追加することには,デモとターゲットクエリ間のコンテキストミスマッチなど,相当量のトークンオーバーヘッドが伴うという課題が伴う。 そこで本研究では,コンテキストをリサイクルすることで,コンテキストの長いQAタスクの少数ショットを自動生成する手法を提案する。 具体的には、長い入力コンテキスト(1-3kトークン)とクエリを与えられたコンテキストから追加のクエリ・アウトプットペアを少数ショットの例として生成し、コンテキストを一度だけ導入する。 これにより、デモがターゲットクエリと同じコンテキストを活用すると同時に、プロンプトに少量のトークンを追加することが保証される。 さらに,回答前の段落を明示的に識別するようにモデルに指示することで,各デモンストレーションをさらに強化し,回答ソースへの微粒な属性を提供しながら,性能を向上させる。 提案手法を複数 LLM に適用し,特に回答がコンテキストの中央にある場合,長いコンテキストを持つ様々なQA データセットに対する実質的な改善(モデル全体の平均+23 %)を得る。 驚いたことに、シングルホップ ICL 例のみを導入したにもかかわらず、LLM は我々のアプローチを用いてマルチホップ長文 QA への一般化に成功した。

Despite recent advancements in Large Language Models (LLMs), their performance on tasks involving long contexts remains sub-optimal. In-Context Learning (ICL) with few-shot examples may be an appealing solution to enhance LLM performance in this scenario; However, naively adding ICL examples with long context introduces challenges, including substantial token overhead added for each few-shot example and context mismatch between the demonstrations and the target query. In this work, we propose to automatically generate few-shot examples for long context QA tasks by recycling contexts. Specifically, given a long input context (1-3k tokens) and a query, we generate additional query-output pairs from the given context as few-shot examples, while introducing the context only once. This ensures that the demonstrations are leveraging the same context as the target query while only adding a small number of tokens to the prompt. We further enhance each demonstration by instructing the model to explicitly identify the relevant paragraphs before the answer, which improves performance while providing fine-grained attribution to the answer source. We apply our method on multiple LLMs and obtain substantial improvements (+23\% on average across models) on various QA datasets with long context, especially when the answer lies within the middle of the context. Surprisingly, despite introducing only single-hop ICL examples, LLMs also successfully generalize to multi-hop long-context QA using our approach.
翻訳日:2024-06-25 13:26:35 公開日:2024-06-23
# レーザー脱離, バッファガス冷却C$_{60}$における全コントラスト型ボース・アインシュタイン統計の観測

Observation of full contrast icosahedral Bose-Einstein statistics in laser desorbed, buffer gas cooled C$_{60}$ ( http://arxiv.org/abs/2406.13907v2 )

ライセンス: Link先を確認
Ya-Chu Chan, Lee R. Liu, Andrew Scheck, David J. Nesbitt, Jun Ye, Dina Rosenberg, (参考訳) 球面上分子の量子力学的性質は、低角運動量量子数 J において特に顕著である。 バッファーガスの8.4$\mu$mの可解帯域を冷却した$^{12}$C$_{60}$ で赤外分光を用いて、分子の完全なイコサヘドラル対称性と同一のボソニック核による特定の遷移の完全な消失を含む、ヒッヘルト未確認R(J = 0 - 29)回転進行を観察する。 極端に弱いC$_{60}$吸収の観察は、レーザー脱離C$_{60}$蒸気源によって促進される。 この技術は、C$_{60}$や他の大きなガス相分子をはるかに低い温度に冷却する方法を舗装し、スペクトル分解能と感度の継続的な進歩をもたらす。

The quantum mechanical nature of spherical top molecules is particularly evident at low angular momentum quantum number J. Using infrared spectroscopy on the 8.4$\mu$m rovibrational band of buffer gas cooled $^{12}$C$_{60}$, we observe the hitherto unseen R(J = 0 - 29) rotational progression, including the complete disappearance of certain transitions due to the molecule's perfect icosahedral symmetry and identical bosonic nuclei. The observation of extremely weak C$_{60}$ absorption is facilitated by a laser desorption C$_{60}$ vapor source, which transfers 1000-fold less heat to the cryogenic buffer gas cell than a traditional oven source. This technique paves the way to cooling C$_{60}$ and other large gas phase molecules to much lower temperatures, providing continued advances for spectral resolution and sensitivity.
翻訳日:2024-06-25 13:26:35 公開日:2024-06-23
# 推論時間除去:大規模言語モデル評価のための漏洩ベンチマークの再利用

Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation ( http://arxiv.org/abs/2406.13990v2 )

ライセンス: Link先を確認
Qin Zhu, Qingyuan Cheng, Runyu Peng, Xiaonan Li, Tengxiao Liu, Ru Peng, Xipeng Qiu, Xuanjing Huang, (参考訳) 大規模言語モデル(LLM)のトレーニングプロセスは、テストデータ汚染の度合いが異なることが多い。 現在のLLMは様々なベンチマークで性能が向上しているが、実際のアプリケーションでの性能は必ずしもベンチマーク結果と一致しない。 ベンチマークの漏洩は、LLMの真の性能の正確な評価を防ぐことができる。 しかし、新しいベンチマークの構築はコストが高く、労働集約的であり、依然としてリークのリスクを負っている。 そこで本稿では,LLM評価のために,これらのリークベンチマークを再利用できるのか,という疑問を提起する。 そこで我々は,この問題に対処するために,漏洩したサンプルを検出・書き直しすることによる推論時間汚染 (ITD) を提案する。 ITDは、リークベンチマークを記憶することによるパフォーマンスインフレーションを軽減することができる。 概念実証実験により, GSM8Kで22.9%, MMLUで19.0%の精度でITDは膨張精度を低下させることが示された。 MMLUでは、推論時間による除染はPhi3とMistralの結果をそれぞれ6.7%、Mistralは3.6%減少させる。 私たちは、ITDがより大きな言語モデルに対してより誠実な評価結果を提供できることを願っています。

The training process of large language models (LLMs) often involves varying degrees of test data contamination. Although current LLMs are achieving increasingly better performance on various benchmarks, their performance in practical applications does not always match their benchmark results. Leakage of benchmarks can prevent the accurate assessment of LLMs' true performance. However, constructing new benchmarks is costly, labor-intensive and still carries the risk of leakage. Therefore, in this paper, we ask the question, Can we reuse these leaked benchmarks for LLM evaluation? We propose Inference-Time Decontamination (ITD) to address this issue by detecting and rewriting leaked samples without altering their difficulties. ITD can mitigate performance inflation caused by memorizing leaked benchmarks. Our proof-of-concept experiments demonstrate that ITD reduces inflated accuracy by 22.9% on GSM8K and 19.0% on MMLU. On MMLU, using Inference-time Decontamination can lead to a decrease in the results of Phi3 and Mistral by 6.7% and 3.6% respectively. We hope that ITD can provide more truthful evaluation results for large language models.
翻訳日:2024-06-25 13:26:35 公開日:2024-06-23
# iWISDM: 大規模マルチモーダルモデルにおける命令追従の評価

iWISDM: Assessing instruction following in multimodal models at scale ( http://arxiv.org/abs/2406.14343v2 )

ライセンス: Link先を確認
Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan, (参考訳) 詳細な指示から複雑なタスクを実行する能力は、我々の種の多くの顕著な成果の鍵となる。 人間としては、幅広いタスクを実行するだけでなく、数百から数千のステップを完了させる、非常に複雑なタスクも実行できます。 テキスト入力と視覚入力を統合した大規模言語モデルとそのより最近のマルチモーダルモデルは、複雑なタスクの実行において前例のない成功を収めた。 しかし、既存のベンチマークのほとんどは単一のモダリティ入力(テキストやビジョン)に限られており、特にマルチモダリティコンテキストでのインストラクションフォローは、マルチモダリティアセスメントの範囲を狭めている。 このギャップを埋めるために,複雑度が変化する視覚言語タスクの制限のない配列を生成するために設計された,指示された仮想VISual Decision Making (iWISDM)環境を導入する。 iWISDMを用いて、様々な複雑さレベルにわたる視覚的タスクに追従する命令の3つの異なるベンチマークをコンパイルし、これらのベンチマーク上で新たに開発された複数のマルチモーダルモデルを評価した。 本研究は,既存のマルチモーダルモデルと創発的マルチモーダルモデルの両方の命令適合性を評価するための頑健なベンチマークとしてiWISDMを確立し,これらのモデルと人間の指示を正確に追従する能力の間に大きなギャップを浮き彫りにした。

The ability to perform complex tasks from detailed instructions is a key to many remarkable achievements of our species. As humans, we are not only capable of performing a wide variety of tasks but also very complex ones that may entail hundreds or thousands of steps to complete. Large language models and their more recent multimodal counterparts that integrate textual and visual inputs have achieved unprecedented success in performing complex tasks. Yet, most existing benchmarks are largely confined to single-modality inputs (either text or vision), narrowing the scope of multimodal assessments, particularly for instruction-following in multimodal contexts. To bridge this gap, we introduce the instructed-Virtual VISual Decision Making (iWISDM) environment engineered to generate a limitless array of vision-language tasks of varying complexity. Using iWISDM, we compiled three distinct benchmarks of instruction following visual tasks across varying complexity levels and evaluated several newly developed multimodal models on these benchmarks. Our findings establish iWISDM as a robust benchmark for assessing the instructional adherence of both existing and emergent multimodal models and highlight a large gap between these models' ability to precisely follow instructions with that of humans.
翻訳日:2024-06-25 13:26:35 公開日:2024-06-23